charlie_griffin

Karma: 333

Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols?

Alex Mallen, charlie_griffin and Buck

Mar 24, 2025, 5:55 PM

34 points

0 comments8 min readLW link

LASR Labs Spring 2025 applications are open!

Erin Robertson, charlie_griffin, joehardie and Justin Olive

Oct 4, 2024, 1:44 PM

38 points

0 comments4 min readLW link

Games for AI Control

charlie_griffin and Buck

Jul 11, 2024, 6:40 PM

45 points

0 comments5 min readLW link

Apply to LASR Labs: a London-based technical AI safety research programme

Erin Robertson, charlie_griffin and joehardie

Apr 9, 2024, 5:34 PM

45 points

1 comment3 min readLW link

Scenario Forecasting Workshop: Materials and Learnings

elifland and charlie_griffin

Mar 8, 2024, 2:30 AM

50 points

3 comments2 min readLW link

Five projects from AI Safety Hub Labs 2023

charlie_griffinNov 8, 2023, 7:19 PM

47 points

1 comment6 min readLW link

(www.aisafetyhub.org)

Goodhart’s Law in Reinforcement Learning

jacek, Joar Skalse, OliverHayman, charlie_griffin and Xingjian Bai

Oct 16, 2023, 12:54 AM

126 points

22 comments7 min readLW link