AdamGleave

Karma: 913

Illusory Safety: Redteaming DeepSeek R1 and the Strongest Fine-Tunable Models of OpenAI, Anthropic, and Google

ChengCheng, Brendan Murphy, Adrià Garriga-alonso, Yashvardhan Sharma, dsbowen, smallsilo, Yawen Duan, ChrisCundy, Hannah Betts, AdamGleave and Kellin Pelrine

Feb 7, 2025, 3:57 AM

29 points

0 comments10 min readLW link

GPT-4o Guardrails Gone: Data Poisoning & Jailbreak-Tuning

ChengCheng, Brendan Murphy, AdamGleave and Kellin Pelrine

Nov 1, 2024, 12:10 AM

18 points

0 comments6 min readLW link

(far.ai)

Pacing Outside the Box: RNNs Learn to Plan in Sokoban

Adrià Garriga-alonso, taufeeque, AdamGleave and ChengCheng

Jul 25, 2024, 10:00 PM

59 points

8 comments2 min readLW link

(arxiv.org)

Does robustness improve with scale?

ChengCheng, niki.h, Ian McKenzie, Oskar Hollinsworth, Tom Tseng and AdamGleave

Jul 25, 2024, 8:55 PM

14 points

0 comments1 min readLW link

(far.ai)

Beyond the Board: Exploring AI Robustness Through Go

AdamGleaveJun 19, 2024, 4:40 PM

41 points

2 comments1 min readLW link

(far.ai)

More people getting into AI safety should do a PhD

AdamGleaveMar 14, 2024, 10:14 PM

60 points

24 comments12 min readLW link

(gleave.me)

2023 Alignment Research Updates from FAR AI

AdamGleave and EuanMcLean

Dec 4, 2023, 10:32 PM

18 points

0 comments8 min readLW link

(far.ai)

What’s new at FAR AI

AdamGleave and EuanMcLean

Dec 4, 2023, 9:18 PM

41 points

0 comments5 min readLW link

(far.ai)

Even Superhuman Go AIs Have Surprising Failure Modes

AdamGleave, EuanMcLean, Tony Wang, Kellin Pelrine, Tom Tseng, Yawen Duan, Joseph Miller and MichaelDennis

Jul 20, 2023, 5:31 PM

129 points

22 comments10 min readLW link

(far.ai)

AI Safety in a World of Vulnerable Machine Learning Systems

AdamGleave and EuanMcLean

Mar 8, 2023, 2:40 AM

70 points

28 comments29 min readLW link

(far.ai)

CIRL Corrigibility is Fragile

Rachel Freedman and AdamGleave

Dec 21, 2022, 1:40 AM

58 points

8 comments12 min readLW link

Introducing the Fund for Alignment Research (We’re Hiring!)

AdamGleave, Scott Emmons, Ethan Perez and Claudia Shi

Jul 6, 2022, 2:07 AM

62 points

0 comments4 min readLW link