Amirali Abdullah

Karma: 32

Steering Language Models in Multiple Directions Simultaneously

lukemarks, Narmeen and Amirali Abdullah

May 2, 2025, 3:27 PM

18 points

0 comments7 min readLW link

Backdoors have universal representations across large language models

Amirali Abdullah, Narmeen, Dhruv Nathawani and nirmalendu prakash

Dec 6, 2024, 10:56 PM

16 points

0 comments16 min readLW link

Early Experiments in Reward Model Interpretation Using Sparse Autoencoders

lukemarks, Amirali Abdullah, Rauno Arike, Fazl and nothoughtsheadempty

Oct 3, 2023, 7:45 AM

17 points

0 comments5 min readLW link