Ansh Radhakrishnan

Karma: 599

Ansh Radhakrishnan’s Shortform

Ansh Radhakrishnan10 Oct 2024 22:00 UTC

5 points

2 comments1 min readLW link

Scalable Oversight and Weak-to-Strong Generalization: Compatible approaches to the same problem

Ansh Radhakrishnan, Buck, ryan_greenblatt and Fabien Roger

16 Dec 2023 5:49 UTC

73 points

3 comments6 min readLW link

Anthropic Fall 2023 Debate Progress Update

Ansh Radhakrishnan28 Nov 2023 5:37 UTC

74 points

9 comments12 min readLW link

Measuring and Improving the Faithfulness of Model-Generated Reasoning

Ansh Radhakrishnan, tamera, karinanguyen, Sam Bowman and Ethan Perez

18 Jul 2023 16:36 UTC

111 points

14 comments6 min readLW link

Causal scrubbing: results on induction heads

LawrenceC, Adrià Garriga-alonso, Nicholas Goldowsky-Dill, ryan_greenblatt, Tao Lin, jenny, Ansh Radhakrishnan, Buck and Nate Thomas

3 Dec 2022 0:59 UTC

34 points

1 comment17 min readLW link

Causal scrubbing: results on a paren balance checker

LawrenceC, Adrià Garriga-alonso, Nicholas Goldowsky-Dill, ryan_greenblatt, Tao Lin, jenny, Ansh Radhakrishnan, Buck and Nate Thomas

3 Dec 2022 0:59 UTC

34 points

2 comments30 min readLW link

Causal scrubbing: Appendix

LawrenceC, Adrià Garriga-alonso, Nicholas Goldowsky-Dill, ryan_greenblatt, jenny, Ansh Radhakrishnan, Buck and Nate Thomas

3 Dec 2022 0:58 UTC

18 points

4 comments20 min readLW link

Causal Scrubbing: a method for rigorously testing interpretability hypotheses [Redwood Research]

LawrenceC, Adrià Garriga-alonso, Nicholas Goldowsky-Dill, ryan_greenblatt, jenny, Ansh Radhakrishnan, Buck and Nate Thomas

3 Dec 2022 0:58 UTC

205 points

35 comments20 min readLW link 1 review

The Bio Anchors Forecast

Ansh Radhakrishnan2 Jun 2022 1:32 UTC

13 points

0 comments3 min readLW link

RLHF

Ansh Radhakrishnan12 May 2022 21:18 UTC

18 points

5 comments5 min readLW link

An Inside View of AI Alignment

Ansh Radhakrishnan11 May 2022 2:16 UTC

32 points

2 comments2 min readLW link