Olli Järviniemi

Karma: 1,301

Schelling game evaluations for AI control

Olli Järviniemi8 Oct 2024 12:01 UTC

65 points

4 comments11 min readLW link

Distinguish worst-case analysis from instrumental training-gaming

Olli Järviniemi and Buck

5 Sep 2024 19:13 UTC

37 points

0 comments5 min readLW link

Untrustworthy models: a frame for scheming evaluations

Olli Järviniemi19 Aug 2024 16:27 UTC

46 points

3 comments8 min readLW link

Near-mode thinking on AI

Olli Järviniemi4 Aug 2024 20:47 UTC

127 points

8 comments5 min readLW link

An experiment on hidden cognition

Olli Järviniemi22 Jul 2024 3:26 UTC

25 points

2 comments7 min readLW link

Brief notes on the Wikipedia game

Olli Järviniemi14 Jul 2024 2:28 UTC

67 points

9 comments4 min readLW link

Dialogue introduction to Singular Learning Theory

Olli Järviniemi8 Jul 2024 16:58 UTC

97 points

14 comments8 min readLW link

A civilization ran by amateurs

Olli Järviniemi30 May 2024 17:57 UTC

61 points

7 comments6 min readLW link

Testing for parallel reasoning in LLMs

meemi and Olli Järviniemi

19 May 2024 15:28 UTC

3 points

7 comments9 min readLW link

Uncovering Deceptive Tendencies in Language Models: A Simulated Company AI Assistant

Olli Järviniemi and evhub

6 May 2024 7:07 UTC

95 points

13 comments1 min readLW link

(arxiv.org)

On precise out-of-context steering

Olli Järviniemi3 May 2024 9:41 UTC

9 points

6 comments3 min readLW link

Instrumental deception and manipulation in LLMs—a case study

Olli Järviniemi24 Feb 2024 2:07 UTC

39 points

13 comments12 min readLW link

Urging an International AI Treaty: An Open Letter

Olli Järviniemi31 Oct 2023 11:26 UTC

48 points

2 comments1 min readLW link

(aitreaty.org)

Olli Järviniemi’s Shortform

Olli Järviniemi23 Mar 2023 10:59 UTC

3 points

22 comments1 min readLW link

Takeaways from calibration training

Olli Järviniemi29 Jan 2023 19:09 UTC

38 points

1 comment3 min readLW link