Chris van Merwijk

Karma: 693

Extinction Risks from AI: Invisible to Science?

VojtaKovarik, Chris van Merwijk and Ida Mattsson

21 Feb 2024 18:07 UTC

24 points

7 comments1 min readLW link

(arxiv.org)

Datapoint: median 10% AI x-risk mentioned on Dutch public TV channel

Chris van Merwijk26 Mar 2023 12:50 UTC

17 points

1 comment1 min readLW link

Straw-Steelmanning

Chris van Merwijk13 Jul 2022 5:48 UTC

29 points

2 comments1 min readLW link

An AI defense-offense symmetry thesis

Chris van Merwijk20 Jun 2022 10:01 UTC

10 points

9 comments3 min readLW link

[Question] How are compute assets distributed in the world?

Chris van Merwijk12 Jun 2022 22:13 UTC

30 points

7 comments1 min readLW link

What kinds of algorithms do multi-human imitators learn?

Chris van Merwijk and Joar Skalse

22 May 2022 14:27 UTC

20 points

0 comments3 min readLW link

Are human imitators superhuman models with explicit constraints on capabilities?

Chris van Merwijk22 May 2022 12:46 UTC

41 points

3 comments1 min readLW link

A paradox of existence

Chris van Merwijk5 Apr 2022 9:45 UTC

27 points

28 comments5 min readLW link

Manhattan project for aligned AI

Chris van Merwijk27 Mar 2022 11:41 UTC

36 points

8 comments2 min readLW link

Natural Value Learning

Chris van Merwijk20 Mar 2022 12:44 UTC

7 points

10 comments4 min readLW link

[Question] What is the equivalent of the “do” operator for finite factored sets?

Chris van Merwijk17 Mar 2022 8:05 UTC

8 points

2 comments1 min readLW link

Moloch games

Chris van Merwijk16 Oct 2020 15:19 UTC

80 points

9 comments4 min readLW link

Subspace optima

Chris van Merwijk15 May 2020 12:38 UTC

61 points

7 comments1 min readLW link 1 review

Risks from Learned Optimization: Conclusion and Related Work

evhub, Chris van Merwijk, Vlad Mikulik, Joar Skalse and Scott Garrabrant

7 Jun 2019 19:53 UTC

82 points

5 comments6 min readLW link

Deceptive Alignment

evhub, Chris van Merwijk, Vlad Mikulik, Joar Skalse and Scott Garrabrant

5 Jun 2019 20:16 UTC

118 points

20 comments17 min readLW link

The Inner Alignment Problem

evhub, Chris van Merwijk, Vlad Mikulik, Joar Skalse and Scott Garrabrant

4 Jun 2019 1:20 UTC

103 points

17 comments13 min readLW link

Conditions for Mesa-Optimization

evhub, Chris van Merwijk, Vlad Mikulik, Joar Skalse and Scott Garrabrant

1 Jun 2019 20:52 UTC

84 points

48 comments12 min readLW link

Risks from Learned Optimization: Introduction

evhub, Chris van Merwijk, Vlad Mikulik, Joar Skalse and Scott Garrabrant

31 May 2019 23:44 UTC

185 points

42 comments12 min readLW link 3 reviews

Alignment problems for economists

Chris van Merwijk10 Jul 2018 23:43 UTC

5 points

2 comments2 min readLW link