Jason Hoelscher-Obermaier comments on How “Discovering Latent Knowledge in Language Models Without Supervision” Fits Into a Broader Alignment Scheme

Jason Hoelscher-Obermaier 27 Feb 2023 12:24 UTC
1 point
0
Would it make sense to use truths discovered via CCS as a training signal for fine-tuning LLMs?