Closed Limelike Curves comments on LLMs are (mostly) not helped by filler tokens

Closed Limelike Curves 9 Sep 2023 20:50 UTC
1 point
−7
Because GPT-3.5 is a fine-tuned version of GPT-3, which is known to be a vanilla dense transformer.
GPT-4 is probably, in a very funny turn of events, a few dozen fine-tuned GPT-3.5 clones glued together (as a MoE).