Rohin Shah comments on How do scaling laws work for fine-tuning?

Rohin Shah 4 Apr 2021 19:57 UTC
LW: 4 AF: 4
AF
I don’t think similarly-sized transformers would do much better and might do worse. Section 3.4 shows that large models trained from scratch massively overfit to the data. I vaguely recall the authors saying that similarly-sized transformers tended to be harder to train as well.