白小交 发自 凹非寺
量子位 | 公众号 QbitAI
什么?Scaling Law最早是百度2017年提的?!
Meta研究员翻出经典论文:
大多量东谈主可能不知谈,Scaling law原始研究来自2017年的百度,而非三年后(2020年)的OpenAI。

此研究由吴恩达主捏,来自百度硅谷东谈主工智能本质室 (SVAIL) 系统团队。
他们讨论了深度学习中历练集大小、筹备范畴和模子精度之间的干系,而况通过大范畴实证研究揭示了深度学习泛化症结和模子大小的缩放国法,还在图像和音频上进行了测试。
只不外他们使用的是 LSTM,而不是Transformer;也莫得将他们的发现定名为「Law」。

再回头看,其中一位作家Gregory Diamos给我方往日在百度的先容照旧LLM Scaling Law Researcher。

又有一网友发现,OpenAI论文还援用了2019年这位作家Gregory Diamos等东谈主的拜访。但却不知谈他们2017年就有了这样一项责任。

网友们纷纷暗示这篇论文极端值得一读,而且皆备被低估。

来迅速望望这篇论文。
深度学习Scaling是可瞻望的在深度学习范畴,跟着模子架构的不停探索、历练数据集的不停增大以及筹备才能的不停晋升,模子的性能也在不停提高。
然则,关于历练集大小、筹备范畴和模子精度之间的具体干系,一直短缺深刻的判辨。

本文通过大范畴的实证研究,对多个机器学习范畴(如机器翻译、谈话建模、图像分类和语音识别)进行了测试,发现了一些国法:
泛化症结(模子在新数据上的说明症结)与历练集大小呈现幂律干系,即跟着历练集的增大,泛化症结会以一定的幂次下跌。
模子大小与与数据大小也存在Scaling(缩放)干系,频频模子大小的增长速率比数据大小的增长速率慢。
具体来说,衔尾以往责任,团队将瞩眼光集中在准确算计学习弧线和模子大小的缩放趋势上。
按照一般测量才能,是选拔来源进的SOTA模子,并在历练集的更大子集(碎屑)上历练这些模子的 “超参数缩减 ”版块,以不雅察模子的准确性若何跟着历练集的大小而增长。
因此针对这四个范畴,机器翻译、谈话建模、图像分类和语音识别,找到了他们在大型数据集上泄显露 SOTA 泛化症结的模子架构。
这里的 “大型数据集 ”是指范畴不错收缩 2-3 个数目级,但仍足以进行有价值的模子架构研究的历练集。他们为某些 ML 范畴选拔了一种以上的模子架构,以比拟它们的彭胀看成。
机器翻译

团队瞩目到,跟着历练集范畴的增大,优化变得愈加贫瘠,而且模子会出现容量不及的情况,因此教学症结会偏离幂律趋势。
词谈话模子

这一恶果标明,最好拟合模子随历练分片大小呈次线性增长。
字符级谈话模子

为了测试字符级谈话建模,他们历练了深度为 10 的轮回高速公路聚集(RHN),恶果发现该聚集在十亿单词数据集上能达到来源进的(SOTA)准确率。
图像分类。

图像分类相同呈现出幂律学习弧线和模子大小的缩放干系。而况还标明,在极端小的历练集上,准确率会在接近速即预料的水平上趋于巩固。
语音识别。

团队历练了一系列跨度较大的模子尺寸,是以针对每个历练数据大小得出的模子尺寸缩放恶果,其酷爱不像在谈话模子(LMs)或图像分类中那么赫然。
跟着数据量的加多,大多量模子会经验幂律泛化改动,直至数据量接近其灵验容量。在这种情况下,参数为 170 万的模子的准确率在或者 170 小时的音频数据时开动趋于巩固,而参数为 600 万的模子在或者 860 小时的音频数据时趋于巩固(也即是说,或者是前者的 5 倍,这与模子尺寸的各异情况雷同)。更大的模子(举例,参数为 8700 万的模子)在更大的数据集范畴下,其泛化症结也更接近最好拟合趋势。
临了关于这一发现,他们暗示,这些比例干系对深度学习的研究、引申和系统都有首要影响。它们不错匡助模子调试、设定准确度诡计和数据集增长有诡计,还不错指点筹备系统想象,并强调捏续筹备彭胀的首要性。
博客致谢中还有Ilya的名字这次研究主如果由往日吴恩达主捏下,百度硅谷东谈主工智能本质室 (SVAIL) 系统团队。
其时的一群合著者们一经各自去到各个机构本质室、大厂陆续从事大模子讨论的研究。

在往日博客致谢中,还出现了Ilya的名字,感谢他们参与了这一预计。

两年后,也即是2019年,其中一位作家Gregory Diamos又指挥团队讨论了深度学习的筹备挑战。

背面的OpenAI论文恰是援用了这篇论文的拜访预计了Scaling Law。
值得一提的是,Anthropic CEODario Amodei在百度研究院吴恩达团队责任过,他对Scaling Law的第一印象亦然那时研究语音模子产生的。

Amodei刚开动研究语音神经聚集时有一种“生手撞大运”的嗅觉,尝试把模子和数据范畴同期扩大,发现模子性能跟着范畴的加多而不停晋升。
开赴点,他合计这仅仅语音识别系统的特例。但到了2017年,看到GPT-1的恶果后意志到这种征象在谈话模子上相同适用。
往日(2015年)他一作发表的论文Deep Speech,合著者中这位Sharan Narang恰是两年后这篇论文的主要作家之一。如今后者先后去到了谷歌担任PaLM形势TL大模子崇拜东谈主,然后目下是Meta当研究员。


如今这一“冷学问”再次出目下大家的视线,让不少东谈主回溯并重温。
这当中还有东谈主进一步暗示:的确的OG论文使用了seq2seq LSTM,而况详情了参数筹备弧线。

往日的一作恰是Ilya Sutskever。
参考荟萃:[1]https://arxiv.org/abs/1512.02595 [2]https://arxiv.org/abs/1909.01736[3]https://research.baidu.com/Blog/index-view?id=89[4]https://www.linkedin.com/in/gregory-diamos-1a8b9083/ [5]https://www.linkedin.com/in/dario-amodei-3934934/[6]https://x.com/jxmnop/status/1861473014673797411?s=46&t=iTysI4vQLQqCNJjSmBODPw
— 完 —
量子位 QbitAI · 头条号签
存眷咱们,第一期间获知前沿科技动态约