你是不是也经常刷到这样的新闻——“某巨头发布万亿参数大模型”、“某AI在专业考试中击败人类”……然后心里犯嘀咕:这玩意儿到底是怎么从一堆冷冰冰的数据,变成好像啥都懂的“数字大脑”的?今天咱不扯那些高深莫测的术语,就坐下来,像唠家常一样,掰扯掰扯这个所谓的“训练”,到底是怎么一回事。
你可以把AI大模型想象成一个天赋异禀,但一开始对世界一无所知的“超级婴儿”,它出生时就拥有一个极其复杂、潜力巨大的“大脑结构”(也就是模型架构,比如Transformer),但这个大脑里空空如也,没有知识,不懂规则,甚至连猫和狗都分不清,而“训练”,就是这个婴儿疯狂汲取养分、认识世界、形成思维的全过程。
这个过程,大体上可以分成两步走,有点像咱们自己学东西:先海量输入,囫囵吞枣地建立常识;再精雕细琢,朝着特定方向优化。
第一步:填鸭式预习,建立世界的“模糊印象”
这第一步,行话叫“预训练”,这是最耗钱、最耗算力,也是最基础的一步,做法简单粗暴:把你能想象到的几乎所有公开文本数据——整个互联网的网页、电子书、论文、代码、论坛对话……总之是PB级别(你得知道,1PB相当于1000TB,存电影能看好几百年)的文本,一股脑地塞给这个“超级婴儿”。
.jpg)
它怎么学呢?方法其实有点“笨”,给它一句话:“今天天气真好,我们一起去公园__。” 系统会随机把“公园”这个词遮住,然后让模型根据前面所有的词,去猜这个空里应该填什么,是“散步”?“玩耍”?还是“跑步”?一开始它肯定瞎猜,但没关系,每次猜完,系统都会告诉它正确答案,通过海量、重复这样的练习,模型大脑里数以百亿、千亿计的“旋钮”(参数)被一点点调整,它逐渐摸索出词语之间的关联、句子的结构、甚至一些浅显的逻辑和事实(公园”常和“散步”、“草地”关联)。
这个过程,本质上是在学习语言的“统计规律”,它并不知道“公园”到底是什么,但它知道在“天气好”之后,“去公园”后面接“散步”的概率非常高,通过这种模式,它逐渐编织出一张巨大的、关于人类语言和知识的概率网络,这时候的模型,已经能续写文章、做点简单的问答了,但经常胡说八道,或者给出非常笼统、安全的答案,像个知道很多但不会灵活运用的“书呆子”。
第二步:家教式辅导,学会“听话”和“专精”
预训练出来的模型,力气很大,但不懂规矩,没法直接用,这就需要第二步的“微调”和“对齐”,这就像给这个博览群书的青年请了专业的家教,教它如何有礼貌、有重点地回答问题。
一种常见的方法是“指令微调”,研究人员准备大量“问答对”或者“指令-回复对”的高质量数据。 指令:“用一句话解释光合作用。” 回复:“光合作用是植物利用光能将二氧化碳和水转化为有机物并释放氧气的过程。” 然后让模型去学习这种“一问一答”的配对模式,通过大量这样的例子,模型慢慢明白:哦,当人类这样问我时,我应该用这样清晰、直接的方式回答,而不是自顾自地背诵一大段维基百科。
但光会答题还不够,还得让它“品行端正”,这就是更关键的“基于人类反馈的强化学习”,简单说,就是让模型生成多个答案,然后请人来给这些答案排序:哪个最好、哪个一般、哪个有错误或者有害,这些人类偏好数据被用来训练一个“奖励模型”,让它学会给更符合人类价值观的答案打高分,让原始的大模型朝着能获得这个“奖励模型”高分的方向去优化自己的参数,这个过程反复进行,目的就是让模型的输出更安全、更有帮助、更符合人类的期望,避免它生成有毒、偏见或者胡言乱语的内容。
所以你看,大模型的“训练”,绝不是像训练小狗“坐下”、“握手”那样给个指令就完事,它是一个极其浩大的工程:先是用整个互联网的海量数据做“启蒙”,构建底层的世界认知模型;再用精心设计的人类反馈做“精修”,塑造其行为和对话方式,前者给了它“智商”的潜力,后者则赋予了它可用的“情商”和“伦理”。
这整个过程,耗费着天文数字的电力、顶尖的芯片和无数工程师、标注员的心血,我们最终在对话框里感受到的那一丝智能,背后是这样一个笨拙而又宏大的数据与算力之旅,下次再看到某个AI又通过了什么考试,你大概就能明白,它那看似灵光一现的回答,底下垫着的是怎样一座由数据和算法堆砌而成的“冰山”了。
说到底,AI的“训练”,是人类试图将自身的知识、语言和逻辑,进行一次前所未有的、规模化的“蒸馏”和“编码”,它学到的,终究是人类世界投射在数据中的那个倒影,清晰又模糊,博大而庞杂,而我们,正站在一旁,既是它的老师,也是它逐渐成形过程中的观察者与审视者。
(免费申请加入)AI工具导航网

相关标签: # 什么是AI大模型的训练
评论列表 (0条)