最近这阵子,AI聊天机器人真是火得不行,好像一夜之间,谁都能跟机器唠上两句,朋友圈里,时不时就有人晒出和某个AI的“深度对话”,要么是让它写情书,要么是让它编段子,看得多了,我心里头就犯嘀咕:这些家伙,说起话来有时候真像那么回事,有时候又驴唇不对马嘴,它们这身“唠嗑”的本事,到底是咋来的?今天咱就抛开那些高大上的术语,用大白话,唠唠这AI对话模型背后,那场漫长又有点“笨拙”的“训练”之旅。
你完全可以把它想象成教一个特别聪明,但一开始对世界一无所知、连话都不会说的“超级婴儿”,这个婴儿的大脑结构非常特殊(就是那个复杂的神经网络),潜力无穷,但里面空空如也,我们做的第一步,不是教它语法,而是给它“喂”海量的文本数据,这数据量有多大呢?这么说吧,几乎是互联网上所有能公开找到的、成体系的文字:从维基百科、新闻网站、专业书籍,到论坛帖子、小说剧本,甚至是你我发的那些社交媒体状态(是匿名的、去除隐私信息的),这就好比把这个婴儿扔进一个由人类全部文字记录构成的、浩瀚无边的图书馆里,让它自己去看,去听,去“咿呀学语”。
这个过程,专业上叫“预训练”,婴儿(模型)在里面瞎逛,它根本不懂什么是“意思”,但它有个本能:找规律,它发现“苹果”后面常常跟着“吃”、“红”、“水果”;“今天天气”后面大概率是“不错”、“真好”或者“糟透了”,它通过无数次观察海量文本中词语的前后搭配、句子的起承转合,默默地在自己那复杂的神经网络里,画出了一张巨大无比的、人类语言可能如何连接”的概率地图,它学会了“联想”,但它并不真正理解“苹果”是甜的,“天气”会影响心情,它只是在学习一种极其复杂的“文字接龙”游戏规则——给定前面一串字,下一个字什么最可能出现。
光会接龙,离能对话还差得远,这时的模型,虽然满腹经纶(数据),但可能出口成脏,或者尽说些政治不正确、毫无帮助的废话,因为它学习的素材来自整个互联网,而互联网嘛,你懂的,精华与糟粕齐飞,下一步关键的“训导”就来了,这步叫“对齐”或者“微调”。
这时候,就需要人类老师(标注员)上场了,老师们准备大量的问题和对话场景,然后亲自示范“好的回答”应该是什么样:要有帮助、要无害、要诚实(在已知范围内),比如问:“怎么安慰一个失恋的朋友?” 模型最初可能从数据里学来一些不太靠谱的段子或者风凉话,但人类老师会告诉它,更合适的回答应该包含倾听、理解和正向支持,这个过程不是一蹴而就的,需要反复多次,模型给出一个回答,人类老师打分(或提供修正版本),模型就像被打了手心或给了糖吃的孩子,慢慢调整自己的“接龙”倾向,让它生成的那些文字,更大概率地符合“好助手”的标准。
.jpg)
但这里头有个特别有意思,也特别棘手的事儿,你发现没?人类自己对于“好”的回答,标准也常常模糊不清,甚至自相矛盾,有时候我们希望它幽默,有时候又要求它严谨;有些问题它需要给出明确答案,有些问题它又最好“闭嘴”或者说“我不知道”,这个“度”的把握,是训练中最难的部分,所以你会看到,不同的AI产品,性格可能不太一样,有的偏保守,有的爱表现,这背后其实就是不同的“训导”团队,注入了不同的偏好和价值观。
说白了,整个训练过程,就是一个用海量数据灌输本能,再用人类反馈塑造性格的混合工程,它不像编程,写一行是一行;它更像是一种“驯化”和“引导”,最终呈现在我们面前的对话能力,是统计概率与人类期望交织出来的产物。
下次再和AI聊天,当它妙语连珠时,你可以感叹这背后数据与算法的力量;当它突然犯傻、答非所问时,也大可会心一笑——这正提醒着我们,它那令人惊叹的流畅背后,依然是模式与概率的堆砌,它并不真的“理解”自己在说什么,它的“聪明”,是被我们用数据和反馈,一点点“喂”出来和“管”出来的,了解这一点,或许能让我们在惊叹之余,多一份清醒,知道如何更好地与这些数字伙伴相处,利用它们,而不是被它们那些以假乱真的言辞所迷惑,这条路还长着呢,咱们边走边瞧。
(免费申请加入)AI工具导航网

相关标签: # ai 训练对话模型
评论列表 (0条)