最近跟几个搞技术的朋友喝酒聊天,话题不知道怎么拐到了AI训练上,有个朋友半开玩笑地说:“现在训练个模型,跟养孩子似的——数据喂进去,参数调来调去,最后它‘学成’了,但你有时候真不知道它到底学了啥,甚至不知道它会不会哪天突然给你来个‘叛逆期’。”
这话听着像玩笑,但细想还真有点意思,我们总说“训练出一个模型”,听起来像完成了一件作品,但那个从海量数据里“学成归来”的东西,真的就是我们想象中那个“它”吗?
我记得早些年刚开始接触这方面的时候,总觉得模型训练是个特别“硬核”的技术活——准备好数据,设计好架构,调参,跑起来,等结果,好像一套流水线,但越到后来,越觉得这事儿透着点“玄学”色彩,你给了它成千上万张猫的图片,告诉它“这是猫”,它最后确实能认出猫,可有一回,一个测试用例用了张猫咪蹲在键盘上的图,背景里有半截可乐罐,它居然犹豫了,后来才发现,训练集里好多“猫图”背景里恰好都有类似的饮料罐,你看,它确实“学会”了找猫,但可能也偷偷“学会”了把某些背景特征和“猫”这个概念无意识地关联起来。
这就像你教孩子认动物,拿着的绘本里,老虎总站在山上,结果孩子第一次去动物园,看到躺在平地上晒太阳的老虎,愣了半天不敢认,我们以为我们在教核心特征,但模型——或者说,学习过程本身——可能会抓住一些我们根本没留意的、甚至是错误的“捷径”。
训练过程里,这种让人哭笑不得的事儿不少,比如你希望一个语言模型能更“友善”地对话,于是用大量礼貌温和的语料去“喂”它,结果呢,它确实彬彬有礼了,但有时候礼貌得有点过头,或者在某些该严肃、该尖锐的场合,依然保持着那种训练出来的、近乎模板化的“温和”,你看着那些挑不出错但总觉得有点“隔”的回复,心里会想:我们是不是把它训练得太“像”我们期望的样子,反而抹掉了一些更真实、更灵活的东西?
.jpg)
这让我想起以前学画画时老师说的:你可以临摹得很像,但如果不理解物体结构、光影原理,换一个角度就不会画了,模型训练也有点类似,我们用数据“喂养”它,用损失函数“纠正”它,用测试集“考核”它,它成绩很好,通过了所有我们设定的考试,但我们设定的考试,真的覆盖了真实世界的所有“角度”吗?那些没被纳入考卷的“角落”,它会怎么应对?
有个做自动驾驶的朋友说过一个更实在的例子,他们用海量的城市道路数据训练模型,表现一直很棒,直到有一次,测试车开进一个刚落成、地图还没来得及更新的新区,道路崭新,标线清晰,但和训练数据里的“常见”布局有些微差别,模型就有点“懵”了,决策变得异常迟疑,它太熟悉“旧世界”了,以至于面对一点合理的“新意”时,第一反应是犹豫和不自信,这能怪模型吗?好像不能,它只是忠实地反映了它所学到的一切——那个由过去数据构成的“世界”。
当我们说一个模型“训练出来”了,究竟意味着什么?是意味着它掌握了一项我们赋予的技能?还是意味着它成功地成为了我们提供的那个数据世界的“镜像”?这个“镜像”可能非常逼真,非常有用,但它对数据世界之外的理解,是零,甚至可能是负的——因为它带着数据世界里所有的偏见、关联和隐形规则。
这大概就是技术最让人着迷也最让人警惕的地方,我们创造工具,训练模型,本质上是在尝试把我们的知识、经验甚至价值观,进行一种“可复制的封装”,这个封装可能极其强大,能处理我们人力不及的海量信息,能发现我们肉眼难辨的模式,但封装的过程,必然伴随着简化、抽象和选择,哪些数据被采纳?哪些特征被强调?什么样的结果被奖励?每一个选择,都在塑造最终那个“学成归来”的模型。
它最终呈现出的能力、倾向甚至“怪癖”,都带着训练过程的深刻烙印,就像孩子成长,家庭、学校、社会的每一次输入,都在参与最终人格的塑造,而我们,作为“训练者”,在欣喜于模型通过测试、准确率再创新高的同时,或许也该时不时问自己一句:我们到底教会了它什么?又无意中传递了什么?那个在服务器里运行着的,究竟是一个我们完全理解的工具,还是一个我们参与创造但已不完全了解的“新存在”?
下次再看到一个模型华丽地“毕业”,展示其超凡能力时,我在赞叹之余,大概也会多一份好奇:在那些我们看不见的数据角落,它是不是也偷偷学会了一些我们根本没想教它的东西?而这些东西,又会把它——以及依赖它的我们——带向何方?
这问题没有标准答案,但值得一直问下去,因为训练从未真正结束,模型在“学成”之后,与真实世界的碰撞和互动,才是另一段更复杂、也更生动的“学习”的开始,而我们,都身在其中。
(免费申请加入)AI工具导航网

相关标签: # ai模型训练出来
评论列表 (0条)