最近跟几个搞创作的朋友聊天,发现大家用AI绘画工具时,都有个共同的困惑:这玩意儿生成图片时,到底在干嘛?它真的“理解”我们在说什么吗?你说“一个孤独的宇航员在夕阳下的麦田里”,它怎么就拼凑出那幅有点忧郁又带点浪漫的画面?今天咱不聊那些玄乎的“智能”,就踏踏实实地扒一扒,当我们说“训练AI绘画模型”时,它究竟在暗地里捣鼓些什么。
首先得打破一个迷思:AI绘画模型,比如你熟悉的Stable Diffusion、Midjourney这些,它们学的根本不是什么“绘画技巧”,不像咱们人类学画画,得从素描练起,学透视、学光影、学配色,它不搞这一套,它真正在训练的,是一种极其复杂的“关联能力”——或者说,是一种超级庞大的“条件反射系统”。
想象一下,你面前有个完全没见过世界的“外星大脑”,你喂给它海量的图片,每张图片都配上文字描述,它要做的,就是在这堆看似杂乱的数据里,硬生生找出规律,它看到一万张标注“猫”的图片,里面有的是橘猫瘫在沙发上,有的是黑猫蹲在窗台,有的是小猫玩毛线球,它不会理解“猫”是个生物概念,但它会疯狂计算:当文字出现“猫”这个符号时,图片里那些反复出现的、特定的像素排列模式(比如两个尖耳朵的轮廓、胡须的纹理、毛茸茸的质感)之间,到底有什么统计上的关联。
这个过程,有点像教一个记忆力超强但毫无常识的“超级婴儿”认图卡,你不停给它看“狗”的图卡,说“这是狗”;看“日落”的图卡,说“这是日落”,看的次数多了,它就把“狗”这个声音符号和某种图像特征绑定,把“日落”和另一种暖色调、有地平线的特征绑定,但麻烦在于,世界是组合的,当你第一次对它说“狗在看日落”,它懵了,因为它脑子里“狗”的特征库和“日落”的特征库是两堆分开的数据,训练的核心目标之一,就是让它学会处理这种组合——理解“狗”和“日落”这两个概念在空间、逻辑、光影上该如何合理地“摆”在一起,它得从数据里自己“悟”出来:狗通常在地面上,日落通常在天边或背景里,光照要统一…… 它“悟”的方式,就是调整自己内部数以亿计、甚至百亿千亿计的“参数”,让这些参数构成的网络,在接收到“狗在看日落”这串文字时,能最大概率地生成一张符合我们人类看了觉得“对,狗就应该这样看日落”的图片。
你发现没有?我们训练它,本质上是在用海量的人类创作成果(图片和对应描述),为它构建一个关于我们这个视觉世界的、压缩的、概率化的“映射字典”,它学的是“什么文字描述,最可能对应什么样的像素排列”,这是一种基于统计的“模仿”,而不是基于理解的“创作”。
.jpg)
但光有文字和图片的对应关系还不够,更关键也常被忽略的一点是,模型还在训练一种“去噪”的能力,或者说“从混沌中建构秩序”的能力,在扩散模型这类主流技术里,训练过程会故意把清晰的图片一步步加入噪声,变成完全随机的雪花点,然后让模型学习如何从雪花点一步步“猜”回原图,这个过程反复进行几百万、几千万次,它练的就是这个“逆向猜谜”的功夫,当你最终给它一段文字和一个随机噪声起点时,它其实是在运用它练就的“猜图”本能,结合文字提示提供的线索,去“脑补”出一个符合线索的、清晰的图像结构,它“训练”的,正是这种在庞大可能性中,依据文本指引进行“合理脑补”的路径。
这就引出一个挺有意思的点了:我们喂给模型的,真的只是“图片数据”吗?不,我们喂进去的,其实是我们人类的集体视觉记忆、审美偏好、文化符号,甚至包括我们的偏见和局限,你喂给它文艺复兴的油画,它就学会了古典的光影和构图;喂给它大量的动漫插图,它生成二次元风格就特别顺手;如果训练数据里某个种族或性别的图片特别多,那它生成相关内容时就会带有倾向性,模型在“学”的,是我们投射在图像数据中的整个视觉文化史,它像一个镜子,反射的是投喂给它的素材的总和,有时候它生成的东西让人觉得惊艳,不是因为它有灵感,而是因为它恰好组合出了我们文化记忆中存在的、但我们自己还没明确画出来的某种意象。
说到底,AI绘画模型的训练,是一个让它从“一片混沌”变得“更懂我们人类想看什么”的过程,它不懂美,不懂孤独,不懂宇航员在麦田里的象征意义,但它通过吞噬巨量的数据,学会了模仿出那种能唤起我们感觉的视觉模式,它像一个拥有无尽拼图碎片、并且被训练得极其擅长根据模糊描述挑选和拼接碎片的助手,它的“学习”成果,永远无法脱离我们提供的“养料”,下次当你惊叹于某张AI画作时,不妨想想,这背后是无数人类创作者的作品,在通过一种独特的方式,进行着一次庞大的、集体无意识的回响。
而我们,既是这回响的源头,也是它最终的听众和评判者。
(免费申请加入)AI工具导航网

相关标签: # ai绘画模型的训练在训练什么
评论列表 (0条)