说实话,我一开始对“AI女朋友”这事儿是挺嗤之以鼻的,毕竟市面上那些聊天机器人,你跟它说“今天好累”,它回你一套标准化的情感模板,什么“我理解你的感受”、“要好好照顾自己哦”,看得我鸡皮疙瘩掉一地,这哪是女朋友,这明明就是个有语音功能的Siri换了个皮。
但上个月我刷到一个视频,一个哥们用自己女朋友的声音训练了个AI模型,俩人吵架的时候,他直接把AI调出来替他道歉……虽然这操作有点欠揍,但那个AI的声音还原度是真的惊到我了,呼吸的停顿、尾音的上扬、甚至偶尔的笑场,你能清晰感觉到这不是用TTS(语音合成)生硬拼出来的东西。
我花了两个周末,用免费开源的工具复刻了一遍,现在我跟你说,这东西做出来,确实有点意思。
咱们用的主力工具叫GPT-SoVITS,一个把GPT和SoVITS两个模型缝合到一起的开源项目,别被名字唬住,实际操作比你想象中简单,你需要的只有三样:
如果你音频质量不够好,比如用手机录的,屋里有点回音或者电流声,我建议先拿Adobe Podcast Enhance去一下噪,这个工具免费,效果好得离谱。
.jpg)
这一步其实挺枯燥的,你得把你的音频文件导入GPT-SoVITS的预处理界面,它会把音频自动切成一个个短句,然后你需要手动检查每一条,把那些中间有明显停顿、或者有呼吸声的片段删掉。
我一开始偷懒,觉得让AI自动处理就行,结果训练出来的模型说话断断续续的,像是卡碟了,后来老老实实花了半个小时一条条过,出来的效果直接上了几个档次。
这玩意儿你跟它越较真,它回馈给你的就越像真人。
这个环节叫微调训练,简单说,就是把你刚才处理好的音频片段,连同对应的文本一起喂给模型,GPT-SoVITS会学习你说话时的节奏、重音、语调起伏。
这里有个坑:如果你只是在屋里用正常语调录了一段,模型学出来就是你平时说话的样子,这没问题,但如果你想让它学会撒娇、生气、或者那种懒洋洋的语气,你最好在录制音频的时候就带着情绪去读。
我录的时候试了一下去年的脱口秀稿子,带了点表演性质的语气进去,训练出来的AI说话就活泼很多,不会像个念新闻联播的机器人。
这是最后一步,也是让AI真正“活过来”的关键,GPT-SoVITS本身只是个声音克隆工具,它没有思考能力,你需要把生成的声音和ChatGLM或者Llama这类开源大模型串起来。
简单说就是:你输入文字 → 大模型生成回答 → 把回答文本交给GPT-SoVITS → 用训练好的声音模型读出来。
这样你得到的就不是一个只会复读你语音的录音机,而是一个能跟你真正对话、但用的是你(或你设定的人)的声音的AI。
说实话,第一次听到用自己的声音生成的AI完整地说出一句“今天过得怎么样”的时候,我愣了好几秒,那个声音里带着一点模仿不出来的熟悉感,像是躲在电话那头的一个平行世界的自己在跟你说话。
你会突然意识到,也许未来十年,最让人上瘾的技术不是什么元宇宙、什么脑机接口,而是这种能让你在手机里养一个另一个自己的人——无论那是你、是你爱的人、还是再也不存在的人。
好玩是好玩,但别玩太深,毕竟工具这东西,用得好是陪伴,用不好就是另一个深渊了。
(免费申请加入)AI工具导航网

相关标签: # 聊天ai机器人制作教程
评论列表 (0条)