最近在找配音工具的时候,又习惯性去刷了刷各家平台的更新,做内容嘛,声音这一块总不能老是靠自己硬扛,有时候写稿写得头晕眼花,还得捏着嗓子录旁白,实在有点顶不住,所以我对各种AI配音工具一直挺关注的,哪个出了新模型,都忍不住去试试水。
前两天就看到百度那个AI配音平台又上线了新的训练模型,说是“又”,是因为他们家在这块更新还挺勤快的,隔段时间就能看到“效果优化”、“新增音色”之类的公告,这次点进去一看,宣传语倒是挺抓人眼球,主打的是“更自然的情感演绎”和“高保真音质”,我心里嘀咕,自然?这词儿现在都快被用烂了,是个AI都说自己自然,结果一听还是那股子熟悉的“播音腔”,或者干脆像没感情的读稿机器。
反正也是闲着,干脆就动手试试,现在的平台门槛都低,注册登录,找到那个新模型的入口,界面还是老样子,把一段我之前写的关于科技趋势的文案贴了进去,音色选择挺多的,分了各种类别,什么“成熟稳重”、“温柔知性”、“活泼灵动”,还有专门针对广告、解说、故事的不同推荐,我选了个标注为“通用解说-新模型”的男声音色,没选那些特别夸张的,就想听听它处理普通文章怎么样。
点击合成,等了几秒钟,说实话,等待的时候没抱太大期望,心想大概又是那种字正腔圆但缺乏起伏的效果,结果音频一出来,开头几句就让我愣了一下,哎?这个节奏……有点意思,它不是那种机械的、每个字间隔都差不多的念法,有些地方会有很细微的顿挫,比如在逗号后的短暂停顿,长句中间偶尔的气口,听起来不像是在“读”,更像是在“说”,虽然离真人那种随性的感觉还有距离,但那种生硬的“机器感”确实淡了很多。
我特意挑了一段带有转折和轻微情绪色彩的句子让它试。“这项技术的普及,并非一路坦途……” 这句话里的“,它处理得就比旧模型好,旧模型可能会在“然”和“而”之间有一个比较生硬的连接,或者语调平平,这个新版本在“这里有一个非常轻微的语调下沉和放缓,有那么一点带出“话锋一转”意味的感觉,你不能指望它像配音演员那样精准地传递出复杂的讽刺或深沉,但这种基础层次的“意思传达”,它确实做到了。
.jpg)
我又试了试不同的文本类型,给它一段偏营销口吻的广告文案,它那种上扬的、带点鼓动性的语调就出来了点;换成一小段故事叙述,节奏又会放缓一些,这大概就是它宣传的“情感演绎”的一部分吧,能根据文本内容做一点自适应的语调调整,而不是一套节奏走天下。
你也别想着它能“封神”,仔细听,还是能挑出毛病的,比如遇到一些特别生僻的科技名词或者中英文混杂的句子,它的断句和重音偶尔会有点怪,听起来有点犹豫,还有就是在需要长时间、高强度情绪输出的段落,它还是显得有点后劲不足,那种饱满的、持续的情绪张力,目前看来还是真人的专属领域,虽然音质很清晰,但听久了,那种隐藏在流畅之下的、非常标准的“完美感”,还是会让你意识到这不是真人,就像一幅非常逼真的油画,近看笔触还是能看出来。
这次试用的感觉是正向的,它不像一些工具那样,一上来就用极其夸张、戏剧化的音色吸引你,结果实用性很低,这个新模型更像是在“扎实”和“自然”这条路上又往前挪了一步,对于像我这样的自媒体作者,或者需要快速处理大量旁白、解说词的普通用户来说,它的可用性确实提高了,至少,生成出来的东西,稍微加个背景音乐,用在知识分享、产品介绍、资讯播报这类视频里,已经不太会让观众觉得“出戏”或“难受”了,能省下找真人配音沟通、录制、修改的成本和时间,这个价值就挺实在的。
技术这东西,有时候进步就是悄无声息的,它不是一下子从自行车变磁悬浮,而可能只是自行车骑起来更省力、更稳当了,百度的这个新配音模型,给我的就是这种感觉,没那么惊世骇俗,但确实在解决实际问题的路上,又磨掉了一些毛刺,让工具用起来更顺手了一点,对于咱们这些天天跟内容打交道、总在琢磨怎么提升效率和质量的人来说,这种切实的改进,反而更值得留意,毕竟,好工具不是那个听起来最炫的,而是那个用起来最不让你头疼的,这个新模型,算是往“不头疼”的方向又靠了靠,至于未来还能多自然?咱们就边走边看吧,反正这迭代速度,说不定下个月又有新花样了。
(免费申请加入)AI工具导航网

相关标签: # 百度ai配音训练模型
评论列表 (0条)