热搜词: 2025 2026

当 Sora 说不出上海方言, 我们反而更接近AI的边界

如果AI无法说出上海话,它是否也无法真正“理解”人类?本文以Sora的语言生成缺陷为切口,试图揭示技术与文化之间的张力,并探讨我们为何越靠近边界,越能看清智能的本质。

一、起因

国庆假期之前,有人提议试试Sora2是否可以说上海方言,于是我们设想让Sora2生成一段视频,画面里Sama用上海话说一句中秋祝福。实验结果是,视频生成流畅,但说的不是上海话。改了很多prompt强调,也没能让它成功。偶尔会有某个沪语蹦出来,却无法“生成语言系统”。那一刻,我们看见了AI理解世界的“缺口”。

二、为什么Sora说不出上海话?

数据/语料稀缺

AI模型的语音模块主要训练于普通话/英语语料。而高质量、带时间标注的上海话语料极少。

音系/发音系统差异

吴语与普通话音系不同。模型可以在一个音系中“模仿口音”,却难以无监督地“学会”另一套音位系统。

唇形映射缺口

Sora的视频生成依赖语音与口型的对齐。普通话有完整映射模型,而方言没有。所以即便模型“合成”出声音,也会嘴型不对。

三、失败的体验不是终点,而是下一步路径的起点

以“让Sama说上海话”为例,我们可以设计这样一条实验路径,把这个抽象问题分解为几个子模块,每个模块都能做小型实验来验证:

1.最小可行数据集(数据)

采集语料,得到若干高质量的沪语录音。

量级建议:30–120分钟高质量沪语录音(单说话人或多说话人),采样率16k–24k,逐句分文件并带人工转写(汉字+上海话音标或IPA)。工具:录音棚或高质量手机+降噪;Whisper可做初版转写,再人工校对。

2.标注与对齐(预处理)

音素对齐:每个字对应音频区间找出来。用MontrealForcedAligner(MFA)或Gentle做音素级对齐,输出TextGrid/.lab。建立G2P映射:汉字→上海话拼写(或直接用IPA),保证TTS能接收正确音位序列。

3.TTS微调(语音合成)

模型微调:用开源TTS模型做微调

方案一(开源):用VITS/PaddleSpeech/ESPnet微调模型(用30–120min数据即可做voicecloning基线)。方案二(商用快速):评估是否可用第三方TTS(已有厂商开始支持方言),作为短期替代。

4.生成音频并获取时间戳

波形对齐:生成可用的沪语音频+文本时间轴。

用TTS输出wav+phonemealignment(如果VITS不直接输出alignment,使用MFA重新对齐)。

5.视频生成与嘴型同步

Sora生成无声视频→用Wav2Lip/SadTalker替换嘴型并合成音轨,让视频角色嘴巴动作和音轨吻合6.评估指标(量化好奇结果)效果评估,根据评估反馈继续调整数据/模型主观:MOS(1–5)≥3.5(10人盲测)

客观语音:PhoneErrorRate(PER)或方言版WER≤15%

唇形同步:平均口唇延迟≤0.1s;visemematchratio≥85%

文化自然度:专家打分(本地母语者)≥4/5

四、从AI“失败”中发现:好奇不只是提问,而是把问题拆成工程任务的能力

好奇的第一步,发现差异

例如Sama没说出上海话

第二步,把差异拆解成可测的子问题

数据覆盖、音位表、对齐、唇形同步

第三步,设计实验

数据采集、微调TTS、唇形映射、整合测试

第四步,迭代与量化

MOS、音素错误率、visemesyncscore

这就是“工程化好奇(CuriosityEngineering)”的核心:把问题拆成实验、把直觉变成路径。

五、最纯粹的科学逻辑

后来,我们换了个实验。让Sora2生成一个“爱因斯坦赏月”的视频。

在视频里,AI生成的爱因斯坦咬着月饼,微笑着说:

“我咬这一口,只是想知道,这味道从何而来。”

看似浪漫,其实是最纯粹的科学逻辑:疑问→假设→实验→验证→再提问。

AI今天能模拟这个过程,

但仍然缺少第一步的“为什么”。

那是人类独有的好奇机制。

六、结语:好奇,是AI与人类共演的起点

AI的极限,不在算力,而在提问的想象力。

当AI“不会”某件事时,不是失败,而是人类好奇的入口。

Sora无法生成方言的“沉默”,提醒我们去追问:

我们能否让AI学会的不仅是语言,还有理解?

能否用“工程化的好奇”,让AI和人类一起实验未知?

在一个被算法主导、预测不断增强的时代,好奇是人类最后的开放接口。

心理学上,好奇被定义为:

“在不确定中寻求模式的驱动力。”

神经科学研究表明,当我们面对未知时,大脑的奖赏系统会被激活,多巴胺释放,让我们保持探索的愉悦。

而在AI时代,我们越是被“已知”包围,就越需要一种方法,重新发明“不知道”的乐趣。