OpenAI深夜发布3个全新的语音模型，一手实测都在这了。

大数据文摘 · 公众号 · 大数据 · 2025-03-21 18:02

正文

他们除了跟自己比外，又放了一个跟别人家模型相比的图。

Gemini是google的，scribe是Anthropic的，在对比的这些里面，确实达到了SOTA，但是不知道没比的模型里面，有没有比OpenAI更强的。

我自己也做了一下实测，把我的两个口播视频去识别了一下，识别出来的效果在此，大家可以对比一下。标红的就是识别错误的地方。

其实都大差不差，这么一看，GPT-4o- mini-transcribe的性价比感觉非常突出。

GPT-4o-transcribe这个系列的两个模型，有一个蛮不错的特点，就是会自动清噪和去除非主线人物的语音识别。

比如这个案例。

这个片段是剪辑完的成片，所以有音乐，甚至在19秒以后，还有BGM里面的别人唱歌的声音，这些其实都是噪音，GPT-4o-transcribe几乎全部剔除了，在整个转录里，我几乎没看到什么错误，除了把我的名字，卡兹克识别成了卡斯克。。。

我又试了一段粤语的，效果居然还可以，大致的好像是对的，就是细节这块我不太能验证了，有懂粤语的朋友可以看一下。

最后价格这块提一下。

gpt-4o-transcribe是每分钟大概$0.006，也就是人民币0.04元/分钟；

gpt-4o-mini-transcribe是每分钟大概$0.003，也就是人民币0.02元/分钟.

整体不算贵了。

2. TTS模型：gpt-4o-mini-tts

OpenAI的一个新的TTS模型。

在英语效果和声音上，听了下，还算不错，不过毕竟这是国内，所以其实我更关注的是中文的生成效果。

我随手跑了一个，就，你们听听这个效果。。。

情绪什么的其实讲道理，还可以的，就是这个中文发音，真的一股子大佐味，这到底用的什么数据集啊。。。