专栏名称: APPSO

让智能手机更好用的秘密。

刚刚，OpenAI 一口气发布三个新模型！还为此做了一个新网站

APPSO · 公众号 · app · 2025-03-21 07:15

主要观点总结

OpenAI推出了全新一代音频模型，包括语音转文本和文本转语音功能。新模型有助于开发者构建强大的语音Agent。这些模型的核心亮点和定价信息也被详细介绍。此外，文章还涵盖了OpenAI演示的AI时尚顾问Agent的应用案例，以及构建语音Agent的两种技术路径。

关键观点总结

关键观点1: OpenAI推出全新音频模型

包括语音转文本和文本转语音功能，有助于开发者构建强大的语音Agent。

关键观点2: 新模型的核心亮点

gpt-4o-transcribe和gpt-4o-mini-transcribe在语音转文本方面的卓越表现，尤其是降低单词错误率；gpt-4o-mini-tts首次支持「可引导性」，让开发者能控制「如何说」。

关键观点3: 定价策略

GPT-4o-transcribe定价为每分钟0.006美元，GPT-4o-mini-transcribe为前者的一半，即每分钟0.003美元；GPT-4o-mini-tts定价为每分钟0.015美元。

关键观点4: AI时尚顾问Agent的应用案例

展示了AI如何在实际场景中应用，以及构建语音Agent的两种技术路径。

关键观点5: 新技术背后的创新

包括新音频模型建立在GPT-4o和GPT-4o-mini架构之上，采用真实音频数据集进行预训练，应用self-play方法创建的蒸馏数据集的知识蒸馏方法，以及融入强化学习提升转录精度等。

正文

请到「今天看啥」查看全文

向左滑动查看更多内容

定价方面，GPT-4o-transcribe 与之前的 Whisper 模型价格相同， 每分钟 0.006 美元， 而 GPT-4o-mini-transcribe 则是前者的一半， 每分钟 0.003 美元。

与此同时，OpenAI 还发布了新的 gpt-4o-mini-tts 文本转语音模型。首次让开发者不仅能指定「说什么」，还能控制「如何说」。

具体而言，开发者可以预设多种语音风格，如「平静」、「冲浪者」、「专业的」、「中世纪骑士」等，它还能根据指令调整语音风格，如「像富有同情心的客服 Agent 一样说话」，定价亲民， 仅为每分钟 0.015 美元。

安全不能马虎，OpenAI 表示，gpt-4o-mini-tts 将接受持续监控，以保证其输出与预设的合成风格保持一致。

这些技术进步的背后源于 OpenAI 的多项创新：

新音频模型建立在 GPT-4o 和 GPT-4o-mini 架构之上，采用真实音频数据集进行预训练

应用 self-play 方法创建的蒸馏数据集的知识蒸馏方法，实现从大模型到小模型的知识转移

在语音转文本技术中融入强化学习(RL)，显著提升转录精度并减少「幻觉」现象。

在凌晨的直播中，OpenAI 向我们展示了一款 AI 时尚顾问 Agent 的应用案例。

当用户询问「我最近的订单是什么？」时，系统流畅回应：用户于 2 月 9 日订购的 Patagonia 短裤已发货，并在后续提问中准确提供了订单号「A.D. 507」。

值得一提的是，OpenAI 演示人员还介绍了两种构建语音 Agent 技术路径，第一种「语音到语音模型」采用端到端的直接处理方式。

请到「今天看啥」查看全文

推荐文章

APPSO · 2025 苹果设计奖公布！这个国产 AI 应用首次入选，淘宝获奖功能 99% 用户没用过

19 小时前

小众软件 · 下世纪再重启

19 小时前

小众软件 · 著名开源文件同步工具 Syncthing 2 即将推出

19 小时前

APPSO · 全球首款 SDC 安卓内测福利

昨天

APPSO · 曝苹果iPhone 17不会改名/雷军疑似回应余承东：诋毁本身就是一种信仰/ChatGPT印度月活超越美国

2 天前

半导体行业联盟 · 台积电小心！苹果大砍价，供应商受苦

8 年前

中国航空工业集团 · 共青团航空工业第二次代表大会隆重召开

8 年前

麦子熟了 · 马里兰大学中国留学生毕业演讲引争议:我在美国吸到的空气都是甜的

8 年前

全球局势战略纵横 · 现代版的“如意金箍棒”？户外野营的高级安全装备！

7 年前

内涵社 · 这个神奇的杯子到底是什么黑科技，连拳王泰森都打不倒？！

7 年前