专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道

机器之心  · 公众号  · AI  · 2025-05-26 09:28

正文

请到「今天看啥」查看全文



数据优化驱动的声学建模框架方案


该工作遵循数据驱动模型能力的整体思路:


  • 首先从源头切入,系统化采集并标注跨领域语音、文本与语言学信息,构建覆盖广、颗粒度细的多维泰语语料库;


  • 随后通过 LLM 增强的停顿预测、词切分与混合式 G2P,将原始文本稳健转换为结构化的「音素-声调」序列;


  • 最后在此精炼输入之上,引入声调感知的 Phoneme-Tone BERT 与多源特征驱动的 GAN 解码器,实现高保真、低延迟的语音合成,并支持零样本声音克隆。


整套框架以数据质量为核心抓手、以模块化设计保障可扩展性,为解决小语种 TTS「数据稀缺 + 语言复杂」双重瓶颈提供了一条可复制、可落地的工程化路径。



泰语专项数据集构建


该工作构建了一套专为低资源泰语 TTS 设计的 多维数据集 ,涵盖语音、文本和注释三大类:


  • 语音数据 ——500 小时来自新闻、社媒、播客等多领域语料,外加 40 小时金融、医疗、教育、法律等垂直领域语料,兼顾通用合成与专业术语发音;






请到「今天看啥」查看全文