主要观点总结
本文报道了关于AI、语音技术、美图和宠物智能摄像头等领域的创新和发展。包括HiWaifu创始人陶江的创业经历和对AI社交品类的洞察,MiniMax语音模型的技术突破,Hanabi AI的Fish Audio产品以及其在AI语音赛道的表现,美图公司的业务调整和重生,宠物智能摄像头品牌Furbo的成功秘诀,以及沙特阿拉伯的社会风气变化和电商出海的状况。
关键观点总结
关键观点1: HiWaifu创始人陶江的创业经历
陶江看起来年轻却拥有10多年的创业经历,他带领HiWaifu团队做出全球AI社交Top7的产品,并在AI社交这个整体商业化困难的品类中实现年营收2000万元。
关键观点2: MiniMax语音模型的技术突破
MiniMax上线的最新版本语音生成模型Speech-02在客观指标如错字率、声音相似度上领先竞品,并在主观的盲听测试中取得好成绩。
关键观点3: Hanabi AI的Fish Audio产品及其表现
Hanabi AI的Fish Audio是一个出色的AI语音合成平台,支持多语言文本转语音和高精度的声音克隆。它在短短几个月内实现了从0到400万美元营收的高速增长,成为AI语音赛道中最受关注的产品之一。
关键观点4: 美图公司的业务调整和重生
美图公司在面临困境后进行了业务调整和战略反思,回归擅长工具类产品研发,并成功推出几个产品拯救了公司。现在其MAU和年净利都有显著增长。
关键观点5: 宠物智能摄像头品牌Furbo的成功秘诀
Furbo自成立起就深耕宠物摄像头这一品类,以三款核心SKU构建品牌护城河。其产品功能设计精准契合了宠物主人的需求,年销售额超数千万美元。
关键观点6: 沙特阿拉伯的社会风气变化和电商出海
沙特阿拉伯的社会风气正在发生变化,女性着装变得更加自由。这是该国“2030愿景”的一部分,旨在打造一个充满活力的社会和繁荣的经济。
正文
时隔一段时间,4 月12日,MiniMax 上线最新版本语音生成模型 Speech-02,而在 5 月 15 日,系列模型中的 Speech-02-HD 同时登顶了 Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 两大榜单,技术指标上 Speech-02-HD 不仅在错字率、声音相似度等客观指标上领先竞品,在主观的盲听测试中,也取得了相当不错的成绩。
除此之外,AI 语音赛道中,距离我们上次观察又有多款产品完成了融资,比如,3 月 11 日,Cartesia 完成了 6400 万美元 AI 轮融资;3 月 29 日,Hume AI 完成了 5000 万美元融资。除了创企们争相融资外,各大厂也纷纷下场,Amazon 推出了 Nova Sonic,Google 在 Veo3 中也整合了一个强大的语音模型,根据一线从业者的说法,Veo3 的语音合成功能堪称惊艳。
AI 语音赛道图解|图片来源:腾讯云
随着技术日趋成熟,AI 语音开始更快更深地渗透到各个应用场景中。所以此次,为了测试目前的语音模型在特定场景内的表现,我们选择了直播带货、语音陪伴、有声书,三个具有代表性的 TTS 落地场景,并根据模型榜单、读者的推荐等方式,确定了 5 款接受测试的语音模型,其中包括,MiniMax 推出的 Speech-02-HD、阿里推出的 CosyVoice2、杭州智声悦合的自研模型 Dubbing X,以及 ElevenLabs 和 Sesame,进行了又一轮的测试。
(>>>更多内容,戳此查看<<
半年冲刺500万美元ARR,华裔00后
打造永不背叛的AI语音陪伴|对话创始人
从电话录音机到播客,从语音助手到虚拟主播,语音技术在过去几十年里经历了从“工具型服务”向“内容型产品”的演化。大模型的快速崛起让语音技术的发展进入了一个新的跃迁周期,人们对语音产品的期待从听懂”内容“逐渐跃迁到听懂”情绪“。情感语音合成、语音驱动角色等新场景不断涌现,AI使语音技术不再只是配音的工具,而正在成为交互入口与内容表达的核心媒介。
在这个变革拐点上,一方面,各类开源语音模型在快速迭代,另一方面,寻找一个落地场景,让模型的技术与用户场景更贴合,成为产品落地的重要问题。其中,“语音陪伴”这一场景仍是一块待深耕的蓝海,它不仅考验模型对人类情感的理解能力,更考验这种人机交互模式背后信任感的构建。
本期我们采访了 Hanabi AI 的创始人冷月,他曾是英伟达的研究员,也是一位深耕开源的 00 后开发者。Hanabi AI 的代表产品 Fish Audio 是一个出色的 AI 语音合成平台,能够支持多语言文本转语音和高精度的声音克隆。在短短几个月内,Fish Audio 经历了从 0 到 400 万美元营收的高速增长,成为 AI 语音赛道中最受关注的产品之一。在这场采访中,我们将跟随冷月的讲述,一起理解 Fish Audio 的创建初衷、技术策略,其背后的团队文化,以及他们如何理解“AI 语音”的未来形态。
(>>>更多内容,戳此查看<<
重生之我在美图做CEO|对话创始人
不切实际的野心和存在局限的认知,会摧毁一家公司。
2018 年到 2019 年,中国互联网一派欣欣向荣,而巨亏中的美图被迫结束了它的多元化扩张,逐步放弃了手机、短视频、电商,并且快速裁掉了 60% 的员工。
美图不得不退回厦门,并且回到 10 年前——继续做处于互联网产品鄙视链底端的工具,这也是当时被认为 “很没有想象力” 的赛道。连续的挫败,也让美图进行了大规模的反思和盘整。
1、战略要与能力匹配;2、不能随便消耗资源;3、要有核心竞争力。美图创始人吴欣鸿在一次内部复盘中说,“这是我们烧了 42 个亿,换来的 3 个领悟。”
退回厦门的他们,抱着试试看的心态,重新整合产品,结果,“整牙” 这个不起眼的美颜功能,第一年就带来了近千万收入。受此启发,他们还做了提词器功能,第一年赚了 1000 多万,并以此为核心打造了独立产品——开拍;他们推出 Wink,路线是 “像修图一样修视频”;美图设计室则是在已是红海的赛道中切一个细分市场,服务一批小微电商卖家。
几个产品拯救了一家公司。几年过去,美图的 MAU 涨回了 2.66 亿,去年有 5.9 亿的年净利和 33.4 亿的年收入,股价也从最低 5毛多涨到了 6 块多。吴欣鸿把这总结为:重生。
2023 年,吴欣鸿从蔡文胜手中接回董事长一职。他从 20 岁开始创业,35 岁做到公司上市,做出过 9 个月 1 亿用户 (比微信还快 5 个月) 的短视频社区美拍,但也因为认知局限,差点把公司搞垮。