专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯研究院

腾讯研究院AI速递 20250516

腾讯研究院  · 公众号  · 科技媒体  · 2025-05-16 00:01

主要观点总结

本篇文章涵盖了生成式AI、高端GPU、语音模型、浏览器插件、音频生成模型、视频生成模型、智能NPC系统、数学优化和AI应用层等多个领域的进展和报告观点。包括美国参议员要求高端GPU和AI芯片中植入地理追踪功能、GPT-4.1在ChatGPT中的上线、新版Claude Sonnet和Opus的推出、语音模型超越OpenAI和ElevenLabs、腾讯元宝浏览器插件的上线、Stability AI加入音频赛道、阿里开源视频生成模型、腾讯混元在《碧优蒂的世界》的应用以及DeepMind的AlphaEvolve在数学方面的突破等。

关键观点总结

关键观点1: 美国参议员提出法案要求英伟达、AMD等厂商在高端GPU和AI芯片中植入地理追踪功能,旨在防止战略硬件流入未授权国家。

该法案要求芯片厂商承担产品追踪责任,并进行为期三年的年度评估,可能实施更多限制措施。

关键观点2: OpenAI在ChatGPT中正式上线GPT-4.1模型,该模型在编码任务和指令遵循方面表现优异,但ChatGPT版本的GPT-4.1上下文窗口仅为128k token,引发用户失望。

GPT-4.1是o3和o4-mini的理想替代品,企业版和教育版用户将在未来几周获得访问权限。

关键观点3: Anthropic将推出新版Claude Sonnet和Opus,最大亮点是"极限推理"功能,能在推理和工具使用间建立动态循环,支持自主暂停、重新评估问题并调整策略。

新模型在代码生成任务中可以自动测试和修正错误。

关键观点4: MiniMax新一代语音模型Speech-02在榜单上超越OpenAI和ElevenLabs,采用创新的Flow-VAE架构,实现真正的零样本语音克隆。

该模型支持32种语言,可实现任意音色灵活控制和情感调节,成本仅为竞品的一半。

关键观点5: 腾讯元宝浏览器插件在Chrome应用商店上线,支持网页划词提问、内容总结、外文网页翻译等功能。

该插件基于腾讯混元与DeepSeek大模型,目前仅在Chrome可用。

关键观点6: Stability AI与Arm合作推出Stable Audio Open Small音频生成模型,可在手机端离线运行。

该模型是目前最快的音频生成模型之一,拥有3.41亿参数,专为生成短音频和音效设计。

关键观点7: 阿里开源Wan2.1-VACE视频生成模型,支持文生视频、图像参考生成等任务。

该模型分为消费级显卡可用的1.3B版本和支持更高分辨率视频的14B版本。

关键观点8: 腾讯混元大模型为《碧优蒂的世界》打造智能NPC系统,支持自主行动、个性化交互等功能。

该系统利用腾讯混元角色扮演专属模型和Turbo S快思考模型,实现NPC与玩家的立体互动。

关键观点9: DeepMind发布基于Gemini驱动的AlphaEvolve智能体,能够演化整个代码库,实现算法发现和优化。

AlphaEvolve结合了LLM创造力与自动评估系统,已应用于优化谷歌数据中心效率和改进TPU芯片设计。

关键观点10: 红杉资本认为AI应用层是最大价值所在,智能体经济正在形成。

行业面临技术挑战,如智能体的持久身份认证、无缝通信协议构建和安全性保障。


正文

请到「今天看啥」查看全文


新版Claude Sonnet和Opus也在路上 极限 推理

1. Anthropic将在未来几周推出新版Claude Sonnet和Opus,最大亮点是"极限推理"功能,能在推理和工具使用间建立动态循环;

2. 新模型能够自主暂停、重新评估问题并调整策略,在代码生成任务中可自动测试和修正错误;

3. 消息称确实有个正在测试、代号为Neptune的新模型,最大支持128k tokens上下文长度。

https://mp.weixin.qq.com/s/pkhgH2Q7kta0KwHH5_jdgA

四、 超越OpenAI、ElevenLabs?MiniMax新一代人格化语音模型

1. MiniMax新一代语音模型Speech-02在Artificial Analysis榜单上超越OpenAI和ElevenLabs,在字错率和说话人相似度等指标上达到SOTA水平;

2. Speech-02实现了真正的零样本语音克隆,并采用创新的Flow-VAE架构,只需几秒音频即可高度还原说话人音色、语调和节奏;

3. 该模型支持32种语言,可实现任意音色灵活控制和情感调节,成本仅为ElevenLabs竞品的1/4,标志着AI语音进入人格化时代。

https://mp.weixin.qq.com/s/tZ3y4n-aMq5dFC2OmbWZpg

五、







请到「今天看啥」查看全文