主要观点总结
本文报道了关于生成式AI领域的多个新进展,包括ChatGPT的新功能Tasks上线、MiniMax开源模型的更新以及视觉语音和多模态能力的提升等。此外,还有其他公司在教育、医疗、动画等领域的应用和创新。文章还涉及了对AGI的看法和AI实验室的预言。
关键观点总结
关键观点1: ChatGPT新功能Tasks支持用户设置定时任务,向Plus、Team和Pro用户推送,支持Web、iOS、Android、MacOS平台。
这是ChatGPT向L3级智能体迈进的重要一步。
关键观点2: MiniMax开源基础语言模型支持400万token超长上下文,同步推出视觉多模态模型。
团队正研发无限上下文窗口技术,为AI Agent应用发展打下基础。
关键观点3: 科大讯飞基于国产算力的推理大模型X1率先落地教育和医疗场景。
该模型中文数学能力居国内首位,并已推出首个端到端语音同传大模型。
关键观点4: Sakana AI提出Transformer²自适应模型架构,能动态调整权重适应任务。
该架构引入奇异值微调技术,显著提升模型性能。
关键观点5: 微软AutoGen 0.4版本引入异步消息机制,增强代码稳定性、通用性和可扩展性。
该版本还新增模块化设计、跨语言支持和可视化拖拽界面等功能。
关键观点6: 英伟达投资中国台湾初创公司MetAI,打造AI+3D数字孪生平台。
MetAI技术可将CAD文件快速转换为仿真环境,缩短仓库数字孪生仿真时间。
关键观点7: 上海交大通过延长AI思考时间提高医疗诊断准确率,采用LongStep和LongMonolog数据训练方法模仿医生诊断思维模式。
研究发现复杂医疗问题需更长推理链,大参数模型从推理时间扩展中获益。
关键观点8: 沃顿商学院教授Mollick对AI实验室AGI预测持怀疑态度,需谨慎看待AI技术的采用和适应能力。
同时,AI在特定领域的实用价值和突破性进展也被报道。
正文
2. 支持配置化的中英双语语音对话,具备声音克隆、情感控制等高级功能,并优化了OCR等视觉能力;
3. 创新设计时分复用的全模态流式处理机制,可在iPad等终端设备实现实时多模态交互。
https://mp.weixin.qq.com/s/8_ZDFANECB1i7ntAM_mO_Q
四、 Vidu 2.0发布 ,100镜实测,一致性新玩法再次称霸2D动画界
1. Vidu 2.0版本生成速度提升至10秒内,较前代提速3倍,且提供闲时不限量免费生成模式;
2. 强化多主体一致性,支持人物表情迁移和精准的镜头景别控制,首尾帧转场更加流畅自然;
3. 能稳定保持水墨、扁平等多种艺术风格,单价0.258元/秒,在AI动画领域具有优势。
https://mp.weixin.qq.com/s/kxMk86R_qIeZQTFexWagDQ
五、 科大讯飞基于国产算力的推理大模型X1,率先落地教育、医疗
1. 科大讯飞发布全由国产算力驱动的讯飞星火X1大模型,中文数学能力居国内首位,已在教育和医疗场景落地应用;
2. 升级星火4.0 Turbo,图文识别准确率提升40%,具备混域知识搜索功能,长文本错误率降低40%;
3. 推出其首个端到端语音同传大模型,最低时延5秒,将于2025年推出商务套装。
https://mp.weixin.qq.com/s/mCc-zaj0y8wDc0kYjZtPbA
六、 Sakana AI的Transformer²,「活」AI模型,动态调整权重