腾讯研究院AI速递 20250922

浏览器与生产力工具AI升级 - Chrome进行2008年以来最大更新集成Gemini AI助手到浏览器右上角支持跨标签页对话和内容总结 [1] - 地址栏升级为"Omnibox全能框" 可智能推荐问题并直接开启AI模式进行复杂查询 [1] - 利用Gemini Nano增强安全保护识别有害网站自动管理垃圾通知一键修复泄露密码已向美国用户开放 [1] - Notion发布3.0版本引入Agent功能可自主执行所有Notion操作为时隔7年重大更新 [2] - Agent能自主工作长达20分钟跨工具完成复杂任务如整合客户反馈更新知识库生成入职计划 [2] - 新版本引入个性化"记忆库" 即将推出"自定义Agent"支持自动运行和团队共享创建专属AI团队成员 [2] 3D设计与视频生成技术突破 - 腾讯发布混元3D Studio 整合3D资产生产全流程将生产周期从天级缩短到分钟级 [3] - 工作台提供概念设计几何建模组件拆分低模拓扑贴图绑骨蒙皮动画等全方位3D创作管线 [3] - 平台搭载混元3D 3.0模型具备分割生成 UV展开材质编辑等创新功能已集成于混元3D AI创作引擎 [3] - 阿里云开源通义万相动作生成模型Wan2.2-Animate 支持驱动人物动漫形象和动物照片 [4] - 模型提供角色模仿和角色扮演两种模式人物一致性和生成质量大幅提升 [4] - 通过骨骼信号隐式特征和光照融合LoRA技术在主观评测中超越Runway Act-two等闭源模型 [4] - Luma AI发布Ray3全球首个推理视频模型将AI视频从实验性生成推进到专业可用 [5] - Draft Mode仅用20秒生成预览成本为最终渲染1/5 支持精细控制允许涂鸦引导演员动作和镜头运动 [6] - 模型支持保真运动物理模拟复杂人群光照交互和写实细节原生支持10 12 16-bit HDR视频输出 [6] 音频与语音技术进展 - ElevenLabs推出Studio 3.0 将旁白音乐音效字幕和视频编辑整合到一条时间线 [7] - 支持从10,000+AI声音中选择自动生成专属配乐文本提示生成音效语音校正和隔离一键多语言字幕 [7] - 工具适用于视频创作者播客主有声书作者和AI电影人所有功能可通过API调用 [7] - 小米开源首个原生端到端语音模型Xiaomi-MiMo-Audio 参数规模70亿预训练数据超1亿小时 [8] - 模型具备自然对话音频字幕长时间音频理解等多种能力首次实现语音领域基于ICL的少样本泛化 [8] - 在MMSU MMAU等基准测试实现SOTA 可用于语音续写语音编辑和音频理解 [8] 生物科技与AI交叉创新 - Retro Biosciences宣布年底启动实验药RTR242首次人体试验可激活衰老细胞自噬系统 [9] - 公司使命是清理大脑中堆积变异蛋白和损伤分子以延长人类10年健康寿命 [9] - 实验室中干细胞标记表达量提升50倍公司计划募资10亿美元与Altos Labs竞争 [9] - Arc研究所和斯坦福大学团队利用Evo模型构建全球首个AI生成功能性噬菌体基因组 [10] - 所有功能性基因组携带67-392个新突变部分基因组整合远缘噬菌体蛋白质并保持功能 [11] - 实验验证AI设计基因组能感染特定宿主菌株展示AI协调复杂突变能力 [11] 开发工具与代码生成应用 - OpenAI公开Codex7种核心应用场景包括代码理解重构迁移性能优化提升测试覆盖率等 [12] - 技术团队用Codex快速理解陌生代码批量修改多文件优化性能瓶颈生成单元测试 [12] - 公开6条最佳实践包括用提问模式分析迭代改进开发环境构建详细提示等 [12]