Workflow
腾讯研究院AI速递 20250922
腾讯研究院·2025-09-21 16:01

浏览器与生产力工具AI升级 - Chrome进行2008年以来最大更新 集成Gemini AI助手到浏览器右上角 支持跨标签页对话和内容总结 [1] - 地址栏升级为"Omnibox全能框" 可智能推荐问题并直接开启AI模式进行复杂查询 [1] - 利用Gemini Nano增强安全保护 识别有害网站 自动管理垃圾通知 一键修复泄露密码 已向美国用户开放 [1] - Notion发布3.0版本 引入Agent功能 可自主执行所有Notion操作 为时隔7年重大更新 [2] - Agent能自主工作长达20分钟 跨工具完成复杂任务 如整合客户反馈 更新知识库 生成入职计划 [2] - 新版本引入个性化"记忆库" 即将推出"自定义Agent"支持自动运行和团队共享 创建专属AI团队成员 [2] 3D设计与视频生成技术突破 - 腾讯发布混元3D Studio 整合3D资产生产全流程 将生产周期从天级缩短到分钟级 [3] - 工作台提供概念设计 几何建模 组件拆分 低模拓扑 贴图 绑骨蒙皮 动画等全方位3D创作管线 [3] - 平台搭载混元3D 3.0模型 具备分割生成 UV展开 材质编辑等创新功能 已集成于混元3D AI创作引擎 [3] - 阿里云开源通义万相动作生成模型Wan2.2-Animate 支持驱动人物 动漫形象和动物照片 [4] - 模型提供角色模仿和角色扮演两种模式 人物一致性和生成质量大幅提升 [4] - 通过骨骼信号 隐式特征和光照融合LoRA技术 在主观评测中超越Runway Act-two等闭源模型 [4] - Luma AI发布Ray3全球首个推理视频模型 将AI视频从实验性生成推进到专业可用 [5] - Draft Mode仅用20秒生成预览 成本为最终渲染1/5 支持精细控制 允许涂鸦引导演员动作和镜头运动 [6] - 模型支持保真运动 物理模拟 复杂人群 光照交互和写实细节 原生支持10 12 16-bit HDR视频输出 [6] 音频与语音技术进展 - ElevenLabs推出Studio 3.0 将旁白 音乐 音效 字幕和视频编辑整合到一条时间线 [7] - 支持从10,000+AI声音中选择 自动生成专属配乐 文本提示生成音效 语音校正和隔离 一键多语言字幕 [7] - 工具适用于视频创作者 播客主 有声书作者和AI电影人 所有功能可通过API调用 [7] - 小米开源首个原生端到端语音模型Xiaomi-MiMo-Audio 参数规模70亿 预训练数据超1亿小时 [8] - 模型具备自然对话 音频字幕 长时间音频理解等多种能力 首次实现语音领域基于ICL的少样本泛化 [8] - 在MMSU MMAU等基准测试实现SOTA 可用于语音续写 语音编辑和音频理解 [8] 生物科技与AI交叉创新 - Retro Biosciences宣布年底启动实验药RTR242首次人体试验 可激活衰老细胞自噬系统 [9] - 公司使命是清理大脑中堆积变异蛋白和损伤分子 以延长人类10年健康寿命 [9] - 实验室中干细胞标记表达量提升50倍 公司计划募资10亿美元与Altos Labs竞争 [9] - Arc研究所和斯坦福大学团队利用Evo模型构建全球首个AI生成功能性噬菌体基因组 [10] - 所有功能性基因组携带67-392个新突变 部分基因组整合远缘噬菌体蛋白质并保持功能 [11] - 实验验证AI设计基因组能感染特定宿主菌株 展示AI协调复杂突变能力 [11] 开发工具与代码生成应用 - OpenAI公开Codex7种核心应用场景 包括代码理解 重构迁移 性能优化 提升测试覆盖率等 [12] - 技术团队用Codex快速理解陌生代码 批量修改多文件 优化性能瓶颈 生成单元测试 [12] - 公开6条最佳实践 包括用提问模式分析 迭代改进开发环境 构建详细提示等 [12]