Manus 1.6 发布与AI Agent能力跃升 - Manus 1.6 Max发布,实现从“辅助工具”到“独立承包商”的质变,用户满意度提升19.2%,采用子Agent并行处理架构,能独立完成复杂Excel财务建模和数据分析 [1] - 新增移动开发功能,支持端到端App开发流程,用户只需描述需求即可生成可运行的iOS和Android应用 [1] - 推出Design View设计视图,实现局部修图、精准文字渲染和多图层合成,解决AI生图不可控的痛点 [1] OpenAI开源稀疏模型与可解释性研究 - OpenAI开源Circuit-Sparsity模型,参数量仅0.4B,强制99.9%权重为零仅保留0.1%非零权重,旨在解决模型可解释性问题 [2] - 该稀疏模型内部形成紧凑可读的“电路”,规模比密集模型缩减16倍,神经元激活具有明确语义,但运算速度慢100至1000倍 [2] - 研究团队提出“桥梁网络”方案,在稀疏模型与密集模型间插入编码器-解码器对,实现对现有大模型的可解释性行为编辑 [2] 模型微调与推理服务更新 - 前OpenAI CTO创办的Thinking Machines全面开放Tinker产品,这是一个用于帮助开发者微调语言模型的API [3] - Tinker新增支持Kimi K2 Thinking(万亿参数规模专为长链推理设计)和Qwen3-VL视觉输入(30B和235B两款模型)的微调 [3] - 提供兼容OpenAI API的全新推理接口,用户可即插即用接入任何兼容OpenAI API的平台,简化LLM后训练过程 [3] 谷歌产品整合与AI工具进化 - NotebookLM正式“接入”Gemini体系,用户可在Gemini对话中直接添加NotebookLM笔记作为数据源进行问答 [4] - Gemini成为连接多个NotebookLM笔记的“中枢”,解决了NotebookLM不支持笔记本合并的问题,可同时调用多个笔记进行查询 [4] - NotebookLM内容开始可与网络信息同时使用,实现“个人资料+全网信息”混合式分析,从“小众研究工具”融入谷歌核心AI产品线 [4] 通义语音与识别模型升级 - 通义百聆发布Fun-CosyVoice3模型升级,首包延迟降低50%,中英混字准确率翻倍,支持9语种18方言口音跨语种克隆与情感控制 [5] - Fun-ASR在噪声场景准确率达93%,支持歌词与说唱识别、31语种自由混说、方言口音覆盖,并将流式识别模型的首字延迟降低到160ms [5] - 开源Fun-CosyVoice3-0.5B提供zero-shot音色克隆能力,并开源Fun-ASR-Nano-0.8B轻量化版本以降低推理成本 [6] Zoom与AI模型在专业考试中的表现 - 视频会议公司Zoom宣称在“人类最后的考试”HLE基准测试上取得48.1%成绩,比Google Gemini 3 Pro的45.8%高出2.3个百分点 [7] - Zoom采用“联邦AI方法”,将自研小型语言模型与OpenAI、Anthropic、Google等公司的闭源和开源模型组合,通过Z-scorer评分系统选择输出 [7] - 该成绩未出现在HLE官方排行榜,发布当天Sup AI已宣布以52.15%准确率超越,Zoom正试图成为企业工作流中的AI中枢 [7] AI模型在金融专业资格考试中的突破 - 最新研究显示推理模型全部通过CFA三级考试,Gemini 3.0 Pro在一级考试中创下97.6%的历史最高纪录,GPT-5在二级考试中以94.3%领先 [8] - 在三级考试中,Gemini 2.5 Pro选择题达86.4%,Gemini 3.0 Pro问答题达92.0%,短短两年从“不及格”到“近乎满分” [8] - 专家指出会考试不等于能干活,AI在“道德伦理”类题目最吃力,且无法排除“数据污染”可能,不能替代分析师的战略思考和客户沟通 [8] 医疗AI公司估值与商业化进展 - OpenEvidence正在进行2.5亿美元股权融资,投后估值达120亿美元,较两个月前上一轮私募估值翻了一番 [9] - 该公司通过向制药公司出售聊天机器人广告位赚钱,目前年化广告收入约1.5亿美元,比8月份增长3倍,毛利率高于90% [9] - 根据OffCall调查,约45%美国医生使用OpenEvidence,每月回答来自美国医生约2000万个问题,使用医学期刊许可信息比通用聊天机器人更准确 [9] AI在软件开发中的深度应用 - OpenAI仅用4人工程团队与AI智能体Codex协作,在28天内完成安卓版Sora开发,消耗约50亿Token,约85%代码由AI完成 [10] - 团队采用“探索-验证-联邦”智能体工作流,Codex处理繁重编码任务,工程师专注架构、用户体验和质量把控,实现99.9%无崩溃率 [10] - Codex已承包OpenAI内部每周70%的PR,能监控自己训练过程并处理用户反馈,形成“AI迭代AI”的自我进化模式 [10] AI成人内容市场趋势与社会影响 - 到2025年AI成人内容市场规模将达约25亿美元,到2028年可能以每年约27%速度增长,OpenAI、Meta等巨头纷纷布局该领域 [11] - AI成人内容彻底颠覆传统生产方式,可按需定制性格、语气、外貌,研究显示人类会觉得AI生成的脸比真人脸“更真实” [11] - DeepFake技术成为校园霸凌和羞辱女性工具,仅需一张照片AI就能“脑补”裸体,专家警告AI正在制造隔离而非缓解孤独 [11]
腾讯研究院AI速递 20251216
腾讯研究院·2025-12-15 16:22