腾讯研究院AI速递 20251216

Manus 1.6 发布与AI Agent能力跃升 - Manus 1.6 Max发布，实现从“辅助工具”到“独立承包商”的质变，用户满意度提升19.2%，采用子Agent并行处理架构，能独立完成复杂Excel财务建模和数据分析 [1] - 新增移动开发功能，支持端到端App开发流程，用户只需描述需求即可生成可运行的iOS和Android应用 [1] - 推出Design View设计视图，实现局部修图、精准文字渲染和多图层合成，解决AI生图不可控的痛点 [1] OpenAI开源稀疏模型与可解释性研究 - OpenAI开源Circuit-Sparsity模型，参数量仅0.4B，强制99.9%权重为零仅保留0.1%非零权重，旨在解决模型可解释性问题 [2] - 该稀疏模型内部形成紧凑可读的“电路”，规模比密集模型缩减16倍，神经元激活具有明确语义，但运算速度慢100至1000倍 [2] - 研究团队提出“桥梁网络”方案，在稀疏模型与密集模型间插入编码器-解码器对，实现对现有大模型的可解释性行为编辑 [2] 模型微调与推理服务更新 - 前OpenAI CTO创办的Thinking Machines全面开放Tinker产品，这是一个用于帮助开发者微调语言模型的API [3] - Tinker新增支持Kimi K2 Thinking（万亿参数规模专为长链推理设计）和Qwen3-VL视觉输入（30B和235B两款模型）的微调 [3] - 提供兼容OpenAI API的全新推理接口，用户可即插即用接入任何兼容OpenAI API的平台，简化LLM后训练过程 [3] 谷歌产品整合与AI工具进化 - NotebookLM正式“接入”Gemini体系，用户可在Gemini对话中直接添加NotebookLM笔记作为数据源进行问答 [4] - Gemini成为连接多个NotebookLM笔记的“中枢”，解决了NotebookLM不支持笔记本合并的问题，可同时调用多个笔记进行查询 [4] - NotebookLM内容开始可与网络信息同时使用，实现“个人资料+全网信息”混合式分析，从“小众研究工具”融入谷歌核心AI产品线 [4] 通义语音与识别模型升级 - 通义百聆发布Fun-CosyVoice3模型升级，首包延迟降低50%，中英混字准确率翻倍，支持9语种18方言口音跨语种克隆与情感控制 [5] - Fun-ASR在噪声场景准确率达93%，支持歌词与说唱识别、31语种自由混说、方言口音覆盖，并将流式识别模型的首字延迟降低到160ms [5] - 开源Fun-CosyVoice3-0.5B提供zero-shot音色克隆能力，并开源Fun-ASR-Nano-0.8B轻量化版本以降低推理成本 [6] Zoom与AI模型在专业考试中的表现 - 视频会议公司Zoom宣称在“人类最后的考试”HLE基准测试上取得48.1%成绩，比Google Gemini 3 Pro的45.8%高出2.3个百分点 [7] - Zoom采用“联邦AI方法”，将自研小型语言模型与OpenAI、Anthropic、Google等公司的闭源和开源模型组合，通过Z-scorer评分系统选择输出 [7] - 该成绩未出现在HLE官方排行榜，发布当天Sup AI已宣布以52.15%准确率超越，Zoom正试图成为企业工作流中的AI中枢 [7] AI模型在金融专业资格考试中的突破 - 最新研究显示推理模型全部通过CFA三级考试，Gemini 3.0 Pro在一级考试中创下97.6%的历史最高纪录，GPT-5在二级考试中以94.3%领先 [8] - 在三级考试中，Gemini 2.5 Pro选择题达86.4%，Gemini 3.0 Pro问答题达92.0%，短短两年从“不及格”到“近乎满分” [8] - 专家指出会考试不等于能干活，AI在“道德伦理”类题目最吃力，且无法排除“数据污染”可能，不能替代分析师的战略思考和客户沟通 [8] 医疗AI公司估值与商业化进展 - OpenEvidence正在进行2.5亿美元股权融资，投后估值达120亿美元，较两个月前上一轮私募估值翻了一番 [9] - 该公司通过向制药公司出售聊天机器人广告位赚钱，目前年化广告收入约1.5亿美元，比8月份增长3倍，毛利率高于90% [9] - 根据OffCall调查，约45%美国医生使用OpenEvidence，每月回答来自美国医生约2000万个问题，使用医学期刊许可信息比通用聊天机器人更准确 [9] AI在软件开发中的深度应用 - OpenAI仅用4人工程团队与AI智能体Codex协作，在28天内完成安卓版Sora开发，消耗约50亿Token，约85%代码由AI完成 [10] - 团队采用“探索-验证-联邦”智能体工作流，Codex处理繁重编码任务，工程师专注架构、用户体验和质量把控，实现99.9%无崩溃率 [10] - Codex已承包OpenAI内部每周70%的PR，能监控自己训练过程并处理用户反馈，形成“AI迭代AI”的自我进化模式 [10] AI成人内容市场趋势与社会影响 - 到2025年AI成人内容市场规模将达约25亿美元，到2028年可能以每年约27%速度增长，OpenAI、Meta等巨头纷纷布局该领域 [11] - AI成人内容彻底颠覆传统生产方式，可按需定制性格、语气、外貌，研究显示人类会觉得AI生成的脸比真人脸“更真实” [11] - DeepFake技术成为校园霸凌和羞辱女性工具，仅需一张照片AI就能“脑补”裸体，专家警告AI正在制造隔离而非缓解孤独 [11]