腾讯研究院
搜索文档
腾讯研究院AI速递 20251121
腾讯研究院· 2025-11-20 16:02
生成式AI模型重大升级 - OpenAI同日推出GPT-5.1 Pro和GPT-5.1-Codex-Max两大模型,前者主打情商智商双强,后者是首个原生支持“压缩”机制的编码模型 [1] - GPT-5.1-Codex-Max能连续自主工作超24小时处理数百万token,思考token相比前代减少约30%,在SWE-bench Verified上达77.9%高分 [1] - 内部测试显示OpenAI工程师95%每周使用Codex,引入后团队Pull Request数量提升约70% [1] - 谷歌正式推出Gemini 3 Pro Image预览版,这是一款在生成图像前进行内部推理的“推理模型” [2] - Gemini 3 Pro Image支持64K输入token、32K输出token,可输出1K至4K分辨率图像,最多将14张输入图像组合为1张输出 [2] 计算机视觉与3D技术突破 - Meta发布SAM 3D家族包括SAM 3D Objects和SAM 3D Body,可将2D图像分割结果直接转换成3D模型,即使存在遮挡也能重建 [3] - SAM 3支持可提示概念分割功能,在LVIS零样本分割任务中准确率达47.0,超越SOTA 38.5 [3] - SAM 3D Objects采用12亿参数流匹配Transformer,在与人类用户直接对比测试中胜率至少达其他领先模型的5倍 [3] AI应用产品创新 - QQ浏览器电脑端v19.8.5版本将标签智能分组和较真AI功能加入AI+小窗,支持多任务同时处理互不干扰 [4] - 新增网页播客功能,支持AI播客和原生朗读双模式智能切换,15秒精准进退和5档倍速调节 [4] - Second Me产品让每个人在数字世界拥有独立ID和域名的“AI身份证”,可代表用户去表达和交谈的数字分身 [5] - 产品通过AI破冰精准匹配兴趣同好,降低行业社交沟通成本,用户可通过记录功能沉淀碎片化笔记和想法 [5] 智能硬件与可穿戴设备 - Lumia公司推出全球首款智能耳环Lumia 2,重量不到1克比AirPods小五倍,能实时监测头部血流 [7] - 产品新增睡眠、体温、月经周期和身体状态追踪等功能,采用专利SwitchBack技术可与任何耳环搭配使用 [7] - Lumia获得700万美元额外投资和510万美元政府资助,总融资达1720万美元 [7] 行业领袖动向与研究前沿 - 图灵奖得主Yann LeCun宣布在Meta工作12年后离职创业,65岁高龄仍选择推动高级机器智能(AMI)研究 [8] - 新公司目标是推动下一场AI重大革命,让系统理解物理世界、拥有持久记忆、具备推理能力并规划复杂行动序列 [8] 太空计算与AI基础设施竞赛 - 英伟达首次将H100 GPU送入太空,谷歌宣布2027年发射81颗搭载TPU的卫星 [9] - 中国中科天算启动“天算计划”,计划在太阳同步轨道部署万卡级太空超算中心 [9] - 2026年中科天算将实现首个GPU超算节点上天,目标总算力达10 EOPS,通过柔性光伏阵列实现超100MW零碳供能 [9] 市场需求与行业拐点 - 英伟达Q3营收达创纪录570亿美元,数据中心业务同比狂涨66%达512亿美元,并给出650亿美元下季度营收指引 [10] - 全球超算TOP500榜单显示GPU加速计算占比从六年前10%飙升至90% [10] - 英伟达毛利率约70%,预计到2030年全球AI基础设施投资达3-4万亿美元 [10]
推动人工智能在金融业的应用
腾讯研究院· 2025-11-20 09:03
金融业AI大模型应用现状 - 金融业AI应用已从概念探索进入大模型引领的规模化落地阶段,呈现头部机构引领与中小机构探索并行的格局[2][4] - 金融机构遵循风险可控优先、内部提效优先、辅助决策优先三项原则,聚焦幻觉风险可控、中后台流程、员工赋能等场景[4] - 银行业在应用深度与广度上领先,短期代码助手等成熟场景快速释放效率红利,部分机构超30%代码由AI生成,长期向智能投顾、营销等核心创收领域拓展[5] - 技术普惠降低资金技术门槛,DeepSeek、腾讯混元等高性能模型开源使中小机构可聚焦特定业务场景与私域数据挖掘,依托决策链短优势深耕供应链金融等垂直领域[5] AI技术演进对金融业的影响 - 具备感知、规划、决策与执行能力的智能体成为AI演进前沿形态,可调用API等工具实现从理解到行动的闭环,突破大模型“只建议、不行动”局限[7] - 在投资研究领域,多智能体研究团队可自动构建因果推理框架并迭代假设,从另类数据中挖掘投资机会,同时通过自我修正机制降低模型幻觉风险[7] - 在风险管理领域,多智能体协同网络可打破数据壁垒、实现风险要素实时联动,推动体系升级为实时全覆盖的数字化决策系统,实现毫秒级风险识别与决策同步[8] - 智能体通信协议等标准逐步形成,为专业能力向金融智能体安全开放提供基础,加速智能体在金融场景中的规模化渗透[8] 深化AI大模型在金融业应用的路径 - 需应对算法黑箱、监管时滞、羊群效应、投入产出不匹配等多重挑战,建立系统化方法论分阶段推进[10] - 坚持价值牵引,构建覆盖运营增效、业务创收、风险控制、客户体验的多维度价值评估体系,作为项目立项与资源投入标准[10] - 组建业务、产品、技术的跨部门作战单元,实现价值目标共同负责,流程上做到前端精准识别痛点场景与后端匹配技术能力的双向对接[10] - 构建分层协同模型架构:通用大模型提供基础认知、领域轻量模型面向具体场景精调、传统机器学习模型保障关键决策透明可解释[11] - 治理模型幻觉需在训练源头与知识库调用两端发力,训练阶段可嵌入带惩罚机制的置信度校准算法,知识库调用阶段加强数据治理并确保回答可追溯至原始资料[12] - 打造技术与管理协同的全流程风险防控闭环,确保人类专家在所有关键决策点拥有最终否决权[12]
腾讯研究院AI速递 20251120
腾讯研究院· 2025-11-19 16:13
谷歌Gemini 3模型发布 - 谷歌正式发布Gemini 3 Pro模型,以1501 Elo分登顶LMSys Arena排行榜,在Humanity‘s Last Exam测试中达到37.5%,在GPQA Diamond测试中达到91.9%,全面超越GPT-5.1和Claude Sonnet 4.5 [1] - 模型推出Deep Think模式以提升推理能力,在ARC-AGI-2测试中取得45.1%的突破性成绩,定价采用基于上下文长度的分级机制 [1] - Gemini 3定位为“通往AGI的重要一步”,在WebDev Arena以1487 Elo排名第一,开创“拒绝奉承”的直接交互风格 [1] 谷歌AI原生IDE产品Antigravity - 谷歌推出AI原生IDE产品Antigravity,将AI代理、代码编辑器和浏览器三大工具集成,构建从编码到部署的完整闭环 [2] - 产品核心创新在于“产物”驱动工作流,通过任务列表、实施计划和演练报告让AI工作过程透明可控,支持用户评论反馈和批准机制 [2] - 产品现已支持Gemini 3.0 pro、Claude 4.5 sonnet、GPT-OSS120B免费使用,提供MacOS、Windows、Linux三个版本 [2] Manus发布Browser Operator浏览器扩展 - AI自动化公司Manus推出Browser Operator浏览器扩展,让任意浏览器无需下载完整应用即可升级为AI浏览器 [3] - 该扩展能读取用户已登录会话、自动执行操作、跨标签页执行任务,将浏览器变成“可编排的工作界面”和“通用UI层” [3] - 演示显示可在LinkedIn中自动搜索符合岗位需求的候选人、解析JD、分析人脉并生成岗位需求文档 [3] 微软推出Work IQ智能层及AI产品升级 - 微软2025 Ignite大会推出Work IQ智能层,可记忆用户风格、偏好、习惯和工作流程,根据提示推荐合适智能体完成任务 [4] - Microsoft 365 Copilot全面升级,支持语音对话、抓取图像和文本,Excel可在Anthropic和OpenAI推理模型间选择,Sora 2接入Create功能 [4] - 推出Agent 365智能体控制平台,提供统一管理、访问控制、可视化、互操作性和安全措施五大核心功能,Windows全面引入智能体 [4] 微软英伟达联手注资Anthropic - 英伟达与微软承诺向Anthropic分别投资100亿美元和50亿美元,Anthropic承诺购买价值300亿美元Azure算力并签约1吉瓦额外容量 [5] - Claude系列模型全面登陆Azure,包括Claude Sonnet 4.5、Opus 4.1和Haiku 4.5,成为全球唯一同时登陆三大主流云服务的前沿模型 [6] - Anthropic将首批使用英伟达Grace Blackwell和Vera Rubin系统,双方展开联合设计与工程协作优化模型性能和未来架构 [6] Cloudflare全球服务宕机事件 - Cloudflare因权限升级导致机器人管理系统特征文件意外膨胀突破200条限制,触发内存溢出保护机制全球服务崩溃3小时 [7] - 故障影响约20%网站,ChatGPT、X、亚马逊、Spotify等服务全线宕机,Downdetector收到超210万条报错反馈,Cloudflare股价盘中重挫7% [7] - 事故暴露AI时代基础设施困境,为对抗AI爬虫而建的复杂防御系统反而导致顶级AI服务商宕机 [7] 斑马口语AI应用案例 - 斑马口语用纯AI外教实现一对一全英授课,孩子前三分钟开口率达98.8%,远超真人外教的85% [8] - 采用“产模一体”模式,基于猿力大模型和海量儿童教育数据微调,AI能针对不同水平孩子个性化沟通并提供高颗粒度的进阶路径 [8] - 团队打破传统流水线分工,教研与产品研发直接协作,形成“神经突触”式网状连接的AI Native组织 [8] Arm与英伟达深化合作 - Arm与英伟达深化合作,通过NVLink Fusion架构推广Neoverse计算平台,有望将Grace Blackwell级性能复制到整个生态系统 [9] - Fusion版本让Neoverse平台通过AMBA CHI C2C协议与英伟达GPU无缝传输数据,基于Neoverse的ASIC或CPU可高效对接英伟达GPU [9] - 合作企图巩固NVLink作为AI芯片互联行业标准地位,AWS、谷歌、微软、甲骨文和Meta等云服务商都在基于Neoverse构建应用 [9] 吴恩达谈AI行业瓶颈与趋势 - 吴恩达指出AI最大瓶颈是电力和半导体而非算法,强调“太多人想多跑推理但没有足够GPU、数据中心和电力”,能源建设差异正在放大国家算力竞争优势 [10] - AI编码助手正重新定义软件生产方式,成为“技能放大器”让更多岗位突破能力边界,未来竞争是“谁能把AI用出十倍效率差距”而非会否被替代 [10] - 企业落地AI最大障碍是组织结构与人的行为惯性而非技术,AI投资逻辑已从“降本工具”转向“速度工具”,正推动经济进入更高“智能密度”形态 [11]
GenAI难破优质内容创作的“不可能三角”|破晓访谈
腾讯研究院· 2025-11-19 08:33
文章核心观点 - 生成式人工智能正在引发文化产业生产力范式的深刻革命,行业面临“战略性焦虑”与“机遇性渴望”并存的复杂局面[2] - GenAI在长视频、短视频、音乐、动画、网络文学等重点领域的应用正推动系统性变革,核心趋势是人机协同、效率革命与生态重塑[2][7] - AI原生内容将“消灭平庸”,迫使人类创作者向上突破,行业竞争从“量的竞争”转向“质的竞争”[7][15] GenAI在文化产业的落地应用现状 - 网络文学领域AI应用已覆盖基础描写、灵感激发和资料查阅环节,但产出质量仍较粗糙,难以替代对作品质量有要求的作者[10] - 音乐行业AI已广泛应用于创作、混音、编曲等环节,平台榜单出现AI制作歌曲,对话式AI工具使普通人通过聊天即可生成音乐[11] - AI漫剧成为最适合的产业落地场景,实现了成本革命和存量市场开拓,形成“轻IP、高效率、高产能”运营模式[12][13][16] - 内容创作工程化需要三大要素:原始IP资产、人机交汇的创作平台能力以及核心创意[12][13] GenAI带来的产业变革与商业模式创新 - “超级个体”或“微型团队”将成为新常态,人机协同能力是未来核心竞争力[7][19][20] - 文化产业价值中心向产业链“两极”转移:顶层创意架构设计和直接面向市场的运营变现[7] - IP形态呈现“长、中、短”并存竞争格局,短IP优势在于低门槛和高参与度,未来可能走向“每个人看的都不一样”的极致个性化[26] - 可能催生新型商业模式如创作者直接与平台对接的“旗舰店”模式,实现创作者与消费者直接对接[24] GenAI的技术能力边界与内容质量挑战 - AI在生成类型化、风格鲜明的音乐方面表现更成熟,如爵士、放克、摇滚等风格化音乐[15] - AI目前存在四大主要问题:一致性、自然多样性、物理世界拟真度、人物情感表达[16] - 人类创作者需重点提升情感细腻表达、计谋复杂设计、人情世故深度刻画等AI不擅长领域[14] - 高质量作品必须有人类创意投入,低人力劳动、低技术成本与高作品质量不可能同时实现[33] 消费者接受度与内容价值演进 - 消费者对AI内容接受度核心取决于内容质量高低,而非是否由AI生成[27][28] - GenAI推动消费动机从浅层“情绪刺激”升级为深度“情感与价值观认同”[29] - 小IP只要与粉丝价值观高度契合,即使仅有5000个粉丝,每人年消费1000元即可创造500万元收入[29] 行业潜在风险与生态影响 - GenAI可能导致传统“人才成长路径断裂”与“圈层固化”风险,新人作者可能失去实践提升机会[31][32] - AI核心优势是“多元性”,难点是“可控性”,随机性带来内容多元性的同时导致精确控制成本升高[33] - 音乐行业平均水准歌曲暴增可能稀释整个曲库价值,使音乐创作变得平均化[28]
腾讯研究院AI速递 20251119
腾讯研究院· 2025-11-18 16:01
大模型性能突破 - xAI发布Grok 4 1双版本模型 其Thinking版以1483 Elo分数登顶LMArena排行榜 非推理版本以1465 Elo排名第二 超越Gemini 2 5 Pro [1] - 该模型在EQ-Bench情商测试中以1586 Elo成绩登顶 创意写作得分比上一代提升600分 幻觉率暴降3倍 [1] - xAI将后训练阶段强化学习规模扩大一个数量级 利用前沿AI智能体推理模型作为奖励模型自动优化回答质量 并对所有用户免费开放 [1] 新公司与重大融资 - 贝佐斯创立物理AI公司Project Prometheus并亲任联席CEO 公司首轮融资获得62亿美元约合人民币440亿元 员工规模已达上百人 [2] - 公司研究重点是将AI应用于机器人 药物设计和科学发现等物理任务 专注于计算机 汽车和航空航天等高技术领域 [2] - 另一位联席CEO是物理学家兼化学家Vik Bajaj 曾在谷歌X研究机构与谢尔盖·布林合作 并创立领导过多家科技创新企业 [2] 多智能体与推理系统 - 谷歌为Gemini Enterprise开发多智能体系统 该系统可扮演联席科学家角色 通过锦标赛式评估生成并排序约100个想法 [3] - 该系统允许Gemini针对单个问题持续运行约40分钟 代表L3级AI能力 每个想法都附带完整的评审报告和锦标赛表现分析 [3] - 系统核心包括"想法生成"和"联席科学家"两款智能体 用户需审查并批准计划摘要后才能启动任务 以确保巨大算力投入的合理性 [3] 机器人基础模型进展 - Physical Intelligence发布最新机器人基础模型π*0 6 采用Recap方法结合演示训练 纠错指导和自主经验强化学习 提升具身智能成功率和处理效率 [4] - 该模型在执行制作咖啡 折叠衣物和组装纸箱等复杂任务时成功率超过90% 吞吐量提高2倍以上 失败率降低2倍或更多 [4] - π*0 6基于π0 6改进 通过价值函数解决信用分配难题 完全使用真实世界数据训练 能够在新环境中灵活执行未知任务 [4] 模型商业化与市场表现 - MiniMax M2推出编程套餐首月价格仅为9 9元 在OpenRouter平台其token调用量已冲至全球Top5 成为调用量最大的国产模型 [5][6] - 该模型性能位列全球榜单第五 价格仅为Claude的8% TPS稳定在100以上 响应速度快且代码质量与Claude Sonnet 4 5基本持平 [6] - M2支持Anthropic和OpenAI两种标准格式 可无缝接入Claude Code和Cursor等主流编程工具 配置过程仅需5分钟 [6] 视频生成与编辑技术 - PixVerse上线V5 Fast和Modify精修功能 视频生成速度提升超过30% 生成5秒高清视频可在1分钟内完成 并支持端到端视频编辑 [7] - Modify功能支持对生成视频进行元素替换 风格修改 材质调整 光线色调和人物编辑等多维度精细化修改 无需重新生成视频 [7] - V5 Fast通过推理结构轻量化和帧间计算依赖缩短实现加速 其开发公司爱诗科技已完成1亿元人民币B+轮融资 平台累计服务用户超一亿 [7] 全模态AI应用开发 - 蚂蚁集团推出全模态通用AI助手「灵光」 支持通过自然语言在30秒内生成小应用 并可进行全代码生成多模态内容 [8] - 该助手支持输出3D数字模型 音频 图标 动画 地图等全模态信息 旨在使对话更生动 交流更高效 [8] - 「灵光」首批上线功能包括"灵光对话" "灵光闪应用"和"灵光开眼" 已同步登陆安卓与苹果应用商店 [8] AI在游戏与创意生成 - Gambo AI推出全球首个专为游戏开发打造的"氛围编程"Agent 用户输入一句话即可在5-10分钟内生成可商业化发布的完整游戏 [9] - 平台实现从美术资源生成 动画制作 音乐作曲 关卡设计到商业变现的全自动流水线 零代码零美术基础 纯自然语言驱动 [9] - 平台集成变现功能可自动在游戏中嵌入广告点位实现"发布即盈利" 但目前仅支持2D平台跳跃类游戏 复杂关卡可能需要手动微调 [9] 气候预测与科学计算 - 谷歌DeepMind推出WeatherNext 2气候预测模型 其生成预报的速度提升8倍 分辨率最高可达1小时 单次预测在单个TPU上耗时不到一分钟 [10] - 该模型采用功能生成网络新方法 可从单个起点预测数百种可能的天气结果 在99 9%的变量和预测时间上超越前代模型 [10] - 预报数据已在Earth Engine和BigQuery中提供 谷歌云Vertex AI平台推出定制模型推断抢先体验项目 并已升级搜索和Gemini等产品 [11] AI行业投资与市场趋势 - CB Insights报告显示2024年AI Agent创业公司融资总额达38亿美元 是2023年的三倍 Voice AI成为增长最快赛道 2025年已融资4亿美元 [11] - Coding AI Agents领域领跑 Cursor以5亿美元年度经常性收入居首 Customer service AI的估值倍数高达219倍 远超80倍的平均水平 [11] - 推理模型使输出Token量激增20倍导致成本倒挂 2025年已发生超过35起收购案 Agent监控工具成为企业级新刚需 [11]
AI导致硅谷十万大裁员?
腾讯研究院· 2025-11-18 08:33
硅谷裁员的片面认识 - 美国科技行业今年裁员近11万人 但这是近四年裁员最少的年份 不及2023年的一半[3] - 不能只看裁员而不看招聘 近两年美国主要科技公司雇员规模稳中有进 Alphabet、微软和Netflix的雇员数量处于历史最高水平[5] - 不能只看疫情后裁员而不看疫情中招聘 2019年底到2023年 苹果、亚马逊、Meta、微软和Alphabet共增加90多万岗位 亚马逊2021年下半年净增27.3万人 近四年70万裁员远不及疫情期间的100万大招聘[7] AI与裁员的因果关系 - 硅谷大裁员始于2022年 与ChatGPT发布在时间上同步 但时间同步性不意味着存在因果关系[9] - 没有直接证据表明是AI导致了裁员 亚马逊CEO称裁员1.4万人是因企业文化 微软称裁撤9000人是为组织变革 Salesforce CEO将裁减4000个客服岗位归于AI但被指有推销新产品嫌疑[10] AI对美国程序员就业的影响 - 美国程序员就业人数持续下滑20多年 并非近年才发生 因此AI不能解释之前的下降趋势[13] - AI编写50%的代码不意味着取代50%的程序员 代码需人工复核调试 且编写代码仅是程序员工作的一部分[14] - 对比英国 计算机编程等相关活动就业人数从2011年的48.3万增长至2023年的109.3万 年均复合增长率达7%[13] AI的企业采纳率及其影响 - 欧美主要国家的企业AI采纳率处于10%-20%的低水平区间 尚处于早期阶段[18] - 当前AI采纳率较低 尚难对就业整体产生直接冲击 但对部分业务环节的就业影响已经显现[20]
北京粉丝福利|11月22日,腾讯研究院 X 虎嗅F&M创新节赠票,先到先得
腾讯研究院· 2025-11-18 08:33
活动概述 - 腾讯研究院与虎嗅联合主办的第三届F&M创新节辩论赛将于2025年11月22日在北京798·751园区79罐举行 [2][3] - 活动主题为“AI会导致人类升智还是降智”,时间为11月22日周六11:15至12:25 [10][20][29] - 活动提供粉丝福利,通过兑换码“腾讯研究院”可兑换11月22日单日票,余票100张 [2][37] 核心阵容 - 辩论主席由清华大学新闻传播学博士、北京工业大学社会学系讲师、原国际关系学院及清华大学辩论队教练冯若谷担任,其以清晰逻辑和精准控场著称 [4][5] - 评委团包括腾讯公司副总裁、腾讯研究院总顾问杨健,资深媒体人李焱,以及VAST创始人宋亚宸,提供科技产业、媒体视角及创业前沿的多维点评 [8] 辩论双方 - 正方“升智派”阵容包括《奇葩说》辩手王梅、前清华辩论队队长杨鸿宇、B站百万UP主“老蒋巨靠谱”以及程序员出身的《奇葩说》辩手子寅,侧重论证AI的认知杠杆和认知平权价值 [16][17] - 反方“降智派”阵容包括泥藕资本董事总经理杨子江、腾讯研究院研究员赵子飞、作家小野酱及法学硕士兼编剧孙嘻,侧重拆解AI导致人类思维惰性的底层逻辑 [26][27] 活动亮点 - 本届辩论赛在去年“跨界混搭、金句刷屏”基础上进行全面升级,结合辩论专业攻防、脱口秀幽默输出及行业专家深度解读 [36] - 活动定位为“顶级思辨对决”,旨在围绕AI与人类智慧的前沿议题展开高能碰撞 [3][36]
腾讯研究院AI速递 20251118
腾讯研究院· 2025-11-17 16:18
Meta AI绩效考核与工具应用 - Meta将从2026年起正式将"AI驱动的影响"纳入员工绩效核心指标 考核员工利用AI提升工作成果及团队生产力[1] - 公司推出"Level Up"闯关游戏项目和AI绩效助手工具 鼓励员工尽可能多使用内部AI聊天机器人Metamate[1] - Meta允许部分求职者在编码面试中使用AI助手 认为这更能代表真实开发环境[1] 谷歌NotebookLM多模态功能升级 - 谷歌NotebookLM于11月15日新增图像数据源功能 支持自动完成OCR光学字符识别和语义解析[2] - 底层多模态模型能分辨手写与印刷区域 提取表格结构 并与用户已有的文本 音频 视频笔记自动关联[2] - 功能上线48小时内教育账号上传图像量突破50万页环比增加340% 谷歌计划明年集成AR眼镜实时拍摄接口[2] 阿里千问APP公测与场景覆盖 - 千问APP公测版正式上线 底座是Qwen3模型 提供All in One入口让用户免费体验整套AI能力[3] - 该应用将陆续覆盖办公 地图 健康 购物等多个生活场景 让AI成为日常伙伴[3] - 千问将持续进化并上线Qwen最新模型 目前已在国内各大应用商店上线可搜索下载[3] 智谱GLM Coding Plan产品与市场表现 - 智谱"GLM Coding Plan·特供版"优惠包月套餐上线 在新人首购5折基础上再叠加额外8折 每月最低仅16元[4] - 基于旗舰模型GLM-4.6驱动 在LMArena百万开发者评测中与Claude Sonnet 4.5 GPT-5并列全球第一 支持200K超长上下文[4] - 已官方适配Claude Code Cline Roo Code等10+主流AI编程工具 多家美国科技公司如Cerebras Vercel已采用GLM-4.6[4] 小米智能家居AI解决方案 - 小米推出首个"大模型+智能家居"解决方案Miloco 以米家摄像头为视觉信息源 自研大语言模型MiMo-VL-Miloco-7B为核心[5] - 用户可通过自然语言与智能家居系统对话沟通 系统自动完成家庭生活中的各类智能需求和规则[5] - 小米AIoT平台已连接IoT设备数近10亿台 Miloco通过标准化MCP协议实现米家生态与Home Assistant生态打通[5] MiroMind开源模型技术突破 - MiroMind推出开源智能体基座模型MiroThinker v1.0 提出全新"深度交互Scaling"维度 支持256K上下文和600轮工具调用[6] - 在BrowseComp测试中准确率达47.1%逼近OpenAI DeepResearch的51.5% 中文任务BrowseComp-ZH超越DeepSeek-v3.2达7.7个百分点[6] - 采用彻底开源架构开放所有模型权重 工具链和交互框架 72B版本逼近甚至超越OpenAI DeepResearch[6] 医疗AI模型临床应用成果 - 未来医生AI工作室核心模型MedGPT在32位国内顶尖临床专家组织的多模型实战测评中击败GPT-5等国际前沿大模型[7] - 推出临床决策AI助手和患者随访AI助手两款产品 分别在诊中提供决策辅助 在诊后支撑患者随访实现慢病管理[7] - 已被数十位全国学科主委纳入日常使用 被专家一致认为是AI赋能基层医疗的"最佳实践"[7] 世界模型理论与应用发展 - 李飞飞直言AGI"更像营销术语而非科学术语" 强调当前AI最大短板是缺乏空间智能这种三维世界导航操控能力[8] - 阐述世界模型三个核心能力:生成性 多模态和交互性 认为仅靠数据和算力无法让机器人真正成熟[8] - World Labs发布全球首个大型世界模型产品Marble 在影视制作 游戏开发等领域获得广泛应用 创作时间缩短40倍[8]
江小涓:产业创新和科技创新的融合发展,不仅仅是一个表述
腾讯研究院· 2025-11-17 08:33
文章核心观点 - 数智时代创新范式转变为数据和人工智能驱动 要求科技创新与产业创新深度融合 企业成为创新前沿的引领者而非仅仅是技术转化者 [3][6][7] - “十五五”规划建议首次将“推动科技创新和产业创新融合发展”单独列出 特别强调强化企业科技创新主体地位和创新资源向企业聚集 [3][4] - 企业凭借数据、算法和算力优势 在蛋白质结构预测、新材料研发等基础科学领域做出革命性贡献 并直接应用于精准医疗等产业场景 [7][8] - 企业风险投资(CVC)正成为前沿技术早期投资的重要力量 其战略投资和耐心资本特性降低了对传统IPO退出路径的依赖 [12][13][14] 产业在科技创新全链条中的地位更加突出 - 2014年为分水岭 此前最前沿大模型由高校主导 之后均由大型平台企业主导 因创新需海量数据、巨大算法算力及快速密集投入 高校难以具备 [7] - 谷歌团队通过算法预测蛋白质结构 自2021年4月起已预测超过100万个物种的2.14亿个蛋白质三维结构 为生命科学领域奠定革命性基础 [8] - 复杂产业链创新需匹配材料、工艺、成本、市场需求等多重因素 企业通过智能体间海量计算实现高效匹配 此能力高校难以企及 [9] - 企业创新成功即可直达海量用户 无缝衔接商业应用 不存在高校技术面临的“转化难题” 本质是问题导向和应用导向的研发 [10] 科创资金更多来自产业投资 - 在早期前沿技术投资领域 阿里巴巴、腾讯、蚂蚁集团等企业的投资活跃度自2019年起已远超高瓴资本、IDG等传统风险投资/私募股权机构 [12] - 企业风险投资包含大量战略投资者和耐心资本 其投资逻辑侧重于强化自身产业链整体竞争力 对通过上市退出的依赖性较弱 [13] - 全球趋势显示 在数智化创新时代 马斯克旗下公司、Databricks、谷歌等大型科技公司正以数十亿规模直接投资非常前沿的项目 [14] 理论逻辑与数据洞察双轮驱动 - 数据和人工智能驱动创新建立在前期理论科学发现奠定的方向和路径基础上 例如蛋白质结构研究已知其由20种氨基酸组合而成 [15] - 在前期积累基础上 数据和人工智能驱动创新当前进入成果产出蓬勃发展的时期 但理论创新的指引作用依然不可或缺 [15]
腾讯研究院AI速递 20251117
腾讯研究院· 2025-11-16 16:01
开源欧拉操作系统进展 - 开源欧拉社区发布全球首个专为AI打造的超节点操作系统,计划于2025年底上线[1] - 社区生态发展迅速,成员单位超过2100家,全球贡献者突破2.3万人[1] - 新操作系统具备全局资源抽象、异构资源融合和全局资源视图三大特征,旨在释放超节点算力潜能[1] - 灵衢互联协议2.0开放,将贡献支持超节点的操作系统插件代码,提供内存统一编址等关键能力[1] 谷歌AI模型与产品动态 - 谷歌CEO对Gemini 3.0下周登场的传闻作出回应,69%网友押注其即将发布[2] - 内测显示Gemini 3.0能力强大,可一句话生成操作系统、动态构建Windows系统、5秒搭建网站[2] - 巴菲特已投入43亿美元重仓谷歌股票,市场对Gemini 3.0寄予厚望[2] - 谷歌DeepMind推出SIMA 2智能体,能像人类一样观看屏幕使用虚拟键鼠打游戏,具备推理和学习能力[3] - SIMA 2可理解多模态提示并通过自我学习实现提升,采用符号回归方法并整合Gemini作为核心引擎[3] - 谷歌NotebookLM推出Deep Research功能,可自动收集相关网页源并在几分钟内为用户搭建专属资料库[7] - NotebookLM支持2500万token上下文处理,所有回答基于用户提供的来源且带引用标注,可验证性强[7] AI操作系统与记忆系统创新 - 陈天桥盛大团队推出EverMemOS长期记忆操作系统,在特定评测集上取得92.3%和82%的高分,超越现有最佳水平[4] - 该系统受人脑记忆机制启发,采用四层架构,通过分层记忆提取与动态组织解决检索难题[4] - 目前已在Github开源,预计今年晚些时候发布云服务版本,为企业提供数据持久化体验[4] 消费级AI硬件产品 - 前Meta员工创立的Sandbar发布Stream智能戒指,售价249-299美元,专注于“语音鼠标”式AI语音交互[5] - 产品采用“握拳私语”交互方式,按住触控板激活录音,可动态切换多个大模型处理任务,但续航仅16-20小时[6] - 配套iOS App使用ElevenLabs生成语音模型模仿用户声音,所有数据端到端加密不保存原始音频[6] AI基础研究与科学发现 - 北京大学团队推出AI-Newton系统,采用符号回归方法,在无监督、无物理先验知识前提下重新发现牛顿第二定律等基础物理规律[8] - 系统在测试中平均识别出约90个物理概念和50条一般定律,展现出渐进性和多样性两大特性[8] - OpenAI发布可解释性新研究,提出训练稀疏模型使内部机制更易被理解,通过找出“最小回路”并量化可解释性[9] - 研究发现训练更大更稀疏的模型可生成功能更强但回路更简单的模型,但该研究仍处早期阶段[9] xAI与马斯克的AI战略 - 马斯克在X与特斯拉双平台推进xAI,其Colossus超算数据中心在122天内部署20万块H100 GPU,用于训练Grok系列模型[10] - xAI采用“求真、不设禁忌”路线,让AI生成合成数据重构知识体系,特斯拉下一代AI5芯片性能将提升40倍[10] - Grok很快将进入特斯拉汽车,xAI开源Grok-2.5模型并计划半年后开放Grok-3,马斯克预计2030年AI总体能力可能超越全人类[11]