Workflow
通用人工智能
icon
搜索文档
通往通用人工智能的关键一步?DeepMind放大招,3D世界最强AI智能体SIMA 2
机器之心· 2025-11-20 02:07
产品发布与定位 - Google DeepMind发布SIMA 2,这是一个能在虚拟3D世界中自主游戏、推理并持续学习的通用AI智能体[2] - 公司创始人将其定义为通往通用人工智能的关键一步[3] - SIMA 2代表了从SIMA 1的重大飞跃,是创建通用和有益AI智能体研究的下一个里程碑[6] 技术架构与核心能力 - SIMA 2集成Gemini模型的先进能力,从被动的指令遵循者进化为交互式游戏伴侣[6] - 新架构将SIMA 1的语言->行动模式升级为语言->意图->计划->行动的多步骤认知链[15] - 智能体不仅能遵循人类指令,还能在未见过的复杂环境中进行自主规划、解释行动步骤、与用户实时对话[6] - 通过试错与Gemini反馈的闭环机制自我迭代,提升技能[6] 性能提升与泛化能力 - SIMA 2能理解更复杂、更细微的指令,执行指令时成功率更高,尤其在未训练过的游戏中表现出色[24] - 具备理解多模态提示的能力,包括不同语言和表情符号[26][29] - 迁移学习能力显著,例如将一种游戏中对"采矿"的理解应用到另一种游戏的"收获"概念中[30] - 在多种任务上的表现已显著接近人类玩家水平[30] 创新测试与自我进化 - 与Genie 3结合测试时,SIMA 2能在全新生成的世界中合理定位、理解指令并采取有意义的行动[32] - 具备自我提升能力,能够通过试错法和基于Gemini的反馈执行日益复杂和新颖的任务[35] - 经过多代训练后,智能体可在完全无需人类反馈或游戏数据的情况下实现自我进化[39] 行业意义与应用前景 - 该技术对机器人技术和人工智能的未来具有重要意义,正在构建未来物理世界智能体所需的核心认知构建模块[7] - 智能体学到的技能(导航、工具使用、协作任务执行)都是未来物理世界AI助手所需的智能物理具身化的基本构建模块[43] - 这项研究为面向行动的AI提供了新路径的基础验证,证实了通才型智能体的可行性[43]
世界模型崛起,AI路线之争喧嚣再起
36氪· 2025-11-20 01:58
行业技术路线分歧 - 当前AI发展存在核心路线分歧:以大语言模型为代表的文本驱动路径与以世界模型为代表的物理认知路径[3] - 大语言模型受限于文本数据的质量、规模和时效性,存在数据偏见、噪声干扰和认知边界固化的局限[3] - 世界模型派认为语言是人类创造的抽象信号,仅依赖文本无法真正理解物理世界规律,需通过高维感知数据直接建模[4] 世界模型技术特点 - 世界模型通过多模态数据学习现实世界物理规则,具备预测环境状态、物理认知和反事实推理三大核心能力[11] - 技术架构包含状态表征模型(压缩高维数据)、动态模型(预测状态转移)和决策模型(规划最优动作)三大组件[12][13] - 模型使AI从"感知"升级为"推理",从"想象"转化为"行动",为具身智能、自动驾驶等领域提供基础支撑[6] 科技公司布局动态 - 谷歌DeepMind推出Genie 3模型,可实时生成交互式3D环境,在720p分辨率下创建用户可自由探索的动态世界[16] - Meta发布代码世界模型,通过5T tokens执行轨迹数据训练,能逐行模拟代码运行过程,推动AI编程进入动态执行推理新阶段[16] - 英伟达将"物理AI"视为下一个增长点,利用Omniverse平台创建仿真环境支持机器人领域扩张[16] - 特斯拉在自动驾驶系统中嵌入世界模型,构建虚拟环境进行能力学习和验证[17] 技术应用前景与挑战 - 世界模型可应用于机器人、控制、模拟和基于模型的强化学习等领域,推动AI从虚拟交互走向物理世界应用[7][10] - 面临多模态数据收集成本高、缺乏统一标准与评价体系、决策过程可解释性差等技术与生态挑战[20] - 产业层面需解决算法主权、智能监管等制度议题,伦理层面需防范目标漂移和价值观对齐问题[20][21]
GoogleGemini3:双版本发布、多模态更新
海通国际证券· 2025-11-20 01:17
报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 报告的核心观点 - Gemini 3的发布是谷歌迄今最强的AI模型,标志着其AI战略从“工具输出”转向“生态嵌入”,旨在加速通用人工智能(AGI)的落地进程 [1][5] - 该模型在通用推理、多模态理解、编程开发与任务执行四大核心维度实现全面升级,并在多项高端基准测试中刷新纪录,构建起相对于主流旗舰模型的断层式领先优势 [1][4] - 通过“自研TPU算力+海量数据闭环+全产品矩阵分发”的全栈模式,谷歌构建了生态护城河,其发布首日即实现亿级用户覆盖,创下行业最快分发纪录 [1][5] 技术突破与核心能力 - Gemini 3首创Deep Think深度思考模式,通过“慢思考”机制进行思维链拆解与多路径验证,在Humanity's Last Exam测试中得分达41.0%,较标准版提升9.9个百分点 [2] - 模型配套Antigravity开发平台,以“代理优先”为核心,支持自主操控代码库、终端与浏览器,结合Vibe Coding技术实现自然语言到全栈代码的直接转化 [2] - 生成式UI技术可动态生成交互式可视化工具(如3D分子模型),Nano Banana图像模型以0.039美元/次的低成本实现高精度图像编辑 [2] - 与上一代Gemini 2.5相比,Gemini 3在通用推理(Humanity's Last Exam得分从21.6%跃升至37.5%)、代码能力(SWE-bench Verified修复率提升至76.2%)和视觉推理(ARC-AGI-2得分从4.9%暴涨至31.1%)上实现近乎翻倍的提升 [3] - 模型迭代周期从11个月缩短至7个月,首次实现“发布即落地”的产品化节奏,任务执行能力升级为多步骤全流程闭环 [3] 市场竞争优势 - 在通用推理领域,Gemini 3的Deep Think模式在Humanity's Last Exam中得分41.0%,远超GPT-5.1的26.5%与Claude Sonnet 4.5的13.7% [4] - 视觉推理方面,其ARC-AGI-2测试成绩45.1%是GPT-5.1(17.6%)的2.5倍,ScreenSpot-Pro截图理解得分72.7%是GPT-5.1的20倍 [4] - 在代码领域,Gemini 3在LiveCodeBench与Design Arena排行榜均位列第一,仅SWE-bench Verified(76.2%)略低于Claude的77.2% [4] - 长周期任务执行上,Vending-Bench 2模拟业务运营测试中,其平均净值5478.16美元远超GPT-5.1的1473.43美元 [4] 战略意义与应用场景 - Gemini 3的发布推动AI从“对话响应”向“自主行动”的范式转移,巩固了谷歌在AI赛道的领导地位 [5] - 企业端可依托其智能体能力实现复杂流程自动化(如客户服务、研发辅助),开发者端通过Vibe Coding与生成式UI降低创新门槛 [5] - 消费端在搜索、办公、教育等场景实现无缝智能升级,例如交互式学习工具、自动化生活服务等 [5] - Antigravity平台兼容竞品模型的开放策略,意在抢占开发者生态主导权 [5]
“惊人转变!清华超过美国顶尖四校总和”
观察者网· 2025-11-19 07:51
文章核心观点 - 中国人工智能技术发展迅猛,与美国的差距正在快速缩小,清华大学在学术论文和专利数量上表现突出,成为这一趋势的代表[1] - 尽管美国在专利影响力和顶尖模型数量上仍保持领先,但中国在顶尖研究者占比、模型性能及创新路径上正逐步追赶甚至局部超越[1][2] - 中国通过政策扶持、资本注入和产学研融合,正形成强大的人工智能创新生态,吸引全球人才并推动科研成果向产业转化[4][6][7] 学术研究与专利产出 - 2005年至2024年末,清华大学累计获得4986项人工智能与机器学习相关专利,仅2024年就新增900余项[1] - 在全球人工智能领域的有效专利族中,中国占比已超过50%[1] - 清华大学在人工智能领域发表的学术论文中,入选“全球引用量最高100篇论文”的数量位居全球高校之首[1] - 其获批的相关专利数量超过麻省理工学院、斯坦福大学、普林斯顿大学与哈佛大学四所美国顶尖高校的总和[1] 中美对比与竞争态势 - 在专利影响力排名中,哈佛大学与麻省理工学院仍领先于清华大学[1] - 2024年,美国科研机构研发的知名人工智能模型达40个,而中国为15个[1] - 2019年至2022年间,全球顶尖人工智能研究者(前2%)中,中国占比从10%升至26%,美国占比则从35%降至28%[2] - 在部分性能测评指标上,中国机构正逐步缩小与美国的差距[1] 创新案例与技术进步 - 清华大学脑与智能实验室孵化的初创公司Sapient,其开发的分层推理模型在推理能力测评与复杂数独解题方面,表现优于美国OpenAI和Anthropic公司开发的更大规模模型[5] - 该模型模仿人类大脑运行方式,为通用人工智能研发提供了全新路径[5] - 人工智能初创企业“深度求索”(DeepSeek)凭借创新性大语言模型惊艳科技界[4] 产学研生态与人才流动 - 中国国内头部人工智能初创企业中,至少有四家由清华毕业生创办[5] - 清华大学正将人工智能技术全面融入全校各学科,人工智能与大语言模型已深度嵌入各学科日常科研工作[6] - 清华大学推出全新人工智能计算平台,为全体学生提供补贴使用权限,方便开展新型模型研发试验[6] - 曾任职哈佛大学的教授刘军回国组建清华大学统计学与数据科学系,并积极从美国顶尖高校招揽人才[6][7] - 政府、产业界和学术界对人工智能与机器学习领域热情高涨,资本注入加上中国政府对科研领域的大力扶持,是该领域吸引全球人才的关键原因[7] 政策支持与发展环境 - 中方通过税收减免、资金补贴及配套扶持政策为人工智能等关键技术研发提供坚实保障[4] - 学界科研成果正迎来转化为实际价值与荣誉的绝佳契机[4] - 越来越多清华毕业生更愿意留在国内发展,能真切感受到清华大学正处于发展最蓬勃的时期[6]
帅丰电器跨界投资超聚变 头部集成灶公司竞速构建智能生态
南方都市报· 2025-11-19 04:58
文章核心观点 - 集成灶行业面临严重下滑,头部公司正通过跨界投资算力、人工智能、机器人等前沿科技领域进行多元化布局,以寻求新的增长曲线 [2][6][7][8] 帅丰电器投资动态 - 帅丰电器作为有限合伙人,以自有资金出资5300万元认购厦门芯势澜算贰号创业投资基金份额,占基金总规模1.06亿元的50.08% [2][5] - 该笔投资为财务性投资,旨在获取财务回报,公司承担的最大损失不超过5300万元认购总额 [4][5] - 标的基金将直接投资于超聚变数字技术有限公司,该公司脱胎于华为X86服务器业务,2024年销售收入突破400亿元,并计划在2025年实现营收超500亿元 [2][4] 集成灶行业现状 - 2025年上半年,中国集成灶行业零售额为65.7亿元,同比下降27.6%,零售量为78.1万台,同比下降31.5% [6] - 火星人、浙江美大、亿田智能和帅丰电器这“集成灶四小龙”上市公司2025年上半年业绩均出现严重下滑 [6] 同业公司转型举措 - 浙江美大投资1.1亿元于智驾企业魔视智能,进军自动驾驶领域 [6] - 亿田智能通过其投资的亿算智能公司布局算力业务,并与庆阳市政府等签署协议,共建国产十万卡算力集群 [6] - 火星人与私募基金共同创建创业投资基金,已投资星动纪元(通用人形机器人)和戴盟机器人(通用仿人机器人)等科技公司 [7][8] - 火星人在半年报中明确传递通过布局智能机器人、人工智能算法等前沿科技新赛道来对冲行业消极影响的信号 [8] 行业竞争格局演变 - 集成灶行业的竞争已从单一功能转向整体智能生态的构建 [8] - 各大集成灶公司瞄准的转型领域均为算力、人工智能、机器人等当下火热的科技赛道 [6][7][8]
30秒生成应用的AI助手来了!蚂蚁集团灵光App正式上线
北京商报· 2025-11-18 01:48
产品发布与核心功能 - 蚂蚁集团正式发布全模态通用AI助手“灵光”,可在移动端实现自然语言30秒生成小应用,并支持编辑、交互与分享[1] - “灵光”是业内首个全代码生成多模态内容的AI助手,首批上线“灵光对话”、“灵光闪应用”、“灵光开眼”三大功能,支持3D、音视频、图表、动画、地图等全模态信息输出[1] - “灵光对话”突破传统文字问答模式,通过结构化思维和生成可视化内容(如动态3D模型、可交互地图)使对话逻辑清晰、内容生动[1] 技术架构与核心能力 - “灵光”实现了基于全代码生成的多模态输出能力,所有呈现的图表、动画、小应用等组件均由模型根据对话情境即时生成[2] - 产品构建了多智能体协作的Agentic架构,能够动态调度图像、3D、动画等专用Agent与工具进行实时协作,提供更沉浸的视图体验[2] - “灵光闪应用”功能允许用户在对话中输入一句话,灵光在1分钟以内、最快30秒即可生成一款AI应用,如健身计划工具或旅行规划器,实现零门槛AI Coding[2] 应用场景与交互体验 - 生成的“闪应用”可直接调用大模型等后端能力,实现与外部实时交互,显著拓宽可实现的场景边界[3] - “灵光开眼”功能搭载AGI相机技术,通过实时视频流解析理解物理世界,并支持文生图/视频、图生图/视频等多种创作模式[3] - 在教育场景下,灵光能洞察并提炼知识点,有逻辑有层次地展示,并生成3D实物动图、可互动表格等使复杂信息一目了然[1] 公司战略与行业定位 - “灵光”作为蚂蚁集团AGI战略的产品级探索,精准把握2025年AI应用市场向场景化生产力工具转型的趋势,其核心理念为“让复杂变简单”[3] - 蚂蚁集团2025年以来加速AGI布局,已发布AI医疗管家AQ、布局具身智能灵波科技,蚂蚁百灵大模型也跻身万亿参数模型阵营[3] - 该产品的推出展现了公司在通用人工智能领域从技术突破到场景落地的全链路能力[3]
开战!阿里千问App公测 与ChatGPT正面交锋
证券时报· 2025-11-17 09:38
公司战略与产品发布 - 公司于11月17日正式官宣“千问”项目并上线千问APP公测版,全力进军“AI to C”市场,全面对标ChatGPT [2] - 公司计划在未来几个月内为千问APP逐步增加智能体AI功能以支持淘宝等平台的购物功能,并最终通过海外版本向全球扩张 [2] - 公司将千问APP定位为“会聊天能办事的AI个人助理”,瞄准“生产力工具”赛道,旨在将AI能力转化为具体问题解决方案 [4] - 公司计划将地图、外卖、订票等生态服务逐步接入千问APP,试图打造统一的AI服务入口,实现技术优势向消费者市场延伸 [5] - 千问APP已在中国各大应用商店上架,提供网页端和PC版,未来还将上线面向全球的国际版 [5] 技术基础与竞争优势 - 千问APP基于公司自研的全球性能第一的开源模型Qwen3打造,该模型已免费开放 [2][7] - 公司自2023年起坚持全面开源策略,已形成包含300多款模型的“千问家族”,覆盖从0.5B到480B的全尺寸参数规模 [7] - Qwen模型在全球范围内被亚马逊、苹果、英伟达等科技巨头采用,在中国企业级市场占有率稳居第一 [7] - 公司拥有“全栈式”AI战略布局,构建从底层算力到上层应用的完整生态,以“用户为先,AI驱动”为战略 [9] 生态整合与未来愿景 - 公司旨在通过千问APP整合淘宝、高德、钉钉等生态内分散的AI能力,形成聚合效应,创造“1+1>2”的协同价值 [9][10] - 公司高层将实现AGI视为起点,终极目标是发展出能解决气候、能源等重大科学难题的ASI,千问APP是通往ASI的关键入口 [9] - 2025年“双11”购物节已成为公司AI应用的大检阅,千问模型已在淘宝、飞猪、钉钉等生态内全面渗透 [9] - 千问APP的推出为公司打开了AI to C的全新想象空间,有望强化整个生态的用户粘性和活跃度 [10]
具身智能公司Dexmal原力灵机获数亿元A+轮融资,两轮融资近10亿元
机器人圈· 2025-11-17 09:38
融资情况 - 公司完成近10亿元A+轮及A轮融资,A+轮由阿里巴巴独家投资,A轮由蔚来资本领投,洪泰基金、联想创投、锡创投和正景基金跟投,老股东君联资本超额追投、启明创投和九坤创投追投[2] - 融资资金主要用于智能机器人软、硬件技术研发与落地[2] - 公司成立8个月以来累计完成3轮融资,投资方包括联想创投、启明创投、君联资本、九坤创投等知名机构[4] 公司背景与团队 - 公司成立于2025年3月,专注于具身智能软硬件技术研发与落地[2] - CEO唐文斌为清华大学"姚班"出身、首届"Yao Award"金牌得主,同时是旷视科技联合创始人兼CTO[2] - 核心团队兼具AI顶尖学术背景和10余年AI原生产品规模落地经验,具备算法研发、硬件研发、数据管理、工程创新、场景落地的丰富积累[2] - 团队在AI物流机器人领域积累丰富落地经验,凭借智慧物流机器人技术和柔性仓库自动化产品优势推动行业智能化升级[2] 技术产品与研发进展 - 公司自主研发端到端多模态具身智能大模型MMLA,深度融合多传感器、大语言模型(LLM)、视觉语言模型(VLM)、视觉语言动作模型(VLA)与世界模型底层能力,实现跨场景、跨任务、跨构型的智能泛化[3] - 已开源基于PyTorch的VLA工具箱Dexbotic,为从业者提供一站式科研服务[3] - 推出机器人开源硬件产品DOS-W1,大幅降低机器人使用门槛并提升维护改造便利性[3] - 联合Hugging Face发布全球首个具身智能大规模真机评测平台RoboChallenge[3] - 发表AI学术顶会论文十余篇,代表作Real-time VLA和MemoryVLA获得学界认可[3] 行业认可与竞赛成绩 - 参加CVPR 2025协作智能Workshop核心赛事RoboTwin,在第一轮仿真平台赛中斩获并列第一[4] - 参加ICRA2025全球机器人视触融合挑战赛(ManiSkill-ViTac 2025)荣获"纯触觉操控"和"触觉传感器设计"两个赛道金牌[4] - 夺冠多项全球顶级赛事证明公司具身智能大模型算法的创新性和领先性[4] 未来发展方向 - 公司未来将加速具身智能领域的算法驱动、硬件设计与场景闭环的协同创新,加快通用人工智能的物理世界落地[4] - 公司使命为打造智能的、有用的、可信赖的机器人,让生活更美好[4]
2025“人工智能+”大会举行,以场景驱动点燃新质生产力
中国新闻网· 2025-11-17 08:34
大会概况 - 2025"人工智能+"大会于11月15日至17日在北京中关村国际创新中心举行,主题为"AI下一个十年:场景驱动×新质引擎"[1] - 大会由多个国家级研究机构、高校及媒体联合主办,汇集行业专家、头部企业、创业者和投资人代表[1] 核心发展观点 - 图灵奖得主姚期智指出,大模型革新各行各业,未来最重要发展方向是通用人工智能(AGI),前景辽阔,中国需培养更多尖端创新人才[1] - 中国人工智能发展坚持技术研发、产品应用、产业培育"三位一体"思路,强调与实体经济融合,在应用过程中完善理论[2] - 全球人工智能发展进入技术加速进化、能力集中涌现、应用加快普及、创新群体突破交织叠加的时期[2] 技术与应用趋势 - 人工智能技术未来十年将推动机器人从"能做事"到"会做事",从"行业工具"变为"生活伙伴"[2] - "场景驱动"被视为人工智能从技术革命走向产业革命的关键,大会发布"AI100应用标杆",从全国1000多家企业中遴选,展示技术落地成效[3] - 大会通过多个分论坛(如具身智能、AI+大健康、AI+数字孪生等)探讨跨界交流,旨在以场景需求驱动技术创新,反哺产业升级[2][3]
从酷炫功能到真实产业应用,AI卡在了哪里?
36氪· 2025-11-17 04:20
生成式AI技术发展与商业落地挑战 - 自2022年11月ChatGPT发布以来,生成式人工智能高速发展,大模型竞赛白热化,多模态能力持续提升 [1] - 与美国Ramp AI Index数据显示的技术高歌猛进形成对比,美国公司采用付费AI产品的比例近期有停滞迹象甚至出现下滑 [1] - 麻省理工学院2025年7月研究报告指出95%的生成式AI应用项目效果不佳或中途夭折 [4] 业务流程重构与AI路径规划 - AI落地应用需要根据AI能力边界结合行业和企业业务场景需求痛点发现价值显著业务环节优先推进 [4] - 企业需进行工作流程分割和业务流程重构将AI擅长部分交给AI其余部分由人完成以驾驭AI黏合流程断点 [5] - AI落地业务流程重构类似路径规划需动态调整随着AI能力提升企业流程重构与分工协作需不断更新 [6] - 多数企业仍停留在直接套用AI工具阶段未拆解工作流未评估AI能力与业务需求适配性未能形成投入-数据-效益飞轮 [6] AI落地主导路径 - AI落地应用需要同时懂AI和具备行业洞察催生两条路径:懂AI的人走进行业或行业内的人掌握AI [7] - 路径一为硅谷兴起的Front Deployed Engineer模式将熟悉AI技术工程师派驻客户企业深入业务一线找到价值创造点 [8] - 路径二为行业从业者学习掌握AI工具麻省理工学院报告发现超过90%公司其员工自费使用AI工具提升效率形成影子AI经济 [11] AI编程推动行业自主改造 - AI编程工具大幅降低软件开发门槛使零基础用户能用自然语言描述需求生成代码开发产品原型 [12] - 微软与谷歌CEO称其公司当前生成软件代码中约20%-30%来自AI亚马逊云服务业务CEO称AWS 75%代码已由AI生成 [12] - AI编程让行业从业者无需等待AI专家可主动运用AI编程工具根据行业特定场景需求痛点构建AI应用最小可行飞轮 [12] - AI编程有望让中小企业成为AI落地生力军因其决策迭代速度更快可直接从零构建适配AI数字化体系无需改造复杂遗留系统 [13] AI落地策略与展望 - 企业现阶段不必执着于全流程AI化可聚焦小切口高适配高收益场景找到AI与业务契合的最小可行飞轮 [14] - AI时代最重要的不再是掌握知识而是眼光和创意即看到行业需求痛点并利用新技术想出更好解决方法 [14] - 鼓励员工学习AI编程工具改造提升自己工作进而改造提升公司和行业是AI落地应用的一大路径 [14]