通用人工智能(AGI)

搜索文档
商汤林达华万字长文回答AGI:4层破壁,3大挑战
量子位· 2025-08-12 09:35
核心观点 - 多模态智能是当前AI发展的关键趋势,商汤科技通过"原生多模态"技术路线和"四次破壁"演进框架,推动通用人工智能(AGI)的发展 [1][2][4][6] - 商汤科技发布的日日新6.5模型实现了"图文交错思维"突破,标志着多模态推理能力的显著提升 [16][21] - 公司通过统一融合模型架构、优化数据生产体系和创新组织模式,在多模态领域保持领先优势 [12][25][40][41] 多模态智能的重要性 - 智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的,仅依赖文本数据的语言模型无法构建真正的AGI [7][8] - 多模态模型必须能够处理和理解图像、声音、视频等多种模态的信息,才能具备通用性 [8] - 商汤将多模态锚定为技术主轴,从日日新6.0开始只发布多模态模型,这在国内大模型厂商中独树一帜 [12] 技术路径选择 - 实现多模态模型主要有两种技术路径:适应训练(嫁接模式)和原生训练(融合模式) [11] - 商汤通过大规模对比实验确立了"原生多模态"技术路线,采用从预训练阶段就混合多种模态数据的融合模式 [10][11] - 实验证明,在合适的数据配比下,一个原生多模态融合模型在纯文本和图文任务上的表现都优于各自独立的专门模型 [23] 四次破壁演进框架 - 第一次破壁:Transformer实现长序列建模,为大语言模型奠定基础 [14] - 第二次破壁:语言与视觉会合形成多模态理解,模型学会跨模态关联 [15] - 第三次破壁:突破逻辑与形象思维边界,实现多模态推理,日日新6.5引入"图文交错思维链" [16] - 第四次破壁:突破与物理空间边界,实现与真实世界交互,即具身智能 [22][24] 数据体系构建 - 多模态训练最关键的数据是强关联的"图文对",商汤通过大规模自动化构造解决了稀缺问题 [26][27] - 建立"续训验证"机制确保数据质量,只有能带来性能增益的数据才会被准入 [28][29] - 采用"人写种子+自动扩展+强化学习"三段式方法获取高阶专业数据 [31][32][33][34] 模型架构优化 - 模型架构设计的核心是效率,而非单纯追求更大参数规模 [36] - 日日新6.5推动视觉编码器轻量化(参数量从60亿减至10亿),同时使MLLM主干网络更深更窄 [38] - 架构调整结合数据优化使模型效率提升超过3倍,实现比肩顶级模型的效费比 [38][39] 创新力源泉 - 计算机视觉起家的技术基因使公司对多模态价值有更早更深刻的理解 [40] - 重构研究组织实现资源统一调度,设立专项创新小组探索高风险高回报方向 [41] - 构建"基础设施-模型-应用"三位一体的正向循环,使技术理想与商业价值相互促进 [42][43]
全球多模态推理新标杆 智谱视觉推理模型GLM-4.5V正式上线并开源
证券日报网· 2025-08-12 08:46
产品发布 - 公司推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V 总参数106B 激活参数12B 并在魔搭社区与HuggingFace开源[1] - 模型基于新一代旗舰文本基座模型GLM-4.5-Air 延续GLM-4.1V-Thinking技术路线[2] - 在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 涵盖图像 视频 文档理解及GUI Agent等任务[2] 性能表现 - 在通用VQA任务中 MMBench v1.1得分88.2 MMBench v1.1中文版得分88.3 MMStar得分75.3 BLINK验证集得分65.3[3] - 在STEM领域 MMMU验证集得分75.4 MMMU Pro得分65.2 MathVista得分84.6 MathVision得分65.6[3] - 在GUI Agent任务中 OSWorld得分35.8 AndroidWorld得分57.0 WebVoyagerSom得分84.4[3] - 视频理解方面 VideoMME无字幕版得分74.6 有字幕版得分80.7 MMVU得分68.7 VideoMMMU得分72.4[3] 技术特性 - 模型具备全场景视觉推理能力 包括图像推理 视频理解 GUI任务 复杂图表与长文档解析及Grounding能力[5] - 新增思考模式开关 用户可选择快速响应或深度推理[5] - 支持64K多模态长上下文 通过三维卷积提升视频处理效率 采用双三次插值机制增强高分辨率图像处理能力[6] - 引入三维旋转位置编码3D-RoPE 强化多模态信息的三维空间关系感知能力[6] - 采用三阶段训练策略 预训练阶段使用大规模图文交错多模态语料 监督微调阶段引入显式思维链格式训练 强化学习阶段采用全领域多模态课程[6] 商业化应用 - API调用价格低至输入2元每百万tokens 输出6元每百万tokens 为企业与开发者提供高性价比多模态AI解决方案[5] - 模型在保持高精度的同时兼顾推理速度与部署成本[5] 行业地位 - 多模态推理被视为通向通用人工智能的关键能力 视觉-语言模型是实现多模态推理的核心基础[7] - 公司7月发布的GLM-4.1V-9B-Thinking模型曾登上HuggingFace Trending榜首 累计获得超过13万次下载[7]
马斯克,指责苹果“偏心”
证券时报· 2025-08-12 04:59
马斯克指控苹果反垄断 - 特斯拉首席执行官埃隆·马斯克在社交平台发文称苹果公司涉嫌通过限制措施使除OpenAI外的任何人工智能公司都无法在其应用商店排行榜中登顶 并称此为"明确的反垄断违规行为" [1] - 马斯克表示其旗下xAI公司将立即采取法律行动 [1] - 在马斯克威胁对苹果采取法律行动后 OpenAI CEO Sam Altman在X上转发了前者的帖文并表示希望有人能对马斯克通过操纵X谋取个人及公司利益的指控展开调查 [2] xAI与OpenAI的竞争 - xAI公司是马斯克于2023年创办的人工智能初创企业 并在今年7月正式发布号称"世界上最强AI模型"的Grok 4 马斯克称该模型在处理学术问题上表现达博士级别 [1] - 8月初 OpenAI发布其最新人工智能模型GPT-5 采用统一系统架构 整合了高效基础模型、深度推理模块和实时路由系统 [1] - OpenAI CEO Sam Altman称GPT-5是"世界上最好的模型" 代表着OpenAI在开发通用人工智能(AGI)道路上迈出了"重要一步" [1] - 在截至8月11日美国地区的苹果应用商店内的生产力软件排行中 OpenAI的ChatGPT排第一 xAI的Grok排第二 [2] 马斯克与OpenAI的法律纠纷 - 马斯克去年先后在州和联邦两级法院起诉OpenAI 指控后者违背非营利承诺 转向商业化路线 并申请法庭阻止OpenAI转制 [2] - 马斯克还多次公开批评OpenAI CEO Sam Altman [2]
智谱推出全球100B级最强开源多模态模型GLM-4.5V:获41个榜单SOTA
IPO早知道· 2025-08-12 01:52
智谱GLM-4.5V模型发布 - 公司于8月11日正式推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B),并在魔搭社区与Hugging Face开源 [3] - 该模型基于新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking技术路线,在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [4] - 模型具备全场景视觉推理能力,包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力 [5] 技术架构与性能表现 - 模型由视觉编码器、MLP适配器和语言解码器三部分组成,支持64K多模态长上下文,采用三维卷积提升视频处理效率 [6] - 引入双三次插值机制增强高分辨率图像处理能力,采用三维旋转位置编码(3D-RoPE)强化多模态信息的三维空间关系感知 [6] - 在多项基准测试中表现优异,如MMBench v1.1得分88.2、MMMU (val)得分75.4、MathVista得分84.6、OCRBench得分86.5等 [5] 训练方法与开发支持 - 采用三阶段训练策略:预训练阶段强化复杂图文及视频处理能力,SFT阶段引入显式"思维链"格式训练样本,RL阶段通过多领域奖励系统进行全面优化 [8] - 同步开源桌面助手应用,可实时截屏、录屏获取屏幕信息,处理多种视觉推理任务 [8] - 公司希望通过模型开源和API服务赋能开发者,基于多模态基座模型开发创新应用 [9] 行业影响与定位 - 多模态推理被视为通向AGI的关键能力之一,视觉-语言模型(VLM)是实现多模态推理的核心基础 [3] - 此前7月发布的GLM-4.1V-9B-Thinking模型曾登上Hugging Face Trending榜首,累计获得超过13万次下载 [3] - 本次发布标志着公司在通向通用人工智能(AGI)道路上的又一探索性成果 [3]
用时间积累换突破——月之暗面专注通用人工智能领域
经济日报· 2025-08-11 22:12
公司概况 - 北京月之暗面科技有限公司(Moonshot AI)成立于2023年4月,专注于通用人工智能(AGI)研发,目标是探索智能极限并实现普惠AI [1] - 公司位于北京海淀区中关村,拥有约300名员工,其中50%为90后,团队涵盖算法、工程、产品及运营领域的顶尖人才 [2] - 创始人杨植麟具有10年自然语言处理(NLP)研究经验,团队具备超大规模计算集群运维和深度学习框架开发能力 [1][2] 技术产品 - 核心产品Kimi智能助手于2023年10月上线,是全球首个支持20万字长文本处理的AI助手,半年后长文本能力扩展至200万字 [2][4][5] - 2024年7月发布开源大模型Kimi K2,参数规模达万亿级别但激活参数仅320亿,成本效益显著提升 [3][6] - Kimi K2在多项基准测试中表现优异,特别在自主编程、工具调用和数学推理三方面能力突出,成为全球开源模型榜单前五名中唯一的开源模型 [6] - 产品线持续扩展,包括K1.5视觉思考模型、Kimi-Researcher深度研究模型及浏览器助手等 [2] 技术创新 - 坚持无损数据压缩技术路线,拒绝滑动窗口等捷径方案,实现200万字长文本处理突破 [5] - 首次将创新优化器应用于万亿参数规模模型训练,验证了训练效率的技术突破 [8] - 开发具备Agent能力的模型,可自主探索使用工具并与电子/真实世界交互,推动AI进入智能体时代 [7][8] - 开源策略使Kimi K2成为API调用量和下载量增长最快的大模型,将顶尖技术能力开放给开发者社区 [6] 市场表现 - 2024年Kimi用户量实现100倍增长,从几十万跃升至数千万级别 [5] - Kimi K2已接入部分国际主流开发平台,在3D/游戏/动画制作等场景展现强大交互能力 [3][7] - 产品演示显示可在4分钟内根据指令创建3D森林环境,并具备软件开发、英语学习应用创建等多元功能 [7] 发展理念 - 坚持"技术理想主义",通过长期积累实现突破,专注通用人工智能而非垂直领域解决方案 [8] - 追求"将能源转化为智能的最优解",致力于发展通用泛化能力而非单一技能 [8] - 产品设计强调个性化定制,打破技术专用性壁垒,实现"代码人人可用"的普惠目标 [7]
智谱宣布开源视觉推理模型GLM-4.5V正式上线并开源
凤凰网· 2025-08-11 14:14
公司动态 - 智谱AI推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V 总参数106B 激活参数12B [1] - 模型同步在魔搭社区与Hugging Face开源 API调用价格低至输入2元/M tokens 输出6元/M tokens [1] - GLM-4.5V基于新一代旗舰文本基座模型GLM-4.5-Air 延续GLM-4.1V-Thinking技术路线 [1] 技术性能 - 在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [1] - 涵盖图像 视频 文档理解以及GUI Agent等常见任务 [1] - 能够根据用户提问精准识别 分析 定位目标物体并输出坐标框 [1] 行业意义 - 多模态推理被视为通向通用人工智能AGI的关键能力之一 [1] - 视觉-语言模型VLM是实现多模态推理的核心基础 [1]
AI真能让企业脱胎换骨?混沌AI院产品升级重磅发布
混沌学园· 2025-08-11 12:04
AI商学的提出 - 人工智能发展进入应用深水区,多数企业和个人仍未真正享受AI红利 [6] - AI商学核心是让人工智能成为解决商业场景中成本、效率、增长问题的实用工具 [7] - 混沌AI院一期2300位企业人士报名,覆盖互联网科技(25%)、制造业(18%)、教育医疗(15%)等各行业 [9] - 企业需要能快速落地、产生实效的方法论,而非虚无缥缈的技术概念 [9] GPT5的技术突破 - 智能上限显著提升,在奥数解题、专业知识问答等领域接近或超越人类顶尖水平 [17][19] - 融合模型自动选择最优子模型,使用效率提升40% [19] - 事实性错误率降低70%,在金融、法律、医疗等领域可验证性提升 [20] - 编程效率是资深程序员的5-8倍,bug率降低60% [20] - 语音合成与真人相似度达90%以上,能自然处理打断、重复等对话场景 [22] - 引入性格选择功能,80%用户将"倾听者"性格用于心理咨询等场景 [23] AGI的本质与商业机遇 - AGI不是"能解所有题",而是"能在所有岗位干得比人好" [27] - 目前AI在数据录入、基础客服等岗位适配度超80%,但在幼儿教育、创意策划等岗位不足30% [28] - AGI是各领域专精"AI专家"的集合,而非单个超人 [30] - 判断AGI的标准在于市场付费意愿和社会价值认可 [29] 企业AI化的三大卡点 - 认知偏差:老板对AI能力存在"迷信派"和"怀疑派"两种极端 [35][36] - 方法论缺失:80%业务部门存在缺方法、缺样本、缺工具问题 [37] - 人才瓶颈:85%中小企业无专职AI岗位,90%传统企业员工缺乏AI工具使用能力 [40][41] 混沌AI院二期的四大优势 - 体系:构建覆盖"岗位-职能-产品-生态"的完整AI商学框架 [46][48] - 团队:采用"1+2+2+2"模式,使AI项目成功率提升50% [51][52] - 陪跑:组建百位实战导师团,提供线上双周会诊、线下实战营等支持 [54][56] - 圈子:汇聚500余家企业,形成信息共享、资源互换、联合创新的生态 [58][60] 企业实战案例 - 某跨境电商用GPT5开发智能客服系统,上线时间从2周缩短至3天 [20] - 某制造业企业通过GPT5生成设备巡检小程序,开发成本降低70% [20] - 某连锁酒店用AI预测客房布草需求,损耗率降低15% [52] - 某服装品牌95后员工用AI设计"国潮风"T恤,带动销量增长40% [52] - 某农业企业在导师指导下完善"AI病虫害识别"方案,准确率从60%提升到90% [56]
狼真的来了,“AI第一轮就业大冲击”已至,矛头直指年轻人
36氪· 2025-08-11 04:03
AI对美国就业市场的影响 - 美国毕业生失业率从2023年12月的4.0%飙升至8.1% [1] - 2025年前七个月美国有超过1万个岗位消失与生成式AI直接相关 2025年企业裁员总数超过80.6万创2020年以来同期最高 [1] - 科技行业已有超8.9万个岗位被削减 其中至少2.7万个科技岗位因AI自动化被取代 [1] 初级岗位受冲击情况 - 初级职位招聘信息同比下降15% 提及AI的雇主数量激增400% [2] - 知识密集型初级工作如数据收集/图表制作/流程熟悉正被AI替代 [2] - 削减初级岗位短期提升公司利润 但长期可能错过未来管理核心人才 [2] 年轻群体就业困境 - 近一半美国Z世代求职者认为AI降低学历价值 [4] - 应届大学毕业生失业率升至6%高于全国平均4% [4] - 科技行业20-30岁员工失业率上升约3个百分点 增幅高于行业整体水平 [4] 企业AI应用现状 - Shopify采用"如果AI能做就不招聘新人"策略 [6] - 麦肯锡部署数千个AI代理接手初级员工任务 [6] - Alphabet和微软表示AI生成约30%代码 Salesforce称AI工作占比达50% [6] 行业趋势与预测 - 科技行业就业占比过去三年下滑 招聘水平低于历史趋势线 [4] - 未来约6%至7%劳动者可能因AI自动化失业 [4] - 若AI普及速度快于10年周期 转型阵痛将更剧烈 [4] 其他影响因素 - 美国就业放缓受关税政策调整导致商业不确定性影响 [5] - 22-27岁大学教育年轻人失业率达5.8%创四年新高 [5] - 近期失业率上升85%因新人找不到工作而非大规模裁员 [5]
国内首个具身大脑+小脑算法实战全栈教程
具身智能之心· 2025-08-11 00:14
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 目标是让智能体具备感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业发展动态 - 近2年具身智能领域涌现多家明星创业公司 包括星海图 银河通用 逐际动力等 推动本体与大小脑技术进步 [3] - 国内科技巨头加速布局:华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人 大族机器人合作攻关关键技术 京东2025年起连续投资智元机器人 千寻智能等企业强化物流与家庭服务场景 [5] - 国际竞争格局:Tesla/Figure AI聚焦工业与物流机器人应用 美国资本支持Wayve Apptronik等公司发展自动驾驶与仓储机器人 国内外技术路线差异明显 国内侧重产业链整合 国外专注基础模型与类人机器人原型研发 [5] 技术演进路径 - **第一阶段**:聚焦抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测执行器姿态 但缺乏任务上下文建模能力 [6] - **第二阶段**:行为克隆(Behavior Cloning)技术兴起 通过专家数据实现端到端映射 但存在泛化能力弱 误差累积等缺陷 [6] - **第三阶段**:2023年扩散策略(Diffusion Policy)突破序列建模瓶颈 2024年Vision-Language-Action(VLA)模型实现多模态协同 支持零样本泛化 代表项目包括OpenVLA RT-2 PI0等 [6][7] - **第四阶段**:2025年技术融合加速 VLA+强化学习提升长时任务能力 VLA+世界模型实现环境动态预测 VLA+触觉感知拓展多模态融合边界 [8] 商业化应用 - 技术迭代推动产品落地 主要形态包括人形机器人 机械臂 四足机器人 覆盖工业 家居 餐饮 医疗康复等场景 [9] - 行业人才需求爆发 但存在知识体系庞杂 学习门槛高的问题 市场出现系统化培训需求 [9] 工程化挑战 - 产业界对工程能力要求提升 需解决Mujoco/IsaacGym等平台的策略训练与仿真测试问题 [12] - 关键技术部署需求包括Diffusion Policy/VLA模型训练 强化学习反馈微调 世界建模与物理执行一体化架构等 [12] 人才能力要求 - 从业者需掌握Python/Pytorch基础 具备3090ti及以上算力设备 目标人群覆盖算法工程师 研究人员及转行专业人士 [18] - 技能培养重点包括仿真系统应用 触觉信息融合方案 世界模型实践等 目标达到1-2年经验水平 [18]
陈天桥联手清华教授代季峰首发最强开源AI模型项目,全力打造下一个DeepSeek
钛媒体APP· 2025-08-10 23:52
核心观点 - 清华大学电子工程系副教授代季峰与陈天桥联手筹备一家致力于打造通用人工智能(AGI)的新公司,目标是成为下一个OpenAI或DeepSeek [2][8] - MiroMind团队发布了首个开源深度研究项目Miro ODR,其V0.1版本GAIA测试达82.4分,超越OpenAI的DeepResearch等模型,成为当前开源最强Deep Research模型 [3][4] - 公司使命是打造具备自我意识的数字生命体,与社区共同进化以实现安全、有益的AGI [12] 技术成果 - Miro ODR包含四个子项目:MiroFlow(Agent框架)、MiroThinker(深度思考模型)、MiroVerse(数据开源项目)、MiroTrain(训练基础设施),全部开源且可复现 [10] - MiroMind-M1开源推理语言模型基于70亿参数的阿里Qwen-2.5 RLM,在AIME24、AIME25和MATH500测试中超越DeepSeek-R1蒸馏版和小米的MiMo-7B-Base [9][11] - 项目采用监督式微调(SFT)在71.9万个问题集上训练,并通过可验证奖励的强化学习(RLVR)在6.2万个示例上优化 [8] 团队背景 - 代季峰是清华AI专家,曾在微软亚洲研究院和商汤科技担任要职,发表80余篇论文,总引用超6万次 [7] - 其研发的Deformable ConvNets系列被纳入多所世界一流大学课程,R-FCN被评为"三大目标检测元模型之一" [7] - 开源多模态基础模型InternVL在十多个重要指标上与GPT、Gemini相当,累计下载超500万次 [8] 战略布局 - 公司研发重点包括AI商业决策智能化、突破算法茧房的内容分发、面向老龄化和青年发展的AI服务 [12] - 陈天桥承诺盛大内部孵化的所有AI企业的一半利润将分给团队 [5] - 陈天桥加速布局AI和脑科学赛道,投资了脑机接口企业Synchron并支持多项脑科学研究 [13][16] 行业影响 - Miro ODR开放了深度研究的各个阶段,包括模型、数据、训练流程等,计划每月更新一次 [5][10] - 项目提出CAMPO框架(上下文感知的多阶段策略优化),证明7B模型可用更少token获得比Skywork更好的性能 [9] - 陈天桥呼吁中国科创投资人不要将脑机接口仅视为赚钱风口,强调需要"耐心资本"支持长期创新 [16][17]