Workflow
机器之心
icon
搜索文档
实测爆火的阶跃星辰Step 3,性能SOTA,开源多模态推理之王
机器之心· 2025-07-26 08:19
核心观点 - 阶跃星辰在WAIC 2025发布新一代开源多模态基座模型Step 3,性能超越同类开源模型并接近顶尖闭源模型[1][2] - Step 3以"多开好省"为核心设计理念,解决AI商业化应用的三大瓶颈:推理成本高、场景适配难、多模态能力调用不全[7][8][11] - 模型在国产芯片上实现突破性成本优化,推理效率达竞品3倍,为国产算力生态注入强心剂[32][47][52] - 公司联合10家芯片厂商成立"模芯生态创新联盟",推动底层技术协同创新[51][52][59] - 2025年上半年智能终端业务环比增长超800%,预计全年收入近10亿元[54][55] 技术架构 - 采用原创MFA架构:多矩阵分解注意力设计,KV量仅为Qwen GQA的1/3,计算量仅为DeepSeek MLA的1/4[29][31][32] - MoE混合专家架构:总参数量321B(LLM 316B+视觉编码器5B),激活参数量38B,性能对标DeepSeek[33][34][35] - AFD分布式推理方案:比DeepSeek"大EP"模式更先进,实现Attention与FFN计算资源精准匹配[38] - 原生多模态设计:支持文本/视觉输入,具备深度推理能力,在MMMU等基准超越ERNIE 4.5等竞品[39][41] 性能表现 - 基准测试:在MMMU、MathVision等多项多模态基准超越开源竞品[1][41] - 实测案例: - 准确完成"视觉称重"任务,识别三花猫品种并估算体重[14][15] - 解析"Who's Adam?"网络热梗,总结AI研究者审稿质量焦虑[16][17] - 根据主机贴纸照片完成复杂空间推理[19] - 实时识别桌游"Splendor"并处理对话打断[25][26] - 效率指标:国产芯片推理成本为行业领先开源模型的1/3,Hopper架构芯片吞吐量提升70%[18][47] 商业化进展 - 智能终端:Top10国产手机厂商过半已合作,多模态能力落地量产旗舰机型[54] - 汽车领域:端到端语音大模型在吉利银河M9首发上车,联合发布智能座舱Agent OS[54] - 生态布局:与华为昇腾、沐曦等10家芯片厂商成立创新联盟,推动算力-模型协同优化[51][52] - 收入增长:2025H1智能终端调用量环比增800%,全年收入预计10亿元[54][55] 战略演进 - 产品迭代路径:Step-1对标GPT-3.5→Step-2逼近GPT-4→Step-3聚焦商业化效率[45][46] - 行业定位转变:从"多模态卷王"(20/26款为多模态模型)转向推理时代"最优解"提供者[57][58] - 商业模式创新:通过技术而非补贴实现成本革命,避免API价格战[44][59]
Who’s Adam?最逆天的NeurIPS评审出炉了
机器之心· 2025-07-25 10:34
NeurIPS 2025评审争议 - NeurIPS 2025评审结果公布后,引发对评审质量的广泛吐槽,其中一条评审意见质疑论文中提到的"Adam"优化器是拼写错误,引发热议[5][6] - 该争议性评审意见在社交平台X上发布数小时内获得超过10万次浏览[4] - 西北大学教授Dan Roy公开批评NeurIPS评审质量,相关帖子获得6.9万次浏览[7] AI顶会面临的挑战 - NeurIPS 2025投稿量接近3万篇,评审工作量巨大导致质量难以保证[7] - AI技术已渗透到学术评审全流程,从论文写作到审阅和发表[8] - 伯克利博士后指出,当前约90%的评审意见经过AI修改或完全由AI生成,相比两年前10%的比例大幅提升[8] 学术社区应对措施 - 学术社区建议作者认真准备rebuttal(反驳意见)来回应评审[9] - 推荐参考2020年发布的18条rebuttal技巧指南,帮助作者有效回应评审意见[10] - 机器之心邀请被NeurIPS接收论文的作者向AIXiv专栏投稿[11]
Agent KB:经验池让Agents互相学习!GAIA新开源SOTA,Pass@1性能最高提升6.66
机器之心· 2025-07-25 07:15
Agent KB框架核心创新 - 通过构建共享经验池和两阶段检索机制实现AI Agent间的经验共享,显著提升复杂推理和问题解决能力[1] - 采用「Reason-Retrieve-Refine」方案和Teacher-Student双阶段检索机制,实现不同层次的历史经验学习与应用[5] - 解决了现有记忆系统中不同Agent框架经验无法共享的根本性限制,避免新任务需从零开始探索的问题[4] 技术架构与工作流程 - 知识构建阶段从多元化数据集提取可泛化的问题解决模式,转化为结构化知识条目[21] - 推理阶段采用Student Agent和Teacher Agent协作机制,分别负责宏观策略规划和微观执行优化[22][23] - Student Agent通过Reason-Retrieve-Refine循环提供整体解决方案框架,Teacher Agent提供精细化改进建议[22][23] GAIA基准测试表现 - 在GAIA验证集165个测试用例中,GPT-4.1模型Pass@1指标从55.15%提升至61.21%,Claude-3.7从58.79%提升至65.45%[12][13] - Level 1基础任务中Claude-3.7达到75.47%准确率,Level 2中等复杂度任务达66.28%,Level 3高难度任务保持38.46%[12] - 采用简单smolagents框架验证,排除复杂框架带来的性能增益,清晰展示经验共享机制本身效果[12] 跨领域应用验证 - 在SWE-bench软件工程数据集上,o3-mini模型50次迭代成功率从23.00%提升至31.67%,100次迭代从29.33%提升至33.67%[16][17] - 蛋白质数据库案例显示,传统方法计算O-H距离错误为0.961 Å,Agent KB增强后正确提取骨架原子对报告1.456 Å[19] - 所有测试模型包括DeepSeek-R1、GPT-4o等均显示一致性改进趋势,证明方法普适性[15] 关键技术组件分析 - 消融实验显示Refine模块最关键,移除后整体准确率从61.21%降至55.15%,Level 3任务从34.62%降至30.77%[27][28] - Student Agent缺失使Level 1任务从79.25%降至75.47%,Teacher Agent缺失使Level 1从79.25%降至73.58%[27] - 采用文本相似度、语义相似度和混合检索三种核心方法,最优策略因任务类型而异[30][31] 错误分析与改进机制 - GPT-4.1纠正25个基线特有错误,净减少10个错误实例 Claude-3.7纠正22个基线错误,净改进11个实例[35] - 检索错误从24减至20,规划错误从13减至10,格式错误显著减少,显示结构化经验的优化效果[35] - 改进具有选择性,49个错误在基线和Agent KB中均出现,表明模型固有局限[35]
A800、H800都低到这个价了,这个暑假搞了点算力福利
机器之心· 2025-07-25 07:15
暑期现金消耗返券活动 - 面向高校用户推出暑期促销活动,提供A800和H800算力卡折扣价格 [1] - A800最低价格4.26元/卡/小时起,H800最低价格9.33元/卡/小时起 [2] - 活动时间从即日起至8月31日 [3][4] 返券规则 - 高校用户现金消耗达指定金额可领取比例代金券,支持单笔或累计 [4][5] - 返利比例阶梯式上升,满10000元及以上返30% [5] - 代金券有效期为3个月,需提前规划使用 [11] 福利叠加机制 - 三重福利:注册赠券、充值满额赠券、现金消耗满额赠券 [6][7] - 注册成功赠送100元代金券(8月1日起减半),首次充值满100元赠200元代金券(8月1日起减半) [7] - 单次充值满8000元返1600元代金券,超过8000元返20%充值金额 [8] 价格对比示例 - A800刊例价6.39元/卡小时(友商7.45元),H800刊例价13.99元/卡小时(友商14.93元) [9] - 消耗满10000元时A800低至4.26元/卡小时(较刊例价降33%),H800低至9.33元/卡小时(较刊例价降33%) [9] 公司背景 - 英博数科为鸿博股份(002229)全资子公司,成立于2022年6月 [14] - 业务覆盖智算中心建设、GPU容器服务、算力实验室及产业孵化器 [14] - 旗下英博云提供GPU智算服务,支持K8s集群、IB高速网络及全闪存储 [15] - 四大核心优势:稳定算力供应链、大集群运维专长、性能优化能力、技术团队基因 [16][17]
150PB工业数据+智能体革命,西门子开启AI制造新纪元
机器之心· 2025-07-25 04:29
西门子工业AI发展历程 - 1964年德国爱尔兰根西门子数据中心诞生世界首批计算机生成图像 由工业数学家Georg Nees通过Zuse Graphomat Z64绘图仪实现 [2][3][4] - 1965年全球首个算法艺术展览Computer grafik在斯图加特大学举办 Georg Nees为唯一参展艺术家 [4] - 1966年西门子设立爱尔兰根研究中心 该园区成为工业4 0技术孵化母体 [5] - 60年后该工厂部署超100项AI应用 数字孪生技术成为核心 机器人可识别陌生零件并完成微米级精密操作 [6][7] Industrial Copilot智能体系统 - 获2024年工业界奥斯卡赫尔墨斯奖 实现自然语言指令生成150行自动化代码 开发效率提升50% 代码部署时间缩短30% [11][14] - 系统架构包含前台Industrial Copilot(人机交互接口)与后台Orchestrator(任务调度中枢) 支持多智能体协同作业 [15][17] - 典型应用场景:自然语言指令触发订单生产全流程 包括设备状态检查、产线调整、物料核算、AGV路径规划等 全程可视化监控 [18][19][20][22] 工业基础模型(IFM)技术壁垒 - 基于150PB多模态工业数据构建 包含时间序列模型GTT(1240亿参数)等专项模型 深度理解工程语义与工业逻辑 [24][25][35] - 与通用大模型本质差异:专精机器语言解析(图纸几何/PLC代码/传感器时序) 严格遵循工业安全约束 [26][27][28] - 数据采集需兼容Modbus/OPC UA/CAN等协议 处理毫秒至小时级多频数据 解决缺失值/异常点等质量问题 [43][45][47] 西门子工业AI生态优势 - 覆盖CAD/EDA/CAE/PLM/MES等全品类工业软件 服务全球40+行业40万+客户 PLC控制器占全球工厂1/3份额 [36][37][40] - 拥有1500名AI专家(250人专注基础研究) 500+活跃AI专利家族 欧洲AI专利申请量第一 [64] - 2024年战略动作:百亿美元收购Altair强化工业仿真 并购Dotmatics拓展生物医药领域 [67][68] 历史积淀与未来布局 - 1973年取得首项AI专利 1990年代推出全球首个神经网络焊接系统 2023年快速接入ChatGPT/DeepSeek等前沿技术 [58][59][60] - 2025年WAIC中国首秀Industrial Copilot系统 展示自主生产场景 [72] - 核心竞争力:百年工程知识沉淀+行业know-how 构建25年内难以复制的护城河 [32][54]
夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频
机器之心· 2025-07-25 04:29
模型概述 - OmniAvatar是由夸克技术团队与浙江大学联合开源的音频驱动全身视频生成模型,仅需输入一张图片和一段音频即可生成视频,显著提升唇形同步细节和全身动作流畅性,并支持通过提示词精准控制人物姿势、情绪及场景[1] - 模型已开源,提供播客、唱歌、交互、动态背景等多场景案例[2] - 实验数据显示其在唇形同步、面部/半身视频生成、文本控制等维度表现领先,平衡视频质量、准确度与审美[3] 技术架构与创新 - 基于Wan2 1-T2V-14B基础模型,采用LoRA微调方法引入音频特征,保留原模型视频生成能力的同时提升音频适应性[8] - 提出像素级多层次音频嵌入策略:通过Wav2Vec2提取音频特征并压缩映射至潜在空间,实现唇部运动精准对齐及全身动作自然协调[13] - 采用多层级音频嵌入设计,将音频信息嵌入DiT模块第二层至中间层,避免潜在空间过度干扰并保持各层独立学习路径[14] 性能对比 - 在FID t(67 6)、FVDt(664)、Sync-Ct(7 12)、Sync-D+(8 05)、IQAt(3 75)、ASET(2 25)等指标上优于Hallo3、Fantasy Talking等竞品[5] - 长视频生成通过参考图像嵌入和帧重叠技术优化,确保人物身份一致性与时间连贯性[6][19][20] 应用场景与优化 - 支持动态场景下人物情绪精确控制及镜头运动时的自然流畅表现[11] - 基于LoRA的平衡微调策略解决传统方法中连贯性差或唇形同步性能不足的问题,通过低秩矩阵更新权重高效学习音频特征[16][17] 未来方向 - 当前为多模态视频生成初步尝试,需在复杂指令处理、多角色交互等场景进一步探索以提升产品化能力[22] 资源链接 - 模型、代码、论文及项目页地址公开[4]
解道奥赛题成本5000美元?陶哲轩警告,AI下一步要规模化的「更便宜」
机器之心· 2025-07-25 04:29
人工智能和数学是密不可分的。 机器之心报道 机器之心编辑部 AI 的发展离不开数学的进步,同时 AI 的进步也离不开解决数学问题的能力。 在刚结束不久的 IMO 竞赛中,谷歌的新一代 Gemini 进阶版模型成功解决了六道超高难度试题中的五道,达到了今年 IMO 的金牌水平(35/42),成为首个获得奥 赛组委会官方认定为金牌的 AI 系统。 加州大学洛杉矶分校数学系终身教授,菲尔兹奖获得者,被称为「数学莫扎特」的华人数学家 陶哲轩 ,参加了今年度 IMO 竞赛的颁奖典礼。 他同样也对在 IMO 取得成绩的 AI 模型十分关注。 但他同样表达了一定程度的担忧,希望明年能够在更加受控的环境下对 AI 模型进行科学比较和评估。 陶教授认为:一些在标准考试条件下可能连铜牌都难以稳定获得的学生或队伍,在某些经过修改的赛制下,反而可能稳定地达到金牌水平。 因此,在 没有采用统一、非参赛队自选的控制性测试方法 的前提下,对于不同 AI 模型在类似 IMO 等竞赛中的表现,应当 谨慎看待 ,避免作出过于简单化的 「对等」比较。 陶教授对人工智能的发展和评估的关心是一贯的。就在刚刚,他在 mathstodon 上发表了对于人 ...
港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!
机器之心· 2025-07-25 04:29
核心观点 - LOVON框架创新性地整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决足式机器人在动态非结构化环境中长程目标导航的难题[2][5] - 该框架具备即插即用特性,兼容Unitree Go2、B2、H1-2等主流足式机器人平台,突破传统导航场景限制[2][19] - 在仿真与真实环境中均实现性能突破,如仿真成功率1.00(EVT为0.94),训练效率提升240倍[18] 技术架构 三大核心模块 - **LLM任务规划器**:分解长视野任务为子任务并动态调整顺序,例如“先跑向椅子再靠近行人”[16] - **开放词汇视觉检测**:识别从背包、盆栽到汽车、宠物等开放类别目标,适配多样化场景[16] - **语言-运动模型(L2MM)**:将指令直接转化为运动向量,实现精准速度与方向控制[16] 抗干扰视觉处理 - 采用拉普拉斯方差滤波技术过滤模糊图像帧,配合滑动平均滤波提升有效检测帧比例25%[11][12] 自适应执行逻辑 - 目标丢失时自动切换至搜索模式,新指令无缝衔接,外力干扰后快速重规划路径[14][15] 性能表现 仿真环境 - GymUnreal场景中成功率1.00(EVT为0.94),训练时间仅1.5小时(TrackVLA需360小时)[18] 真实世界 - **开放世界适配**:识别大小形态各异目标并在陌生环境快速适应[23] - **多目标长程追踪**:流畅执行“找椅子→找行人→找背包”等复杂任务链[23] - **动态环境鲁棒性**:在螺旋楼梯、杂草丛等复杂地形稳定跟踪移动目标[23] - **抗干扰能力**:目标移动或碰撞后快速重新锁定[23] 应用前景 - 覆盖家庭服务、工业巡检、野外科研等领域,推动足式机器人从实验室走向实际应用[21] - 通用框架设计加速技术落地,有望成为智能服务变革的关键技术[21]
Meta出走华人创业团队,种子轮800万美元,要打造视觉AI记忆大脑
机器之心· 2025-07-25 02:03
人才流动与创业动态 - Meta近期从谷歌挖走三位IMO金牌研究者以加强AI团队建设[2][3] - 前Meta Reality Labs顶尖科学家团队创立AI研究实验室Memoriesai并完成800万美元种子轮融资由Susa Ventures领投三星风投等跟投[6] 技术突破与创新 - Memoriesai团队开发大视觉记忆模型(LVMM)解决AI系统"记忆缺失"问题为视觉模型创造记忆大脑[7][13] - LVMM突破传统视频片段分析范式实现永久保留上下文信息/精准识别时序模式/智能对比分析三大功能[14][15][16] - 该技术将原始视频转化为可搜索数据库使AI具备无限视觉记忆能力在视频分类/检索/问答领域刷新SOTA基准[17][18][19] 应用场景与商业化 - LVMM可处理数月甚至数年视频数据实现秒级检索与分析已与三星等手机厂商展开合作[22] - 核心技术通过API开放并推出网页应用支持用户上传视频进行毫秒级精度检索与深度分析[24][25] - 推出Video Creator视频创作助手和Video Marketer智能营销工具等Demo Agents展示应用潜力[26][27] 行业影响与愿景 - 该技术有望在安防/媒体/营销/消费电子等领域带来变革性应用[22] - 公司愿景是赋予AI深度情境感知能力以构建更安全智能的世界[23] - 技术展示平台已开放欢迎企业/研究者体验视觉记忆与智能的交叉应用[29]
北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势
机器之心· 2025-07-25 02:03
核心观点 - 视觉-语言-动作模型(VLA)是将基础模型的智能从数字世界延伸至物理空间的关键技术路径,通过处理视觉与语言输入并生成实时动作,赋能机器人系统[1][9] - 北京大学-灵初智能联合实验室首次提出从动作词元化(action tokenization)视角统一理解VLA模型的新框架,系统分析八种主流action token及其发展趋势[2][8] - VLA模型的快速发展受基础模型与数据资源双重驱动,呈现U形演进结构[15] VLA统一框架与Action Token分类 - VLA模型通用框架:视觉与语言输入经VLA modules逐级处理,生成逐渐具体的action token并转化为动作输出[10][11] - VLA module定义为支持端到端梯度传播的最大可微子网络或不可微功能模块,承担场景感知、动作规划等特定能力[12] - Action token是VLA modules间传递的动作表示,可理解为"动作语言",当前主要分为八类[13][16]: - Language Description(语言描述):分为子任务级language plan和原子动作级language motion[16] - Code(代码):含逻辑控制和机器人API调用的程序代码[22] - Affordance(可操作性):基于空间的交互表示如关键点、边界框等[25][26] - Trajectory(轨迹):时空连续状态序列[29][30] - Goal State(目标状态):任务预期结果的视觉呈现[34] - Latent Representation(隐式表示):预训练得到的动作相关隐向量序列[36] - Raw Action(原始动作):关节角度等底层控制指令[38] - Reasoning(推理):解释动作原因的自然语言思考过程[42] Action Token发展趋势 - 未来VLA模型将采用多种token协同架构:language plan用于高层任务分解,affordance+trajectory+goal state实现精细控制[10][21] - Code需构建更完善机器人API库并引入形式化验证机制以释放潜力[24] - Affordance将向三维表达、时序建模和鲁棒性增强方向发展[33] - Trajectory需突破三维空间表征、轻量化生成和语义融合等挑战[32] - Latent representation需解决粒度、语义覆盖和任务对齐问题[37] - Raw action面临数据规模不足和跨本体泛化等瓶颈[41] - Reasoning需平衡实时性与推理深度[46] 产业化进展 - 灵初智能自研VLA模型Psi R1已在麻将机器人场景验证,将在2025世界人工智能大会展示30分钟连续博弈能力[2][51] - 公司计划在WAIC 2025集中展示外卖机器人、超市打包机器人等应用案例[3] - 技术路线从理论突破走向实际应用,标志具身智能向认知决策和长程操作的关键跃迁[51] 数据支撑体系 - VLA数据金字塔分为三层: - 底层:网络数据与人类视频,建立通用视觉语言理解能力[47] - 中层:合成与仿真数据,提供高性价比动作标签数据[48] - 顶层:真实机器人数据,包含物理世界动态约束[49] - 当前最大规模机器人数据集仅百万级,远低于LLM所需的十亿级语料[41]