机器之心

搜索文档
阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达
机器之心· 2025-07-29 06:38
模型发布与开源 - 阿里发布全球首个开源的MoE架构视频生成模型Wan2.2 具备电影级美学控制能力[2][3] - 模型遵循Apache 2.0开源协议 用户可通过Hugging Face和阿里魔搭社区下载使用[4][20] 技术架构创新 - 首次在视频扩散模型中引入Mixture-of-Experts(MoE)架构 通过多个专家模型分担去噪过程[11][12] - 采用自研Wan2.2-VAE编码器 压缩率达到16×16×4 支持文本生成视频和图像生成视频两种模式[18] - 模型参数量达50亿 生成分辨率高达720P/24fps 可在消费级显卡(如4090)流畅运行[18][19] 数据与性能表现 - 训练数据量相比Wan2.1大幅提升:图像数据增加65.6% 视频数据增加83.2%[14] - 数据扩展显著增强模型在运动表达、语义理解和美学表现等多维度的泛化能力[15] - 融入特别筛选的美学数据集 标注光影、构图、色彩等细粒度属性 支持用户定制审美偏好[16] 市场定位与反响 - 模型被列为当前市场最快速的720P/24fps生成模型之一 可同时服务工业界与学术界需求[19] - 开源社区反响积极 用户评价包括"Amazing"、"Huge congrats"等正面反馈[7][10]
不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
机器之心· 2025-07-29 06:38
核心观点 - 提出Data Whisperer框架 利用预训练模型的上下文学习能力实现免训练的数据选择 仅需10%数据即可达到接近全量数据的微调效果 [2][4][6] - 该方法通过注意力机制和ICL模拟参数更新 实现高效稳定的数据筛选 无需额外训练或人工标注 [6][10][36] - 在多个基准测试中显著超越传统方法 同时大幅降低计算成本和时间消耗 [15][18][35] 方法机制 - 基于ICL少样本构建和注意力感知权重 结合模型输出质量与注意力贡献进行综合打分 [7][8][10] - 理论支持显示ICL通过上下文样本调整注意力权重 等效于隐式参数更新 [13][14][36] - 支持弱选强训机制 小模型选题大模型微调 实现知识迁移并降低计算负担 [22][23][24] 性能表现 - GSM8K数学任务:使用10%数据达到72.46% 超过全量数据71.39%的表现 [15][19] - DialogSum摘要任务:在Qwen模型上达到43% 较SOTA方法提升2.5个百分点 [15][19] - 效率指标STR低至0.03-0.2 较传统方法提升8-20倍速度 [18][21] - 在1%/5%/10%低预算场景下均保持领先优势 [15][35] 技术细节 - 最优配置为n_d=10示范样本和n_q=5查询样本 增加样本数量效果饱和 [26][27][28] - 中间层注意力(如Layer13)提供最稳定的语义信息 优化选题效果 [30][31][32] - 倾向选择低困惑度样本 符合易例优先理论 [33][34] 对比优势 - 全面超越GraNd(基于梯度)/EL2N(预测误差)/CCS(多样性)/Nuggets(需训练打分器)等方法 [15][35][38] - 在准确率、效率、稳定性三个维度均领先 尤其擅长低预算场景 [18][35] - 实现结构感知和推理驱动的数据选择新范式 [39] 应用前景 - 可迁移至法律、医疗等复杂结构任务领域 [41] - 未来可结合人类反馈、提示工程或合成数据方法进一步优化 [41] - 揭示任务对齐可不依赖人类标签或大数据量 通过结构化推理机制引导学习 [42][43]
从WAIC上爆火的功夫机器人,看到这家央企的具身智能「真功夫」
机器之心· 2025-07-28 11:52
机器人技术展示 - 功夫机器人「功夫 boy」完成全新升级,能够进行「分钟级」武术表演 [2] - 机器人与文生视频人物同步演示武术动作,展示人工智能从虚拟走向物理世界的完整图景 [3] - 展区还展示了小尺寸机器人TeleBot M1和远程全身遥操作系统TeleHumos [4] 技术能力 - 功夫机器人具备高难度动作能力,证明其「小脑」非常发达,能精确控制身体各个环节 [7] - 小尺寸机器人展示硬件研发能力,非标准本体采购 [8] - 遥操作系统配备豪华配置,支持危险场景远程作业 [9] - 公司技术栈全面,在大小脑研发上处于领先地位 [10] 全栈自研战略 - 公司选择全栈自研路线,已取得显著成果 [14] - 全栈自研是央企的必答题,承担抢占科技制高点的使命 [16] - 公司展开硬件、软件、数据全方位技术探索 [17] 硬件创新 - 自研多电机协同驱动控制嵌入式硬件系统和运动控制算法 [21] - 开发六自由度并联腰部关节,解决机器人行走和操作稳定性问题 [23] - 利用5G专网和智传网技术,实现公里级遥操作 [26] 软件架构 - 开发跨本体VLA大模型,解决数据孤岛问题 [30] - 构建统一多步态混合专家模型,支持10种以上步态 [34] - 实现分钟级长序列武术表演,并开源相关代码 [36][38] 数据平台 - 构建逼真虚拟世界,用AI自动化生成数据 [43] - 引入世界模型作为核心驱动,减少对真实环境数据的依赖 [47] - 开发两阶段双臂轨迹预测流程,应对数据稀缺挑战 [48] 系统协同 - 布局智传网(AI Flow),实现端边云协同 [54] - 多个机器人可共享云端大脑计算资源 [57] - AI、具身智能与通信网络深度融合是公司的独特优势 [58] 发展战略 - 公司采取生态级协同创新路线,形成长期发展动能 [61] - 央企背景提供丰富应用场景,如算力中心自动化运维 [62] - 全栈自研能力为行业提供可控备份和技术模块 [63]
这届WAIC,无问芯穹发布了三个「盒子」
机器之心· 2025-07-28 10:45
核心观点 - 算力是智能时代的核心基础设施,其规模与效率决定数字未来的发展边界 [1] - 公司提出两条加速AGI临界点的路径:提高智能效率与扩充计算资源,通过场景尺度×计算资源×智能效率的共振实现有限资源满足无限需求 [5][8] - 推出全规模AI效能跃升方案三大产品:无穹AI云(万卡级)、无界智算平台(百卡级)、无垠终端智能(单卡级),覆盖从超算到终端的全场景算力优化 [10] 产品技术架构 无穹AI云(大盒子) - 构建覆盖26省市53个数据中心的广域算力网,整合15种芯片架构异构算力池,总算力超25000P,支持跨地域实时算力切换 [14] - 采用"一网三异"调度架构,实现非理想状态算力资源转化为高稳定性AI服务能力,日均Token调用量突破100亿次 [16] - 与华为昇腾合作上线全国首个"算力生态超市",启动百亿生态共建计划,推动国产硬件与平台协同 [18] 无界智算平台(中盒子) - 在3000卡国产GPU集群上实现百亿参数大模型600小时不间断训练,创国产算力记录 [20] - 利用2000张华为昇腾910B卡完成千亿参数模型分布式推理,为云南移动构建商业化服务能力 [23] - 推出全球首个跨地域全分布式联合强化学习服务,最小支持单张消费级显卡接入 [25] 无垠终端智能(小盒子) - 发布全球首款端侧本征模型Infini-Megrez2.0,在7B内存占用下实现21B参数云级智能,突破终端"能效-空间-智能"不可能三角 [31] - 新一代推理引擎Infini-Mizar2.0将AIPC本地模型上限从7B提升至30B,联合Megrez2.0实现推理性能提升超100% [35] - 与新华三推出大模型一体机,单机驱动百亿参数模型,能效翻倍且成本大幅降低 [36] 行业生态布局 - 联合上海创智学院等十余家机构启动人工智能终端软硬适配优化中试平台,解决共性技术难题并建立评价体系 [40][41] - 与三大运营商及20余家AIDC伙伴启动联合运营创新生态计划,整合闲置算力资源 [27] - 合作生态覆盖联想、新华三、异格技术等终端厂商,推动端侧Agentic AI自主进化 [38]
EvaLearn:AI下半场的全新评测范式!
机器之心· 2025-07-28 10:45
AI研究范式转变 - AI研究正从"能不能做"转向"学得是否有效",传统基准测试难以衡量AI实际效用,因忽略任务连贯性和长期适应能力[1] - 更类人的动态学习能力体现在通过实践经验不断优化策略,如学生解题时逐步掌握高效方法[3] - 大语言模型(LLM)是否具备类似"成长"能力关乎其迈向通用人工智能,但长期缺乏有效评估手段[4] EvaLearn基准框架 - EvaLearn是首个量化LLM学习能力与效率的基准,以「连续问题求解」为核心重新定义评估逻辑,开源一个月星标数突破400+[5][6] - 构建648个挑战性问题组成182个序列,每个序列含7个同类任务问题,前序解答经验直接影响后续表现评估[9] - 采用顺序评估流程,结合专业评分标准和GPT-4o验证器,评估准确率超95%实现高效自动化[11][13] 关键研究发现 - 模型学习能力存在任务类型差异:数学/逻辑推理任务更易利用经验提升,摘要类任务更依赖预训练知识[14] - 思维链模型在学习能力和稳定性上普遍优于非思维链模型,能更好利用经验解决新问题[15] - 反馈学习比示例学习效果更显著,可将模型解答准确率提升最高达+18%(如Claude-3.7-Sonnet数学推理)[16][24] - 学习能力与静态模型能力无强相关性,静态高性能模型并非在所有任务学习能力上都占优[17][38] 评估指标体系 - 设计6类任务评估维度:摘要/分类/信息抽取/逻辑推理/数学推理/序列推理[20] - 5大核心指标:整体序列准确率/准确率曲线斜率/首次正确位置/连续正确次数/热身后准确率[21] - 4种学习范式对比:零样本/少样本/示例学习/反馈学习,后者平均提升效果最优[22][48] 模型表现分析 - 9个前沿LLM测试显示:5个模型从顺序学习中获益,思维型模型变化更显著(如OpenAI-o3-mini整体提升+10.5%)[27] - 非思维型模型学习效率斜率更陡峭(起始性能低易提升),思维型模型收益更稳定[44] - 首个正确解答位置(P_first)指标显示,反馈学习比示例学习更能促进模型早期掌握任务[52][53] 研究意义与展望 - EvaLearn提供动态评估新范式,揭示模型与人类学习能力差距,推动更强模型发展[55][56] - 开创性实现从静态评估转向动态学习潜力评估,为AGI发展提供重要测量工具[57]
「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
机器之心· 2025-07-28 10:45
AI术语命名与概念发展 - AI大牛Andrej Karpathy首次提出“幻觉”(hallucinations)一词,用于描述神经网络生成无意义内容的现象 [1][3] - Karpathy在2015年博客中已使用“幻觉”概念,但直到2022年ChatGPT爆发后才成为研究热点 [3][6] - Karpathy被公认为AI圈“取名大师”,提出“软件2.0”“软件3.0”“氛围编程”“细菌式编程”等概念 [6][9][11] 软件范式演进 - **软件1.0**:传统编程模式,开发者需精确编写Python/C++等显式指令代码 [12][14] - **软件2.0**:神经网络时代,代码由权重参数构成,通过数据训练而非人工编写 [13][15] - **软件3.0**:提示词时代,用户用自然语言描述需求,LLM直接生成代码 [16][17] - 软件3.0特点包括:LLM作为计算平台(类比电网基础设施)、自主滑块调节AI控制程度 [19][20] 新型编程范式 - **氛围编程**:开发者仅需向LLM提出需求并全盘接受输出,无需直接编写代码 [22][23][24] - **细菌式编程**:强调代码模块化与可移植性,类似细菌基因的水平转移特性 [35][36] - 细菌式编程检验标准:代码需满足小巧、自包含、无依赖,便于开源社区复用 [35][36] 上下文工程崛起 - 上下文工程因Karpathy转发点评迅速出圈,相关帖子浏览量达220万 [42][43] - 与提示工程区别:上下文工程更注重结构化信息提供,而非单纯优化提示词 [44] - LangChain指出提示工程是上下文工程的子集,后者适用于复杂智能体构建 [43][44] 行业趋势观察 - Karpathy预测未来99.9%内容将由AI处理,文档需转向“为AI优化”格式(如Markdown) [45] - 命名在科研中具有知识奠基作用,精确术语是科学分类的“稳定靶标” [7][9]
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 04:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
机器之心· 2025-07-28 04:24
核心观点 - 提出UV-CoT框架,实现无监督视觉思维链推理,动态聚焦关键区域并提升细粒度推理能力[3][4] - 通过自动化偏好数据生成与评估流程替代人工标注,降低高昂成本并增强泛化能力[7][8] - 采用改进的sDPO算法量化偏好分数差异,结合迭代学习策略优化模型输出分布[16][17] 方法设计 - **数据生成机制**:利用目标模型和评估模型生成多样化推理响应,通过偏好评分构建数据集[11] - 响应生成:每个时间步t随机生成n个响应(含边界框和推理结果)[13] - 评估标准:综合当前区域得分及对后续回答的影响(公式:$s^i = s_{cur}^i + \gamma s_{nxt}^i$)[11] - **偏好优化**:从响应中随机选择k个偏好对构建数据集,保留最高评分链用于后续推理[14] - **迭代学习**:将数据分为m个子集动态更新,缓解模型生成分布与训练数据的差异[17] 性能表现 - **基准测试**:在六大基准上平均得分0.286(UV-CoT)和0.312(UV-CoT*),显著超越有监督模型Visual-CoT-7B(0.261)[20][22] - 具体任务:在Visual7w上达0.432,高于Visual-CoT-7B的0.397[22] - 复杂任务:GPT4V-hard OCR任务中得分0.677,对比Visual-CoT-7B的0.593[22] - **边界框质量**:自评估模式下性能仍超LLaVA-1.5-7B 4.8%,接近OmniLMM-12B(差距0.2%)[23] - 辅助推理:应用UV-CoT边界框使OmniLMM-12B和LLaVA-1.5-7B性能分别提升7.3%和4.7%[23] 应用价值 - 为多模态推理提供高效可扩展的新思路,减少对人工标注的依赖[25] - 开源资源包括论文、代码及模型(Hugging Face仓库),促进后续研究[10]
多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
机器之心· 2025-07-28 02:47
多模态大模型核心认知缺陷研究 核心观点 - 主流多模态大模型(MLLM)普遍缺乏人类婴儿期即具备的核心认知能力,且该缺陷无法通过单纯扩大模型规模解决[5][12][16] - 模型在基础物理概念(如物体恒存、空间知觉)任务中表现远低于复杂推理任务,显示其认知架构存在结构性缺失[12][14] - 通过创新评估框架CoreCognition和Concept Hacking方法,证实模型多依赖表面特征而非深层理解[6][18][20] 研究框架设计 - **CoreCognition测评体系** - 覆盖12项核心认知概念,分层设计对应感知运动期/混合期/形式运算期三阶段[11] - 包含1503个图像-问题对,测试230款模型×11种prompt生成2530个评估数据点[11] - 采用三重严谨设计标准:判别性强/混淆最小/无文本捷径[11] 关键发现 - **基础认知缺陷** - 模型在边界感/连续性/空间知觉等基础任务中准确率比复杂任务低37%-62%[12] - 物体恒存性测试中,83%的模型表现低于随机猜测水平[12] - **规模效应悖论** - 参数增加100倍仅带来基础认知能力≤5%提升,部分能力随规模扩大下降16%[16] - System-2推理模型在核心认知任务中未显现优势[19] - **虚假学习模式** - Concept Hacking测试显示,关键特征反转导致模型准确率骤降58%-72%[18][20] - 模型在70%干预测试中表现出依赖表面线索的投机行为[20] 技术启示 - 当前预训练范式无法自发形成核心认知架构,需显式注入物理常识[30] - 需开发认知引导训练机制,建立类似人类的认知scaffold结构[30] - 模型高级能力与基础认知脱节,反映现有评估体系存在盲区[14][22] 研究团队 - 跨学科团队涵盖认知科学/计算机视觉/神经工程领域[23][24][25][26][27][28][29] - 核心成员来自UC San Diego/约翰霍普金斯/卡内基梅隆等机构[23][24][29]
扣子开源全家桶,Apache 2.0加持,AI Agent又一次卷到起飞
机器之心· 2025-07-28 02:47
核心观点 - 新一代AI Agent开发平台扣子(Coze)宣布开源两款核心产品:零代码开发平台(Coze Studio)和调试工具扣子罗盘(Coze Loop),加上此前已开源的应用开发框架Eino,四大核心产品已有其三完成开源 [4][5] - 开源的两个核心产品在GitHub上Star数量迅速攀升至9.5K,成为智能体开发领域最受关注的开源项目之一 [7] - 公司选择在2025年AI Agent爆发前夕全线开源,采用高度开放的Apache 2.0协议,旨在推动行业生态发展 [6][44] 开源产品与技术特点 Coze Studio - 真正意义上的无代码开发平台,用户无需编程基础,通过拖拽方式1-2小时即可构建实用的AI应用 [10][11] - 提供最丰富的插件市场,支持知识库、数据库等组件,极大拓展智能体能力边界 [12] - 技术栈采用Golang(后端)和React + TypeScript(前端),基于微服务和DDD架构,确保高并发下的稳定性 [19][20][21] - 支持多平台发布(飞书、抖音、微信等),提供API和SDK便于业务系统集成 [14] Coze Loop - 面向智能体全生命周期的可视化调试工具,覆盖开发-评测-观测-优化四大阶段 [28] - 提供Prompt IDE + Git + AB测试三合一功能,支持全链路Trace观测和性能量化 [30][32][33] - 开源功能包括提示调试、评测体系、Trace观测等商业级能力,支持多语言SDK二次开发 [34][36] Eino框架 - 支持OpenAI等主流LLM接入,模型切换灵活,扩展性强 [37] - 与商业版完全兼容,可通过Docker一键部署,降低使用门槛 [38] 行业影响与战略意义 - 开源时机选择在2025年AI Agent爆发前夕,旨在抢占行业标准制定权 [6][55] - 采用Apache 2.0协议,允许闭源商用,消除开发者合规顾虑,加速生态建设 [45][46] - 对标Android开源策略,通过技术放权吸引开发者共建生态,目标成为智能体时代的"操作系统" [47][52] - 开源完整工具链将改变行业竞争格局,直接挑战Dify、n8n等现有平台 [58][59] 开发者价值 - 零门槛获取商业级能力,尤其利好中小企业和个人开发者 [48] - 支持私有化部署,满足企业对数据安全和合规性的要求 [50] - 提供经过大规模验证的核心模块,开发者可快速构建差异化应用 [41][42]