机器之心

搜索文档
OpenAI提出的CLIP,被Meta联合谢赛宁、刘壮,扩展到全球300+语言
机器之心· 2025-07-31 05:11
MetaCLIP 2的核心创新 - 提出首个从零开始在原生全球图文对上训练CLIP的方法,不依赖外部资源如私有数据或机器翻译 [2] - 通过元数据拓展、数据筛选算法和训练框架三项核心创新实现全球扩展能力,覆盖300多种语言 [5] - 实验证明英语与非英语数据可互利,ViT-H/14模型在ImageNet英语准确率从80.5%提升至81.3%,多语言任务创SOTA [6][10] 技术架构与训练方法 - 元数据覆盖维基百科与多语言WordNet,采用语言隔离的子串匹配算法保持概念分布均衡 [22][24] - 训练框架同步扩大批次规模2.3倍(从32,768增至75,366),确保英语数据占比44%不变 [26][27][30] - 使用多语言tokenizer(XLM-V最优)和最小可行模型容量研究,保持与OpenAI CLIP架构一致性 [20][37] 性能优势与行业影响 - 在Babel-ImageNet、XM3600等多语言基准上性能超越mSigLIP 3.8%-7.6%,使用图文对数量仅为竞品72% [32][34] - 保留文化多样性数据分布,提升地理定位能力(如GLDv2任务69.0% Top-1准确率) [13][39] - 提供全球规模图文对数据集,支持MLLM、图像生成等下游应用,填补非英语数据处理的空白 [15][7] 实验验证与突破 - 消融实验显示语言隔离和t_lang调整机制对性能提升关键,ViT-H/14模型打破"多语言诅咒" [31][36] - 全球数据训练使英语与非英语任务同步优化,XM3600检索任务达到64.3%准确率 [6][32] - 嵌入质量评估显示MetaCLIP 2在对齐度和均匀性指标上优于SigLIP系列模型 [39]
微软花重金做的Copilot,居然被WPS一个按钮给秒了?
机器之心· 2025-07-31 05:11
WPS灵犀产品功能 - 提供AI搜索、网页摘要、一键写作、数据分析、图像生成、PPT及思维导图制作等多元化功能 [9] - AI写作可根据主题自动生成逻辑清晰的结构化内容,AI PPT支持一键生成高质量演示文稿并保留原始格式编辑灵活性 [9][32] - 支持多轮对话交互,修改文档时保留原有格式,解决传统AI生成内容不可直接使用的痛点 [47] 技术应用与实测表现 - 并行调用网络搜索工具处理复杂需求,例如同时搜索19个网页并标注来源完成AI新闻汇总任务 [14] - AI阅读功能可快速解析英文技术报告等长文档,输出条理清晰的摘要 [19][20] - 移动端集成AI语音助手,支持语音交互完成文档查询、财务数据提取等场景化需求 [48][49] 行业定位与战略方向 - 金山办公推出WPS灵犀标志着国产办公软件进入AI 3.0时代,与微软Copilot形成竞争 [36][37] - 产品设计聚焦实用性,通过AI与软件双向改造实现深度交互,例如解析数千种格式组合保留图文混排等复杂版式 [55][56] - 覆盖合同拟订、材料撰写等高频办公场景,实现从内容生成到风险提示的全流程自动化 [42][43] 市场影响与用户价值 - 全球6亿用户基础的WPS通过灵犀智能体重塑办公效率标准,获2025 WAIC"镇馆之宝"奖项 [1][7] - 相比竞品HTML格式输出局限,灵犀生成标准pptx文件且支持模板自由替换,兼容性更优 [31][32] - 公司助理总裁田然强调"解决效率痛点"为核心战略,推动AI办公向Agentic Software演进 [54][55]
VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
机器之心· 2025-07-31 05:11
机器人VLA模型研究突破 - 新加坡国立大学邵林团队发表突破性研究VLA-OS,首次系统解构和分析机器人VLA模型的任务规划与推理能力 [3] - 研究通过控制变量实验方法,专注于任务规划的"范式"和"表征"两大方面,统一其他因素 [19] - 研究提出五大核心问题,包括规划表征选择、范式选择、性能瓶颈、scaling law和规划带来的提升 [21] VLA-OS实验平台设计 - 构建架构统一、参数递增的VLM模型家族,选取Qwen 2.5 LLM的0.5B/1.5B/3B/7B四个模型作为基座 [23] - 设计可组合的VLA-OS模型家族,实现ActionOnly-VLA、Integrated-VLA和Hierarchical-VLA三大范式的公平对比 [25][26] - 收集整理六类数据集共约10,000条轨迹,覆盖多种视觉模态、操作环境和执行器种类 [28][29] 关键研究发现 - 视觉规划表征和目标图像表征相比语言表征具有更优性能、更快推理速度和更低训练成本 [46][47] - Hierarchical-VLA范式展现出最强泛化能力和规划能力,优于Integrated-VLA [49][57][63] - 所有VLA范式性能随数据量增加而提升,但模型规模超过3B时性能下降 [72][75] - 含任务规划的VLA范式前向迁移能力更强但遗忘速度更快 [76][79] 设计指南与未来方向 - 首选视觉表征和目标图像规划,语言规划仅作为辅助 [81] - 资源充足选Hierarchical-VLA,资源有限选Integrated-VLA [81] - 未来方向包括探索空间表征神经机制、设计解耦训练机制、开发高效VLM信息蒸馏架构和构建万亿级规划数据集 [86]
定义科学智能2.0:在WAIC,复旦与上智院的答案是开放协作、科学家为中心,以及一个「合作伙伴」
机器之心· 2025-07-31 05:11
科学智能的战略地位 - 科学智能(AI4S)被列为世界人工智能大会十大核心方向之一,拥有专属论坛和交叉议题 [3] - AlphaFold的成功证明科学智能已从概念走向现实,正在重塑科学研究的根基 [3] - 复旦大学与上海科学智能研究院联合主办"星河启智·科学智能开放合作论坛",汇聚全球顶尖科学家探讨开放协作与产业实践 [4][5] 科学智能2.0时代的定义 - 科学智能2.0时代以领域科学家为中心,AI从工具进化为理解科学家意图的"合作伙伴" [9] - 需要构建由人类科学家、开放数据、全球协作和AI科学家组成的"超级科学发现系统" [7] - 当前业界仍停留在"工具思维",需要转向"生态思维"以实现人机深度协作 [7][39] 全球顶尖科学家的前沿观点 - 图灵奖得主Joseph Sifakis指出当前AI在可靠性、安全性和语义控制方面存在根本性挑战 [16] - 诺贝尔物理学奖得主Giorgio Parisi认为AI缺乏基础理论框架,如同热力学诞生前的蒸汽机 [17][19] - 王坚院士强调计算是科学革命的核心,AI正在打破科研专业壁垒实现"科研平权" [22] 科学智能发展的两大支柱 - "底座论":需要构建强大的算力基础设施和开放平台作为发展基础 [22][27] - "场景论":AI需要与具体科学难题深度结合,如抗体设计、材料科学等领域 [25][26] - 基础设施与精准应用场景共同构成科学智能发展的完整生态 [27] 开放科学全球合作倡议 - 倡议旨在打破"数据鸿沟",构建全球科学生态系统 [30][32] - 四大核心举措:开放基础设施、启动大科学计划、培养全球人才、创造科学新时代 [34] - 由多位诺贝尔奖、图灵奖得主等国际顶尖科学家共同发起 [32] 科学智能对教育科研的变革 - 大学需要重塑教育形态和科研范式,构建创新生态让学生带动老师 [39] - 基础学科教育是培养AI人才的根本,需要依托大型开放科研平台 [39] - 香港高校提出用区块链解决知识产权、纳米出版替代传统论文等激进构想 [43] 产业落地与技术路径 - 产业界面临AI模型与实验验证通量不匹配的痛点 [45] - 自动化实验室可加速"设计-构建-测试-学习"闭环,产生高质量数据 [45] - 学术界关注将物理规律等先验知识融入模型,提升学习与泛化能力 [46] 星河启智开放平台 - 平台集开放数据、共享模型、融合算力和智能体广场于一体 [53] - 典型案例包括早期中华文明多模态大模型和医疗领域的"观心大模型" [56][61] - 平台旨在降低科学家探索门槛,聚焦高价值科学问题 [54] 产学研用一体化发展 - 与中国南方电网、镁伽科技等企业签约,连接学术、产业和基础设施 [64] - 科技伦理审查智能体"一鉴"为生态健康发展提供保障 [66][67] - 以开放平台为基础,高价值问题为牵引,伦理框架为保障的发展路径 [68]
刚刚,扎克伯克公开信:Meta不会开源全部模型
机器之心· 2025-07-31 01:24
Meta的超级智能愿景 - 公司首席执行官马克・扎克伯格认为人工智能系统已出现自我改进迹象,超级智能开发已近在眼前[2][7] - 公司目标是通过开源模型Llama系列实现与闭源模型同等或更优的性能,并预计2025年后Llama将成为行业最先进模型[3] - 超级智能可能开启个人赋能时代,使每个人拥有推动世界的个人超级智能,这与行业主张的中心化控制观点形成差异[9][10] AI战略调整与开源政策 - 公司正在改变AI模型发布方式,强调需谨慎评估开源内容以降低安全隐患,暗示开源可能不再是默认选择[3][5] - 扎克伯格曾表示若AI功能发生质变且开源不负责任,公司将停止开源,显示政策灵活性[4] - 公司业务模式依赖广告收入而非AI授权销售,因此开源Llama不会损害其财务可持续性[6] 技术与社会影响 - 超级智能可能重塑人类生活方式,减少传统生产力投入,转向创造与连接,智能眼镜等设备或成为主要计算平台[11] - 公司认为技术发展关键期在本世纪剩余年份,将决定超级智能成为个人工具还是岗位替代力量[12] - 公司计划2025年投入720亿美元建设AI基础设施,财报发布后股价盘后涨幅达10%[12] 行业竞争动态 - 公司从OpenAI、谷歌和苹果等竞争对手处挖走顶尖AI研究人员,提供数亿美元薪酬,引发行业震动[2] - 开源模型被视为与闭源竞争对手(如OpenAI、xAI和Google DeepMind)差异化的关键优势[3]
把指纹焊死在频率上:抗微调神经网络指纹的硬核方案来了
机器之心· 2025-07-31 01:24
论文第一作者唐灵,张拳石老师课题组的博二学生。 今天要聊的是个硬核技术 —— 如何给神经网络刻上抹不掉的 "身份证"。现在大模型抄袭纠纷不断,这事儿特别应景。 所谓神经网络指纹技术,是指使用神经网络内部如同人类指纹一样的特异性信息作为身份标识,用于判断模型的所有权和来源。传统方法都在玩 "贴标签":往模 型里塞各种人造指纹。但问题是,模型微调(fine-tuning)就像给整容 —— 参数一动,"整张脸" 就变了,指纹自然就糊了。 面对神经网络微调训练的威胁,现有方案都在修修补补,而我们上升到理论层面重新思考:神经网络是否先天存在某种对微调鲁棒的特征?如果存在,并将该固 有特征作为网络指纹,那么无论对模型参数如何微调,该指纹就能始终保持不变。在这一视角下,前人的探索较为有限,没有从理论上证明出神经网络内部对微 调天然鲁棒的特征。 理论框架。我们证明,通过对卷积核 W 进行拓展后的离散傅里叶变换 (不是传统的傅里叶变换)所获得的特定频率成分 ,在训练过程中保持稳定。因此,我们使用这些特定的频率成分作 为对于微调鲁棒的神经网络指纹。 首先,我们发现神经网络时域上的前向传播过程可以写为频域当中的向量乘法。具体而言, ...
刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
机器之心· 2025-07-30 16:25
ACL 2025大会概况 - 本届ACL大会投稿数创历史新高,达8000多篇,较去年4407篇增长81% [3] - 主会论文接收率20.3%,Findings接收率16.7% [3] - 中国作者占比首次过半达51.3%,远超美国14.0% [4] - 共颁发4篇最佳论文、2篇最佳社会影响力论文、3篇最佳资源论文等多项奖项 [6] 最佳论文研究成果 - DeepSeek团队与北大杨耀东团队包揽4篇最佳论文中的2篇 [10] - 杨耀东团队论文揭示大模型存在"弹性机制",导致对齐困难且需与预训练相当的资源 [24][25] - DeepSeek提出NSA注意力机制,在27B参数模型上实现长上下文高效训练与推理 [33][40] - NSA通过分层token建模实现260B token预训练,性能媲美Full Attention但计算效率更高 [37][41] 技术创新方向 - 大模型安全领域突破:发现模型参数存在抵抗对齐的结构性惯性 [24] - 高效训练技术:NSA实现硬件对齐的稀疏注意力,解码速度随序列长度增加而提升 [36][41] - 数据质量评估:Meta-rater提出四维度数据选择方法提升预训练效率 [55] - 评估效率优化:SubLIME方法可将LLM评估成本降低80%-99% [56] 行业影响与趋势 - 华人团队学术影响力显著提升,包揽最佳论文半数奖项 [10] - 大模型基础架构创新持续涌现,注意力机制优化成为关键突破点 [33][37] - 模型安全与对齐挑战凸显,需重新评估现有技术路线 [24][25] - 高效训练与推理技术获重点关注,推动商业化应用落地 [40][41]
P图手残党有救了,豆包·图像编辑模型3.0上线,一个对话框搞定「增删改替」
机器之心· 2025-07-30 05:13
行业趋势 - 图像编辑需求日益个性化,对工具智能化要求提升[2] - AIGC领域技术持续突破,头部厂商在图像/视频生成领域保持活跃[83] - 国内厂商通过多样化平台触达用户,推动"模型即产品"模式[84] 产品发布 - 火山引擎发布豆包・图像编辑模型SeedEdit 3.0,主打"全能且可控"[3][4] - 模型三大优势:指令遵循能力强化、主体保持优化、生成质量提升[5] - 支持人像编辑、背景更改、光影转换等复杂场景,关键指标平衡性突出[5] 技术能力 - 基于Seedream 3.0架构,解决语义一致性/局部编辑/细节保留等技术难题[66][67] - 采用多阶段训练策略(预训练+微调),引入特定奖励模型优化高价值属性[78] - 实现8倍推理加速,运行时长从64秒降至8秒[80] - CLIP评估显示编辑保持效果领先Gemini 2.0/Step1X/GPT-4o等SOTA模型[68] 应用场景 - 电商领域:一键生成商品海报,自动匹配背景与文案[45][47] - 影视创作:快速调整镜头画面/替换背景/添加特效[87] - 游戏开发:高效修改角色与场景设计元素[87] - 个人用户:支持消除路人/变色/风格转换等17种编辑功能[18][34][39] 竞品对比 - 文字编辑任务中精准率显著优于GPT-4o(乱码)和Gemini 2.5 Pro(指令偏离)[55] - 风格转换时人物特征保持度优于竞品,避免儿童涂鸦式失真[58][60] - 复杂消除任务中完整执行指令,背景修复自然度领先[61][62] 数据与架构 - 采用合成数据/专家数据/视频帧等多源数据,多粒度标签策略提升鲁棒性[72][74] - 视觉理解模型+因果扩散网络架构,新增连接模块对齐编辑意图[76] - 支持原生1K-2K分辨率生成,强化人脸与物体细节保留[77] 市场影响 - 推动图像创作从专业化工具向智能化/自动化转型[86] - 降低C端用户创作门槛,释放非专业人群创意潜力[85] - 预计在影视/广告/电商等B端市场激发新应用场景[87]
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
机器之心· 2025-07-30 05:13
核心观点 - 研究团队提出SPIRAL框架,通过零和游戏自对弈提升语言模型的推理能力,摆脱对人工监督的依赖[3] - 游戏作为推理训练场,通过输赢结果提供廉价可验证的奖励,无需人工标注[6] - 仅通过库恩扑克训练,模型数学推理能力平均提升8.7%,在Minerva Math基准测试上跃升18.1个百分点[7] - SPIRAL框架让竞争驱动智能涌现,通过多回合零和游戏自主发现并强化可泛化的推理模式[10] 游戏选择与训练效果 - 选择三种具有不同认知需求的游戏:井字棋(空间模式识别)、库恩扑克(概率计算)、简单谈判(多步规划)[12] - 自对弈保持50-52%胜率,确认对手与学习者同步进化[13] - 训练阶段胜率变化:Step 16(0% vs Gemini,52.3%自对弈),Step 128(37.5%,51.7%),Step 384(62.5%,50.9%)[14] 推理模式迁移 - 发现三种核心推理模式:期望值计算(使用率从15%增长到78%)、逐案分析(出现率72%)、模式识别(使用率35%到45%)[16][18][19] - 不同游戏培养专门化能力:井字棋专家在空间游戏Snake上56%胜率,扑克大师在概率游戏Pig Dice上91.7%胜率[20] - 多游戏训练产生协同效应:Liar's Dice上单一专家12-25%胜率,多游戏模型达51.4%[21][22] 技术创新 - 开发分布式在线多智能体强化学习系统,实现全参数更新的在线自对弈[24] - 角色条件优势估计(RAE)防止思维崩溃,保持稳定梯度和推理生成[26][27][28] - 在DeepSeek-R1-Distill-Qwen-7B上应用SPIRAL,性能从59.7%提升到61.7%,AIME 2025分数跃升10个百分点[30] 实践意义与局限 - 提供全新思路:无需高质量推理数据,只需设计合适游戏环境[35] - 验证关键假设:强化学习筛选预训练模型中的可泛化思维链[35] - 当前局限:游戏环境依赖、计算资源需求(8块H100 GPU运行25小时)、性能瓶颈[38] - 评估局限:主要集中在学术基准测试,需进一步验证现实任务影响[39]
开出10亿美元天价,小扎挖人Mira创业公司惨遭拒:俺们不差钱
机器之心· 2025-07-30 05:13
Meta的AI人才争夺战略 - Meta超级智能实验室持续挖人,目标包括OpenAI前CTO创立的Thinking Machines Lab [2][3] - 向Thinking Machines Lab十几名员工提供天价报价,最高单份多年总额超10亿美元,四年报价在2-5亿美元区间,首年保障金额达5000万-1亿美元 [4] - 招聘策略包括扎克伯格通过WhatsApp直接联系候选人,快速安排与CEO、CTO等高管的深度面试 [5] Thinking Machines Lab的竞争壁垒 - 公司刚完成20亿美元种子轮融资(a16z领投,英伟达、AMD参投),估值达120亿美元且未发布产品 [4][11] - 拒绝Meta报价的核心原因包括对Meta领导层经验不足的担忧,以及对其产品路线图(如Reels/Facebook优化)缺乏兴趣 [9][10] - 公司资金充裕,研究人员无需在理想主义与高薪间抉择,可兼顾技术使命与商业回报 [10][11] Meta与苹果的人才争夺战 - 一个月内挖走苹果第四名核心AI研究员Bowen Zhang,其原属基础模型团队(负责Apple Intelligence平台开发) [13][14][15] - 苹果AFM团队此前已流失三名成员至Meta,包括团队创始人庞若鸣及早期大模型研究者Tom Gunter [17] - 苹果被动提高AFM团队薪酬但仍落后于竞争对手报价 [18] Meta的AI竞争策略 - 通过开源策略削弱OpenAI优势,计划发布与ChatGPT直接竞争的开源模型以实现技术商品化 [7] - 内部压力显著,Llama 4因性能问题推迟发布且陷入基准测试操纵争议 [8] - 招聘话术强调构建世界级AI助手、创作者工具、企业服务及开源生态的愿景 [7]