Workflow
机器之心
icon
搜索文档
从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?
机器之心· 2025-08-11 07:12
文生图技术发展现状 - 文生图模型从GAN架构发展到扩散和自回归模型 生成图像质量和细节表现力实现跨越式提升[4] - 模型大幅降低高质量图像创作门槛 为设计、教育、艺术创作等领域带来便利[4] - 技术滥用问题日益严重 包括利用AI生成逼真图像进行诈骗、造谣、伪造证件等非法行为[4] 信任危机与检测挑战 - AI生成内容逼真度已接近真实水平 公众被误导风险加剧[9] - 现有多模态大模型缺乏伪造检测相关知识和能力 如Qwen2-VL模型倾向于预测整张图片为伪影[22] - 通用模型如Deepseek-VL2/GPT-4o会输出冗杂可能性 导致异常解释任务评分偏低[24] SynthScars数据集创新 - 构建首个针对纯AI合成图像的全方位伪造分析数据集 直击顶级生成技术缺陷[15] - 汇集FLUX、SD系列及商用API等最新文生图模型 几乎不含低质伪造图像[15] - 专门筛选逼真程度高、最具欺骗性的超现实风格图像 聚焦人类最难分辨的视觉死角[15] - 提供三维解剖级标注 包括伪影掩码、异常解释与类型标签 系统覆盖物理矛盾、结构畸形、风格失真三大类型[15] LEGION技术框架 - 基于多模态大模型的图像伪造分析框架 集成全局图像编码器、定位图像编码器、大语言模型等组件[17] - 实现伪造检测、伪影定位、异常解释三位一体同步完成 无需零散专家拼凑[20] - 仅用8B参数量在异常解释任务中超越更大规模模型 在SynthScars数据集上ROUGE-L达到39.50[23][24] 性能表现对比 - 伪影定位任务在RichHF-18K等数据集测试中 mIoU指标达到54.62 显著优于HiFi-Net的43.74和TruFor的46.99[21] - 伪造检测任务在UniversalFakeDetect基准测试中对GANs检测准确率达97.01 超越Co-occurence的75.17和FreqNet的94.23[26] - 展现卓越鲁棒性 在JPEG压缩(QF=20)条件下性能仅下降2.5% 远优于PAL4VST的9.8%下降幅度[27] 检测与生成协同创新 - 突破传统对抗关系 实现检测反哺生成的创新范式[32] - 通过全局提示词优化 利用异常解释文本对提示词进行多轮细化 实现现实风格迁移和结构细节调整[33] - 采用局部语义修复术 针对伪影区域联合掩码和解释进行精准修复 最大程度保留原图语义[37] - 经HPSv2.1模型量化评估 优化后图像人类偏好评分提升6.98% 证实技术可行性[41]
脑子比不过AI,手也要沦陷了?这只灵巧手看得我有点慌
机器之心· 2025-08-11 04:27
灵巧手技术发展现状 - 人类手部进化出高度灵活的结构,具备精细操作和力量型任务能力,拇指功能占全手40%[9] - 现有灵巧手产品大多无法完全模拟人手功能,80%沦为摆设[15] - 市场主流产品存在形态缺陷:二指如镊子功能单一,三指缺乏对掌结构,四指拇指灵活性不足[12] - 五指产品多数仅实现三指功能,增加成本却未提升性能[14] 技术路线对比 - 刚性直驱路线精度高但存在功率密度低、散热差、微型化制造难等问题[18][21][28] - 柔性传动(绳驱)路线更仿生,具备被动柔顺性,特斯拉Optimus和Shadow Hand均采用此方案[27] - 绳驱系统面临摩擦损耗、预紧力稳定性和系统集成复杂度三大挑战[32] 创新技术突破 - 采用串并混联双绳正反向刚柔耦合驱动设计,实现主动控制弯曲/伸展/侧摆[30] - DexHand021 Pro在260×86×50mm空间集成12个电机,总重2kg,单指负载>1kg,抓握负载>5kg[33] - 通过弹性组件和算法实现预紧力自动补偿,模块化设计降低系统复杂度[38] 商业化进展 - 产品定价10万以内,仅为同类绳驱产品Shadow Hand的1/10[35] - 目标客户为真正需要灵巧操作的科研机构和企业实验室[35] - 已具备量产条件,下一步将提升感知能力和智能化水平[36] 行业发展趋势 - 灵巧手是机器人实现物理智能的关键,占机器人总工程量50%[40] - 未来需实现"脑-手-感知"高度协同的完整闭环系统[41] - 行业正从参数堆砌转向真实可用,推动通用人工智能发展[41]
第二届 “兴智杯” 全国人工智能创新应用大赛专题活动明天开启,技术解析 + 资源对接一站式平台重磅来袭!
机器之心· 2025-08-11 04:27
大赛概况 - 第二届"兴智杯"全国人工智能创新应用大赛由工信部、科技部、深圳市政府指导,中国信通院、深圳市人工智能产业办公室等联合主办,是国内规模最大、参赛主体最丰富的人工智能专业赛事[1] - 大赛自2025年5月8日启动以来,已吸引千余支团队、超万名选手报名参赛[1] - 设置线上直播专题活动,邀请20余家头部单位专家进行技术解析,聚焦AI技术突破与产业落地重点议题[1] 活动议程 8月12日上午场 - 开幕式包含中国信通院领导介绍大赛情况,中国电信专家分享AI原生应用前沿趋势[3] - 微众银行首席科学家解析联邦学习技术在金融领域的应用[3] - 中国移动专家解读无线网络多任务学习、算网云化设备故障诊断两大赛题[3] 8月12日下午场 - 中国电科院专家分享电力科学计算应用方案,煤炭科学研究总院解读矿山大模型赛题[4] - 深能智慧能源介绍NLP大模型在能源培训系统的应用,vivo专家讲解AI手机大模型技术赛题[4] - 智慧城市领域设置城市治理一网统管创新应用赛题[4] 8月13日全天 - 华为展示"AI+智慧城市"技术方案,上海人工智能实验室解读基础大模型智能体应用赛[10] - 阿里云通义灵码团队开展智能编码赛题实战演示[10] - 百度飞桨硬件生态负责人解读国产AI开发套件应用创新挑战赛[11] 赛题设置 大模型创新主题赛 - 基础大模型智能体应用创新挑战赛聚焦垂直领域落地能力验证[21] - 智能编码创新应用开发挑战赛旨在提升软件开发效率[21] 软硬件创新生态主题赛 - 基于国产软件栈的创新应用赛推动国产算力与大模型技术结合[24] - 国产全栈AI软硬件系统适配挑战赛加速自主生态建设[25] 行业赋能主题赛 - 覆盖工业、医疗、能源等12个方向,包括AI手机大模型、矿山大模型等创新赛题[28] - 能源领域设置电力科学计算、智能仿真培训系统等3个细分赛题[28] 赛事机制 - 5-9月进行主题赛选拔,10-11月在深圳举办总决赛[32] - 总决赛将评选50强高价值应用方案及十佳商业投资潜力项目[32] - 设置百万级奖金池,提供就业落户、项目孵化等激励措施[35][37] 产业支撑 - 中国信通院成立人工智能软硬件协同创新与适配验证中心,提供全栈测试服务[41] - AISHPerf基准体系已完成百余次测试,覆盖芯片、计算设备等关键环节[42] - 中心重点支撑国产大模型解决方案测试与选型工作[42]
ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题
机器之心· 2025-08-11 04:27
研究背景 - 机器人在陌生复杂场景中主动探索存在技术盲区,经典方案依赖人工预设轨迹和指令,现有策略在复杂环境中频繁失效[4][6] - 感知-决策-行动闭环的被动依赖问题成为下一代机器人跨越"智能鸿沟"的核心挑战[6] 解决方案 - 香港中文大学与上海人工智能实验室联合提出GLEAM系统,搭建全球最大"探索-建图"基准GLEAM-Bench,涵盖1152个室内场景[7][14] - GLEAM策略实现零样本适配未知复杂空间,无需微调即达66.5%平均场景覆盖率,较现有技术提升9.49%[7] 方法效果 - GLEAM在三个室内场景数据集上展现优越泛化能力,首次实现无需微调的零样本适配真实场景(如Matterport3D)[10] - 基线方法仅适用于单一空旷场景,GLEAM突破多房间障碍密集布局的探索安全性和高效性瓶颈[10] 数据与基准 - GLEAM-Bench包含混合数据集:Replica(18个合成场景)、HSSD(211个合成场景)、ProcTHOR-10K(10k合成场景)、Gibson(106个真实扫描)、Matterport3D(90个真实扫描)[16][17] - 数据集总规模达91.16k m²导航面积和164.66k m²地板面积,平均导航复杂度11.35[17] 技术创新 - 语义认知地图系统:双地图架构(全局概率地图+局部语义地图)实现高效时空推理[22] - 分层动作空间:解耦全局探索与局部避障,高层决策预测长程目标,低层规划验证可达性[23] - 抗过拟合训练:随机初始化位置+动态轮换千级训练场景,提升跨域适应能力[24][26] 实验结果 - 在ProcTHOR & HSSD测试集上达到76.01%覆盖率和66.13%AUC,建图精度0.38m;在Gibson & Matterport3D上达47.04%覆盖率和40.23%AUC[27] - 推理速度达104.7Hz(RTX 3090),其中策略推断耗时2.63ms,地图构建3.44ms[29][30] - 训练场景复杂度显著影响性能:192个多房间场景效果优于416个少房间场景[28]
机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
机器之心· 2025-08-11 03:19
阿里达摩院开源具身智能技术 - 公司在世界机器人大会上宣布开源三款具身智能相关技术:VLA模型RynnVLA-001-7B、世界理解模型RynnEC、机器人上下文协议RynnRCP [2] - 开源技术旨在解决行业开发流程碎片化、数据模型与机器人适配难等挑战,推动具身智能全流程开发 [3] - 公司将MCP理念引入具身智能领域,首次提出并开源RCP协议以标准化数据模型与机器人本体的对接 [3] RynnRCP协议框架 - 协议包含两大模块:RCP框架负责机器人本体与传感器的标准化连接,RobotMotion实现大模型与机器人控制的桥梁作用 [5][6][7] - RobotMotion能将低频推理指令实时转换为高频控制信号,支持仿真-真机一体化工具,降低策略迁移难度 [7] - 当前已兼容Pi0、GR00T N1.5等热门模型及SO-100、SO-101等机械臂 [3] 开源模型技术特性 - RynnVLA-001基于视频生成和人体轨迹预训练,可从第一人称视频学习人类操作技能并迁移至机械臂控制 [8] - RynnEC模型通过11维度场景解析能力,在复杂环境中实现目标定位分割,仅需视频序列即可建立空间感知 [8] - 公司此前开源的WorldVLA模型首次实现世界模型与动作模型融合,提升图像与动作的联合理解能力 [9] 行业布局与生态建设 - 公司聚焦具身智能系统与模型研发,联合产业方共建硬件适配、数据采集、开发者社区等基础设施 [8] - 技术开源覆盖从传感器数据采集、模型推理到动作执行的全流程,加速机器人场景落地 [3][8]
Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制
机器之心· 2025-08-11 03:19
稀疏激活混合专家模型(MoE)中的超级专家研究 - 首次在多个主流MoE LLM中发现并验证了"超级专家"子集的广泛存在 这些专家数量极少(通常占比<0.05%)但对模型性能影响巨大 例如Qwen3-30B-A3B模型中仅3个超级专家(总数6144个)就对性能起决定性作用[2][9][27] - 超级专家通过"激活放大链"机制产生大值激活现象 具体表现为特定专家在down_proj层输出极端离群值 通过残差连接逐层放大 最终形成稳定的大幅激活值[10][11][12] - 开发了自动化识别工具 采用量化标准定义超级专家:激活幅值>P99.5百分位且>1/10最大激活值 该工具在多个模型验证有效[14][15][17] 超级专家的分布特征 - 分布具有跨模型稳定性 在DeepSeek系列(15677专家中10个)、Qwen3系列(6144中3个)、Mixtral(256中1个)等不同规模模型中都存在[18][27] - 不受后训练影响 Base版本与微调版本的超级专家分布完全一致 表明其形成于预训练阶段[27] - 跨数据领域一致性 在中文文本、代码、数学等不同领域数据集上分布保持稳定[22][27] 超级专家对模型性能的影响 - 裁剪超级专家导致非推理任务性能显著下降 平均准确率下跌21.68%-27.21% 数学任务GSM8K下跌52.71%-74.15%[26][28] - 对推理任务造成毁灭性影响 在GPQA-Diamond、MATH-500等测试中Pass@1降至0% 模型输出出现无意义重复[29][30][33] - 随机裁剪同等数量非超级专家影响微乎其微 性能波动<1%[26][30] 超级专家与注意力机制的关系 - 揭示了"超级专家→大值激活→注意力汇聚区"的因果链 超级专家是注意力汇聚区形成的根源[35][36] - 裁剪超级专家导致注意力汇聚区衰减率高达90%-100% 严重破坏注意力分数分布[39][40] - 可视化分析显示 裁剪后注意力头分数图中汇聚区完全消失[38][41] 研究价值与应用前景 - 首次系统分析MoE LLM内部的关键专家机制 为理解模型行为提供新视角[44][45] - 为模型压缩提供新方向 避免关键专家被误裁剪[45] - 开发的开源工具支持新模型的超级专家快速识别[7][8] - 未来可探索超级专家形成机制及基于此的高效压缩方法[46]
token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
机器之心· 2025-08-10 04:31
机器之心报道 编辑:杜伟 扩散语言模型(DLMs)是超强的数据学习者。 token 危机终于要不存在了吗? 近日,新加坡国立大学 AI 研究者 Jinjie Ni 及其团队向着解决 token 危机迈出了关键一步。 在当前大语言模型(LLM)的持续发展中,面临的挑战之一是可用的高质量训练文本数据(tokens)即将枯竭,并成为限制模型性能持续提升的关键瓶颈。另外, 新增的高质量数据来源少,获取成本高,去重后更加稀缺。因此,当模型规模继续扩大,所需数据量按 Scaling Laws 成倍增加时,就出现了「优质 token 不够训 练」的危机。 针对这一现象, 该团队从零开始预训练了扩散语言模型(DLMs)与自回归(AR)模型,其中规模最高至 80 亿参数、4800 亿 tokens、480 个 epoch 。 研究有以下三项重要发现: 此外,团队还剖析了并行研究《Diffusion Beats Autoregressive in Data-Constrained Settings》中的严重方法论缺陷 —— 以共同提升开放评审的标准! Jinjie Ni 在社媒 X 上详细介绍了其团队的研究结论、研究方法,接下来 ...
腾讯张正友:具身智能必须回答的三个「真问题」
机器之心· 2025-08-10 04:31
腾讯具身智能开放平台Tairos发布 - 公司发布具身智能开放平台Tairos,以模块化方式提供大模型、开发工具和数据服务,旨在为行业提供通用支撑体系 [2] - 该平台基于Robotics X实验室七年技术积累,涵盖多模态四足机器人Max、轮腿机器人Ollie、灵巧手TRX-Hand等自研项目 [2] - 平台化路径是对行业挑战的回应,也预示未来生态布局,在技术路线尚无定论背景下具有战略意义 [2] 分层架构的技术路线选择 - 分层架构是当前更务实路径,源于效率与现实权衡,将人类对智能结构的先验知识注入模型架构 [5][6] - SLAP³架构包含多模态感知模型、规划大模型和感知行动联合大模型,边界动态变化 [7][8] - 感知行动联合大模型(小脑)负责快速反应(系统1),感知和规划大模型(系统2)处理复杂任务 [9] - 底层经验通过记忆库机制反哺上层模型,实现闭环学习 [11] 具身智能的第一性原理 - 核心问题是探究"身体"与"大脑"如何实现有机融合,而非简单将AI大模型适配到机器人 [17] - 真正具身智能需深刻理解身体形态、环境物理规律和任务目标 [18] - 动作规划本质是稀疏、第一人称的生成过程,与稠密、第三人称的视频生成存在本质区别 [20][21] 行业创新与商业化平衡 - 行业呈现爆发式发展,需要处理短期利益与长远目标的关系 [23] - 创新定力体现为放弃短期商业化诱惑,专注根本性科学问题探索 [24] - 生态繁荣需要不同角色贡献,初创团队选择确定性高场景是务实生存策略 [24]
联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
机器之心· 2025-08-10 04:31
图像生成技术路线 - 自回归模型与扩散模型在图像生成领域存在技术路线之争,自回归模型在文本生成领域表现优异但在视觉领域面临细节失真和语义理解偏差等瓶颈[2] - 目前主流研究采用扩散模型进行图像生成,导致视觉理解和生成任务耦合松散[2] - 腾讯混元团队开发的X-Omni模型通过强化学习显著提升自回归方法的图像生成质量,实现高质量美学输出和复杂指令跟随能力[2][4] X-Omni模型技术突破 - 采用SigLIP2-VQ方法构建tokenizer,结合扩散解码器生成图像,实现离散自回归框架下的视觉理解与生成统一[6] - 应用GRPO强化学习方法优化图像生成,通过200步训练后生成质量显著提升[5][8] - 构建多维度奖励模型系统,涵盖人类美学偏好(HPSv2评分)、文本-图像对齐(Qwen2.5-VL-32B)和OCR准确性(GOT-OCR 2.0/PaddleOCR)等评估维度[9][12] 性能基准测试表现 - 文本渲染能力:在OneIG-Bench英文任务中得分0.901,中文0.895;LongText-Bench英文0.900,中文0.814,超越GPT-4o等竞品[13] - 指令跟随能力:在DPG-Bench总体得分87.65,实体识别(92.59)和关系处理(94.75)表现突出[14] - 复杂场景处理:在GenEval测试中综合得分0.83,单对象识别达0.98,但计数能力(0.75)和色彩属性处理(0.68)仍有提升空间[15] 技术范式创新 - 实现无分类器引导(CFG)的高质量图像生成,证明视觉与语言生成机制的内在统一性[17] - 强化学习在图像生成中的优化效果超越传统监督微调+N选1策略,尤其擅长处理高维空间依赖数据[19] - 开源模型包含完整技术栈(GitHub/Hugging Face),提供论文、代码和演示空间等多维度资源[2]
40年后,Dijkstra算法极限再被突破,清华段然团队更快最短路径算法摘STOC最佳论文
机器之心· 2025-08-10 04:00
每次打开导航的,导航软件在一秒内给出一个最速路线的时候,你有没有好奇过它是怎么找到这条路的? 假如不考虑堵车、红绿灯等交通影响因素,仅找到一条最短最快的路线,那不论如何也逃不掉 Dijkstra 算 法。 按照传统的 Dijkstra 算法,你将在整段路程中停下多次,寻找每一段的最短路径,然后再去更新下一段如何 最短,直到走到目的地。在抉择的过程中会面临着不断选择「最短」路径的情形,还需要通过对比排序来 决策。 机器之心报道 机器之心编辑部 Dijkstra 算法有多经典呢? 可以说每一个学计算机的学生,甚至每一个学编程理论或数据结构的人,都会在教科书上看到这个算法。 其在计算机学生心中地位甚至不亚于物理学中的基本定律,想到路径最短,必然想到 Dijkstra。 不过,现在有种方法能直接让你跳过不必要的排序,只专注于最重要的点之间的最短距离,大大缩短了所 需要的计算时间。这就是清华交叉信息研究院段然团队一项重磅研究给出的全新解法。这项研究还在理论 计算机国际顶级会议 STOC 2025 上获得最佳论文奖。 该算法改进了图灵奖得主 Robert Tarjan 等人在 1984 年提出的 O(m + nlogn) ...