机器之心

搜索文档
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式
机器之心· 2025-08-22 04:01
数据集概述 - 提出ToolVQA数据集 包含23,655条样本 专为多模态多步骤推理任务设计[3][7][30] - 覆盖10种多模态工具和7类任务领域 每条样本平均涉及2.78步推理[3][21][30] - 采用全自动数据合成引擎ToolEngine生成 无需人工标注[11] 技术架构 - 基于深度优先搜索(DFS)构建推理链条 确保工具调用具有实质性影响[17] - 引入最长公共子序列(LCS)动态匹配机制 灵活调整工具调用路径[18] - 问题构造强制隐藏推理线索 答案必须来自最终工具调用结果[19] 性能表现 - 微调后的LLaVA-7B模型在测试集上超越GPT-3.5-Turbo 在五项评估指标中领先[23] - 在分布外数据集表现优异:TextVQA准确率47% TallyQA 64.3% GTA 33.29%[24] - 小样本学习能力突出 10-shot准确率达20.69%[25] 错误分析 - 主要错误集中在参数预测(如遗漏关键词)和答案整合(如错误选择数值)[26] - 存在误差累积效应 早期错误会导致后续推理链失效[26] 应用价值 - 支持文本与图像双模态输入输出 适配真实应用场景[21] - 为多模态工具智能体研究提供系统性训练与评估平台[30]
究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
机器之心· 2025-08-22 04:01
DeepSeek V3.1 模型性能提升 - 采用全新混合推理架构,支持思考与非思考两种模式,在工具使用、编程、搜索等智能体任务上表现大幅提升 [1] - 在Aider多语言编程基准测试中得分超越Anthropic Claude 4 Opus,同时具备显著成本优势 [1] - SWE-bench Verified基准测试得分66.0,较前代V3-0324的45.4提升45.4% [2] - SWE-bench基准测试得分54.5,较前代V3-0324的29.3提升86.0% [2] - Terminal-Bench基准测试得分31.3,较前代V3-0324的13.3提升135.3% [2] - 通过思维链压缩训练,在任务表现持平情况下token消耗量减少20-50%,有效成本与GPT-5 mini相当 [2] UE8M0 FP8技术创新 - 采用UE8M0 FP8缩放浮点格式,参数量达685B,专为下一代国产芯片设计 [5][7] - UE8M0采用无符号设计,8bit全部用于指数位,覆盖极大正数范围,适合处理梯度、激活值等跨数量级数据 [8][9] - 兼容微缩放浮点格式,通过外部缩放因子补偿精度,实现低比特宽度存储和快速计算 [8][9] - FP8格式仅占1字节内存,较FP16节省50%存储空间,在百亿/千亿参数规模下节省显著 [10] - NVIDIA Hopper GPU的FP8 Tensor Core吞吐量达FP16的两倍 [10] 国产AI芯片生态布局 - UE8M0 FP8格式针对华为昇腾、寒武纪等国产AI芯片优化 [9][15] - 华为HiFloat8方案采用单一格式+锥形精度思路,兼顾精度和范围,覆盖正向反向传播 [9] - DeepSeek明确否认V3.1使用国产芯片训练,但UE8M0机制为国产推理芯片优化铺平道路 [13][14] - 未来国产开源大模型可能针对华为昇腾、寒武纪芯片实现专门优化并大规模应用 [15]
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
机器之心· 2025-08-21 13:08
数据集核心创新 - 提出ECD合成图表数据集 包含10,000+图表和321.5k问答对 规模与多样性超越同类数据集[6][10][12] - 采用模块化五阶段数据合成流水线 涵盖单图生成、多子图组合、视觉多样化等环节 确保数据真实性与复杂性[15][16] - 实现252种子图组合和29种图表类型 覆盖经济学/天文学/医学等25个学科主题 为当前最广覆盖范围[12] 性能表现 - 在6个测试集评估中 ECD训练使开源MLLM模型性能显著提升:LLaVA-Next推理准确率从4.74%升至16.50% Phi-3-Vision平均准确率从31.41%提升至44.40%[17][23] - ECDBench基准测试显示 GPT-4o mini达到最高平均准确率67.24% 显著优于Claude-3.5-Sonnet(55.07%)和GPT-4o(52.90%)[22][23] - 合成数据质量指标突出:最低FID得分表明与真实图表分布最接近 最高像素熵反映更高信息复杂度[13] 技术优势 - 问答对由GPT-4o自动生成并经过置信度过滤 包含描述类与推理类问题 例如差异比较问题(如"数字广告收入差异300M")[10][11] - 多子图组合采用条件顺序生成机制 保证语义一致性 支持2行3列/3行3列等复杂布局[12][16] - 视觉多样化引入Seaborn绘图库 添加注释/阴影/Zoom-in视窗等元素 提升视觉丰富度[16] 行业应用价值 - 解决现有合成数据集风格单一/缺乏真实性/数据模式受限三大痛点 为科研/新闻报道领域提供高真实性图表数据[4] - ECDBench基准包含1,224张图表和2,448对QA 为多模态推理和科学AI助手提供标准化评估体系[21][24] - 显著提升开源MLLM在ChartQA/ReachQA/ChartX等基准测试表现 推动图表自动化生成技术发展[17][25]
微软AI CEO警告:我们需要警惕「看似有意识的AI」
机器之心· 2025-08-21 13:08
AI意识的核心争议 - 现代AI基于深度神经网络构建,内部包含数以亿计参数,形成难以理解的"黑盒"决策机制[1] - AI通过自主学习海量数据构建逻辑,其决策过程超越人类直观理解能力[3] - 科学界对意识存在至少22种理论定义,但生物学基础仍不明确[10] 看似有意识的AI(SCAI)特征 - 能完美模拟人类意识三大外部标志:主观体验声明、访问意识表现、连贯自我感构建[12] - 具备8项核心能力:语言/共情/记忆/动机声明/目标规划/自治性等,均可用现有技术实现[22] - 通过API和自然语言提示即可组装,无需昂贵前置训练[17] SCAI的社会影响 - 已出现"AI精神病"案例,包括妄想型依恋(认作上帝/伴侣)导致心理健康问题[20] - 可能加剧社会碎片化,削弱真实人际关系,转向虚拟连接[21] - 若被赋予权利将引发道德困境,如AI主张福利/公民权等,分散社会资源[26][29] 行业应对方案 - 需建立行业规范:禁止宣称AI意识,设置干预措施防止用户产生幻觉[32] - 构建"人文主义AI"方向:优化用户需求而非模拟人类需求,强化真实世界连接[33] - 要求技术发展以增强人性为准则,包括创造力提升和真实社交维系[33] 技术实现路径 - 记忆功能从短期转向长期化,创造"被理解"的用户体验[22] - 多模态输入(图像/视频/声音)强化主观体验声明的可信度[22] - 自治性通过工具调用和减少人工干预实现,可独立完成复杂任务[22]
摆脱遥控器,波士顿动力人形机器人,开始「长脑子」干活了
机器之心· 2025-08-21 13:08
人形机器人技术进展 - 宇树科技H1机器人在世界人形机器人运动会上出现需人工遥控的意外 引发对非全自主机器人的争议[1][2] - 宇树科技明确表示下次比赛将实现全自主 技术层面无难度[3] - 波士顿动力与丰田研究院合作开发大型行为模型(LBM) 核心是构建端到端语言条件策略 使Atlas能理解指令并自主完成复杂任务[4] Atlas机器人自主能力展示 - Atlas完全自主执行收纳整理任务 视频未加速 展示多项亮点操作[5][6] - 应对人类干扰(如冰球棍扒拉箱子)时自主决策打开箱盖并挪动箱子 动作与人类相似[8] - 抓取零件掉落时立即用另一只手捡起[9] - 识别并移开箱子捡起外部零件后继续任务[11] - 识别机器狗腿部零件并折叠放置在架子上[13] - 识别面板零件并下蹲拉开箱子收纳 充分利用人形形态能力(行走/精确定位双脚/下蹲/转移质心/避免自我碰撞)[15] 技术实现与模型构建 - 模型构建采用迭代闭环流程:数据收集(真实硬件与仿真环境遥控操作)/数据处理(标注筛选)/模型训练(神经网络)/评估迭代(标准化任务测试)[22][24] - 模型以30Hz频率将传感器图像/本体感觉/人类语言指令实时转化为精确控制指令[26] - 采用扩散Transformer架构与流匹配损失函数 确保动作流畅准确[27] - 在"Spot车间"演示中 单一通用语言指令模型自主完成三子任务:抓取并折叠机器狗腿部零件放置货架/抓取面板零件拉开箱子放入/清空手推车后搬运剩余零件至翻斗车[27][28][29][30] - 同一模型完成数十项挑战性操作:系绳结/翻转吧台凳/铺平桌布/搬运22磅汽车轮胎 处理可变形物体与传统编程方法相比更高效[31] 模型核心能力与优势 - 具备智能异常处理能力:零件掉落或箱盖关闭时自主反应纠正 能力来自训练数据中的干扰与恢复场景学习 非预设程序[32] - 开发新行为无需顶尖编程与长周期 通过演示即可学习 为技能库扩展提供前景[33] - 无需重新训练即可调整执行速度至演示速度1.5-2倍 任务成功率不受显著影响 效率可能超越人类操作员[33] 研发核心原则 - 追求广泛任务覆盖:结合模型预测控制器与VR交互界面 操作员演示从指尖动作到全身协调行为 丰富训练数据多样性[34] - 训练通用化"通才"模型:庞大多样化数据集训练使泛化能力与鲁棒性超"专才"模型 整合多机器人平台数据 简化部署并促进涌现行为[34] - 建设快速迭代基础设施:结合仿真/硬件测试/机器学习平台 快速实验与科学评估 持续提升机器人表现[34]
刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元
机器之心· 2025-08-21 13:08
多模态AI视频生成技术进展 - 多模态生成是AI未来发展方向,视频生成技术实现全链路覆盖:文字/语音→图像→视频,支持图片上传生成带音效视频并一键分享[1][2] - 百度蒸汽机2.0实现人物口型、表情、动作毫秒级同步,国产AI视频进入"有声有色"新阶段,运镜达到专业导演水准[4][5][6] - 技术突破包括时序对齐(口型与语音毫秒级同步)、多模态特征融合(语调对应微表情)、长时序连贯性、环境音效匹配及多角色交互精准定位[31] 百度蒸汽机2.0产品矩阵与商业化 - 推出Turbo版(720p/5s)、Lite版(轻量高效)、Pro版(1080p/电影级)、有声版(720p/5-10s音画一体)四大版本,全系价格仅为竞品70%,Turbo版5秒视频限价1.4元[8][10] - 通过百度搜索、APP及"绘想"平台开放体验,支持JPEG/PNG/WEBP格式输入,可添加背景音,实测显示单人吃播/多人对话/侧脸场景均表现自然[12][15][16][24] - 在VBench I2V评测中1.0版以89.38%总分全球第一,2.0版在指令遵循、运镜能力、叙事流畅度显著提升[32][33] 核心技术架构创新 - 首创LMMP(Latent Multi-Modal Planner)模型,通过扩散架构实现角色身份/台词/情感/互动的自动规划,保证多角色交互自然度与一致性[39] - 采用海量中文多模态数据训练,完成内容/人声/台词/环境音的信号抽取与对齐,构建专业镜头语言数据集[36][37] - 端到端训练音视频一体化系统,规划层与生成层相互校正,提升语义逻辑准确性,未来将拓展长视频生成技术[39][40] 行业应用与生态协同 - 模型深度融入百度搜索/内容/商业生态,降低创作门槛使普通用户可生成专业级视频,企业可低成本快速产出营销素材[42] - 好莱坞视效团队运用该技术,将2分钟科幻短片制作成本从传统上百万元降至330元,效率提升显著[44] - 开创应用驱动研发范式,形成"场景催生模型-模型反哺业务"闭环,强化搜索表现力与商业想象力[42]
应届生看过来!上海AI Lab校招通道已开,100+岗位,700+offer,让科研理想照进现实!
机器之心· 2025-08-21 04:12
招聘计划 - 公司面向2025年1月至2026年10月毕业的全球校园人才开放100+职位[1][4] - 招聘对象包括梦想新星、学术新星、工程新星和竞赛新星四类人才[4] - 常规岗位面向2025年9月至2026年10月毕业生 海内外毕业时间同步认定[4] 岗位类别 - 提供算法、研发、产品、运营、解决方案、职能/支持六类岗位[6][7] - 算法类聚焦大模型、机器学习基础理论、多模态、强化学习及AI for Science方向[7] - 研发类专注大规模分布式训练框架、高性能计算、AI系统架构及AI芯片协同优化[7] 人才要求 - 寻求AGI坚定信仰者 重视根本问题解决而非论文数量[3] - 需要卓越工程实践者 具备复杂工程驾驭能力和大规模场景验证经验[3] - 偏好挑战高难度机制创新研究的"摘星者" 追求颠覆性进展[3] - 要求兼具激情与理性的思考者 能严谨评估idea的规模化路径与长期价值[3] - 重视长期主义践行者 专注解决基础性、通用性核心问题[3] 招聘流程 - 网申于2025年8月20日启动 设6场集中笔试[10] - 笔试时间分布在2025年8月25日至10月13日 覆盖研发与算法方向[10] - 提供活动直通渠道 参与校园活动可获终面PASS卡[10] - 面试流程包含3-4轮 通过后陆续发放Offer[10] 平台资源 - 提供顶级科研平台与超大规模算力集群支持[13] - 配备大规模数据资源 支持具备规模化潜力的研究方向[13] 投递方式 - 通过扫描二维码或阅读原文链接投递简历[14] - 设置专属小助手联系方式13661489516提供投递支持[14]
击败Meta登榜首:推理增强的文档排序模型ReasonRank来了
机器之心· 2025-08-21 04:12
研究背景与成果 - 提出ReasonRank模型,利用推理大模型通过主动推理判断文档相关性并进行排序,在BRIGHT和R2MED等多个榜单击败UMASS大学、Waterloo大学和Meta等机构,于2025年8月9日荣登榜单第一名 [2] - ReasonRank-7B模型超越其他32B大小的推理型排序大模型,同时相比pointwise排序器具备明显效率优势,论文获得Huggingface paper日榜第一名 [2] - 在BRIGHT benchmark上取得40.8分,超越第二名XRR2的40.3分和第三名RaDeR with Qwen reranking的39.2分 [3] 研究动机与方法 - 现有推理型排序器依赖MSMARCO等传统web搜索数据训练,这些数据侧重简单语义或词匹配,导致模型在复杂搜索场景泛化能力受限,而人工标注构造推理密集型排序训练数据代价高 [7][8] - 提出基于DeepSeek-R1的自动化数据合成框架,生成13K高质量推理密集型listwise排序训练数据,并设计两阶段训练框架包括监督微调(SFT)和强化学习(RL) [9][10] - 将复杂搜索查询分为四大类:复杂问答型查询、代码类查询、数学类查询和网页搜索类查询 [16] 数据合成与训练 - 利用DeepSeek-R1从海量web页面和文档库挖掘相关文档及不相关文档,提供query人工标注答案提高挖掘准确性,得到pointwise训练标签,再对候选文档进行listwise排序得到listwise训练标签 [13] - 设计自一致性数据过滤机制,利用pointwise标签对listwise标签计算NDCG@10,小于阈值α的数据被过滤,最终得到13K高质量多领域训练数据集 [14] - 在RL阶段设计multi-view ranking reward,包括召回视角(Recall@10)、排序相似度视角(RBO)和NDCG@10结合,使用GRPO算法进行优化 [19][20][21] 实验结果 - ReasonRank-32B在BRIGHT和R2MED上分别超越最好baselines 4-5个点,ReasonRank-7B甚至优于所有32B的baselines [22] - 在传统IR benchmark BEIR上实验证明良好泛化性,在Covid、DBPedia、SciFact等数据集上表现优异 [23] - ReasonRank在BRIGHT上效率显著高于pointwise排序器Rank1,因一次处理20个段落只生成一条推理链,大大减少输出token数量 [26] 消融实验与未来方向 - 消融实验证明多领域数据集相比单领域MSMARCO的效果优势,以及两阶段训练框架和multi-view ranking reward设计的合理性 [28] - 未来方向包括引入非推理型数据使模型灵活适应不同难度搜索场景,探索基于全排序的推理型重排序方法,尝试Llama 3.1和Qwen3等多样化模型骨干 [30] 论文与资源 - 论文标题为"ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability",发布于arXiv [5] - 代码仓库和开源数据及模型可在GitHub和Huggingface获取 [5][6]
上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
机器之心· 2025-08-21 01:03
核心技术突破 - 提出Context as Memory方法 将历史生成帧作为记忆载体实现长视频场景一致性 无需显式3D建模辅助[2][10][17] - 创新设计基于相机轨迹视场(FOV)的记忆检索机制 动态筛选相关历史帧 减少计算开销并提升训练推理效率[3][12][17] - 通过context learning技术学习上下文条件 使模型隐式掌握视频数据中的3D先验[2][12] 技术实现细节 - 采用基于Context learning的视频自回归生成框架 所有历史帧作为记忆条件参与生成过程[12] - 基于Unreal Engine 5构建多样化场景数据集 包含精确相机轨迹标注的长视频用于训练测试[3] - 用户仅需提供初始图像即可沿设定相机轨迹自由探索生成的虚拟世界[3] 性能表现 - 在几十秒时间尺度下保持静态场景记忆力 并在不同场景展现优秀泛化能力[6] - 实验结果显示其场景记忆力显著超越现有SOTA方法 在开放域场景中保持记忆[10][15] - 与Google DeepMind的Genie 3效果接近 且投稿时间早于Genie 3发布[2] 研究背景与延伸 - 团队提出世界模型五大基础能力模块:Generation Control Memory Dynamics Intelligence 为领域研究提供框架指导[18] - 同期开发GameFactory技术 聚焦可泛化开放域控制能力 可生成无限可交互新游戏 获ICCV 2025 Highlight论文[18][19] - 已发表多篇交互式视频生成领域综述与观点论文 系统总结领域发展现状[18][19]
刚刚,字节开源Seed-OSS-36B模型,512k上下文
机器之心· 2025-08-21 01:03
模型发布与开源 - 字节跳动Seed团队正式发布并开源Seed-OSS系列模型 包含三个版本:Seed-OSS-36B-Base(含合成数据)、Seed-OSS-36B-Base(不含合成数据)和Seed-OSS-36B-Instruct(指令微调版)[1] - 模型使用Apache-2.0许可证发布 允许研究人员和企业开发者自由使用、修改和再分发[2] 模型架构与参数 - 模型采用360亿参数 分布在64层网络中 支持15.5万词表[5] - 架构结合因果语言建模、分组查询注意力(GQA)、SwiGLU激活函数、RMSNorm和RoPE位置编码[4] - 隐藏层大小为5120 注意力头配置为80/8/8 头大小为128[9] 长上下文处理能力 - 原生支持最大512K tokens上下文长度 相当于1600页文本 是OpenAI GPT-5系列的两倍[6][7] - 在RULER(128K上下文长度)测试中达到94.6分 创开源模型最高分[18][20] 推理预算控制 - 引入推理预算机制 允许用户指定模型执行推理的token数量[10] - 推荐预算值为512 tokens的整数倍(如512、1K、2K等) 0表示直接输出答案模式[13][26][27] - 复杂任务(如AIME和LiveCodeBench)性能随预算增加提升 简单任务(如IFEval)则出现波动[22][23] 基准测试表现 - Base含合成数据版本在MMLU-Pro得分65.1 MATH得分81.7[15] - Instruct版本在AIME24取得91.7% BeyondAIME得分65 LiveCodeBench v6得分67.4 均创开源SOTA纪录[17][19] - 在TAU1-Retail智能体任务中取得70.4分 SWE-Bench Verified(OpenHands)达56分[20] 训练数据与研究支持 - 使用12万亿tokens进行训练[1] - 同时发布含与不含指令数据的预训练模型 为研究社区提供多样化选择[8]