Workflow
机器之心
icon
搜索文档
X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达SoTA
机器之心· 2025-08-19 06:33
核心观点 - X-SAM是首个统一的分割多模态大语言模型,将分割范式从「分割万物」扩展到「任意分割」,实现了像素级视觉理解能力的突破 [4] - 通过创新的视觉定位分割(VGS)任务和统一架构设计,X-SAM在20+数据集上达到最先进性能,覆盖7种分割任务 [4][19] - 模型采用三阶段渐进式训练策略和数据集平衡重采样技术,显著提升少样本数据集的性能 [16][17] 背景与动机 - Segment Anything Model (SAM)依赖单一视觉提示输入,多模态大语言模型(MLLMs)无法处理像素级任务,限制了通用模型发展 [4] - X-SAM通过赋予MLLMs像素级理解能力,解决了传统模型在开放场景视觉感知中的根本性限制 [4] 方法设计 架构设计 - 采用双编码器设计:SigLIP2-so400m提取全局特征,SAM-L提取细粒度特征,通过像素重排和MLP投影实现特征融合 [14] - 分割连接器提供多尺度信息(1/32、1/16、1/8尺度),Mask2Former解码器替换SAM原始解码器 [12][15] - 输入支持文本查询(通用/指代/推理分割)和视觉查询(点/涂鸦/边界框),输出采用<SEG>标记统一表示 [7][8][13] 训练策略 - 三阶段训练:1)分割器微调(COCO-Panoptic数据集) 2)对齐预训练(LLaVA-558K数据集) 3)混合微调(多数据集协同) [16] - 数据集平衡重采样策略:通过超参数t控制过采样比例,改善少样本数据集(0.2K样本)性能 [17] 实验结果 性能对比 - 指代分割任务:RefCOCO/+/g测试集达到85.1/78.0/83.8,超越GLaMM(79.5/72.6/74.2)和PSALM(83.6/72.9/73.8) [23] - 对话生成分割:mIoU指标达69.4(Val)/69.0(Test),显著优于GLaMM-7BT(65.8/64.6) [23] - 视觉定位分割:点提示AP50达72.5,较PSALM(3.3)提升20倍 [23] 多模态能力 - 图文理解任务:SEED-Bench(69.3)、POPE(89.3)、AI2D(62.6)分数全面领先LLaVA-1.5等基线模型 [23] 未来方向 - 视频领域扩展:与SAM2集成实现图像/视频统一分割,引入时序信息构建视频分割新任务 [27] - 技术应用前景:为通用视觉理解系统奠定基础,开辟开放场景感知研究新方向 [27]
7年了,OpenAI官方给出五代GPT对比,网友却怀念起「狂野」初代
机器之心· 2025-08-19 06:33
GPT模型演进对比 - GPT-1在回答复杂问题时表现生硬且逻辑混乱,例如对麻醉意识问题的回答仅为"我没有 你醒了",诗歌创作和故事生成也呈现疯癫状态[2][3][4] - GPT-5能完美遵循指令生成符合要求的答案,在医学问题解答中不仅提供专业分析,还具备情绪价值输出,模拟医生沟通方式[6][20] - 模型迭代7年后,GPT系列从"牙牙学语"发展为掌握世界基本规律的全能助手,知识储备、逻辑结构和语言连贯性显著提升[6][49] 医学问题回答质量对比 - GPT-1/GPT-2对"全身核磁共振筛查癌症"问题回答逻辑混乱或过于简略,仅陈述"缺乏证据支持"的结论[11][12] - GPT-4提供6点专业分析:包括成本高昂(每次扫描达数千美元)、资源紧张、过度诊断风险(20-30%假阳性率)、筛查证据不足等医学界标准论述[14][15][16][17][18][19] - GPT-5在专业分析基础上增加分层建议:推荐高风险人群(如BRCA1/2基因突变携带者)采用针对性筛查,并展望AI结合成像技术的未来方案[21][26][28][30] 创意任务表现对比 - 诗歌创作中GPT-1输出抽象混乱,GPT-2未完成创作,text-davinci-001呈现散文风格[40][41][42] - GPT-4生成优雅的十四行诗体,完整阐述牛顿三定律并保持押韵格式[45][46] - GPT-5创作更简洁明快,采用通俗化表达实现科学概念传播[47] - 在"描述小狗"任务中,各版本模型呈现不同性格特征:GPT-2天马行空,GPT-4塑造活泼形象,GPT-5创造拟人化"小狗大侠"[32][35][36] 用户反馈差异 - 部分用户偏好早期模型的"狂野"输出风格,认为GPT-1具有"分裂吸引力"和更接近AGI的特质[51][52][53] - 专业场景使用者更倾向GPT-4/GPT-5的可靠性和结构化输出能力[20][49]
妙笔生维:线稿驱动的三维场景视频自由编辑
机器之心· 2025-08-19 02:43
三维场景视频编辑技术发展 - 移动摄影设备普及推动三维场景视频编辑需求增长 用户可通过手机或相机快速获取多视角视频 但高效自由编辑这些内容仍是关键挑战 包括添加新物体、去除元素或替换已有部分等能力 在VR、AR和短视频创作中应用前景广泛[2] - 现有经典方法局限在于仅支持预定义三维模型库 限制用户个性化创意表达 且难以处理光影融合和阴影生成等照片级真实感需求 移除物体后的空缺区域填补也缺乏最优解决方案[3] Sketch3DVE技术创新 - 提出基于线稿的三维场景视频编辑方法 用户通过简单线稿即可重塑视频内容 支持个性化添加、移除或替换对象 技术论文发表于SIGGRAPH 2025并入选Video Trailer[3][6] - 支持单张静态图片编辑 用户可先指定虚拟相机路径生成动态视频 再进行任意编辑 突破传统静态图像处理限制[5] - 采用DUSt3R三维重建算法分析场景 输出点云和相机参数 通过深度图对齐和反投影技术实现三维几何一致性 构建基于点云引导的视频生成模型 融合编辑帧、多视角视频和原始视频信息[13][14] 行业技术对比 - 现有视频生成模型分为两类:直接输入相机参数控制视角 或从单图像构建显式三维表示(如NeRF) 但均无法处理含大幅度相机运动的真实视频编辑[8] - 早期视频编辑方法基于Stable Diffusion逐帧处理 新方法利用视频模型提取运动特征 但主要擅长外观编辑 几何结构层面效果较差 难以处理大视角变化场景[9] - 线稿交互方式已广泛应用于内容生成 VIRES和SketchVideo等现有方法面向通用场景 无法保持三维几何一致性 Sketch3DVE填补该技术空白[9][12] 应用效果展示 - 支持首帧线稿标记编辑区域 生成添加/删除/替换物体的高质量结果 新物体具有三维一致性[16] - 可处理含阴影和反射的复杂场景 通过真实视频数据集训练生成合理编辑效果[17] - 支持颜色笔画指定外观 生成自然真实的三维场景编辑 也兼容图像补全方法直接编辑首帧[18][19] - 相比传统模型插入方法 解决了个性化定制不足、渲染失真和物体去除难题 降低专业软件使用门槛[20][22]
清华叉院教授手把手教你用强化学习训练智能体
机器之心· 2025-08-19 02:43
大模型智能体技术发展 - 智能体强化学习(Agentic RL)是训练通用智能体的核心技术之一 [1] - ASearcher项目基于AReaL全异步Agentic RL框架打造端到端搜索智能体(Search Agent) [1] - AReaL框架支持智能体进行128次复杂环境交互并实现长程工具调用(Long-Horizon Tool Use) [2] ASearcher项目技术特点 - 采用极简代码设计实现单文件内完成复杂长程工具调用 [2] - 全异步RL技术解锁智能体的长程工具调用能力 [11] - 提供轻量级开发工具AReaL-Lite实现极速Agentic RL训练 [11] 技术实践与分享 - 以多轮搜索智能体(multi-turn search agent)为例展示极简代码实现 [2] - 直播将手把手教学在jupyter notebook中实现多轮search agent训练 [11] - 推荐使用4卡GPU服务器进行训练实践 [11] 团队与资源 - 项目由清华大学交叉信息院吴翼教授团队主导 [11] - 核心成员包括清华博士生及蚂蚁强化学习实验室研究员 [11] - 提供预习用的jupyter notebook资源(GitHub链接) [11] 行业活动信息 - 直播主题为"清华叉院教授手把手教你用强化学习训练智能体" [8] - 直播时间定于北京时间8月21日19:30-20:30 [10] - 活动包含QA环节并提供技术交流群 [10]
开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
机器之心· 2025-08-19 02:43
核心观点 - 昆仑万维发布开源交互世界模型Matrix-Game 2 0,参数量仅1 8B,能在单块GPU上实现25FPS的分钟级实时互动生成,效果媲美Google DeepMind的Genie 3 [1][12][11] - 该模型突破传统世界模型在实时交互、长序列生成和计算效率上的瓶颈,支持键盘WASD控制自由移动,生成画面具有物理一致性和高保真细节(如GTA地图、神庙逃亡无限延伸场景)[4][8][9][19] - 技术架构采用视觉驱动交互方案,通过3D Causal VAE+DiT模型实现少步骤自回归扩散生成,训练数据来自虚幻引擎和GTA5采集的120万视频片段(准确率99%)[35][36][37][39] - 定量对比显示其图像质量(0 61)、时间一致性(0 94)、键盘控制准确率(0 91)等指标显著优于Oasis模型,解决"转圈画风突变"问题[48][49] - 公司2023年持续发力开源生态,已发布SkyReels视频生成、Skywork-R1V多模态推理等10余个模型,技术覆盖图像/音频/视频/智能体全领域[51][53] 技术突破 - **架构创新**:移除文本分支专注视觉理解,动作模块支持帧级键鼠输入,通过MLP+交叉注意力实现精准交互控制[39][40] - **训练机制**:采用Self-Forcing将双向模型转为自回归变体,减少误差累积,生成视频时长可达分钟级[42][45] - **数据管线**:构建虚幻引擎+GTA5双数据源,开发Script Hook V工具同步记录动作与画面,积累1200小时交互视频[36][37][38] 应用场景 - **游戏开发**:实测可复刻《荒野大镖客》自然景观、《CS:GO》地图细节补充、《我的世界》像素场景动态生成[20][21][24] - **现实模拟**:成功生成自行车骑行第一视角,柏油马路与行道树动态符合物理规律[26] - **AI训练场**:为具身智能提供虚拟环境训练,解决机器人/自动驾驶数据采集难题[57][58] 行业影响 - 成为首个开源通用实时世界模型方案,推动技术民主化发展[10][11] - 模型效果接近商业级3A游戏引擎,帧率与谷歌Genie 3相当(25FPS vs 30FPS)[12][4] - 开源策略加速行业创新,HuggingFace模型获超1k星标热度[52]
图生视频新玩法刷爆外网:图上画两笔就能动起来,终于告别文本提示
机器之心· 2025-08-19 02:43
公司概况 - Higgsfield AI成立于2023年10月,总部位于美国旧金山,专注于为内容创作者开发个性化AI视频工具,团队规模11-50人[36] - 2024年4月完成由Menlo Ventures领投的800万美元种子轮融资,资金用于视频生成工具和社交媒体创作平台开发[36] - 创始人兼CEO Alex Mashrabov曾任Snap公司生成式AI负责人,主导开发MyAI聊天机器人、AR特效等产品[36][37] 核心技术 - 主打产品Diffuse系列支持用户上传单张照片或输入文本生成个性化视频内容,可将用户自然插入场景中[39] - 2025年3月推出视频生成模型DoP I2V-01-preview,具备专业级镜头控制、世界建模和电影级叙事能力[40] - 正在构建世界模型技术,旨在实现顶级视频生成体验与细粒度控制[43] 核心功能 - Draw-to-Video功能:用户上传静态图像后绘制图形/箭头/文字,AI自动生成电影级动态视频,4天内在X平台获530万浏览量[5][17][21] - Product-to-Video功能:拖拽产品图片到人物照片上即可生成广告视频,支持多模型集成,累计160万次浏览[6][26][30] - 每周迭代新功能:包括4K/8K画质提升(UPSCALE)、多参考图角色一致性优化(支持4张输入)、动作风格迁移(STEAL)等[8][9][10] 市场表现 - 功能发布频率极高,平均每周推出新模板或功能升级[8] - 积极整合热门模型如GPT-5、MiniMax、Veo 3等,提供多模型统一创作界面[11][30] - 曾与Meta进行收购谈判但未达成,显示头部科技公司对其技术认可[3][36] 用户反馈 - 网友实测显示Draw-to-Video可快速生成传统需高成本制作的电影场景,如控制镜头运动、物体凭空生成等[16][23] - 用户总结优化技巧:使用透明PNG格式素材、分步骤标注动作顺序、免费版调试后升级分辨率等策略[26] - Product-to-Video被用于创意广告制作,如金刚狼推广可口可乐等案例,支持特效叠加与快速渲染[28][32][33]
Dario Amodei:账面亏损?大模型照样生钱!
机器之心· 2025-08-18 09:22
01 账面巨亏≠亏钱,Dario Amodei 详解「拆模型看盈利」的 AI 生意经 - 传统财报视角中研发支出与亏损被视为业务状况恶化的标志,但 Anthropic 联合创始人提出整体亏损可能掩盖单个模型在其生命周期内的盈利能力,需将每一代模型视为独立「盈利单元」才能评估真实业务健康状况 [5] - 未来 AI 市场将形成 3-6 家同时拥有前沿技术与雄厚资本的超级巨头鼎立格局,技术资本缺一不可 [5] - 模型训练存在资本循环:2023 年投入 1 亿美元训练模型,2024 年产生 2 亿美元收入;2024 年投入 10 亿美元训练下一代模型,2025 年产生 20 亿美元收入,传统损益表会显示亏损持续扩大但实际单代模型盈利 [6][7] - 每代模型应视为独立「初创公司」,前期投入巨大但生命周期内盈利,公司整体因持续研发而账面亏损 [9] - AI 资本周期类似制药巨头管线策略:成功模型触发指数级加注(如 10 倍投入),失败则一次性减值 [9] - 模型训练时机取决于上一代模型数据表现而非固定时间表,Scaling Law 生效时客户愿为 10 倍能力提升支付 10 倍价格 [10][11] - 核心风险并非烧钱速度而是增长极限,只要 Scaling Law 持续生效,资本循环将推动规模利润扩张直至成为终局巨头 [12] 02 当模型从「本科生」跳到「博士生」,客户凭什么立刻掏 10 倍价钱 - 大模型能力跃升引发「资本主义冲动」:技术能力与市场支付意愿的指数关系自然驱动资金、算力、数据投入,形成自增强循环 [13] - 增长兑现内生于模型能力与市场反馈的指数关系,非单纯商业计划结果 [13] 03 为什么真正的 AI 原生界面尚未出现 (注:原文未提供具体内容,仅保留目录标题)
KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务
机器之心· 2025-08-18 05:15
移动网络流量预测模型UoMo - 清华大学电子系团队联合中国移动发布全球首个面向移动网络的通用流量预测模型UoMo,结合扩散模型与Transformer结构,支持短期预测、长期预测及无历史数据生成任务[2][7][13] - UoMo通过数据词元化将异构时空流量统一为token序列,采用掩码-复原的自监督训练范式,定义短期掩码、长期掩码、生成掩码、随机掩码四种策略[9][15] - 模型骨干网络结合扩散模型建模复杂时空分布与Transformer学习序列相关性,训练目标为最小化掩码部分的MSE损失[13][14] 技术架构与创新 - 统一框架下支持三类任务:短期预测(资源分配、用户接入控制)、长期预测(基站节能、容量扩展)、生成任务(频段规划、小区选址)[7][11] - 引入城市环境微调模块,整合移动用户数时空序列与15类POI分布数据,通过对比学习实现环境信息对齐[19][21] - 采用环境感知的损失函数优化,理论分析显示其等价于对比学习中的InfoNCE目标[17][21] 实验验证与性能 - 在9座城市真实数据集测试中,UoMo的RMSE和MAE指标全面优于12种基线模型,平均改进幅度达11%-31%[20][22] - 北京5G数据集上RMSE 0.1035(比次优模型低27.41%),上海4G数据MAE 0.0679(改进11.35%)[22] - 零样本/小样本学习能力突出,5%数据训练后预测误差接近全量数据训练效果[26] 应用场景与部署 - 形成"预测-优化-验证"闭环:基于预测流量输出基站选址、资源分配、休眠控制策略,经真实网络验证覆盖/吞吐/时延指标[28][30] - 已应用于中国移动5G网络优化,覆盖4000+基站(北京)、6000+基站(南京)等大规模场景[19][20] - 可视化结果显示预测数据能准确还原真实流量波动模式,具备工程实用价值[24] 数据与模型可用性 - 论文发表于ACM KDD 2025,数据集包含北京/上海/南京等城市4G/5G流量数据,时间粒度15分钟至1小时[4][19] - 开源代码及模型发布于GitHub仓库,包含预训练权重与微调接口[4] - POI数据覆盖居住、娱乐、交通等15个类别,通过公开地图服务获取[19][20]
NextStep-1:一次在图像生成上自回归范式的探索
机器之心· 2025-08-18 05:15
核心观点 - 阶跃星辰团队发布NextStep-1模型 探索在连续视觉空间中直接以自回归方式生成图像的新路径 通过轻量级流匹配头实现端到端训练 避免离散化信息损失并减少对外部扩散模型的依赖 [2][3][4] - 模型在多项权威基准测试中达到自回归模型的新SOTA水平 部分指标与顶尖扩散模型竞争 同时具备高保真文生图和强大图像编辑能力 [14][21][22] - 团队开源模型并坦诚当前局限性 包括生成稳定性、推理延迟和高分辨率扩展挑战 为未来研究提供明确方向 [25][26][33] 技术架构 - 核心采用14B参数Transformer骨干网络配合157M参数流匹配头 直接在连续空间生成图像Patch 实现高度统一的端到端架构 [7][8][10] - 通过通道归一化技术稳定Token统计特性 训练时增加噪声正则化反而提升输出质量 表明噪声有助于塑造更鲁棒的潜在空间 [16] - 流匹配头尺寸变化(157M→528M)对图像质量影响极小 证明Transformer承担核心生成逻辑 流匹配头仅作为轻量采样器 [12] 性能表现 - 在GenEval基准获得0.63/0.737分 在GenAI-Bench基础项和高级项分别达到0.88/0.907和0.67/0.741分 在DPG-Bench获得85.28分 [21] - OneIG基准总体得分0.417 其中对齐度0.826 文本理解0.507 在WISE基准多个子项达到0.51-0.73分 总体0.79/0.83分 [23] - 图像编辑能力在GEdit-Bench英文集获得6.58分 中文集6.40分 在ImgEdit-Bench获得3.71分 与主流编辑模型相当 [24] 发展挑战 - 高维潜在空间(如16通道)下出现生成不稳定现象 包括局部块状伪影、全局噪声和网格状伪影 可能与数值稳定性及二维空间编码局限性相关 [27][29] - 顺序解码导致显著推理延迟:生成4096长度序列时累计延迟达45.77秒 其中LLM解码占31.86秒 流匹配头多步采样构成额外开销 [28][29] - 高分辨率生成面临收敛效率低和技术迁移难问题 监督微调在小数据集表现脆弱 易陷入过拟合或训练崩溃 [30][32][35] 未来方向 - 通过流匹配头参量化减、模型蒸馏技术实现少步生成 并借鉴多Token预测等LLM技术加速自回归主干推理 [34] - 需探索小数据集微调的稳定方案 平衡目标风格对齐与通用生成能力 同时开发适配自回归框架的高分辨率生成技术 [32][34]
从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
机器之心· 2025-08-18 05:15
模型架构演进 - gpt-oss-120b和gpt-oss-20b是OpenAI自2019年GPT-2后首次发布的开放权重模型,支持本地运行[4][7] - 模型架构延续主流LLM设计,但包含多项优化:移除Dropout、RoPE取代绝对位置嵌入、SwiGLU取代GELU、混合专家(MoE)模块等[17][20][27][37] - 采用分组查询注意力(GQA)和滑动窗口注意力提升计算效率,窗口大小仅128 token[41][47][51] - 使用RMSNorm替代LayerNorm降低计算成本,更适合大规模LLM[52][56] 性能优化技术 - MXFP4量化方案使gpt-oss-20b可在16GB显存GPU运行,120b版本需80GB H100[10][97][99] - 推理工作量分级控制(低/中/高)动态调节响应长度和准确率[94][96] - MoE设计采用32专家/4活跃专家配置,专家参数占比超90%[39][72][77] - 注意力机制引入偏差单元和sinks增强长上下文稳定性[83][87] 行业竞品对比 - 与Qwen3相比:gpt-oss宽度更大(嵌入维度2880vs2048),但深度仅24层vs48层[67][69][70] - 基准测试显示gpt-oss-120b性能接近Qwen3 235B,但参数量仅一半[107][113] - 两者均采用Apache 2.0许可,但gpt-oss未公开训练代码和数据集[88] - 推理能力突出但存在幻觉倾向,设计侧重工具集成而非事实记忆[107][108] 技术趋势观察 - Transformer仍是LLM核心架构,改进多来自数据/算法调整而非架构革命[13] - 模型轻量化需求推动量化技术发展(如MXFP4)[97][99] - 行业向稀疏化(MoE)、注意力优化(GQA/滑动窗口)方向演进[37][41][47] - 开源模型与专有模型性能差距显著缩小[110][114]