多模态学习

搜索文档
谷歌“香蕉”杀死Photoshop,全球软件业彻底变天了
钛媒体APP· 2025-09-16 08:45
产品性能表现 - 在文生图能力评测中排名第一,得分1147,获得220,674票投票 [1] - 在图像编辑能力评测中排名第一,得分1362,获得2,521,035票投票,远超第二名flux-1-kontext-max的1191分 [2] - 解决了多模态模型生成文字乱码的行业难题,能够准确生成包含文字的图像 [4] - 能够生成以假乱真的手办图像,精度极高 [6] - 支持逼真的场景、风格化插图、贴纸、产品模型和商业摄影等多种图像生成功能 [9] - 在图像编辑方面支持添加移除元素、局部重绘、风格迁移、组合多张图片和高保真细节保留等功能 [9] 技术优势 - 实现像素级修图编辑,能够保持图像其他部分的一致性 [10][12] - 具备三维空间理解能力,可从不同角度渲染角色和物体 [14] - 采用交错式生成新范式,将复杂提示分解为多个步骤处理 [15] - 具备超越用户预期的智能感,能够对模糊或错误指令进行修正优化 [16][17] - 采用文本渲染度量作为关键评估指标,该指标优化带动了整体图像质量提升 [23] - 采用多模态统一模型架构,实现跨模态的正向迁移 [24][25] - 通过收集Twitter等平台用户反馈驱动模型迭代优化 [26] - 融合Gemini团队的指令遵循能力和Imagen团队的视觉质量专长 [27] 商业化策略 - 当前API定价为文字输入$0.30/百万tokens,文字输出$2.50/百万tokens,图像输入$0.30/张,图像输出$0.039/张 [20] - 在Google AI Studio提供免费使用额度,性价比极高 [19] - 已出现第三方平台以更低价格提供API服务 [21] - 主要通过吸引用户进入生态系统和收集真实用户数据来实现长期价值 [21] - 训练成本高昂,需要大量人类偏好信号和资源投入 [18] - 人工评分方式成本效益低下,目前仅获得约22万投票 [18] 行业影响 - 重新定义AI图像领域,带来革命性变化 [28] - 有效保持公司在AI领域的领导地位,应对OpenAI和Midjourney等竞争对手 [21] - 改变多个行业现状,满足大多数人的图像生成需求 [28] - 推动人机协作进入新阶段,重塑全球软件行业格局 [2][28]
OpenVision 2:大道至简的生成式预训练视觉编码器
机器之心· 2025-09-15 12:19
研究背景与团队 - 研究由加州大学圣克鲁兹分校、苹果公司与加州大学伯克利分校合作开展 第一作者为UCSC博士生刘彦青 本科毕业于浙江大学 研究方向包括多模态理解与视觉基础模型[2] - 通讯作者为UCSC谢慈航教授 团队成员包括来自UCSC、苹果公司与UCB的研究人员[2] OpenVision系列发展历程 - OpenVision于ICCV发布 是完全基于公开数据和开源代码训练的视觉编码器家族 提供25个以上预训练模型 参数量从590万到6亿+ 覆盖多种patch size与分辨率设置[6] - OpenVision在多个多模态基准任务上媲美甚至超越OpenAI的CLIP与Google的SigLIP 成为学术界和产业界重要替代方案[7] - OpenVision训练管线存在双重对比目标与生成式caption预测设计 导致文本编码器计算量几乎翻倍 训练成本显著增加[8] OpenVision 2技术创新 - 移除文本编码器与对比学习 仅保留图像→描述生成目标 框架简化为图像编码器+文本解码器两个模块[9] - 引入视觉token随机丢弃技术 预训练阶段随机丢弃约2/3视觉token 仅用1/3 token生成完整描述 大幅减少文本解码器计算负担[10] - 采用稀疏提示机制 迫使模型在有限条件下还原完整caption 提升表征抽象能力 体现少即是多理念[13] 性能表现 - 在TextVQA任务中 OpenVision 2(ViT-L/14 224分辨率)达到59.0分 优于OpenAI-CLIP的56.1分和MetaCLIP-5B的55.6分[15] - 在OCR任务中 OpenVision 2(ViT-L/14 224分辨率)达到327分 显著优于OpenAI-CLIP的177分和MetaCLIP-5B的313分[15] - 在336分辨率下 OpenVision 2(ViT-L/14)在TextVQA任务达到63.0分 优于OpenVision的61.2分和OpenAI-CLIP的59.1分[15] - 参数量632M的H/14模型在448分辨率下 TextVQA达到65.6分 ChartQA达到18.1分 OCR达到416分[15] 训练效率提升 - ViT-L/14模型训练时间从83小时缩短至57小时 缩减31% SoViT-400M模型从241小时缩短至121小时 缩减50%[16] - 显存占用减少近一半 ViT-L/14模型峰值显存从24.5GB降至13.8GB[16] - 单卡批大小从2k扩展到8k 大幅提升训练吞吐量[16] - FLOPs per Image从271.75降至208.90(ViT-L/14) 从1636.75降至1017.74(SoViT-400M)[16] 技术原理分析 - 生成式监督更贴近下游多模态大模型推理方式 减少预训练与下游任务间目标错位[22] - 采用Recap-DataComp-1B v2数据集 caption生成结合图像和原始文本 提供更细致贴合语义的监督信号[22] - 视觉token随机掩码技术在保持性能同时降低算力开销 提升模型泛化与鲁棒性[22] 行业影响与开源贡献 - 挑战对比学习主导范式 证明生成式框架同样能训练强大视觉编码器 在效率和可扩展性具显著优势[21] - 开源超过25个不同规模和配置模型 完整公开训练代码与数据管线 为学术界和产业界提供可复现资源[21] - 展示大道至简设计理念 为多模态基础模型发展提供新方向 支持10亿参数规模可扩展训练[21]
百度视觉技术部多模态感知与理解招聘(社招/校招/实习)
自动驾驶之心· 2025-09-03 23:33
百度视频理解算法岗位招聘 - 招聘类型包括校招、社招和实习(可转正) 工作地点为北京或深圳 [2] - 负责文心一言在视频理解方向的SOTA算法研发 聚焦视频问答、视频描述/摘要生成、时序行为定位、视频主题检测等核心任务 [2] - 要求计算机/人工智能相关领域硕士或博士学历 在顶级会议(CVPR/ICCV等)发表论文者优先 [4][5] 团队优势与福利 - 团队处于快速扩张期 校招、社招、实习岗位Headcount充足 [6] - 提供大牛导师一对一指导 深度参与文心大模型项目 [6] - 福利包含免费水果、健身房及有竞争力的薪资 [6] AutoRobo求职社区资源 - 社区专注自动驾驶/机器人/具身智能/大模型领域 已有近1000名成员 涵盖智元机器人、地平线、理想汽车等企业员工及2024/2025届校招者 [9] - 每日更新算法/开发/产品岗位招聘信息 包含校招、社招、实习等类型 [10] - 提供行业研报如《世界机器人报告》《中国人形机器人发展蓝皮书》等 覆盖技术路线与市场前景分析 [19] 专业面试资源库 - 汇总自动驾驶领域专项问题集 包括毫米波视觉融合、BEV感知、多传感器标定等10个核心模块的"一百问"专题 [14] - 包含具身智能方向Nerf应用、轨迹预测、Occupancy感知等6个技术方向的面试题库 [15][18] - 整理多家企业面经 如滴滴算法工程师、英伟达春招、小米汽车算法岗等7类实战案例 [21] 职业发展支持服务 - 提供谈薪技巧指导 包含HR面常见问题汇总与薪资谈判关键回答 [23][25] - 分享转行自动驾驶行业经验 面试官建议及算法岗基础技能树构建方法 [25] - 提供专业书籍资源与简历优化服务 支持C++、产品经理等岗位面试准备 [24]
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
机器之心· 2025-07-12 02:11
核心观点 - 北京大学与香港中文大学研究团队发布全新双系统视觉-语言-动作模型FiS-VLA,实现高频响应与复杂推理的统一 [4] - FiS-VLA通过将快速执行模块嵌入预训练视觉-语言模型中,实现快慢系统一体化设计,控制频率高达117.7Hz [4][23] - 该方法在仿真与真机测试中表现优异,平均成功率69%,远超主流方案 [17][19] 研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号,但现有视觉-语言模型推理速度慢,限制高频控制实用性 [7] - 现有双系统设计协同效率低下,系统1无法充分利用系统2的语义推理结果 [9] 架构设计 - 基于Prismatic VLM架构,包含视觉编码器、轻量级3D tokenizer、LLaMA2-7B语言模型及MLP模块 [13] - 将VLM末端几层Transformer模块重构为系统1执行模块,嵌入系统2内部形成统一模型 [11] - 系统2低频处理2D图像和语言指令,系统1高频响应实时感知输入 [11] 双系统协作 - 灵感来自Kahneman双系统理论,系统2输出高维特征为系统1动作生成提供约束 [14] - 系统1每个时间步运行,利用周期性更新的系统2语义理解结果 [14] - 采用异构模态输入设计,系统1接收2D图像、机器人状态和3D点云信息 [15] 性能表现 - 仿真测试中平均成功率69%,控制频率21.9Hz,是CogACT的2倍以上 [17][18] - 真机测试平均成功率68%-74%,在高精度操控任务中展现显著优势 [19][20] - 泛化测试中面对未见物体、复杂背景与光照变化,准确率下降幅度远小于基线 [21][22] 技术突破 - 消融实验显示共享2层Transformer时性能最佳,系统1接收三种输入模态效果最优 [23] - 系统1和系统2协作最佳频率比为1:4,单步预测8个动作时理论控制频率达117.7Hz [23] - 采用跨平台大规模轨迹数据预训练(860K条轨迹)并在微调阶段增强任务适应性 [15]
智源发布“悟界”系列大模型,含全球首个原生多模态世界模型Emu3
凤凰网· 2025-06-06 14:32
大模型技术突破 - 智源研究院推出"悟界"系列大模型 包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS 2 0与具身大脑RoboBrain 2 0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 通过新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列 实现文本、图像、视频的任意组合理解与生成 [2] - Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据 完成了超过100万单位的神经信号预训练 在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中性能显著超越现有专有模型 [2][3] 具身智能系统升级 - RoboOS 2 0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架 整体性能提升达30% 全链路平均响应时延低至3ms以下 端云通信效率提升27倍 [3][4] - RoboBrain 2 0任务规划准确率相较1 0版本实现74%的效果提升 在空间智能方面实现17%的性能提升 新增空间推理能力和闭环反馈机制 [5][6] - 系统已全面开源 包括框架代码、模型权重、数据集与评测基准 与全球20多家具身智能企业建立战略合作关系 [6] 生物分子建模创新 - OpenComplex2实现生物分子研究从静态结构预测到动态构象分布建模的重大突破 能够表征生物分子系统的连续演化能量景观 在原子分辨率层面捕捉分子相互作用及平衡构象分布 [6][7] - 模型基于FloydNetwork图扩散框架以及多尺度原子精度表示两大关键技术创新 有效突破动态构象分布预测瓶颈 在生物分子动态特性预测、柔性系统及超大型复合物建模等任务中性能卓越 [7] 开源生态建设 - 智源已开源约200个模型和160个数据集 FlagOS系统新增统一编译器FlagTree、统一通信库FlagCX等板块 实现对11家厂商18款异构AI硬件的统一支持 [8] - 通用向量模型BGE系列发展为门类齐全的生态系统 近期发布BGE-code-v1、BGE-VL-v1 5和BGE-VL-screenshot三款模型 在代码检索和多模态检索任务中取得领先表现 [9] - 开源轻量长视频理解模型Video-XL-2实现单GPU处理万帧视频的能力 编码2048帧视频仅需12秒 推理效率大幅领先同类别竞品模型 [9][10] 应用场景展示 - 基于RoboOS 2 0和RoboBrain 2 0的机器人展示了餐饮互动、抓娃娃游戏和家居物品收纳等技能 融合视觉、听觉、思考、语音交互等能力实现"心有灵犀"互动游戏 [11] - Brainμ与脑机接口设备结合 在消费级便携式脑电设备上实现接近医用级设备数据采集的稳定解析能力 降低脑机接口应用门槛 [11] - 数字孪生心脏药物安全性评价平台将全尺度药物毒性仿真时间由近90天减少到一天之内 无感智能坐垫系统可对心率、心率变异性、呼吸频率等指标进行高精度实时监测 [12][13]
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 03:02
计算机视觉领域热门方向 - CVPR 2025基于全球4万多名作者的13008份投稿统计出三大热门方向 投稿数量同比增长13% 最终接收2878篇论文 接收率22.1% [3] - 研究群体呈现指数级增长趋势 AI领域重要性提升带动相关学位攻读人数增加 [3] 多视角与传感器3D技术 - 该方向投稿量激增 研究重点从单幅图像2D渲染转向复杂3D评估 2020年NeRF技术突破推动领域发展 [4][5] - 高斯泼溅(Gaussian splatting)技术进一步促进计算机视觉与图形学融合 神经渲染研究显著提升3D相关论文数量 [5] 图像与视频合成 - 成为CVPR 2025最大论文类别之一 多模态商业聊天机器人已实现图像/视频生成能力 正朝交互式世界生成演进 [6] - 会议展示的合成方法为生成完整虚拟环境奠定技术基础 [6] 多模态学习 - 视觉、语言和推理合并为投稿量最大类别之一 可能预示新研究趋势 [7][8] - CVPR坚持学术公平原则 每篇论文评审标准独立于作者机构背景 维护领域生态平衡 [8] 行业动态 - CVPR 2025会议即将召开 投稿竞争加剧反映AI研究热度持续攀升 [8] - 机器之心将同步举办论文分享会 提供学术交流平台 [8]
ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式
机器之心· 2025-05-27 06:38
核心观点 - 提出ETT(End-to-End Vision Tokenizer Tuning)方法,实现视觉tokenization与目标自回归任务的联合优化,打破传统方法中视觉tokenizer固定不变的局限 [4] - ETT通过引入视觉tokenizer的码本嵌入和token级别字幕损失函数,使视觉tokenizer能根据下游任务反馈调整参数,显著提升多模态任务性能 [6] - 在模型参数和数据规模更小的条件下,ETT在多项基准测试中达到或超越现有最先进视觉语言模型的表现 [12][14][17] 传统方法的局限与ETT的突破 - 传统方法使用冻结的视觉tokenizer离散索引,导致特征表示能力浪费且无法端到端训练 [6] - ETT创新性引入码本嵌入(码本大小131,072,特征维度256)替代离散索引,结合联合优化策略释放视觉tokenizer潜力 [6][10] - 相比Emu3等框架,ETT简化模型架构并减少计算开销,同时提升多模态理解能力 [12] ETT核心架构与训练策略 - 基于改进的IBQ框架,分三阶段训练:前期对齐学习(冻结参数训练投影层)、语义学习(端到端联合优化)、后训练(特定任务微调) [10][11] - 训练中同时优化caption损失函数和重建损失函数,保持图像重建能力的同时增强语义感知 [11] - 投影层采用多层感知机,匹配视觉嵌入与预训练语言模型的隐藏层维度 [10] 性能表现 多模态理解 - MMBench测试中性能与连续编码器模型相当,部分子任务更优(如ETT 58.8 vs QwenVL-Chat 60.6) [12] - 在GQA(59.4)、TextVQA(56.8)等任务中表现优于Chameleon(47.2/4.8)等离散VLM模型 [12] 多模态生成 - 在T2I-CompBench的颜色(81.03)、形状(58.19)、纹理(72.14)子任务上超越Emu3(79.13/58.46/74.22) [15] - GenEval测试中Overall得分0.63,接近DALL-E3(0.67)且优于SDXL(0.55) [15] 视觉重构 - 保留低级细节的同时提升高级语义表示能力,如改善文本渲染效果 [17] 潜在发展与局限 - 当前数据规模和模型容量仍有扩展空间 [19] - 未来计划探索从头训练视觉tokenizer,并扩展至视频、音频等多模态场景 [19] - 方法易于实现集成,有望推动多模态基础模型应用 [25]