视觉语言模型

搜索文档
百模竞发的 365 天:Hugging Face 年度回顾揭示 VLM 能力曲线与拐点 | Jinqiu Select
锦秋集· 2025-05-16 15:42
新模型趋势 - 任意到任意(Any-to-any)多模态模型实现图像、文本、音频等多种模态无缝输入输出,如Meta Chameleon和Qwen2.5-Omni [5][6][7] - 推理型视觉语言模型涌现,具备复杂场景下的逻辑推理与长链思维能力,如Kimi-VL-A3B-Thinking(16B参数,激活参数2.8B)[11][12] - 小参数高性能多模态模型推动本地化应用普及,如SmolVLM2(256M/500M/2.2B参数)和Gemma3-4b-it(4B参数,支持140+语言)[15][16] 混合专家架构 - MoE解码器通过动态激活子模型提升效率,如Kimi-VL(开源推理SOTA)和DeepSeek-VL2 [19][20] - MoE在Transformer中替代FFN层,减少计算资源消耗但增加内存成本 [19] 视觉语言动作模型 - VLA扩展VLM能力至机器人控制,如π0/π0-FAST(支持7个机器人平台)和GR00T N1(NVIDIA人形机器人基础模型)[21][22] 专业化能力发展 - 多模态安全模型过滤有害内容,如ShieldGemma 2(谷歌)和Llama Guard 4(Meta)[31][32] - 多模态RAG简化文档处理,采用DSE和类ColBERT架构提升检索精度 [40][44] 智能体与视频理解 - 智能体模型实现GUI控制,如UI-TARS-1.5(字节跳动)和Qwen2.5-VL-32B(智能体任务优化)[47][54] - 视频理解技术突破帧限制,如LongVU(Meta)和Qwen2.5VL(动态FPS适应)[57] 基准测试与对齐技术 - 新基准MMT-Bench(31325项多模态任务)和MMMU-Pro(10选项复杂度提升)取代饱和旧基准 [67][68] - DPO偏好优化扩展至VLM微调,如RLAIF-V数据集(83000+样本) [61][63] 精选模型 - Qwen2.5-VL(3B-72B参数)以智能体能力突出 [71] - Kimi-VL-Thinking(16B MoE)为复杂推理首选 [71] - SmolVLM2(最小视频模型)和Llama 4 Scout(109B/400B MoE)覆盖不同规模需求 [71]
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型;昆仑万维宣布开源Matrix-Game大模型丨AIGC日报
创业邦· 2025-05-13 23:52
昆仑万维开源Matrix-Game大模型 - 昆仑万维正式开源17B+参数的Matrix-Game大模型 该模型为Matrix-Zero世界模型中的可交互视频生成大模型 是工业界首个开源的10B+空间智能大模型 [1] - Matrix-Game专为开放式环境中的高质量生成与精确控制设计 面向游戏世界建模的交互式世界基础模型 [1] 百型智能推出外贸行业垂类Agent - 百型智能发布国内首个外贸行业垂类Agent AI外贸员Zoe 可独立完成外贸开发拓客全链路 包括市场分析、客户寻找、精准筛选、开发触达、转化跟进 [2] - Zoe的转化率高出传统人工方式10倍以上 [2] 火山引擎发布豆包视频生成模型 - 火山引擎发布豆包视频生成模型Seedance 1 0 lite 支持文生视频、图生视频 视频生成时长支持5s、10s 分辨率提供480P、720P [3] - 同时发布豆包1 5视觉深度思考模型 并升级豆包音乐模型 企业用户可在火山方舟平台使用API 个人用户可在豆包APP体验 [3] 苹果发布FastVLM模型 - 苹果发布FastVLM视觉语言模型 专为高分辨率图像处理优化 可在iPhone等移动设备上高效运行 [4] - FastVLM通过FastViTHD视觉编码器实现85倍编码速度提升 为实时多模态AI应用铺平道路 [4]
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
机器之心· 2025-05-12 09:06
核心观点 - 蚂蚁和人大研究团队提出视觉语言大模型ViLAMP 通过混合精度策略实现对超长视频的高效处理 在单张A100 GPU上可处理10,000帧视频 并在多个视频理解基准上全面超越现有方案[1][2][9] 技术原理 - 视频信息在时空维度均呈现稀疏性与冗余性 90%注意力仅分布在不到5%的视频帧上 50%的patch承载80%的模型注意力[7][19] - 提出差分蒸馏原则 识别并保留高查询相关性且低信息冗余的重要视频信息[8] - 采用双层混合精度架构:差分关键帧选择(DKS)实现关键帧高效识别 差分特征合并(DFM)将非关键帧压缩为单个信息量最大化的token[12][13][14] 性能表现 - 以7B参数量达到或超越部分70B量级模型表现 在Video-MME长视频子集上比现有最优模型提升4.8%[17] - 在VideoNIAH任务中处理10K帧视频保持58.15%准确率 超越VideoChat-Flash基线模型12.82%[18] - 内存消耗相比LLaMA-VID基线降低约50% 在8,192帧情况下计算量减少80%以上[20] 效率突破 - 可在单张A100 GPU上连续处理10,000帧视频 按每秒1帧计算约3小时内容[2] - DKS在长视频场景下表现明显优势 DFM相比特征融合方案在所有数据集上展现3个百分点以上性能优势[20] 应用前景 - 突破长视频处理计算瓶颈 为在线教育 视频监控 直播分析等实际应用场景带来新的可能[2][22] - 相关论文已被ICML 2025接收 提供新的研究思路和实用价值[2][22]
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位· 2025-03-25 00:59
阿里通义千问Qwen2.5-VL-32B-Instruct发布 - 公司发布Qwen2.5-VL-32B-Instruct视觉语言模型,进一步扩充开源家族产品线[1][2] - 新模型尺寸为32B,填补了此前3B、7B和72B之间的空白,兼顾本地运行能力与性能表现[2][3] - 通过强化学习优化,模型在文本能力上达到同规模SOTA水平,部分基准测试甚至超越72B版本[4] 模型技术性能突破 - 具备精细化图像理解与推理能力,可结合时间、距离、限速等要素进行多步骤逻辑推算[5] - 数学推理能力显著提升,能完成几何角度计算等复杂问题,分步骤推导过程清晰[8][9][10][11] - 图像解析和视觉逻辑推导任务中表现出更高准确性与细粒度分析能力[5][13] 行业影响与用户反馈 - 模型已在Hugging Face平台开源,支持在Qwen Chat直接体验[14][15] - 技术社区快速响应,MLX Community已有用户成功运行[16] - Hacker News网友热议开源策略,认为此举验证了开源模式优势[17] 行业动态观察 - 公司近期与DeepSeek多次同步发布新模型,引发行业对协同策略的关注[18] - 模型发布节奏显示国内AI企业技术迭代加速,形成竞争性创新格局[1][18]
理想汽车(02015) - 自愿公告 2024年12月交付更新资料
2025-01-01 10:03
业绩相关 - 2024年12月交付新车58,513辆,同比增16.2%[2] - 2024年全年交付500,508辆,累计交付1,133,872辆[2] 市场布局 - 2024年底全国有502家零售中心,覆盖150个城市[3] - 2024年底售后及钣喷中心478家,覆盖225个城市[3] - 2024年底投入1,727座超充站,有9,100个充电桩[3] 技术与产品 - OTA 7.0车机系统1月推送,高速NOA升级架构[2] - 自研双系统打通城市与高速NOA边界[2] - 将推出智能推理可视化功能[2] 其他信息 - 现有车型包括理想MEGA等[4] - 董事会成员含李想、王兴等[7]