视觉理解模型

搜索文档
阿里开源Qwen3-VL系列旗舰模型 包含两个版本
第一财经· 2025-09-25 06:08
据通义千问Qwen公众号消息,阿里推出全新升级的Qwen3-VL系列,这是迄今为止Qwen系列中最强大 的视觉理解模型。此次率先开源的是该系列的旗舰模型——Qwen3-VL-235B-A22B,同时包含Instruct与 Thinking两个版本。据介绍,Instruct版本在多项主流视觉感知评测中,性能达到甚至超过Gemini 2.5 Pro;而Thinking版本则在众多多模态推理的评测基准下取得了SOTA的表现。 (文章来源:第一财经) ...
DeepSeek更新;OpenAI与英伟达合作丨新鲜早科技
21世纪经济报道· 2025-09-23 01:58
巨头合作与投资 - OpenAI与英伟达签署合作伙伴关系意向书 英伟达计划向OpenAI投资至多1000亿美元支持数据中心建设 双方合作将部署至少10吉瓦英伟达系统 首批系统于2026年下半年部署[2] - 供应链消息称OpenAI硬件设备大概率采用歌尔声学MEMS硅麦器件 歌尔声学已与AirPods、Meta Ray-ban及小米眼镜等产品开展解决方案合作[4] 人工智能技术进展 - DeepSeek-V3.1更新至Terminus版本 优化语言一致性缓解中英文混杂问题 增强Code Agent与Search Agent表现[3] - 百度智能云千帆开源视觉理解模型Qianfan-VL 包含3B/8B/70B三个版本 基于自研昆仑芯P800完成全流程计算[6] - 美团开源推理模型LongCat-Flash-Thinking 训练速度提升200%以上 在DORA强化学习基础设施训练 AIME-25基准测试平均token消耗减少64.5%[8] - 文远知行与Grab合作在新加坡推出自动驾驶出行服务Ai.R项目 初期投入11辆自动驾驶车辆[9] 半导体与芯片技术 - 华为自研HBM内存公布 HiBL 1.0容量128GB带宽1.6TB/s HiZQ 2.0容量144GB带宽4TB/s 昇腾950PR采用HiBL 1.0提升推理性能 昇腾950DT采用HiZQ 2.0提升训练性能[12] - 联发科发布天玑9500芯片 采用台积电N3P制程 首发Arm C1系列CPU集群和G1-Ultra GPU 搭载双NPU和ISP影像处理器[15] - 芯动科技发布国产全功能GPU"风华3号" 实现RISC-V CPU与CUDA兼容GPU融合 支持PyTorch/CUDA等主流AI生态[16] - 鼎信通讯获平头哥E801/E802/E803技术授权 仅用于自主研发MCU芯片 应用于传统电表及安防领域[10] 资本市场动态 - 摩尔线程概念股爆发 和而泰持股1.03% 盈趣科技持股0.34% 宏力达与初灵信息通过产业基金间接参股[13] - 天普股份股价14交易日累计上涨279.73% 收购方中昊芯英无资产注入计划[14] - 佰维存储拟发行H股于香港联交所主板上市[17] - 道通科技以1.09亿元转让塞防科技46%股权 不再持有其股权[18] - 零重力飞机工业完成近亿元A++轮融资 由云时资本与祥源文旅参股基金联合注资 资金用于新能源航空器整机研制[19] 企业治理与产品发布 - 甲骨文任命云基础设施业务总裁Clay Magouyrk与工业业务总裁Mike Sicilia为联合首席执行官 原CEO Safra Catz转任董事会执行副总裁[5] - OPPO宣布Find X9系列于10月16日全球首发 搭载天玑9500平台 vivo X300系列于10月13日发布 搭载蔡司2亿APO超级长焦[20] 机器人技术展示 - 宇树科技人形机器人G1展示抗干扰能力 在多人攻击后能迅速起身 具备连续空翻能力[7] 行业观点与学术合作 - 脑虎科技创始人陶虎认为中国脑科学研究处于从"跟跑"向"并跑""领跑"关键阶段 公司向复旦大学捐赠支持脑科学研究院教育发展[11]
百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算
量子位· 2025-09-22 11:16
文章核心观点 百度智能云千帆推出全新视觉理解模型Qianfan-VL系列并全面开源 该系列包含3B、8B和70B三个版本 针对企业级多模态应用场景深度优化 在通用能力 垂直场景OCR和教育以及思考推理方面表现卓越 基于百度自研昆仑芯P800芯片实现高效计算 在多项基准测试中达到SOTA水平[1][2][3] 模型性能与效果 - 在通用能力基准测试中 模型性能随参数规模增大提升显著 3B 8B 70B版本在ScienceQA测试中精准度分别达95.19% 97.62% 98.76% 在RefCOCO物体识别测试中平均得分达85.94% 89.37% 91.01%[2][4] - 多尺寸模型满足不同场景需求 3B 8B 70B三种规格覆盖不同规模企业需求 8B和70B模型支持通过特殊token激活思维链能力 覆盖复杂图表理解 视觉推理和数学解题场景[3] - OCR与文档理解能力增强 具备全场景OCR识别能力 包括手写体 数学公式 自然场景文字和卡证票据信息结构化提取 在OCRBench测试中得分达831 854 873[3][5][6] 技术架构与计算能力 - 采用先进多模态架构设计 通过持续预训练和四阶段训练策略实现领域能力显著提升 构建面向多模态任务的大规模数据合成管线 涵盖文档识别 数学解题 图表理解等核心任务[9][12] - 基于百度自研昆仑芯P800芯片构建超大规模分布式计算系统 支持单任务5000卡规模并行计算 显著提升大模型任务处理性能与运行效率[1][12] 应用场景案例 - 数学推理场景中 8B和70B模型在MathVista-mini测试中得分达69.19%和78.6% 在MathVision测试中得分达32.82%和50.29% 展现卓越复杂图表理解和数学解题能力[7][8] - 文档理解场景中 模型可精准解析财务报表等复杂版面文档 实现自动版面元素分析和表格图表解析 支持文档智能问答与结构化解析[27][29][31] - 模型同样适用于图表分析 视频理解等场景 均呈现卓越效果[33] 开源与推广 - Qianfan-VL系列模型全面开源 提供3B 8B 70B三个版本 即日起至10月10日可在百度智能云千帆平台免费体验8B和70B模型[1][34] - 开源资源包括模型Blog GitHub主页 Hugging Face仓库和技术报告 全方位支持开发者使用和研究[34]
豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
量子位· 2025-05-26 08:18
国产AI突破视觉理解能力 - 国产AI豆包成功解决大模型识别时钟难题,能通过视频实时准确报时,从4点14分到4点15分[1][2][3] - 豆包新增视频通话功能,实现边看边聊的交互方式,并接入联网搜索提升回答准确性和时效性[4][5][6] - 视频通话功能可实时总结微博热搜等网络热点新闻,增强互动趣味性和可靠性[7][8] 视频通话功能实测表现 - 豆包能作为看剧搭子,实时识别《甄嬛传》剧情并分析角色动机,如判断祺贵人企图借皇后之手扳倒甄嬛[15][16][17] - 在生活场景中,豆包可识别食材并详细讲解烹饪步骤,解决做菜难题[20][21][22] - 教育场景表现突出,能准确识别物理题、论文和代码,提供详细解题过程和答案[23] 核心技术能力解析 - 豆包·视觉理解模型具备强大内容识别能力,可精准识别物体类别、空间关系及文化知识,如识别猫的影子或丁达尔效应[24][25][26][27][30] - 模型拥有复杂逻辑计算能力,在教育场景中能理解微积分题目并进行推理计算[33][34] - 视觉描述和创作能力支撑视频通话功能实现又快又准的交互体验[35][36] 行业影响与趋势 - AI与人类交互方式正向更趣味化、实用化方向发展,视频通话功能体现技术落地价值[37] - 视觉理解技术的突破为AI在娱乐、教育、生活服务等场景的应用开辟新路径[15][20][23]