视觉理解模型 - 财报，业绩电话会，研报，新闻

视觉理解模型

搜索文档

第一财经· 2025-09-25 06:08

公司产品发布 - 公司推出全新升级的Qwen3-VL系列视觉理解模型，这是Qwen系列中最强大的版本[1] - 此次率先开源的旗舰模型为Qwen3-VL-235B-A22B，同时包含Instruct与Thinking两个版本[1] 产品性能表现 - Instruct版本在多项主流视觉感知评测中，性能达到甚至超过Gemini 2.5 Pro[1] - Thinking版本在众多多模态推理的评测基准下取得了SOTA（State-of-the-Art）的表现[1]

证券时报网· 2025-09-24 05:57

事件概述 - 公司在2025云栖大会上发布新一代视觉理解模型Qwen3-VL [1] - 该模型为开源模型 [1]

DeepSeek更新；OpenAI与英伟达合作丨新鲜早科技

21世纪经济报道· 2025-09-23 01:58

巨头合作与投资 - OpenAI与英伟达签署合作伙伴关系意向书英伟达计划向OpenAI投资至多1000亿美元支持数据中心建设双方合作将部署至少10吉瓦英伟达系统首批系统于2026年下半年部署[2] - 供应链消息称OpenAI硬件设备大概率采用歌尔声学MEMS硅麦器件歌尔声学已与AirPods、Meta Ray-ban及小米眼镜等产品开展解决方案合作[4] 人工智能技术进展 - DeepSeek-V3.1更新至Terminus版本优化语言一致性缓解中英文混杂问题增强Code Agent与Search Agent表现[3] - 百度智能云千帆开源视觉理解模型Qianfan-VL 包含3B/8B/70B三个版本基于自研昆仑芯P800完成全流程计算[6] - 美团开源推理模型LongCat-Flash-Thinking 训练速度提升200%以上在DORA强化学习基础设施训练 AIME-25基准测试平均token消耗减少64.5%[8] - 文远知行与Grab合作在新加坡推出自动驾驶出行服务Ai.R项目初期投入11辆自动驾驶车辆[9] 半导体与芯片技术 - 华为自研HBM内存公布 HiBL 1.0容量128GB带宽1.6TB/s HiZQ 2.0容量144GB带宽4TB/s 昇腾950PR采用HiBL 1.0提升推理性能昇腾950DT采用HiZQ 2.0提升训练性能[12] - 联发科发布天玑9500芯片采用台积电N3P制程首发Arm C1系列CPU集群和G1-Ultra GPU 搭载双NPU和ISP影像处理器[15] - 芯动科技发布国产全功能GPU"风华3号" 实现RISC-V CPU与CUDA兼容GPU融合支持PyTorch/CUDA等主流AI生态[16] - 鼎信通讯获平头哥E801/E802/E803技术授权仅用于自主研发MCU芯片应用于传统电表及安防领域[10] 资本市场动态 - 摩尔线程概念股爆发和而泰持股1.03% 盈趣科技持股0.34% 宏力达与初灵信息通过产业基金间接参股[13] - 天普股份股价14交易日累计上涨279.73% 收购方中昊芯英无资产注入计划[14] - 佰维存储拟发行H股于香港联交所主板上市[17] - 道通科技以1.09亿元转让塞防科技46%股权不再持有其股权[18] - 零重力飞机工业完成近亿元A++轮融资由云时资本与祥源文旅参股基金联合注资资金用于新能源航空器整机研制[19] 企业治理与产品发布 - 甲骨文任命云基础设施业务总裁Clay Magouyrk与工业业务总裁Mike Sicilia为联合首席执行官原CEO Safra Catz转任董事会执行副总裁[5] - OPPO宣布Find X9系列于10月16日全球首发搭载天玑9500平台 vivo X300系列于10月13日发布搭载蔡司2亿APO超级长焦[20] 机器人技术展示 - 宇树科技人形机器人G1展示抗干扰能力在多人攻击后能迅速起身具备连续空翻能力[7] 行业观点与学术合作 - 脑虎科技创始人陶虎认为中国脑科学研究处于从"跟跑"向"并跑""领跑"关键阶段公司向复旦大学捐赠支持脑科学研究院教育发展[11]

百度开源视觉理解模型Qianfan-VL！全尺寸领域增强+全自研芯片计算

量子位· 2025-09-22 11:16

文章核心观点百度智能云千帆推出全新视觉理解模型Qianfan-VL系列并全面开源该系列包含3B、8B和70B三个版本针对企业级多模态应用场景深度优化在通用能力垂直场景OCR和教育以及思考推理方面表现卓越基于百度自研昆仑芯P800芯片实现高效计算在多项基准测试中达到SOTA水平[1][2][3] 模型性能与效果 - 在通用能力基准测试中模型性能随参数规模增大提升显著 3B 8B 70B版本在ScienceQA测试中精准度分别达95.19% 97.62% 98.76% 在RefCOCO物体识别测试中平均得分达85.94% 89.37% 91.01%[2][4] - 多尺寸模型满足不同场景需求 3B 8B 70B三种规格覆盖不同规模企业需求 8B和70B模型支持通过特殊token激活思维链能力覆盖复杂图表理解视觉推理和数学解题场景[3] - OCR与文档理解能力增强具备全场景OCR识别能力包括手写体数学公式自然场景文字和卡证票据信息结构化提取在OCRBench测试中得分达831 854 873[3][5][6] 技术架构与计算能力 - 采用先进多模态架构设计通过持续预训练和四阶段训练策略实现领域能力显著提升构建面向多模态任务的大规模数据合成管线涵盖文档识别数学解题图表理解等核心任务[9][12] - 基于百度自研昆仑芯P800芯片构建超大规模分布式计算系统支持单任务5000卡规模并行计算显著提升大模型任务处理性能与运行效率[1][12] 应用场景案例 - 数学推理场景中 8B和70B模型在MathVista-mini测试中得分达69.19%和78.6% 在MathVision测试中得分达32.82%和50.29% 展现卓越复杂图表理解和数学解题能力[7][8] - 文档理解场景中模型可精准解析财务报表等复杂版面文档实现自动版面元素分析和表格图表解析支持文档智能问答与结构化解析[27][29][31] - 模型同样适用于图表分析视频理解等场景均呈现卓越效果[33] 开源与推广 - Qianfan-VL系列模型全面开源提供3B 8B 70B三个版本即日起至10月10日可在百度智能云千帆平台免费体验8B和70B模型[1][34] - 开源资源包括模型Blog GitHub主页 Hugging Face仓库和技术报告全方位支持开发者使用和研究[34]

视觉理解模型

多模态应用

Software and Internet

Software and Internet

Qianfan-VL

昆仑芯P800

豆包可以跟你打视频了，陪我看《甄嬛传》还挺懂！难倒一众AI的“看时钟”也没难倒它

量子位· 2025-05-26 08:18

国产AI突破视觉理解能力 - 国产AI豆包成功解决大模型识别时钟难题，能通过视频实时准确报时，从4点14分到4点15分[1][2][3] - 豆包新增视频通话功能，实现边看边聊的交互方式，并接入联网搜索提升回答准确性和时效性[4][5][6] - 视频通话功能可实时总结微博热搜等网络热点新闻，增强互动趣味性和可靠性[7][8] 视频通话功能实测表现 - 豆包能作为看剧搭子，实时识别《甄嬛传》剧情并分析角色动机，如判断祺贵人企图借皇后之手扳倒甄嬛[15][16][17] - 在生活场景中，豆包可识别食材并详细讲解烹饪步骤，解决做菜难题[20][21][22] - 教育场景表现突出，能准确识别物理题、论文和代码，提供详细解题过程和答案[23] 核心技术能力解析 - 豆包·视觉理解模型具备强大内容识别能力，可精准识别物体类别、空间关系及文化知识，如识别猫的影子或丁达尔效应[24][25][26][27][30] - 模型拥有复杂逻辑计算能力，在教育场景中能理解微积分题目并进行推理计算[33][34] - 视觉描述和创作能力支撑视频通话功能实现又快又准的交互体验[35][36] 行业影响与趋势 - AI与人类交互方式正向更趣味化、实用化方向发展，视频通话功能体现技术落地价值[37] - 视觉理解技术的突破为AI在娱乐、教育、生活服务等场景的应用开辟新路径[15][20][23]