多模态大模型

搜索文档
格灵深瞳2025年半年度报告:明确“2+2”战略方向 第二季度营收同比增长近70%
证券日报之声· 2025-08-23 03:38
财务表现 - 2025年第二季度单季营收同比增长近70% [1] - 2025年上半年来自中国农业银行以外的其他客户营收占比超90%且收入金额同比增长超40% [3] 战略发展 - 公司围绕多模态大模型持续投入研发并推进"2+2"战略 聚焦智慧金融 城市管理两大战略赛道及政务与特种 智慧教育两大创新领域 [1] - 公司聚焦行业赛道重建销售团队以提升商业落地能力并优化客户结构 [1] 智慧金融业务 - 金融全系列产品集中发布与升级 稳步推进AI技术在银行核心场景的规模化落地 [2] - 推出深瞳金砖银行智算解决方案及Super-Agent金融超级助手 聚焦银行业务场景的智能识别与管理 [2] - 新一代Agent平台已在多家银行试点 应用场景从安保扩展至安防 运营 风控 营销多个领域 [2] 城市管理业务 - 与重点客户战略合作加深 在视图解析 视觉模型 多模态大模型 超融合一体机等方面持续推进合作 [2] - 2025年上半年城市管理业务在西北 华中 华东等多个区域开始布局并逐步突破 [2] 创新领域进展 - 政务及特种领域通过协同子公司国科亿道整合AI算法与终端硬件 打造软硬一体智能化产品加速开拓市场 [3] - 智慧教育产品家族实现软硬件升级 推出绝影大屏一体机 赤兔小屏一体机等硬件产品适配校园体育细分场景 [3]
格灵深瞳: 格灵深瞳2025年半年度报告
证券之星· 2025-08-22 16:29
核心观点 - 公司2025年上半年营业收入同比下降17.22%至4247.28万元,主要受智慧金融领域客户预算收紧影响,但其他领域收入同比增长超40% [3] - 归属于上市公司股东的净利润为-7985.37万元,同比亏损略有扩大,主要因收入减少及管理费用增长 [3] - 研发投入占营业收入比例达160.21%,虽同比下降22.54个百分点,但仍保持高强度投入,重点聚焦多模态大模型技术研发 [3][41] 财务表现 - 营业收入4247.28万元,同比减少17.22% [3] - 归属于上市公司股东的净利润-7985.37万元,同比亏损扩大2.48% [3] - 经营活动现金流量净额-1.03亿元,同比流出增加17.95% [3] - 总资产21.26亿元,较上年度末减少8.26% [3] 技术研发进展 - 发布视觉大模型系列Glint-MVT v1.5,在10亿级图像数据预训练,学术评测超过CLIP和SigLIP2 [14] - 多模态嵌入模型Glint-ME在学术评测榜单MMEB获得第一名 [21] - 新增专利14项(含发明专利2项)、软件著作权8项,累计拥有专利116项、软件著作权192项 [40][41] - 研发投入6804.49万元,其中费用化研发投入占比100% [41] 产品与业务发展 - 智慧金融领域覆盖农业银行上万家网点,新推出金融Super-Agent平台,在多家银行实施智能体应用 [6][23] - 城市管理领域推出基于视觉语言大模型的新一代智能视图大数据系统,车路协同感知MEC产品已交付 [7][24] - 政务及特种领域发布基于国产信创平台的"政企数字员工大模型一体机"与"墨刃Z1 AIPC"产品 [16] - 智慧教育领域产品覆盖学校规模同比提升,深瞳阿瞳目产品应用于多省市体育考试场景 [24] 行业与战略定位 - 公司属于"新一代信息技术产业"中的"人工智能"行业,受益于国家"人工智能+"行动政策支持 [4][5] - 实施"2+2"战略,聚焦智慧金融、城市管理两大战略赛道及政务与特种、智慧教育两大创新领域 [13] - 非农行客户营收占比超90%,收入金额同比增长超40%,业务多元化成效显著 [16] 组织与人才发展 - 2025年上半年新引入专业销售近30人,重建行业专业化销售团队 [18] - 实施"2025年限制性股票与股票增值权激励计划",覆盖高管、中层及核心技术骨干 [18] - 研发人员占比61.68%,核心团队含5名博士,技术带头人曾获军队科技进步二等奖 [26]
格灵深瞳: 格灵深瞳2025年度“提质增效重回报”行动方案的半年度评估报告
证券之星· 2025-08-22 16:28
核心观点 - 公司发布2025年度"提质增效重回报"行动方案执行总结 聚焦主营业务优化、研发投入、治理完善及股东回报 通过多元化业务布局和技术创新推动高质量发展 [1][7] 业务战略与执行 - 坚定推进"2+2"战略 覆盖智慧金融、城市管理两大战略赛道及政务与特种、智慧教育两大创新领域 [2] - 2025年上半年非农行客户营收占比超90% 收入金额同比增长超40% 客户集中度显著改善 [4] - 智慧金融领域需求受宏观经济影响放缓 但城市管理、政务与特种、智慧教育领域综合收入实现增长 [2] - 推出金融智慧管理赋能助手"金砖 Super-Agent 平台" 支持智能体构建及多场景金融智能化升级 [3] - 城市管理领域推出大小屏系列硬件与智慧体育解决方案 覆盖校园体育全场景 [3] - 政务及特种领域发布国产信创平台"政企数字员工大模型一体机"与"墨刃 Z1 AIPC" 实现硬件到应用自主可控 [3] 研发与技术投入 - 2025年上半年研发投入6,804.49万元 占营业收入比例达160.21% [8] - 研发人员227人 占比60.53% 拥有有效专利116项、软件著作权192项及其他知识产权3项 [8] - 视觉大模型Glint-MVT系列于2025年5月发布 其中v1.5版本基于10亿图像数据及20亿局部区域预训练 学术评测超越CLIP和SigLIP2 [5] - 核心技术涵盖多模态大模型、3D视觉、跨镜追踪、机器人感知等方向 [7] 资金与项目管理 - 多模态大模型技术与应用研发项目计划3年投入36,831.73万元募集资金 2025年上半年按计划推进 [5] - 使用暂时闲置募集资金进行现金管理以提高资金收益 [5] - 2024年启动股份回购计划 截至报告期回购3,348,326股(占总股本1.29%) 支付总额4,398.23万元 [10] 组织与运营优化 - 销售团队重建后引入近30名专业销售人员 按行业特性组建专业化团队 [6] - 2025年上半年通过人员优化实现人工成本同比下降 办公场所调整预计全年降低房屋租金及物业费用 [5] - 实施"2025年限制性股票与股票增值权激励计划" 覆盖高管、中层及核心技术人员 [6] 公司治理与投资者关系 - 持续完善公司治理机制 跟进法律法规动态 保障独立董事知情权与履职条件 [8][9] - 通过业绩说明会、投资者调研及上证e互动平台等多渠道与投资者交流 [11][12] - 2025年2月组织投资者调研活动并发布关系活动记录表 [12]
7000+人围观!具身智能赛道迎来硬核玩家,史河机器人技术直播全景揭秘
机器人大讲堂· 2025-08-22 04:27
具身智能行业趋势 - 具身智能正成为推动机器人从可执行向高效卓越发展的关键力量[1] - 多模态大模型持续突破为机器人与执行的结合带来新历史机遇[19] - VLA类算法整合视觉、语言与动作指令,使机器人能更准确理解人类意图并执行复杂操作[19] 行业技术瓶颈 - 硬件平台适配性不足,通用机器人难以满足多模态数据采集精细化需求[1] - 算法复现成本高企,异构数据处理复杂度与模型训练周期形成双重压力[1] - 感知-决策-执行链路断裂,传感器、机械结构与算法难以协同[1] EA200硬件创新 - 基于移动底盘与双臂协同领域多年技术积淀开发[7] - 躯干系统采用俯仰结构结合升降系统,搭载高性能差速底盘,灵活适应多样化工作场景[7] - 头部配备高清相机与六麦克风阵列,结合激光雷达、IMU等传感器构建多维感知输入矩阵[9] - 6自由度手臂系统具备高负载能力,支持复杂双臂协同操作任务[9] - 整机移动能力依托结构紧凑的移动底盘,配合两轮差速驱动及多传感器融合技术[11] 软件与算力架构 - 集成ROS2导航系统并融合自研算法,支持从环境建图到自主导航的全流程应用[11] - 配套提供外置推理工控机及专业级/消费级训练服务器,兼顾实时运行与大规模训练算力需求[13] - 实现从多模态数据采集到嵌入式推理部署的全链路协同,单日可采集500+条双臂动作轨迹样本[13] 产品定位与价值 - 明确聚焦机器人科研与教学应用,面向高校、科研院所及企业研发部门[16] - 通过统一动作空间设计将末端执行器位姿、关节速度等参数标准化,破解异构数据联合训练难题[16] - 可模拟室内桌面、实验室等多种真实环境,结合数据增广功能为算法泛化验证提供支持[16] - 贯通从算法原型探索至最终工程落地的全流程,显著压缩算法设计-实验验证周期长度[13][18] 企业战略布局 - 从传统设备供应商向一体化解决方案提供者转型,构建完整技术体系[21] - 通过软硬件深度融合、算法与实体系统协同互促的建设思路切入具身智能领域[4][21] - 拥有实际产品载体EA200,表明进军具身智能领域的步伐正在加速[6]
贝莱德:AI正在“引爆”半导体、机器人等四个赛道
智通财经· 2025-08-21 13:07
AI行业结构性变革 - AI将在2025年下半年继续推动各行业结构性变革 加速半导体、机器人、网络安全及下一代数字平台需求增长 [1] - AI机会正从核心基础设施领域延伸至具备可扩展性的实际应用场景 [1] - 科技仍是创造长期价值最有力的引擎之一 [1] 人形机器人市场前景 - 人形机器人将成为实体AI领域最具变革性力量 重塑全球劳动力市场格局 [1] - 将为制造业、物流和服务业带来数万亿美元市场价值 [1] - 头部企业计划在今年实现月产千台目标 [1] 技术突破核心领域 - 认知智能领域依托多模态大模型处理复杂感官信息并决策 训练数据不足但正通过合成数据与实体演示填补 [1] - 机器人基础模型将借鉴大语言模型发展路径 实现快速扩展与进化成为可复用智能引擎 [1] - 灵巧操作领域手部操控是最大挑战 机械复杂度与训练数据短缺是主要瓶颈 [1] - 人类级灵巧操作有望在未来几年内通过硬件与仿真技术进步成为现实 [1] - 运动控制领域已基本解决行走平衡与自主导航难题 研发重点从具备能力转向提升稳健性与成本效益 [1] - 软硬件集成领域需构建紧密耦合的感知-驱动-控制系统 行业正从手工原型迈向规模化生产 [1]
海康威视一项大模型应用入选《2025年(第五批)智慧化工园区适用技术目录》 助力化工园区安全生产智能升级
证券日报网· 2025-08-20 07:13
公司动态 - 海康威视"基于观澜多模态大模型技术在化工园区安全生产监管的应用"入选《2025年(第五批)智慧化工园区适用技术目录》[1] - 公司打造了海康观澜安全生产大模型,并推出"AI隐患智查系统"与"AI风险预警平台"[1] - 解决方案已广泛应用于化工园区、化工企业特殊作业管理、重大危险源安全预警、安全巡检等关键业务场景[1] 技术应用 - 多模态大模型技术帮助化工园区安全监管人员快速识别现场安全隐患,提升隐患排查效率和准确性[1] - 技术为制定更科学的安全生产监管机制和预防措施提供辅助决策,实现化工园区安全生产的精细化管理[1] - 技术实现安全隐患"来源可查、去向可追、责任可究、规律可循"[1] 未来发展 - 公司将持续深化在化工安全生产数智化领域的技术创新与应用[2] - 推动大模型等前沿技术与安全生产场景的深度融合[2] - 致力于提升化工园区本质安全水平与管理效能,为化工行业的安全、绿色、高质量发展提供科技支撑[2]
阿里通义千问再放大招
21世纪经济报道· 2025-08-20 01:45
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit模型,基于20B参数的Qwen-Image,支持双语文本修改、风格迁移及物体旋转,拓展生成式AI在专业内容创作中的应用 [1] - 阿里半年内连续推出Qwen2 5-VL、Qwen2 5-Omni、Qwen-Image等多模态模型,行业多模态大模型在2025年迭代加速 [1] - 谷歌研究报告显示,预计2025年全球多模态AI市场规模将达24亿美元,2037年底将达989亿美元 [1] 国内厂商布局 - 阿里开源升级版视觉理解模型Qwen2 5-VL,72B版本在13项权威评测中视觉理解能力超越GPT-4o与Claude3 5 [3] - 阿里发布首个端到端全模态大模型Qwen2 5-Omni,支持文本、图像、音频、视频实时交互,可部署于手机等终端 [3] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其Step系列基座模型矩阵中多模态模型占比达70% [5] - 商汤发布日日新V6 5大模型,多模态推理与交互性能大幅提升,从6 0版本开始全部为多模态模型 [5] - 智谱推出开源视觉推理模型GLM-4 5V,涵盖图像、视频、文档理解等任务 [5] - 昆仑万维一周内发布六款多模态模型,覆盖数字人生成、世界模拟等核心场景 [5] 技术进展与挑战 - 多模态模型Qwen-Image-Edit基于20B参数模型训练,实现图片中文字精准编辑,兼具语义与外观双重编辑能力 [4] - 当前多模态领域仍处于发展初期,视觉数据表征空间达百万维度连续空间,远超文本数万维度的离散符号系统 [7] - 视觉数据缺乏天然语义信息,需建立跨模态映射关系,但缺乏标注数据支持 [8] - 当前多模态模型主要依赖语言推理,图形和空间结构推理能力薄弱,无法解决简单空间问题 [9] 行业趋势 - 业内普遍认为多模态融合是通向AGI的必经之路,2025年下半年或将迎来多模态模型全面普及 [1] - 中国企业在多模态领域集体崛起,改变由OpenAI、Google主导的AI创新叙事,在视觉推理、视频生成等细分领域领先 [7] - 2025年被视为AI应用商业化元年,多模态技术驱动数字人直播、医疗诊断、金融分析等场景落地 [7]
历史新高!小米汽车宣布重大消息
鑫椤锂电· 2025-08-20 01:29
核心财务表现 - 总营收1160亿元 连续三个季度超千亿 同比增长30.5% [1] - 经调整净利润108亿元 再破百亿 同比增长75.4% [1] - 《财富》世界500强排名提升100名至第297位 [4] 汽车业务进展 - 智能电动汽车及AI等创新业务收入213亿元 [1][5] - 当季新车交付81302台 季度交付量持续攀升 [5][6] - 累计交付超30万台 7月单月交付首破30万台 [5] - 小米YU7上市18小时锁单超24万台 [1][7] - 中国大陆92个城市开设335家汽车销售门店 [1][7] - SU7 Ultra量产车以7分4秒957刷新纽北最速量产电动车纪录 [2][19] - SU7 Ultra原型车以6分22秒091位列纽北圈速总榜全球第三 [2][19] 智能手机业务 - 智能手机出货量4240万台 连续8个季度同比增长 [2] - 中国大陆4000-5000元价位市占率24.7%排名第一 [2] - 中国大陆5000-6000元价位市占率15.4% 同比提升6.5个百分点 [2] - 全球60个国家和地区出货量排名前三 69个排名前五 [2][9] - 欧洲市占率23.4%排名第二 东南亚重返第一 中东拉美稳居第二 [2][9] IoT与生活消费产品 - IoT与生活消费产品收入333亿元 同比增长44.7%创历史新高 [10] - 科技家电收入同比增长66.2% [10][11] - 空调出货量超540万台同比增长超60% [12] - 冰箱出货量超79万台同比增长超25% [12] - 洗衣机出货量超60万台同比增长超45% [12] - AIoT平台已连接设备数同比增长20.3%创历史新高 [12] - 平板全球出货量同比增长11% 为前五品牌增速最快 [12] 互联网服务 - 互联网服务收入未披露具体数值 同比增长10.1% [16] - 全球月活跃用户超7.3亿 同比增长8.2% [16] - 中国大陆月活跃用户未披露具体数值 同比增长12.4% [16] - 境外互联网收入30亿元 同比增长12.6% [16] 研发创新投入 - 单季研发投入78亿元 同比增长41.2% [2][16] - 研发人员总数22641人创历史新高 [2][17] - 自研3nm旗舰SoC芯片玄戒O1成功发布 [2][19] - 多模态大模型Xiaomi MiMo-VL-7B开源 [2][19] - 12篇大模型论文入选ICCV 2025和ACL 2025顶级学术会议 [2][19] 可持续发展 - 上半年采购绿电约720万度 同比增长超270% [22] - 小米汽车工厂光伏发电量未披露具体数值 [22][23] - 减少碳排放量超4160吨 [24] - SU7系列获中国新能源汽车魅力指数及新车质量双第一 [24]
ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测
机器之心· 2025-08-20 00:15
研究背景与问题 - 当前HOI检测方法依赖视觉语言模型但受限于图像编码器难以捕捉细粒度区域级交互信息[2] - 传统方法基于固定类别训练数据无法应对现实中动态变化的交互组合[6] - 现有视觉语言模型基于图像级预训练难以捕捉人物与物体间细微的局部交互语义[6] 核心技术创新 - 提出交互感知提示与概念校准方法通过动态生成交互感知提示优化语言模型引导的概念校准[2] - 交互感知提示生成机制包含通用提示和交互特定提示采用低秩分解技术高效编码交互特征[15][19] - 概念校准机制结合GPT生成视觉描述和T5构建指导嵌入形成细粒度概念结构空间[14][16] - 引入困难负样本采样策略基于语义相似度采样帮助区分视觉相似但语义不同的动作[14][20] 性能表现 - 在SWIG-HOI全量测试集上取得16.74% mAP相较前一方法CMD-SE相对提升近10%[18][22] - 在HICO-DET数据集上Unseen类别达到17.38% mAP Seen类别达到24.74% mAP Full类别达到23.12% mAP[21] - 在细粒度交互如阅读浏览等场景展现出较强识别能力[18][23] 方法优势 - 能够聚焦关键交互区域如阅读时的眼部区域和冲浪时伸展的双臂[23] - 可检测与相对较小物体的交互如部分遮挡的书籍和相机[23] - 通过语义编码空间调整有效区分视觉相似概念如猛掷和抛投[7] 学术贡献 - 被ICCV 2025接收相关代码与模型已全部开源[4] - 打破预训练视觉语言模型在区域感知与概念理解上的瓶颈展现出语言模型知识引入计算机视觉任务的潜力[25]
阿里通义千问再放大招 多模态大模型迭代 加速改写AGI时间表
21世纪经济报道· 2025-08-20 00:08
阿里通义千问多模态模型更新 - 阿里推出Qwen-Image-Edit,基于20B参数的Qwen-Image,支持双语文本修改、风格迁移及物体旋转,拓展生成式AI在专业内容创作中的应用 [1] - 阿里半年内连续推出Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模态模型,Qwen2.5-VL 72B版本在13项权威评测中视觉理解能力超越GPT-4o与Claude3.5 [3] - Qwen-Image-Edit将输入图像同时输入到Qwen2.5-VL和VAE Encoder,兼具语义与外观双重编辑能力,在中文图像编辑领域树立新标杆 [3] 多模态AI行业发展趋势 - 大模型发展从单一语言模型迈向多模态融合新阶段,被认为是通向AGI的必经之路 [1] - 谷歌研究报告显示,预计2025年全球多模态AI市场规模将飙升至24亿美元,2037年底预计达989亿美元 [1] - 2025年被业内人士普遍视为"AI应用商业化元年",多模态技术是核心驱动力,已在数字人直播、医疗诊断、金融分析等场景应用 [6] 国内厂商多模态布局 - 阿里、智谱、阶跃星辰等大模型厂商密集布局多模态,从视觉理解到全模态交互,2025年迭代加速 [1] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,多模态模型占基座模型矩阵7成 [4] - 商汤发布日日新V6.5大模型,从6.0开始全部为多模态模型,多模态推理与交互性能大幅提升 [4] - 智谱推出开源视觉推理模型GLM-4.5V,昆仑万维一周内发布六款多模态模型,覆盖数字人生成、世界模拟等核心场景 [5] 多模态技术发展现状与挑战 - 多模态领域仍处于发展初期,基础性问题尚未解决,复杂性远超自然语言处理 [7] - 视觉数据表征空间达百万维度连续空间,与文本数万维度低维问题存在本质差异 [7] - 当前多模态模型主要依赖逻辑推理,缺乏空间感知能力,面对简单空间问题表现不佳 [9] - 技术瓶颈需要类似ChatGPT、强化学习范式的大技术变迁才能解决 [8]