多模态大模型 - 财报，业绩电话会，研报，新闻 - Reportify

多模态大模型

搜索文档

VLA：何时大规模落地

中国汽车报网· 2025-08-13 01:33

VLA技术发展现状 - 理想i8成为首款搭载VLA司机大模型的车型，主打"像家人一样懂你"的辅助驾驶体验 [2] - 博世认为VLA短期难以落地，坚持投入一段式端到端技术，因多模态对齐和数据训练困难 [2] - 行业对VLA落地时间存在分歧，乐观预测2025年为元年，保守估计需3-5年技术成熟 [2][12][13] 技术路线对比 - 模块化端到端保留部分人工设计接口，存在感知与决策衔接难题 [2] - 一段式端到端采用全局优化模型，特斯拉FSD V12代码量从30万行缩减至2000行 [4] - VLA通过思维链实现可解释性决策，在潮汐车道等复杂场景表现优于传统端到端 [4][5] - VLA单日可完成30万公里仿真测试，显著降低实车数据依赖 [5] 技术演进路径 - 行业主流从端到端+VLM双系统转向VLA原生融合架构 [6] - 端到端+VLM需同步处理TB级视频流与百亿参数模型，车载算力紧张 [6] - VLA通过对比学习实现多模态特征对齐，仿真复现率达99.9% [7] - 理想汽车通过端到端+VLM升级至VLA架构，实现空间理解等四大能力 [5] 算力与芯片挑战 - 当前智驾芯片算力不足，英伟达Orin(254TOPS)不支持语言模型直接运行 [9] - 英伟达Thor芯片实际算力缩水，基础版仅300TOPS [9] - VLA低速自动驾驶需10赫兹运行频率，高速需20赫兹 [9] - 车企加速自研芯片：理想马赫100计划2026量产，特斯拉AI 5算力或达2500TOPS [11] 落地时间表 - 短期(2025-2026)：特定场景如高速路/封闭园区应用 [14] - 中期(2027-2029)：算力达2000TOPS时覆盖城市全场景，接管率或低于0.01次/公里 [14] - 长期(2030年后)：光计算架构+脑机接口实现类人直觉决策 [14] - 需突破多模态对齐、训练效率、芯片能效比等关键技术 [14]

端到端模型

多模态大模型

端到端模型

多模态大模型

2025年大模型研究热点是什么？

自动驾驶之心· 2025-08-12 23:33

大模型技术社区定位 - 平台专注于构建国内最大的大模型技术社区目标为行业输送人才和产业学术信息[1] - 社区核心定位为"认真做内容的社区"和"培养未来领袖的地方"[2] 技术研究方向 - 重点覆盖四大技术领域:大模型RAG 大模型AI Agent 多模态大模型(预训练/微调/强化学习)以及大模型部署推理优化[1] - 多模态大模型技术包含完整技术链条从预训练到强化学习[1] 社区发展策略 - 通过知识星球形式快速搭建技术模块吸引对大模型技术感兴趣的用户加入[1] - 社区筹备阶段积极扩大技术爱好者群体形成技术同行生态[1]

大模型AI Agent

多模态大模型

大模型部署推理优化

大模型之心Tech社区

大模型AI Agent

多模态大模型

大模型部署推理优化

大模型之心Tech社区

突破SAM局限！美团提出X-SAM：统一框架横扫20+分割基准

自动驾驶之心· 2025-08-12 23:33

X-SAM技术突破 - X-SAM由中山大学、鹏城实验室和美团团队联合开发，将分割能力从"分割任何事物"扩展到"任何分割"，支持文本指令、视觉提示及跨图像场景的精准分割[3][4] - 模型在20+数据集、7大核心任务上全面超越现有方案，包括通用分割、开放词汇分割、指代分割等，刷新像素级视觉理解基准[4][28] - 创新性提出视觉定位分割(VGD)任务，支持根据单点提示分割图像中所有同类实例，跨图像VGD分割AP达47.9-49.7，远超PSALM模型的2.0-3.7[26][35] 核心技术架构 - 采用统一输入格式设计，通过<p>和<region>标签标准化文本/视觉查询输入，实现多任务融合处理[13][15] - 双编码器架构包含SigLIP图像编码器和SAM-L分割编码器，分别提取全局场景特征与像素级细节特征[19] - 分割连接器生成1/8至1/32多尺度特征，结合Mask2Former解码器实现多对象同步分割，LLM采用Phi-3-mini-4k-instruct处理语言交互[19][20] 训练策略创新 - 三阶段训练流程：分割器微调(COCO数据集)→对齐预训练(LLaVA-558K)→混合微调(多任务数据集)[23][27] - 动态平衡数据集采样策略，解决样本量差异(0.2K-665K)带来的训练偏差，最优参数t=0.1[24] - 混合微调使开放词汇分割AP从16.4提升至22.4，推理分割gIoU从48.2升至57.1，验证多任务协同效应[37] 性能表现 - 指代分割任务在RefCOCO系列数据集cIoU达85.1/78.0/83.8，超越PSALM(83.6/72.9/73.8)和8B参数的Sa2VA[29][32] - 定位对话生成(GCG)任务mIoU 69.4，优于GLaMM(65.8)和OMG-LLaVA(65.5)，实现文本描述与分割掩码同步输出[33] - 通用分割任务PQ 54.7接近Mask2Former(57.8)，开放词汇分割AP 16.2远超ODISE(14.4)[31] 行业应用前景 - 技术突破使多模态大模型具备真正的像素级理解能力，可应用于智能医疗影像、自动驾驶场景解析等领域[4][8] - 统一框架解决工程落地需部署多个专用模型的问题，显著提升分割任务处理效率[6][36] - 未来计划扩展至视频分割领域，结合SAM2实现跨时空视觉定位，开拓动态场景理解新方向[43]

多模态大模型

多模态大模型

刘云：打掉AI养号“黑”产业链，需要进一步系统治理

环球网资讯· 2025-08-12 22:42

AI技术在自媒体行业的应用现状 - 短视频平台出现大量未标注AI生成提示的数字人主播进行聊天带货和高频互动这些内容容易诱导警惕性较低的用户下单[1] - AI技术显著降低创作门槛与成本成为提升自媒体运营效能的赋能工具例如义乌商贩利用AI工具变成外语口播达人拓展跨境社交电商律师通过专业知识库搭建法律智能体实现7×24小时用户交互[1] AI技术滥用的危害与欺诈模式 - 部分账号针对中老年女性群体展示算法合成的"完美熟龄女性形象" 配合"40+ 50+长这样"等话术和水军互动渲染年龄焦虑后推送三无保健品或编造虚假健康知识实施欺诈[2] - 视频中保养良好的皮肤和身材均与保健品无关完全依靠算法合成技术实现[2] AI起号养号产业链的法律风险 - 批量起号养号过程中普遍存在伪造身份信息和虚构互动数据行为违反《网络信息内容生态治理规定》和《互联网用户账号信息管理规定》中社交账号实名制要求[2] - 注册环节的身份欺诈与流转环节的主体错位不仅违反监管规定还埋下数据安全与权益侵害隐患[2] - 利用AI洗稿生成伪原创内容通过同义词替换句式重组及片段拼接等方式侵犯原作者的复制权与改编权[3] - 发布未经审核的医疗健康等敏感领域内容可能构成传播虚假信息违法行为引发公众误解或社会秩序混乱[3] - 私下转让互联网账号违反《反电信网络诈骗法》规定若转让账号后续违法犯罪原使用者可能需承担刑事责任[3] 规避监管的技术手段与治理措施 - 违规者通过改变视频文件代码结构裁除AI生图软件水印削弱技术痕迹等方式隐瞒AI生成属性以逃避平台识别[3] - 2024年4月启动的"清朗·整治AI技术滥用"专项行动已处置违规账号3700余个多家平台同步开展AI批量造假账号整治[4] - 平台应升级AI识别技术缩小检测盲区对批量起号商家实施流量封禁与商业变现限制建立违规账号黑名单制度[4] - 需要强化老年群体数字素养教育普及辨别AI生成内容技巧如关注表情僵硬度背景违和感等特征[4]

AI养号黑产业链

多模态大模型

智能体工具

AI养号黑产业链

多模态大模型

智能体工具

透过2025年 WRC，看见具身智能的真实进度

36氪· 2025-08-12 10:44

行业发展趋势 - 人形机器人展示重点从基础动作演示转向实际工作能力展示包括模拟真实业务流程多机协同和系统集成[2][5] - 机器人行业从技术演示转向产业化应用企业开始提供明确的产品定价交付周期和维护方案[2][5] - 2025年机器人技术在多模态大模型与具身智能结合下实现突破感知理解和执行稳定性显著提升[6][20] 技术演进 - 多模态大模型让机器人能够通过视觉和听觉理解人类意图接收模糊语义指令并自主完成任务[20] - 硬件成本大幅下降整机价格从百万元级降至几十万元部分轻量平台进入10万元以内[21] - 国产零部件轻量化模组和集成化设计成熟度提升大幅改善产品可制造性和交付能力[21] 应用场景拓展 - 制造业场景中机器人实现搬运拣选协同操作等流程任务优必选Walker S2在模拟产线完成上下料作业[9] - 服务机器人聚焦高频稳定场景银河太空舱项目实现零售终端商品分发与后端系统协同补货结算[14] - 医疗康复机器人呈现系统化趋势傅利叶康复工作站多机协同训练方案已在三甲医院投入使用[17] 商业化进展 - 机器人产品从样机走向SKU化具备批量部署可能许多产品标注连续运行时长和负载指标[6][9] - 传统工业机器人厂商向系统集成提供商转型提供MES/WMS对接方案和工具链开放[11][13] - RaaS（机器人即服务）模式将成为主流客户按需支付获得完整服务包[28][29] 产业链成熟度 - 政策与生态配套成熟多地推动机器人在本地先试先用明确任务指标和运营支持[24][26] - 工具链能力全面提升企业展示开发平台仿真训练系统和远程运维后台[18] - 系统集成仍面临挑战将机器人接入现有信息化系统需要高额定制化投入[31]

多模态大模型

机器人即服务（RaaS）

人形机器人

协作机械臂

多模态大模型

机器人即服务（RaaS）

人形机器人

协作机械臂

自动驾驶已至商业化前夕华为、腾讯等跨界“逐鹿”

新华网· 2025-08-12 05:48

自动驾驶商业化进展 - 北京亦庄成为国内首个"车内无人"自动驾驶试点区域百度和小马智行等企业正进行最终调试即将实现完全无人的Robotaxi商业化运营[1] - 小马智行在北京亦庄已进行7个月无人化测试单车单日订单量超20单且未发生任何安全事故[3] - 自动驾驶收费标准明确：高峰时段3元/公里非高峰时段2.6元/公里实际运营还提供折扣优惠[4] 技术安全与用户体验 - 小马智行安全系数达人类驾驶员10倍以上能有效应对突发路况包括动物穿行和异物障碍[3] - 百度自动驾驶坚持安全第一原则城区限速60公里/小时因交通事故中96%与超速相关[3] - 用户体验反馈积极：高频用户每周使用7-8次认为无人车比网约车更自在且优惠更多[2] 企业战略布局 - 华为智能汽车BU研发人员超7000人其中70%-80%专注自动驾驶研发智能部件发货量已突破200万辆[5][6] - 华为通过三种模式开展业务：零部件供应 HI模式和智选模式其中智选车新加入智能驾驶系统[6] - 腾讯专注提供自动驾驶基础设施包括云服务和高精地图已在上海设立行业首个智能汽车云专区[6][7] 政策与行业环境 - 2023年上半年各级部门出台近30项自动驾驶相关政策涵盖产业结构、技术创新和网联基础设施[8] - 工信部启动智能网联汽车准入试点支持L3级及以上自动驾驶功能商业化应用[8] - 北京发布全国首个数据分类分级细则上海推出无驾驶人创新应用规定深圳明确责任判定标准[8] 技术创新与发展趋势 - 华为云发布盘古大模型3.0 被多家算法公司应用于场景生成和多模态检索提升数据处理效率[6] - 腾讯基于全真互联技术在北京完成自动驾驶全闭环运行未来将在企鹅岛进行工程部署[7] - 商汤科技采用AIGC生成困难样本通过多模态大模型实现感知决策一体化推行"驾、舱、云"三位一体战略[7]

自动驾驶商业化

车路云一体化

多模态大模型

自动驾驶商业化

车路云一体化

多模态大模型

A轮融资10亿后，「联影智能」发力多模态医疗智能体｜项目报道

36氪· 2025-08-12 02:51

公司战略与融资进展 - 联影智能计划考虑独立上市[1] - 公司完成10亿元A轮融资投资方包括易方达、上国投资管、上海联和等[1] - 融资将用于多模态技术拓展及大模型智能体、医院数智化业务系统研发升级[1] 产品与技术布局 - 推出12个产品平台、超100款AI应用取得13张三类医疗器械证[1] - 15款AI应用通过美国FDA认证 31款获CE认证[1] - 产品覆盖全国4000余家医疗机构涉及院级管理、影像诊断、手术治疗、病历书写等场景[1] - 自研"元智"医疗大模型融合文本、影像、视觉、语音等多模态能力[2] - 开发放射智能体可单次CT扫描自动识别73种胸部异常[2] - 采用Transformer加CNN模型突破单病种限制实现疾病关联分析[2] - 其他智能体产品包括外科手术、介入医生、电子病历、客服及质控管理等[2] 商业化应用案例 - 武汉三甲医院引入AI后 DR全脊柱扫描检查量达5000余次（2024年2-12月）[3] - 浙江二甲乡镇医院引入冠脉AI后血管类检查量破千例[4][5] - 科研平台收入主要来自腰部以上医院临床产品覆盖三甲至县级医院[5] 行业发展趋势 - 各级医疗机构将"AI入院"纳入工作重点[1] - 医疗垂域大模型更适合处理院内复杂需求[1] - AI助力三甲医院开展特色检查项目（如脊柱侧弯筛查、心脏CMR）实现差异化竞争[3] - 基层医疗机构通过AI弥补软实力不足在不新增设备情况下开展新检查项目[4][5] - 公司与上海科技大学、复旦大学附属儿科医院等合作开展脑科学AI研究项目[5]

医疗智能体

多模态大模型

医疗人工智能

元智医疗大模型

放射智能体

医疗智能体

多模态大模型

医疗人工智能

元智医疗大模型

放射智能体

具身智能机器人产业持续推进，券商详解产业化落地的关键

环球网· 2025-08-12 01:37

杭州市具身智能机器人产业政策 - 杭州市就促进具身智能机器人产业发展条例征求意见重点促进在工业制造农业生产医疗健康教育培训特种作业公共安全等领域场景的应用推广 [1] - 政策将强化网络与算力基础设施建设打造多元化多层次智算服务体系 [1] - 技术研发聚焦大脑小脑本体三大核心模块及专用芯片等关键技术鼓励企业和科研机构共建共享研发资源 [1] - 加大对重点实验室和重大科技基础设施的投入为企业创新提供支撑 [1] 人形机器人产业化关键 - 人形机器人产业化落地需摆脱传统工业机器人控制刚泛化弱的局限补足对不确定性的理解与适应能力 [1] - 工业机器人基于确定性控制逻辑运行缺乏感知决策与反馈能力导致高度依赖集成成本高通用性差 [2] - 人形机器人以通用智能体为目标强调感知-推理-执行的完整链路需依托大模型支撑的多模态理解与泛化能力 [2] 多模态大模型技术发展 - 多模态大模型兴起为人形机器人提供初级大脑开启从0到1的智能进化通过数据飞轮实现模型能力与产品性能持续提升 [2] - 当前整体智能化处于L2初级阶段通往泛化智能面临建模方法数据规模与训练范式等多重挑战 [2] - 高智能大模型是贯通通用人形机器人路径的核心变量 [2] 具身大模型演进方向 - 具身大模型将在模态扩展推理机制与数据构成三方面持续演进 [2] - 当前主流模型聚焦视觉语言与动作三模态下一阶段有望引入触觉温度等感知通道 [2] - Cosmos等架构通过状态预测赋予机器人想象力实现感知-建模-决策闭环构建更真实的世界模型 [2] - 仿真与真实数据融合训练成为主流方向高标准可扩展的训练场成为通用机器人训练体系关键支撑 [2]

多模态大模型

具身智能机器人

人形机器人

多模态大模型

具身智能机器人

人形机器人

WRC2025聚焦（1）：展出通用具身智能，GOVLA架构成亮点

海通国际证券· 2025-08-12 01:01

行业投资评级 - 报告未明确提及行业投资评级 [1][2][3][4][5] 核心观点 - 2025年世界机器人大会(WRC)在北京亦庄开幕汇聚200+企业 1500+展品 100+首发新品其中50+家人形机器人整机厂商 [1] - 开幕式由北京人形机器人创新中心"天工2 0"担任主持展示群体智能全域感知多模态大模型人机协作等最新成果 [1] - 中国机器人产业2024年营业收入近2400亿元连续12年稳居全球最大工业机器人应用市场 [4] - 2025年上半年工业机器人产量达37万套服务机器人产量达882 4万套同比分别增长35 6%和25 5% [4] 技术突破 - 优必选展示群体智能2 0 通过群脑网络实现多款机器人全流程协作工业版Walker S1搭载精确视觉识别与在线轨迹规划完成动态随机分拣 [2] - 宇树科技推出售价3 99万元的R1人形机器人集成语音与图像多模态大模型可完成高动态动作 [2] - 星动纪元L7展示360°旋转跳与物流多机协作 Q5实现高精度全身动作遥操作及柔性下蹲拾物 [2] - 智平方爱宝推出GOVLA架构(Global & Omni-body Vision-Language-Action Model) 具备全域感知全身协同长程柔性任务快速学习四大技术特征 [3][5] 商业化路径 - 通用人形机器人商业化分阶段推进：L0阶段面向开发者 L2阶段进入工业服务场景 L2+阶段扩展至开放公共服务 L4阶段面向家庭生活辅助 [3] - "从封闭到开放从低频到高频"的演进路径早期通过B端市场验证技术与ROI 为未来进入C端市场奠定基础 [3] 应用领域 - 工业机器人覆盖国民经济71个大类 241个中类应用于汽车制造 3C电子金属加工船舶制造等领域 [4] - 服务机器人深度融入医疗配送养老等日常生活 [4] - 特种机器人在深空深海探测应急救援等领域拓展人类活动边界 [4]

多模态大模型

全栈自研具身智能

多模态大模型

全栈自研具身智能

具身智能之心技术交流群成立了！

具身智能之心· 2025-08-11 06:01

具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]

Diffusion Policy

多模态大模型

Diffusion Policy

多模态大模型