Workflow
多模态
icon
搜索文档
WAIC|商汤首席科学家林达华:多模态是通向AGI的必经之路
中国经营报· 2025-07-29 14:57
人工智能发展趋势 - 人工智能的终极目标是构建能够与真实世界自主交互的真实智能 [1] - 大模型演进趋势是从语言模型向多模态能力发展 这是实现AGI的关键路径 [1] - 多模态模型已从简单嫁接发展到融合理解 并进一步延伸到思考层面 [1] 多模态模型技术进展 - 多模态模型在纯语言任务中表现优于纯语言模型 单独语言模型已无必要 [2] - 公司在"日日新"6.0前打通融合训练流程 发现预训练中段融合效率最高 [2] - "日日新"6.5实现融合思考能力 通过图文交错生成新图形启发思考 [2] - 公司是国内最早开展多模态融合且技术成熟的企业 起步早于同业 [2] AI技术变革机会 - 通用AI模型具有自主性强、通用性高的特点 能完成复杂工作 [3] - AI将重塑软件构建方式 使普通人无需专业语言就能开发软件 [3] - AI将改变办公模式 提升办公效率 变革生产力 [3] - 未来交互将无处不在 智能硬件能像伙伴一样贴心回应需求 [4] 具身智能布局 - 公司进军具身智能领域是为了实现数字与物理空间的连接 这是到达AGI的重要一步 [5] - 公司在计算机视觉和多模态模型领域的技术积累为具身智能提供了基础 [5] - 世界模型结合多模态基座积累与端到端闭环反馈 已成功应用于自动驾驶模块训练 [6] - 具身智能市场快速成长 公司希望凭借技术优势占据市场重要位置 [6] 研发与商业平衡 - 公司强调研发要与最终商业愿景对齐 通过商业落地校正科研方向 [6] - 基础模型投入需支撑业务 形成关键闭环逻辑 [6] - 具身智能和基础模型并非完全分割资源 额外投入相对可控 [6]
AI推理算力需求即将爆发,深圳云天励飞加注推理芯片
新浪财经· 2025-07-29 02:53
行业趋势 - AI推理芯片成为人工智能行业新方向 云天励飞宣布全面聚焦该领域 围绕边缘计算 云端大模型推理和具身智能三大场景 [1] - AI正从训练时代迈入推理时代 推理算力需求将迎来爆发式增长 2025年成为人工智能发展重要转折点 大模型技术达到新成熟高度 模型调用成本显著降低 [1] - 三大增量助力推理算力需求加速 包括互联网大厂加速AI与原有业务结合 Agent和深度思考推理结合 多模态加速渗透 [2] - AI将全面重塑各类电子产品 包括智能穿戴设备 家用电器和电动汽车 设备将具备主动工作能力 实现人性化交互和功能跃升 [2] 公司战略与产品 - 云天励飞开发四款AI推理芯片 包括DeepEdge10C DeepEdge10标准版 DeepEdge10Max和DeepEdge200 [3] - DeepEdge10系列芯片面向边缘人工智能 核心定位满足边缘端千亿参数大模型部署需求 支持Transformer BEV CV大模型和LLM大模型等主流模型 [3] - 芯片采用算力积木架构 通过D2D Chiplet技术和C2C Mesh技术 覆盖8T-256T算力需求 实现7B至671B参数量大模型推理 [4] - 架构实现算力纵向拓展 单个封装最多集成8个算力积木 形成128T推理算力的单芯片成果 [4] - 通过C2C Mesh技术实现算力扩展 将多个节点连接形成更大规模算力池 支撑MoE架构大模型推理 [5] 技术突破与适配 - DeepEdge10芯片平台成功适配DeepSeek R1系列模型 QwQ-32B模型及国产鸿蒙操作系统 [5] - DeepSeek R1采用GRPO强化学习策略 专门优化数学推理任务 减少计算资源消耗 实现更低成本 [1] - DeepSeek R1模型价格仅为OpenAI o1模型的几十分之一 具有极高性价比优势 [1] 财务表现 - 云天励飞2024年营收增长81% 今年一季度增速提升至160% [5] - 管理层预计下半年随着AI推理算法迭代 算力需求攀升和应用拓展 将继续保持高速增长态势 [5] 市场前景 - AI推理芯片市场仍处于蓝海阶段 市场规模较数千亿美元训练芯片市场仍较小 [3] - 预计未来三至五年内 AI推理芯片增长速度将大幅超越训练芯片 [3]
AI吸纳全球53%的风险投资!启明创投发布AI十大展望
第一财经· 2025-07-28 06:01
行业投资趋势 - 2025年上半年AI初创企业吸纳全球53%风险投资资金 成为最热门投资领域 [1] - AGI产业处于快速发展阶段 技术性能提升和成本下降推动大规模应用落地 [1] - 投资人持续加码AI基础模型公司 大模型领域保持高速增长 [1] 技术发展预测 - 200万Token上下文窗口将成为顶级AI模型标配 上下文工程成为核心驱动力 [4] - 通用视频模型有望1-2年内出现 推动视频内容生成与交互革新 [4] - AI芯片领域将出现更多国产GPU批量交付 3D DRAM堆叠等新技术崭露头角 [5] - Token消耗量将提高1-2个数量级 集群/终端/软硬协同优化成为降成本关键技术 [5] AI应用场景演进 - AI Agent将从"工具辅助"升级为"任务承接" 首批"AI员工"将参与企业核心流程 [4] - 多模态Agent在医疗/金融/法律行业突破 融合视觉/语音/传感器进行复杂任务执行 [4] - AI交互范式转移加速 语音等自然交互方式推动AI原生超级应用诞生 [5] - 垂直场景AI应用采用"Go Narrow and Deep"策略 与大厂形成差异化竞争 [6] - AI BPO模式转向"按结果付费" 在金融/客服/营销等标准化行业快速扩张 [6] 具身智能发展路径 - 具身智能机器人将优先在拣选/搬运/组装场景实现规模化部署 [6] - 规模化部署需达到上千台机器人 形成"模型-本体-场景数据"闭环飞轮 [7]
AI吸纳全球53%的风险投资!启明创投发布AI十大展望
第一财经· 2025-07-28 05:07
AI行业投资趋势 - 2025年上半年AI初创企业吸纳了全球53%的风险投资资金,占全球风险投资总额的一半以上 [1] - AGI产业处于快速发展阶段,技术性能提升和成本下降推动大规模应用落地 [1] - 投资人持续加码AI基础模型公司,表明大模型领域仍保持高速增长 [1] 技术发展展望 - 未来1-2年200万Token上下文窗口将成为顶级AI模型的标配,上下文工程成为核心驱动力 [3] - 通用视频模型有望在1-2年内出现,推动视频内容生成与交互革新 [3] - AI芯片领域将出现更多国产GPU批量交付,新一代AI云端芯片采用3D DRAM堆叠等技术 [4] - AI推理成本过去两年降低100倍以上,未来Token消耗量将提高1-2个数量级 [4] AI Agent发展 - AI Agent将从"工具辅助"升级为"任务承接",首批"AI员工"将参与企业核心流程 [4] - 多模态Agent将融合视觉、语音等输入,在医疗、金融等行业实现突破 [4] AI应用变革 - AI交互范式将加速转变,自然交互方式推动AI原生超级应用诞生 [5] - 垂直场景AI应用潜力巨大,初创公司采取"垂直深耕"策略与大厂差异化竞争 [6] - AI BPO模式将在金融、客服等行业实现商业化突破,采用"按结果付费"方式 [6] 具身智能发展 - 具身智能机器人将率先在拣选、搬运、组装场景实现规模化部署 [8] - 规模化部署需要上千台机器人落地,形成"模型-本体-场景数据"闭环 [8]
对话商汤联创林达华:多模态是AGI的必经之路,是不可缺少的部分
新浪科技· 2025-07-28 04:24
公司动态 - 商汤科技在2025世界人工智能大会期间发布"悟能"具身智能平台 该平台以具身世界模型为核心引擎 依托商汤大装置提供端侧和云侧算力支持 能为机器人 智能设备提供感知 视觉导航及多模态交互能力 [1] - 商汤科技联合创始人表示 多模态是AGI的必经之路 公司在计算机视觉领域积累多年 拥有多模态模型和AI技术 并与硬件公司有广泛合作 在智能驾驶过程中积累了模型应用和控制技术体系 [1] - 公司旗下拥有元萝卜机器人及绝影等机器人及智驾业务 同时通过国香资本重点投资具身智能赛道 被投企业包括银河通用 众擎机器人 钛虎机器人 鹿明机器人等 [1] 行业趋势 - 具身智能市场正在快速成长 商汤科技希望从商业角度捕捉这一机会 公司认为其多模态大脑与具身智能相结合 在世界模型上的积累将形成重要竞争优势 [1] - 具身智能领域近期融资活跃 商汤投资的银河通用获得宁德时代参投的11亿元新一轮融资 众擎机器人完成近10亿元融资 [1]
大模型六小龙底牌对决
第一财经· 2025-07-28 03:33
行业格局与竞争态势 - AI领域将存在多个玩家长期共存 不同公司价值观塑造模型差异化特点 开源模型影响力提升且逼近闭源模型性能 [1] - 2024年成为基座模型分水岭 市场玩家数量收缩至个位数 头部大厂与少数创业公司留存 幸存需具备AGI使命感/高人才密度/强融资能力 [2] - 国内大模型技术差异度不足 产品切换成本低导致竞争惨烈 兼容OpenAI API标准加剧同质化 [7] 企业动态与战略分化 - 智谱即将发布GLM-4.5多模态模型 同步推出C端陪伴型AI产品 软硬件均规划付费业务 推进A股+港股双上市 [4][8] - 月之暗面发布K2基座模型后 将推出同规模推理模型 技术重点转向智能体任务调度 港股上市面临仲裁风险 [5][8] - 阶跃星辰展示端到端语音大模型车载应用 成立"模芯生态创新联盟"联合国产芯片厂商 预估年营收10亿人民币 [5][8][15] - MiniMax侧重To C应用而非纯基础模型 同步筹备A+H股上市 百川智能转型医疗 零一万物聚焦B端产业落地 [8][11] 技术演进与AGI路径 - 大模型进入1.0模仿学习→2.0强化学习阶段 技术迭代导致部分公司掉队 [9] - AGI发展存在两大路径争议:单一超级智能系统 vs 多模型多代理架构 MainFunc指出专业模型+Agent组合是关键 [13] - 多模态成为AGI必由之路 智谱采用MoE结构 阶跃星辰发布Step-3多模态模型 强调基础研发与商业化分层融合 [15] 商业化与生态建设 - 创业公司差异化路径包括To C出海/To B服务/产业资源对接/多模态发展 头部企业启动上市筹备 [8] - 行业尚未建立稳固竞争壁垒 技术窗口期需转化为数据闭环护城河 阶跃星辰强调应用落地形成数据飞轮 [16] - 投资热点从基础模型转向具身智能 宇树机器人等硬件厂商关注度超越大模型展台 [5]
WAIC2025前沿聚焦(3):商汤日日新6.5重塑AI生产力
海通国际证券· 2025-07-27 23:33
行业投资评级 - 报告未明确提及对商汤科技或AI行业的投资评级 [1][2][3][4][5] 核心观点 - 商汤科技CEO徐立系统回顾AI技术发展的三大阶段:视觉AI爆发、自然语言处理、多模态和生成式AI时代 [1][2] - 当前AI发展核心命题是"智能从哪里来",从依赖人工标注数据转向多模态数据融合 [2][13] - 多模态思维链通过结合视觉感知与自然语言处理,显著提升AI推理能力和现实世界理解力 [2][13] 技术突破 - 日日新SenseNova 6.5模型实现"多模态长思维链"构造能力,80%通过自动化数据飞轮生成 [3][14] - 新模型预训练数据量增加20%,推理吞吐量提升35%,推理成本降至原先30%,综合性价比提升3倍以上 [3][14] - 模型能模拟人类复杂问题解决路径(如识别图中球员需多步骤分析),自动调用图像检测等外部工具 [3][14] 商业化创新 - 突破"工具陷阱":从生产力工具转向直接产出结果的生产力,用户为结果付费而非过程 [4][15] - "小浣熊"智能助手实现端到端复杂任务处理:解析混合Excel/PDF/视频截图,生成结构化PPT/文档 [4][15] - 行业专属版本覆盖金融、教育等领域,定位为可独立完成任务的"数字员工" [1][12] 战略布局 - 推出"悟能"具身智能平台,整合视觉感知、导航和智能交互能力赋能机器人产业 [5][16] - 平台特点:端侧芯片实时识别复杂场景,适配自动驾驶技术实现机器人精准导航 [5][16] - 推动机器人从"交互工具"升级为"交互伙伴",具备任务理解、内容生成和幽默互动能力 [5][16]
晚报 | 7月28日主题前瞻
选股宝· 2025-07-27 14:45
无人驾驶 - 上汽智己汽车和上汽友道智途获颁上海市新一批智能网联汽车示范运营牌照,上汽集团成为行业唯一一家获得乘用车和商用车领域"双牌照"的企业[1] - 新牌照落地将推动L4级自动驾驶技术大规模商业化应用,国内中高阶智驾渗透率2025年有望翻倍,带动350亿增量市场[1] - 智能化路侧基础设施主要包括路侧通信单元、路侧计算单元、路侧感知设备等,车路云一体化智能网联汽车产业聚焦四大领域[1] 多模态 - OpenAI计划8月推出GPT-5,包含O3推理能力并整合多模态技术,可能引入视频等新输入形式[2] - GPT-5将提升自然语言处理精度与效率,推动国内厂商如百度文心、阿里通义加速技术迭代[2] 农产品 - 十部门联合印发《促进农产品消费实施方案》,提出"百名主播+千个乡村+万种产品"公益助农促销等活动[3] - 预计2030年农产品消费市场规模突破8.5万亿元,深加工产品占比达38%,冷链物流损耗率降至8%以内[3] 锰 - 内蒙古、宁夏、山西锰系铁合金企业达成共识:高、中、低、微碳锰铁节能减排30%,硅锰合金节能减排40%[4] - 加纳锰矿5-7月发运分别减少47%、58%、43%,雨季影响将持续到11月,锰硅主力合约大涨[4] 光学器 - 加州大学伯克利分校团队开发光学张量处理器HITOP,运算速度达每秒数万亿次,吞吐量0.98TOPS[5] - HITOP单位操作能耗比传统电子计算降低超100倍,解决光学计算系统可扩展性问题[5] 宏观行业 - 财政部数据显示2025年上半年证券交易印花税785亿元,增长54.1%[8] - 中国农药工业协会开展"正风治卷"三年行动,抵制低价无序竞争[8] 主题复盘 - 国产芯片板块涉及海立股份、阿石创等公司,清华团队开发出理想EUV光刻胶材料[11] - 东数西算/算力板块包括直真科技、延华智能等公司,人工智能大模型涉及新华传媒、汉王科技[11][12] - 雅江电站概念股因雅鲁藏布江下游水电工程开工(总投资1.2万亿)受关注,涉及西藏天路、西宁特钢等[12]
中信智库报告:AI大模型呈现推理深化、智能体爆发格局
新华财经· 2025-07-27 14:18
AI大模型发展趋势 - AI大模型向更强、更高效、更可靠方向发展,呈现推理模型深化、智能体模型爆发的格局 [1] - 2025年是AI应用加速落地之年,本轮AI渗透较互联网时代大幅提速,B端落地进程或超预期 [1] - AI Agent将成为2025年AI发展的重要方向,具备数据优势、生态体系构建的企业更具发展潜力 [1] 多模态商业化进展 - 中国互联网企业在多媒体领域具有全球影响力,游戏、电影、短剧、短视频等领域是多模态落地的第一阶段 [1] - 随后在自动化装备、机器人、自动驾驶等产业也将快速渗透 [1] - 多模态商业化进展很快,B端应用落地进程或将远超预期 [1] 具身智能与人形机器人 - 具身智能大模型目前存在数据集不够、思考跟不上运动、缺乏生态等痛点,但未来将通过合成数据使用、模型迭代解决 [2] - 大模型快速迭代和供应链降本将加速人形机器人商业化落地 [2] - 人形机器人市场规模预计远超汽车、3C行业,带动丝杠、减速器、传感器、电机等相关产业链需求 [2] AI算力需求 - 推理需求将带动算力需求爆发,国内算力自主可控趋势凸显 [1] - AI算力消耗开始从训练走向推理,将带来显著的算力增量 [2]
具身智能迎来实力派!十年多模态打底,世界模型开路,商汤「悟能」来了
量子位· 2025-07-27 11:57
商汤科技具身智能平台发布 - 公司在WAIC 2025论坛正式发布「悟能」具身智能平台 标志着其入局具身智能领域[1][2] - 该平台是公司从感知视觉、多模态走向物理世界交互的必然结果 依托超过十年的行业落地经验积累[13] - 平台架构包含感知、决策与行动等多个层次 支持自动驾驶、机器人等具身场景的功能实现[27] 日日新V6.5多模态模型 - 新模型独创图文交错思维链 使图像以本体形式参与推理 跨模态精度显著提升[4][6] - 在MathVista等数据集上超越Gemini 2.5 Pro 如MathVista得分83.1 vs Gemini的80.9[8][9] - 相比6.0版本性能提升6.99% 推理成本降至30% 性价比提升5倍[10] 开悟世界模型技术特点 - 包含10万3D资产 支持多视角视频生成 最多11个摄像头角度并保持150秒时空一致性[16] - 支持参数化编辑 可一键变换天气、光照等环境要素[20] - 同时处理人、物、场信息 构建4D真实世界 融合第一与第三视角[21][23][25] 具身智能商业化路径 - 采取"软硬协同"路线 已与人形机器人、物流搬运等厂商达成合作预装模型[29] - 通过硬件销售积累视觉、语音和操作数据 形成正向数据飞轮[30] - 验证"通用大脑+场景闭环"双轮路径 多模态大模型与垂直应用相互促进[39] 行业痛点解决方案 - 通过虚拟环境合成99%数据 配合1%真机样本解决数据稀缺问题[32][33] - 同步生成并标定第一和第三视角数据 确保时空一致性 缩短仿真与现实落差[35] - 感知层多传感输入 决策层LLM+世界模型协同 行动层端到端控制形成闭环[34]