Workflow
商汤科技林达华:具身智能需数字空间与物理空间连接

多模态AI发展趋势 - 大型语言模型正从单一模态向多模态融合演进 这是通向通用人工智能的必经之路[1] - 原生多模态架构如Gemini模型实现图像视频信息在预训练过程中的深度融合 形成更深层次跨模态建模能力[4] - 多模态模型在纯语言任务上表现已超越单一语言模型 国内厂商预计2025年下半年全面普及多模态架构[1][5] 技术突破方向 - 需将多模态融合从理解层面延伸至思考层面 结合逻辑思维与形象思维实现真正智能[4] - 推理能力需从单领域(如奥赛、编程)泛化至广泛生产生活场景 达到人类自由推理水平[7] - 空间感知能力是当前多模态模型明显短板 国际顶尖模型无法解决儿童可轻易完成的积木拼接等空间问题[7] 具身智能发展现状 - 具身智能被视为通用人工智能终极形态 商汤科技在2025世界人工智能大会正式发布"悟能"具身智能平台[2] - 数据获取存在物理瓶颈 机器人真机操作数据量远低于互联网数字数据 需借助互联网视频等多模态数据构建基座模型[8] - 空间感知能力缺失可能成为具身智能落地的关键障碍[2][7] Agent技术应用 - Agent作为大模型能力落地的关键技术载体 2025年被视为"元年"并迎来爆发[6] - 通用Agent在复杂实际场景中仍存在较大差距 需结合具体场景和行业知识进行迭代开发[6] - 实际落地中可靠性和成功率至关重要 若无法有效解决问题则无法体现价值[6]