Workflow
大模型
icon
搜索文档
通往AGI的快车道?大模型驱动的具身智能革命 | Jinqiu Select
锦秋集· 2025-09-01 15:29
具身智能与大模型融合综述 文章核心观点 - 具身智能被视为实现通用人工智能(AGI)的关键路径,通过"感知-决策-行动"闭环在真实世界中学习并执行复杂任务 [1] - 大模型(如LLM、LVM、LVLM、MLM、VLA)在多模态推理与生成能力上的突破,显著推动了具身智能的演进 [1][7][25] - 世界模型为智能体提供内部环境模拟能力,支持在虚拟空间中演练与优化策略 [1][2][116] - 分层决策与端到端决策成为自主决策的两大核心范式,分别适用于结构化环境与开放动态环境 [6][55][74] Embodied AI系统构成与运行流程 - 系统由物理实体(如人形机器人、智能车辆)和智能体(认知核心)构成,物理实体负责执行动作并接收反馈 [4] - 运行流程包括:从语言指令解读人类意图→主动探索环境→感知多模态元素→执行动作,模仿人类学习范式 [4] - 智能体通过模仿学习从人类演示或视频数据获取技能,通过强化学习整合外部反馈优化策略 [4] 具身智能核心:决策与学习 - 自主决策通过分层范式(分离感知、规划、执行模块)或端到端范式(统一框架集成功能)实现 [6] - 具身学习通过模仿学习(从演示获取技能)和强化学习(迭代优化提升技能)实现持续改进 [6] - 世界模型通过模拟真实世界推理空间,为智能体提供试验和经验积累机会 [6][116] 主流大型模型概览 - Large Language Model (LLM):包括BERT(2018年)、GPT系列(GPT-3参数量达1750亿)、PaLM等,突破zero-shot/few-shot学习能力 [9][10] - Large Vision Model (LVM):ViT将Transformer应用于计算机视觉,DINOv2通过自监督学习提升图像表示质量,SAM支持1100万图像预训练的分割任务 [11] - Large Vision Language Model (LVLM):CLIP通过图文对比学习对齐特征,BLIP-2引入QFormer实现跨模态融合,GPT-4V具备强大多模态推理能力 [12][13] - Multimodal Large Model (MLM):Gemini高效处理文本/图像/音频,DALL·E3通过增强文本编码器改善图像-提示对齐,Sora可生成60秒高质量视频 [14][15] - Vision-Language-Action Model (VLA):RT-2将动作空间离散化为256区间,开源模型(如Octo、TinyVLA)提升计算效率与泛化能力 [16][71] 大型模型通用能力增强技术 - In-Context Learning (ICL):通过精心设计提示实现zero-shot泛化,无需额外训练 [19] - X of Thoughts (XoT):CoT融入中间推理步骤,ToT探索多推理路径,GoT采用图结构实现非线性推理 [20] - Retrieval Augmented Generation (RAG):从外部知识库检索信息,确保响应准确性 [21] - Reinforcement Learning from Human Feedback (RLHF):整合人类偏好优化模型输出 [23] - Model Context Protocol (MCP):提供标准化接口增强模型与外部系统互操作性 [24] 分层自主决策 - 高层规划分为三类:基于结构化语言(LLM生成PDDL或直接作为规划器)、基于自然语言(LLM分解计划)、基于编程语言(指令转可执行代码) [31][33][38] - 底层执行通过传统控制算法(PID、MPC)、LLM驱动学习控制(模仿学习+强化学习)、模块化控制(调用预训练模型如CLIP/SAM)实现 [42][43][45] - 反馈机制包括:大模型自我反思(Re-Prompting重新生成计划)、人类反馈(交互式纠正)、环境反馈(多模态输入转化为语言调整计划) [49][52][54] 端到端自主决策 - VLA模型集成感知、语言理解、规划、动作执行与反馈优化,包含token化与表示、多模态信息融合、动作去token化三个组件 [58][60][62] - RT-2利用ViT进行视觉处理,PaLM集成多模态信息,动作空间离散化为8维度(含256区间) [63] - VLA增强方向:感知能力增强(BYO-VLA滤除视觉噪声)、轨迹动作优化(Octo结合扩散模型)、训练成本降低(π0利用流匹配提升实时性能) [65][70][71] 分层与端到端决策对比 - 分层架构优势:高可解释性、易集成领域知识、模块化设计;劣势:模块协调可能导致次优解、适应性受限 [74] - 端到端架构优势:最小化误差累积、强泛化能力、高效复杂任务处理;劣势:黑箱性质、高计算成本、依赖训练数据 [75] Embodied Learning方法 - 模仿学习:通过最小化专家动作负对数似然学习策略,依赖高质量演示数据 [83][84] - 强化学习:最大化长期累积奖励,PPO/SAC等算法提升稳定性,但需海量探索 [87][89] - 迁移学习:通过KL散度约束迁移源任务策略至目标任务,加速学习但需避免负迁移 [90][91] - 元学习:MAML框架通过少量样本快速适应新任务,但需多样任务预训练数据 [93][94] 大模型赋能的模仿学习 - Diffusion models增强策略:Diffusion Policy通过U-Net生成动作序列,3D-Diffusion利用3D输入提升空间感知 [100][101] - Transformer架构策略:RT-1结合大规模数据集提升泛化,ALOHA实现低成本硬件精确操作,RoboCat实现跨任务快速泛化 [102][103] 大模型赋能的强化学习 - 奖励函数设计:Text2Reward生成可解释Python代码,Eureka利用GPT-4实现全自动优化 [109] - 策略网络构建:Diffusion-QL增强多模态动作分布,Decision Transformer将问题重构为序列建模,LLM(如GLAM)直接生成动作序列 [113][114][115] 世界模型设计与应用 - 设计类型:隐空间世界模型(RSSM)、基于Transformer(IRIS/Genie)、基于扩散(Sora/UniPi)、联合嵌入预测架构(JEPA) [119][122][125][128] - 决策应用:模拟验证(NeBula构建概率信念空间)、知识增强(WKM提供全局先验知识) [133][134] - 具身学习应用:基于模型的强化学习通过模拟状态转换和生成数据提升学习效率 [135]
LongCat实测:回答自带“美团基因”!美团开源大模型是防御性盾牌还是新增长引擎?
每日经济新闻· 2025-09-01 14:49
公司AI大模型产品发布 - 美团正式发布开源大模型产品LongCat-Flash-Chat(中文名:龙猫),同步上线Github、Hugging Face及官网 [2] - 该模型采用混合专家架构,总参数560B,激活参数18.6B至31.3B(平均27B),实现计算效率与性能双重优化 [5] - 在H800上达成100 token/s生成速度,输出成本低至5元/百万token,理论成本与速度大幅领先行业同等规模模型 [4] 产品功能特性 - 模型主打Agent和通用性性能,聚焦短模型设计,适用于MCP服务和客服场景 [4] - 生成内容会主动植入美团业务品牌(如"美团,让思念比月光先到"),并关联具体产品(如美团买菜、美食节活动) [5][9] - 当前仅支持联网搜索生成功能,"深度思考"功能暂未上线 [10] 公司AI战略布局 - AI战略分为三层:AI在工作中的应用、AI在产品中的应用、构建内部大语言模型,LongCat是Building LLM项目首度曝光 [11] - 每年AI投入超百亿元,主要因GPU成本高昂,但认为投入可使历史积累大数据发挥新价值 [12] - 通过投资收购光年之外、智谱、月之暗面等大模型企业抢占AI先机 [11] 行业竞争态势 - 互联网公司均已进入AI大模型赛道,美团入局主要为防止对手用AI颠覆行业而非追求增量 [4][14] - 本地生活领域因劳动力密集、高频互动特点,具备人工智能改造潜力 [14] - 阿里因算力芯片开发及通义千问全球影响力扩大,在资本市场获得更高业务想象力 [14]
4000个模型和500家独角兽,AI竞争新面孔背后
搜狐财经· 2025-09-01 13:49
具身智能与机器人发展 - 北京人形机器人创新中心的"天工"机器人从需遥控完成半程马拉松进展至全自主奔跑[4] - 具身智能需突破非线性瓶颈(如场景泛化)和线性瓶颈(如稳定性、负载能力)[5] - 该中心已开始出货"天工"机器人,今年可能销售几百台,并与李宁等企业探索运动学测试、导购等落地场景[6] 大模型与AI基础设施演进 - ChatGPT诞生33个月以来全球出现4000多个大模型和近500家AI独角兽,无模型能在榜单停留超五周[5] - AI基础设施转向追求效能而非单一规模,需更快模型迭代和更强计算平台[5] - 行业采用MoE稀疏模型架构(如百度百舸5.0),算力需求为稠密模型的5到10倍[12][13] - 强化学习采用"训推一体"范式,百舸框架提升训练效率并支持实时更新[15] 多模态与3D AI技术应用 - 创业公司VAST的AI 3D技术可将游戏模型制作时间从手工雕琢缩短至几十秒、成本降至0.0001元[7] - VAST服务全球超300万专业建模师、4万多家企业和700多家大客户[6] - 百度千帆4.0升级多模态RAG,九号电动车借此打造多语种智能客服[20] 智能体(Agent)落地与行业变革 - 工商银行上线1000多个智能体,改变交易形式与风险经营;保险集团采用数字员工后意向率提升近一倍[9] - 百度数字员工在100多个行业场景落地,包括吴彦祖教英语、罗永浩直播带货[9] - AI Coding工具代码生成占比从20%升至30%~40%,未来可能达80%~90%[11] - 智能体编排采用自主规划、工作流(占千帆平台80%以上)及多智能体协作三种方式[20] 算力与芯片发展 - 百度昆仑芯P800在3.2万卡集群训练效率超98%,百万tokens推理成本降至几元[15] - 百度智能云完成1.2万P算力建设并管理运营1500P算力,IDC智算服务市场国内排名第二[17] 行业模型与数据优化 - 行业模型实践从后训练转向场景标注+SFT/强化学习,再至基模蒸馏与多模型融合[18] - 智联招聘基于百亿参数模型以少量数据媲美千亿模型DeepSeek R1效果[19] - 百度千帆DataBuilder平台提升数据处理效率600%、降低计算成本30%及检索成本80%[21][23] 技术突破与开源进展 - 格灵深瞳计划9月底全量开源多模态模型Glint-VLM,公开训练数据与代码[11] - 百舸平台优化VLM训练框架后效率提升三倍,两天内完成一次训练[12]
美团首个大模型被爆成功跑通国产化训练路径,可在国产加速卡上进行
观察者网· 2025-09-01 13:29
模型发布与开源 - 美团于9月1日正式发布并开源LongCat-Flash-Chat模型 同步上线官网 在Github和Hugging Face平台开放访问 [1] - 模型采用创新性混合专家模型架构 总参数规模达560B 激活参数范围18.6B-31.3B 平均激活27B参数 [1][3] - 通过零计算专家机制实现算力按需分配 采用PID控制器实时微调专家偏置 将单token平均激活量稳定在27B [3] 技术架构创新 - 引入跨层通道设计 使MoE通信与计算并行化 显著提升训练和推理效率 [4] - 采用超参迁移和模型层叠加训练方式 结合多策略保障训练稳定性 实现30天内高效完成训练 [4] - 自建Agentic评测集指导数据策略 使用多智能体方法生成多样化高质量轨迹数据 [6] 性能表现 - 在H800上实现单用户100+tokens/s的推理速度 生成速度达100 token/s [4][6] - 输出成本低至5元/百万token 在保持极致生成速度的同时实现成本优势 [6] - 多项基准测试显示其性能比肩主流领先模型 在智能体任务中具备突出优势 [1] 战略背景 - 模型发布与公司AI战略三层框架直接相关 包括AI at work、AI in products和Building LLM [3] - 此次开源是Building LLM进展的首度曝光 此前已发布AI Coding Agent工具NoCode、AI经营决策助手袋鼠参谋等应用 [3]
博彦科技:部分产品及解决方案已接入DeepSeek大模型
证券日报网· 2025-09-01 11:43
公司业务动态 - 公司部分产品及解决方案已接入DeepSeek大模型 [1] - 目前与深度求索公司暂无其他业务合作 [1]
苏宁易购寒武纪实现大模型适配,助推零售行业智能化升级
环球网· 2025-09-01 08:56
公司技术升级 - 苏宁易购旗下灵思大模型基于寒武纪算力平台完成关键技术升级 实现算力国产化替代 深度协同技术突破与场景落地 [1] - 自2025年初起持续深化寒武纪算力平台应用 在算力调度优化 算法模型适配与业务场景落地等关键环节取得技术突破 [1] - 建成覆盖3B至700B参数规模的全尺寸模型矩阵 深度融合文本 语音 图像与视频多模态能力 [2] 性能与成本优化 - 通过自研定向模型蒸馏与跨领域数据治理技术 实现推理效率平均提升30% 训练成本下降70% [2] - 在电商服务 智能客服等12类核心零售场景盲测中 综合性能超出行业对标模型20% [2] 平台生态建设 - 开放国内首个企业级多智能体平台LinxAgent 构建开发-训练-部署-迭代全流程工具链 [2] - 吸引超1000家合作伙伴加入平台生态 [2] 零售场景应用 - 物流供应链实现全链路AI覆盖 实时动态分析预测调度全国仓储 加速库存周转 [2] - 通过智能外呼 派工联动与智能售后审核提升送装时效与用户体验 [2] - 供应商可借助模型洞察区域消费趋势 实现精细化供应链管理 [2] - 门店运营基于多类数字化角色实现智能管理 提升全域营销效能与销售转化 [2] 未来战略规划 - 以灵思大模型为核心深化细分零售品类专属智能服务 拓展即时零售与银发经济新场景 [3] - 强化从感知 分析决策到执行与复盘的全链路自主化能力 实现从人机协作向AI自主决策跨越 [3] - 推动企业由运用AI工具向智能原生零售企业转型 [3]
美团首次开源大模型,Longcat对话助手网页版已上线
财经网· 2025-09-01 08:55
公司技术发布 - 美团正式发布并开源大模型LongCat-Flash-Chat 为该公司首次正式开源大模型 [1] - 模型采用混合专家架构(Mixture-of-Experts, MoE) 总参数量达560B(5600亿) 激活参数量范围为18.6B-31.3B(186亿-313亿) 平均激活参数量为27B(270亿) [1] - 该架构实现计算效率与性能的双重优化 [1] 产品应用进展 - 美团面向C端用户的Longcat AI对话应用已上线网页端 暂未推出移动端版本 [1] - 网页版当前支持联网搜索功能 深度思考功能显示"敬请期待" [1][3]
禾赛科技通过港交所聆讯 有望实现“美股+H股”双重上市
每日经济新闻· 2025-09-01 08:33
上市进展 - 公司通过港交所聆讯拟在港上市 计划发行不超过5123.62万股境外上市普通股 [1] - 公司已于2023年2月在纳斯达克上市 若成功登陆港股将形成美股+H股双重上市格局 [1] - 截至8月29日美股收盘价为25.77美元/股 总市值34.14亿美元 年内累计涨幅达86.47%但近期下跌3.95% [1] 财务表现 - 第二季度实现营收7.06亿元 同比增长54% [1] - 第二季度净利润4400万元 实现扭亏为盈 2024年同期亏损7200万元 [1] 业务数据 - 2025年上半年激光雷达总交付量达54.79万台 同比增长276.2% 超越2024年全年 [2] - 第二季度激光雷达总交付量达35.21万台 [2] - ADAS产品交付量30.36万台 同比增长275.8% [2] - 机器人激光雷达产品交付量4.85万台 同比大幅增长743.6% [2] 行业动态 - 2024年国内激光雷达装机量首次突破150万颗 同比激增179.7% [5] - 2025年上半年装机量达100.2万颗 同比增长71% 全年有望冲击250万颗 [5] - 激光雷达均价逐步下探至千元级别 公司ATX激光雷达较上一代价格降幅达50% 大规模出货后低至200美元/颗 [5] 技术路线 - 激光雷达在通用障碍物识别方面仍具不可替代性 尤其受限于当前技术及数据集成熟度 [5] - 长期来看随着大模型能力提升 原需激光雷达的任务有望逐步被视觉方案替代 [5] - VLA模型基于GPT的端到端模型 与传统CNN端到端模型存在本质差异 [6] - 特斯拉纯视觉方案已证明较高安全性 其最新芯片算力达2500TOPS为支持大模型架构设计 [5][6] 战略观点 - L2级辅助驾驶以驾驶员为责任主体 没有激光雷达也能实现但有它会表现更优 [6] - L3级自动驾驶必须具备更高阶感知和安全冗余 没有激光雷达的方案被认为不合格 [6]
中国企业调用大模型日均超10万亿Tokens 阿里通义份额第一
证券日报网· 2025-09-01 06:11
中国企业级大模型调用增长态势 - 2025年上半年日均调用量较2024年底增长363% [1] - 当前调用量超10万亿Tokens [1] 中国大模型市场竞争格局 - 阿里通义以17.7%的市占率位列市场第一 [1] 开源模型发展趋势 - 千问Qwen和DeepSeek等国产模型持续开源推动技术普及 [1] - 开源模型与国际顶级闭源模型性能差距几近抹平 [1] - 预计超过80%企业将采用开源大模型 [1] - 开源模型将驱动企业级市场新一轮增长 [1]
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
量子位· 2025-09-01 04:39
模型性能表现 - 在Agent工具调用和指令遵循方面超越DeepSeek-V3.1、Qwen3 MoE-2507及Claude4 Sonnet [3] - 编程能力与Claude4 Sonnet相当 在TerminalBench基准测试中表现突出 [5] - 数学推理能力全面正确 成功解答全国一卷数学题并完整展示推导过程 [21][22][23][25][32][34][35][36][38][42][44][45][48][50] - 综合能力测试表现优异 可生成生物学卡尔文循环的SVG矢量图形代码 [51][52] - 具备强抗干扰能力 在Misguided Attention基准测试中准确识别"薛定谔死猫"问题的逻辑陷阱 [56][58][60][61][62][63] 技术创新架构 - 采用560B参数的MoE架构 结合"零计算专家"与Shortcut-connected MoE双重设计 [12] - 动态激活18.6B–31.3B参数 总参数量和激活参数量均低于DeepSeek-V3.1(671B/A37B)和Kimi-K2(1T/A32B) [11][12] - 通过零计算专家实现恒等映射 完全避免GEMM运算 配合PID控制器调节路由概率 [13][15] - 采用超参数迁移+模型生长初始化策略 用14层模型堆叠成28层checkpoint加速收敛 [16] - 实现多步重叠调度器 使CPU调度与GPU计算交错 单张H800GPU生成速度超过100 tokens/s [16][19] 训练效率与成本 - 在30天内完成20T token预训练 训练可用率达98.48% [19] - 成本控制显著 每百万输出token成本约0.7美元 [19] - 使用两阶段融合20T token语料预训练 中期扩展上下文窗口至128k [16] 公司AI战略布局 - 2023年通过收购光年之外团队切入大模型领域 2024年王慧文回归领导GN06独立AI团队 [73][75][76] - 2024年研发投入达211亿元 规模居国内第四 过去5年累计投入超1000亿元 [81] - 形成三层AI战略架构:AI工具提升10万员工效率、AI改造现有产品、自研大模型 [87] - 推出多款AI应用包括Wow情感陪伴、妙刷图像生成、NoCode编程及CatPaw开发者工具 [74][77][83] - 早期投资宇树、星海图等具身智能公司 2019年启动无人车配送项目 [71][86]