多模态大模型
搜索文档
京东与港科大成立联合实验室,将聚焦智能供应链与具身智能技术
新浪财经· 2025-11-14 04:59
合作成立联合实验室 - 京东集团与香港科技大学于11月14日在香港正式宣布成立联合实验室 [1] - 联合实验室由港科大郑家纯机器人研究院、京东探索研究院及京东物流共同负责 [1] 研究重点与技术方向 - 实验室将聚焦于智能供应链与具身智能技术的研究攻关 [1] - 研究将重点围绕物流、健康、零售、工业等方向展开 [1] - 技术应用将结合多模态大模型及边缘计算优化算法 [1] 具体应用场景 - 医疗健康领域的研究方向包括肿瘤预测与辅助诊疗 [1] - 零售领域的研究方向包括智能电商场景构建 [1] - 目标是形成可复制的行业智能化解决方案 [1]
京东与港科大成立联合实验室
新浪财经· 2025-11-14 04:48
合作主体与目标 - 京东集团与香港科技大学于11月14日在香港正式成立联合实验室 [1] - 联合实验室由港科大郑家纯机器人研究院、京东探索研究院及京东物流共同负责 [1] 研究领域与方向 - 联合实验室将聚焦智能供应链与具身智能技术的研究攻关 [1] - 研究将重点围绕物流、健康、零售、工业等方向展开 [1] 具体应用与创新 - 实验室将开展跨行业融合创新,重点方向包括医疗健康领域的肿瘤预测与辅助诊疗 [1] - 另一重点方向为零售领域的智能电商场景构建 [1] - 研究将结合多模态大模型、边缘计算优化算法等技术,旨在形成可复制的行业智能化解决方案 [1]
开源又赢闭源,商汤8B模型空间智能碾压GPT-5,AI看懂世界又进了一步
36氪· 2025-11-11 08:45
产品发布与性能表现 - 商汤正式发布并开源SenseNova-SI系列空间智能大模型,涵盖2B与8B两个参数版本 [1] - SenseNova-SI-8B模型在四大核心基准测试(VSI-Bench、MMSI-Bench、MindCube-Tiny、ViewSpatial)中获得60.99的平均成绩,大幅领先同级别开源及专注空间理解的模型,如Qwen3-VL-8B(40.16)和SpatialMLLM(35.05)[1] - 在8B参数规模下,该模型平均成绩已领先闭源模型GPT-5(49.68)与Gemini-2.5-Pro(48.81)[2] 技术突破与训练方法 - 性能提升得益于系统性的训练机制设计,公司研究团队构建了“空间能力分类体系”并扩充空间理解数据规模 [2] - 首次在空间智能领域验证了“尺度效应”,即随着数据量与质量的增长,模型的空间认知能力同步增强 [5] - 该训练方法具备通用性,能支持多种基座模型进行空间能力的增强迁移 [5] 具体能力对比与优势 - 在六道典型空间智能题目测试中,SenseNova-SI-8B全部答对,而GPT-5在俯视图判断、相对方位判断等题目上均出现误判 [6][8][10][12][15][16] - 测试题目覆盖空间智能多个关键维度,包括视角转换、物体方位与移动方向推理等,显示该模型在空间理解与推理上表现更稳定 [18] 战略整合与行业应用 - SenseNova-SI作为空间能力组件,将接入公司今年7月发布的“悟能”具身智能平台,补强模型在三维结构认知方面的基础能力 [19] - 公司同步开源了空间智能测评平台EASI,旨在统一测评口径、展示模型进展和推动开源生态合作 [19] - 空间智能是支撑具身智能与世界模型发展的核心能力,将为自动驾驶、机器人等落地应用提供更坚实的基础 [24]
十五运开幕式上人形机器人如何协作奏乐?揭秘→
人民日报· 2025-11-11 02:13
技术突破 - 人形机器人实现群体智能、多模态大模型及“类人眼”双目立体视觉感知等关键技术突破 [1] - 机器人演奏达到毫米级敲击定位精度,误差控制在2毫米以内 [1] - 三个机器人动作同步误差在10毫秒以内,并能以媲美人类乐师的稳定力度进行精准自主敲击 [1] 应用展示 - 三个代表粤港澳三地的人形机器人在第十五届全国运动会开幕式上协作演奏“青铜句鑃” [1] - 演奏乐器为出土于广州的“青铜句鑃”,最大者高64厘米重40公斤,最小者高36.8厘米重10.75公斤 [1] - 此次演示体现了人形机器人处理复杂、高精度协作任务的能力 [1]
人形机器人如何协作奏乐?(秒懂全运)
人民日报· 2025-11-10 22:15
人形机器人技术展示 - 在第十五届全国运动会开幕式上,3个人形机器人成功协作演奏古代乐器“青铜句鑃”[1] - 机器人演奏实现了毫米级的敲击定位精度,误差在2毫米内,动作同步误差在10毫秒以内[1] - 机器人能以媲美人类乐师的稳定力度进行精准自主敲击[1] 技术突破细节 - 工程师团队在群体智能、多模态大模型、“类人眼”双目立体视觉感知等人形机器人技术上取得突破[1] - 这些技术突破使得机器人能够完成对敲击位置与力度要求极高的复杂演奏任务[1] 任务挑战与设备参数 - 演奏“青铜句鑃”需精准控制敲击位置与力度,对人类乐师都颇具挑战[1] - 使用的“青铜句鑃”乐器大小不一,最大的高64厘米、重40公斤,最小的高36.8厘米、重10.75公斤[1]
139笔过亿融资,超600亿真金白银,砸向这些AI公司
36氪· 2025-11-10 06:59
整体融资概况 - 2025年1月至10月,中国AI领域共发生139笔超亿元融资,总额突破600亿元人民币 [1] - 融资流向呈现显著变化,具身智能领域融资额超越大模型 [1][6] 大模型融资 - 大模型领域头部效应明显,共完成29笔超1亿元融资,累计融资142亿元,单笔均值近5亿元 [3] - 通用大模型领域,月之暗面、智谱和MiniMax三家公司融资额均超过20亿元人民币 [3] - 多模态大模型成为投资重点,视频模型领域的生数科技、爱诗科技和SandAI,以及3D模型领域的影眸科技和VAST均获得超亿元融资 [4] - 多模态模型商业路径清晰,爱诗科技全球用户破1亿,年度收入超4000万美元;生数科技上线8个月年化收入突破2000万美元 [5] 具身智能融资 - 具身智能成为融资最热门板块,73家企业获得超过257亿元融资,笔数和总额均超过大模型 [6] - 头部公司产业化进程加速,智元机器人2025年前三季度中标金额最高,获至少1.7亿元订单涉及400台以上人形机器人 [7] - 量产能力成为核心标尺,自变量机器人预计在12月进入小规模量产,乐聚机器人已完成近15亿元Pre-IPO轮融资并启动IPO辅导 [8] AI基础设施融资 - AI芯片投资多元化,曦智科技融资15亿人民币,爱芯元智融资10亿人民币,赛道告别“唯制程论”转向技术路线多元化 [9] - 算力服务投资提速,清程极智获数亿元A+轮融资,比特智路获5亿元Pre-A融资估值25亿元 [10] - 计算基础设施头部项目获高溢价,硅基流动8个月内连获两轮亿元融资,基流科技获数亿元融资代表算力从云端走向边缘趋势 [11] AI垂直应用融资 - 医疗是AI应用最热门赛道,在15笔亿元级AI应用融资中占6笔,占比40% [14] - 联影智能获得超10亿人民币融资,其AI辅助筛查产品覆盖XR、CT等场景 [14] - AI零售和AI工业是热门应用领域,聚焦于商品图生成、门店运营、矿山无人化、设备故障检测等具体痛点 [15] - 部分垂直应用公司表现突出,未来智能AI会议耳机上市半年销量破10万台,帷幄Whale零售门店AI运营系统服务5万家门店 [16]
NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式
机器之心· 2025-11-10 04:40
核心观点 - 研究团队针对参数高效微调模块合并性能不佳的问题,提出了“方向鲁棒性”概念,指出根本原因是“方向不鲁棒”而非传统认为的“符号冲突”[7][8][10] - 团队提供了一个名为RobustMerge的解决方案,该方案无需额外成本且简单高效,能显著提升PEFT模块合并性能[2][10][17] - 该方法为构建快速适应多任务、节省计算资源的AI系统提供了关键技术支持,并已在顶级会议NeurIPS 2025上被评为Spotlight论文[2][3] 问题定义与挑战 - 多模态大模型参数规模巨大,全量微调成本过高,使得参数高效微调成为主流选择[7] - LoRA等PEFT方法虽能快速适应单一任务,但缺乏将多个专家模型有效合并为通用模型的能力[7] - 传统多任务学习存在训练成本高和数据隐私两大问题,而直接将FFT时代的模型合并方法用于PEFT模块时效果显著下降[7][8] 技术原理与发现 - LoRA模块参数分布更广且奇异值存在显著差异,导致合并时尾部奇异值方向不稳定[12][14] - 头部奇异值代表任务特定知识,方向稳定;尾部奇异值代表通用知识,方向敏感易变[14][15] - 成功的PEFT合并关键在于保护低秩空间中每个奇异向量的方向,特别是奇异值较小的向量[16][17] RobustMerge方法 - 采用两阶段策略:修剪与参数互补缩放、跨任务归一化,整个过程无需训练[17][19][23] - 第一步通过修剪无效参数和参数互补缩放,自适应增强尾部奇异值方向稳定性[19][20][21][22] - 第二步通过跨任务归一化平衡不同任务缩放系数,确保泛化性能不受数据量差异影响[23][24] - 最终将调整后的PEFT模块进行加权融合,得到具备多任务知识的通用模型[25][26] 实验结果 - 在自建基准MM-MergeBench上测试,包含8个已见任务和4个未见任务[28] - 在已见任务上平均准确率相较传统方法提升3.4%,在未见任务上平均性能提升4.5%[29][31] - 在POPE、MME等通用能力基准上也取得领先结果,POPE达87.2,MME达1494.9[32][33] - 通过方向相似性和奇异值保留比率量化验证了方法能有效维持小奇异值向量的方向和幅度[35][36][38] 应用价值与前景 - 可应用于多任务模型快速部署,帮助企业将多个业务场景的LoRA模块融合为全能模型,降低服务成本[44][45] - 适用于联邦学习和持续学习场景,在保护数据隐私的前提下实现模型迭代[44][45] - 其方向鲁棒性的核心思想具有强普适性,可扩展至推荐系统、多模态数据分析等多个领域[42][43]
机器人大脑产业跟踪
2025-11-10 03:34
行业与公司 * 机器人大脑产业及人形机器人行业 [1] * 涉及公司包括特斯拉(擎天柱机器人)、高通(骁龙芯片)、以及国内机器人厂商(如银河通用)等 [10][16] 核心观点与论据 行业发展趋势 * 机器人行业重心正从传统工业机器人转向更具人形和特殊产品形态的机器人 [2] * 机器人大脑和小脑的融合概念越来越普及 [2] * 人形机器人研发与汽车智能化、电动化密切相关,许多机器人研发人员来自汽车领域,因为自动驾驶技术栈与机器人自动控制技术有延伸性 [1][2][3] 发展挑战与瓶颈 * 机器人大脑发展面临操作系统实时性和AI算法不确定性的双重挑战 [4] * AI算法(如大语言模型)存在幻觉现象,不确定性在精准控制中尤为明显 [4] * 不同场景的数据差异巨大(如家庭环境),增加了模型训练难度 [4][5][12] * 当前机器人大脑更多是特定场景下特定功能的控制系统,而非通用大脑 [10][11] * 构建大脑需要实时操作系统和足够观测算力以维持模型推理反馈速度 [10] * 算力不足是处理世界模型庞大数据集的主要困难 [9] * 中国机器人产业缺乏优秀的产品经理来定义和设计产品 [22] 不同场景的落地可行性 * 工业场景下的机器人大脑更容易落地,因为工厂项目预算较高,可支持大量数据采集、分析和训练,实现定制化 [6] * 居家养老等个人场景因预算有限且环境差异大,技术尚不成熟,预计3-5年内仍难以真正落实 [13] * 人形机器人在许多场景中优势不明显,双足机器人主要用途以展示为主,轮式机器人可能在工业生产中更适用 [17] 技术路径与进展 * 世界模型自2024年下半年受关注,其核心在于重构场景数据,但面临数据量挑战 [8][9] * 未来有望通过芯片和云端算力提升解决算力问题 [9] * 理论进展包括VLA模型、3D VLA模型以及新的语义模型(如李飞飞团队研究的空间模型) [18] * 目前AI范式没有重大突破,依然依赖大量数据,需要范式层面的突破才能显著进展 [19] * 可通过控制目标工作场景中的物品和数据量(如工业无人叉车)提高模型应用性 [13] * 通过将单一工作拆解成多个工序并由不同机器人协作完成,可以实现快速应用(如咖啡制作机器人、酒店送餐机器人) [21] 成本与产业链 * 中国机器人产业链一旦形成,成本将比美国低得多,中国拥有全世界最好的产业链建设基础 [14] * 马斯克2万美元以内的机器人部件精细度并不高 [14] * 目前国内已有几万块钱的机器人,但精度和适用场景有待考验 [14] * 智能机器人产业链尚未完全形成,全球厂商都未真正打通技术栈 [16] * 操作系统选择需在实时性(如Global公司的NX、vx)和开放性(如Linux)之间取舍 [15] * 芯片发展路径建议初期利用Global成熟芯片实现功能,稳定后再寻找国产替代方案以降低成本并应对风险 [15] 投资前景与风险 * 短期内(两到三年)大规模商业化落地仍需时间,巨额投资存在风险 [20][24] * 投资者应管理好预期,全自动化控制系统短期内难以实现颠覆性突破 [24] * 中国机器人产业应明确初期应用场景,实现快速市场化,从特定狭义场景入手(如清洁卫生间的机器人),而非追求大而全 [13][22] * 国内厂商应关注自身技术路径,通过单点突破或行业共创实现发展 [16]
vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升
机器之心· 2025-11-07 07:17
研究背景与核心问题 - 移动GUI智能体是AI领域新热点,旨在让多模态大模型在智能手机上自主操作APP完成复杂任务[2] - 当前训练智能体面临根本瓶颈,即严重依赖昂贵人工标注的大规模高质量专家演示轨迹数据,限制了模型的泛化能力和鲁棒性[2] - GUI操作正确性高度依赖历史上下文,现有评估方法难以准确判断每一步操作的有效性及最终任务完成情况[6] - 缺乏可靠轨迹验证方法导致数据规模存在瓶颈,难以扩展到长链路、跨应用的复杂任务[7] UI-Genie框架核心突破 - 提出自我进化框架UI-Genie,通过智能体模型与奖励模型相互协作实现无需人工标注的高质量数据合成与能力持续提升[3] - 核心突破是从“被动学习”到“主动进化”,解决了移动GUI智能体训练中的数据获取挑战[5] - 框架包含两部分创新:专为移动GUI操作设计的奖励模型UI-Genie-RM,以及用于智能体和奖励模型共同进化的训练闭环[7] UI-Genie-RM奖励模型设计 - UI-Genie-RM是首个专为移动GUI智能体轨迹评估设计的奖励模型,采用图像-文本交错架构处理四种输入[9][10] - 模型设计充分考虑了GUI操作任务特性,需理解整个操作历史并对当前动作正确性进行判断[10] - 研究团队通过三种自动化数据生成策略构建了约51.7万条奖励样本训练模型[11] - 数据生成策略包括基于规则的验证、受控的轨迹破坏和困难负样本挖掘[15] 自我进化机制与迭代过程 - 自我进化闭环包含三个关键环节:奖励引导的轨迹探索、训练数据双向扩展和渐进式任务复杂度提升[14] - 智能体在Android模拟环境中生成候选轨迹,由奖励模型打分并保留累计得分最高的5条路径继续探索[16] - 探索得到的轨迹同时用于强化两个模型:为智能体扩充训练数据,为奖励模型扩充监督信号[17][18] - 共进行三轮迭代,任务难度逐步增加,从使用开源数据到LLM改写指令,再到融合失败任务与人工设计的复杂场景[19][22] 性能评估结果 - 在AndroidControl基准上,UI-Genie的72B模型在高级任务指令下取得86.3%的定位准确率与77.0%的操作成功率[21] - 在AndroidLab的138个真实任务上,UI-Genie平均成功率显著高于商用与开源模型,3B版本对标7B级别基线,7B模型超过部分70B级模型[23] - UI-Genie-RM在包含1050对样本的综合基准上表现最佳,步骤级评估F1分数达79.6%,结果级评估达82.1%[24][25] - 经过三轮迭代,智能体任务成功率从18.1%提升至38.7%,奖励模型准确率从68.2%提高到79.6%[24] 行业应用前景 - GUI Agent作为“端侧隐形助理”正在重塑手机交互方式,可跨应用协同原生日历、文档和邮件应用自动完成会议安排等任务[29] - 在娱乐场景下能与手机自带媒体播放器和相册无缝集成,实现智能识别播放控件和顺畅指令操作[29] - 既为老年用户、视障人士简化手机使用门槛,也为忙碌人群提供便捷服务,未来将融入智能网联生态成为核心交互枢纽[29]
首个、首座、首次!本周,中国硬核实力再刷屏
央视新闻· 2025-11-06 22:49
航空航天领域 - 天问一号环绕器首次观测到星际天体阿特拉斯,观测距离约3000万千米,是距离该天体最近的探测器之一 [3] - 天问一号探测器已稳定运行4年8个月,状态良好,此次观测为天问二号小行星探测进行了技术试验并积累了经验 [3][4] - 我国在轨运行的北斗导航卫星达到50颗,包括15颗北斗二号卫星和35颗北斗三号卫星 [9] - 全国已有88个北斗探空站数据接入全球气象资料交换系统,为全球天气预报输出中国精度 [9] 工程建设领域 - 世界首座双层斜拉-悬索协作体系大桥铜陵长江三桥通车,解决了超大跨度与结构刚度并存的技术难题 [5] - 大桥全长11.88公里,主跨988米,为公铁两用桥,通车后优化了区域过江通道通行能力,并使全长641公里的G3京台高速安徽段实现全程高速通行 [5] 深海科技与人工智能 - 发布全球首个面向深海典型生境的多模态大模型“深海生境智能认知与探索多模态大模型” [5][8] - 该模型具备深海生境智能感知、全域智能推演、治理决策方案生成与沉浸式认知导览等功能,并已完成对一座深海海山和一处热液区的智能认知系统构建 [8] - 该模型是联合国“海洋十年”数字化深海典型生境大科学计划的重要成果 [8] 北斗导航产业 - 北斗产业呈现强劲增长趋势,综合指数稳步提升,多领域应用渗透率持续扩大 [9] - 北斗规模应用已进入市场化、产业化、国际化发展的新阶段 [9]