合成数据

搜索文档
撞墙的不是Scaling Laws,是AGI。
自动驾驶之心· 2025-09-28 23:33
NIK @ @ns123abc 作者 | Trisimo崔思莫 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1938174154500215724 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 前言:Scaling Laws成立,不必然导向AGI,甚至会远离AGI 。 ——这是我的一个推论 wn that transformer-hased next-token prediction pernlexity scales o log-linearly with compute and the number of parameters Ex-OpenAl researcher (now at META) explains how scaling laws can never fail because it's a reflection of the data structure "what ...
复旦大学窦德景解读中国AI发展:加强场景应用引导 在数据可信领域强化竞争力
上海证券报· 2025-09-24 19:46
HOME 窦德景 ◎记者 李兴彩 近日,在上证首席讲坛第二十三期节目上,复旦大学计算机学院特聘教授、北电数智首席科学家窦德景 就AI大模型的突破点和未来应用场景进行了深入浅出的分享,并同期接受了上海证券报记者的专访。 作为人工智能领域的资深学者与产业实践者,窦德景深耕AI领域二十余载,既见证了行业有起有落的 发展历程,也亲身参与了从技术研发到产业落地的全链条实践。在生成式AI掀起全球变革浪潮的当 下,他以横跨产学研的独特视角,解读中国AI发展的核心逻辑与未来机遇。 AI要突破必须扎根具体场景 从学术殿堂到产业一线,窦德景的履历勾勒出一条跨领域的产业和个人成长轨迹。 1996年,窦德景从清华大学电子工程系本科毕业后,赴耶鲁大学攻读电气工程硕士学位,随后又师从世 界著名人工智能学者德鲁·麦克德莫特(Drew Mcdermott)攻读人工智能方向的博士学位。此后,窦德 景历任斯坦福大学生物医学信息研究中心客座副教授、美国俄勒冈大学计算机和信息科学系正教授,发 表超过250篇论文,谷歌学术引用量超1.3万次,成为国际AI领域的知名学者。 2010年后,随着深度学习技术的突破,AI迎来第三次高潮,窦德景选择投身产业实践 ...
机器人北京上学记
经济观察报· 2025-09-21 04:57
与大语言模型依赖海量文本语料不同,具身智能模型必须在真 实或仿真环境中学习动作、语言、视觉等多模态数据,就像教 小孩打球——不能只讲解,还要配合动作示范、纠错与强化, 才能使得智能逐步涌现。 作者: 周悦 封图:受访者供图 导读 肆 || 行业共识已逐步明确:数据是具身智能的核心要素,但围绕什么样的数据质量高、如何采集、如何高效使用等问题,技术路线正在快速分 化。 叠衣服,是千寻智能教机器人做家务的第一课。 在北京海淀的一栋写字楼里,采集员坐在机械臂前,夹起、对齐、折叠、放下——每个动作要重复上百遍,只为让机器人学会"像人一样"进行家务劳 动。 在北京的不同区域,类似的训练正同步展开:向西,石景山人形机器人数据训练中心,上百台机器人在"九年一贯制"训练区与"机器人大学"场景区中, 学习开门、拿取物品、插花等动作;向南,北京经济技术开发区(下称"北京亦庄")的北京人形机器人创新中心(国地共建具身智能机器人创新中心, 下称"北京人形"),则将厨房、客厅、超市、加油站等空间1:1复刻,打造沉浸式的采集工厂,整栋楼里分布着数百台左右数据采集本体,包括人形、 轮式、机械臂等。 经济观察报走访发现,北京多家企业与机构已布 ...
机器人北京上学记
经济观察网· 2025-09-21 03:37
具身智能数据采集布局 - 北京多家企业与机构布局数据采集中心 包括智源研究院 银河通用 北京人形机器人创新中心 星海图与千寻智能等 规模从三四十人到上百人不等[3] - 千寻智能将整层空间改造成数据工厂 配备机械臂和实时监控系统 每天能采集上千条动作数据 按月形成可调用能力库[5][6] - 北京人形机器人创新中心1:1复刻厨房 卧室 加油站等场景 月均采集超过上万小时动作数据 跻身全国第一梯队[3][7][8] 数据采集技术方法 - 基础动作由采集员完成 复杂操作由工程师佩戴VR设备远程控制 千寻智能训练效率提升近七成 新动作训练从需六七百条数据降至不到百条[6] - 采集任务分为高复用性通用动作场景和企业定制场景 某品牌冷柜标准作业流程采集需上千小时[7] - 星海图科技发布国内首个开放场景真机数据集GalaxeaOpen-WorldDataset 来自50个真实场景 总时长超500小时 涵盖234种任务 发布一周下载量突破8万[18] 资本投入与政策支持 - 千寻智能2024年初成立以来获得近6亿元融资 投资方包括京东 小米系 宁德时代系与中东资本[6] - 星海图完成近15亿元融资 获得美团 今日资本领投 北京机器人基金 亦庄国投跟投[20] - 北京亦庄出台政策对数据采集标杆实训场给予每场所10万元奖励 高质量数据集最高支持200万元 每年发放1亿元"数据券" 单个采购主体年度最高补贴不超过100万元[18] 数据采集人才体系 - 具身智能训练师分为动作采集员 数据审核师和算法工程师三类 采集员日均采集50至200条 熟练者达千条 审核师日审核上千条[22] - 采集岗月薪5000-6000元 审核岗年薪达8万元 核心训练师年薪15万-20万元 算法工程师月薪起薪2万元 最高可达10万元[22] - 采集员入职前需通过VR适应性测试 淘汰率超50% 招聘偏好身高160-170厘米 动作协调 体型标准者[21] 技术路线分化 - 真机数据采集与合成数据两种技术路线并行 银河通用采用"虚实结合"范式 用10亿级合成数据训练 仅用200条真实数据让机器人学会抓取饮用水并泛化到不同品牌[26] - 行业普遍使用仿真数据与真机数据比例约为9:1 北京人形同步构建高保真合成数据 人类视频数据等多元体系[28] - 京东集团高级副总裁何晓冬认为真机采集与合成模拟是互补组合 具身智能企业应尽快让机器人走进现实世界参与工作[28] 应用场景拓展 - 北京亦庄开展"具身智能社会实验计划" 在药房 图书馆 酒店等近百个真实采集点位构建人机协同网络 计划扩展至上千个实景场所[12][17] - 七鲜超市进行补货训练 每天采集20多个微任务 人流密集对采集作业产生干扰但环境还原度最高[14][15] - 北京人形打造国内首个基于真实场景的具身智能训练平台 计划年底前完成20余个真实场景布局 承担采集员培训与认证职能[20]
数据:99%+1%,能实现“从0到10000”——银河通用王鹤:让机器人甩掉遥控器,“睁开眼”干活
新华社· 2025-09-15 21:46
公司业务与产品 - 公司专注于研发人形机器人硬件和具身智能大模型 率先实现机器人在工业 零售等场景批量落地[2] - 公司自研机器人Galbot无需遥控 能自主干活 在机器人格斗赛等赛事上斩获佳绩[2][3] - 公司在工业场景实现流水线搬运 分拣等环节规模化应用 零售场景已在北京海淀落地10多家配备人形机器人的智慧药房 并计划年内在全国开设100家[5] - 公司机器人已开始售卖零食 咖啡等商品 全球首个城市级常态化运营人形机器人示范区落地北京[2][5] 技术路径与突破 - 公司采用端到端VLA(视觉-运动-动作一体化生成)技术路径 依靠视觉反馈闭环展现实际场景干活能力[4] - 2024年初公司以10亿级合成大数据端到端训练VLA大模型 实现跨场景移动物体抓取 6月推出端到端导航大模型使机器人拥有"听-看-懂-走"闭环运动能力[6][7] - 硬件性能需够用 好用且精度高 是拿掉遥控器的另一核心[8] - 公司通过高质量合成数据解决99%的具身智能数据需求 仅1%需真实数据采集[9] 行业现状与挑战 - 当前多数机器人依赖人工遥控 演示视频多为预编排动作序列与视频剪辑共同结果 存在泛化性不足和硬件不可靠问题[4][5] - 具身智能最大困境在于数据丰富性和准确性 而非硬件或模型[3] - 头部人形机器人厂商量产规模仅千台级别 未达万台规模 真实数据采集不具备现实可行性[9] - 未来3年可批量复制场景落地是行业生死分水岭 未来1年需实现千台到万台批量交付验证行业价值[12] 数据战略与模型 - 数据决定机器人能力下限 高质量数据需多元性 覆盖柔性物体操作和场景泛化性[9][10] - 合成数据解决0到1问题 真实遥操数据解决1到100问题 视频数据处理解决100到10000问题[9] - 模型架构虽未完全成熟但已够用 数据起决定性作用 数据足够时好模型能学得更好[11] - 生成高质量合成数据需图形学 物理仿真 物理渲染 自动动作合成管线等基础设施和核心技术积累[9] 商业化与应用前景 - 彻底解决抓取 移动 放置等简单操作泛化性问题可打开数千亿元市场 应用覆盖零售 前置仓 车厂分拣等多个场景[12] - 机器人核心功能是替代人力劳动 非展示性动作 需具备24小时工作高可靠性[5] - 智能定义为解决问题的能力 人类 动物和机器人调用能力方式不同但均体现智能[13]
机器人跨越“三重门”——具身智能创新者亲历的现实与趋势丨议事厅
新华网· 2025-09-15 03:44
行业现状与趋势 - 人形机器人赛道呈现"冰与火之歌"态势 一边是机器人进厂打工、酒店送餐、赛场踢球等火热应用场景 一边是融资超百亿但订单不过百台的商业落地困境 [1] - 投资机构从观望转向竞逐 行业格局从"人形机器人第一股"一枝独秀发展到超20家产业链企业走向IPO [1] - 具身智能面临技术路径与商业落地的十字路口 未来3年能否击穿场景将成为企业生存的关键分水岭 [1][15] 技术突破与路径 - 银河通用通过10亿级合成大数据训练端到端VLA大模型 实现机器人自主执行能力 其机器人Galbot已实现无需遥控自主干活 [5][10] - 数据质量成为具身智能发展核心瓶颈 99%能力可通过高质量合成数据实现 仅需1%真实数据辅助 但高质量数据需具备多元性和泛化性特征 [12][13] - 自变量机器人开发通用具身大模型WALL-A 采用"一脑多用"端到端技术 实现零样本泛化能力 能处理拉链变形等动态异常情况 [20][26][27] - 加速进化通过足球赛事训练机器人全自主运动能力 其"感知-决策-控制"智能系统可在0.1秒内完成判断 支撑奔跑、急停、射门等复杂动作 [39] 商业化应用进展 - 银河通用已在工业场景实现流水线搬运、分拣等环节规模化应用 在零售场景落地10多家智慧药房 并计划年内扩展至100家 [8] - 全球首个城市级人形机器人示范区落地北京 银河通用推出由机器人经营的"银河太空舱"无人超市 标志具身智能进入日常生活 [5] - 加速进化通过机器人足球赛事获得商业突破 帮助中国队首夺RoboCup成人组冠军 打破欧美国家28年垄断 [36] 技术路线分歧 - 行业分化出"运动展示派"与"实干派"两大方向 宇树科技代表运动能力展示路线 银河通用代表实际场景干活路线 [8] - 端到端模型与分层模型存在技术路线竞争 端到端模型可实现实时感知决策闭环 而分层模型存在误差累积和延迟问题 [25][26] - 自动驾驶模型无法直接迁移至机器人领域 因机器人核心难点在于复杂操作而非导航运动 [32] 成本与规模化挑战 - 人形机器人单台成本超10万元 加上维修成本更高 而工人年薪仅5-8万元 成本效益比尚未达到商业规模化要求 [42] - 头部厂商量产规模仅千台级别 未达万台规模 制约数据采集和模型迭代速度 [12] - 工业场景存在技术匹配度问题 现有专机设备已实现高度自动化 人形机器人入厂可能造成"瑞士军刀切菜"的错配现象 [43] 未来发展路径 - 未来1年实现千台到万台批量交付将成为行业价值验证关键节点 [15] - 操作系统生态构建被视为核心护城河 通过开发者生态推动软硬件快速迭代 [40] - 家庭场景被定位为终极目标 因其数据是"活"的 而工业场景数据相对固定且迁移价值有限 [43]
银河通用张直政:具身大模型的发展需要上万亿条数据
第一财经· 2025-09-11 07:33
(文章来源:第一财经) 9月11日,在外滩大会上,银河通用机器人联合创始人张直政表示,具身大模型的发展可能需要上万亿 条数据。这些数据如果全部真实采集,数量不够而且也不可持续。这使得合成数据成为不可避免的选 择。 ...
合成数据的「毒」与「药」,模型崩溃有何新解?
机器之心· 2025-08-30 01:30
合成数据毒性研究新发现 - 合成数据在迭代训练中会导致逐代污染训练集 模型逐步丧失对真实数据分布的认识 输出同质化[2][5] - 早期崩溃阶段模型开始丢失分布尾部低概率事件的信息[5] - 晚期崩溃阶段模型收敛到与原始分布几乎无相似之处[6] - 崩溃发生与模型设计 学习过程及数据质量相关[7] - 崩溃现象发生于语言模型 变分自编码器VAE和高斯混合模型GMM等多种生成模型[8] - 斯坦福和哈佛研究认为模型崩溃风险被夸大 大多数崩溃实验基于非现实假设条件[8] - 现实应用中保持真实数据比例并采取正常训练流程可缓解崩溃问题[8] 合成数据在训练流程中的角色 - 业界建立系统化合成数据生成与应用框架 在风险与效用间寻求平衡[9] - 合成数据在预训练 微调 后训练 评估各阶段发挥功能[3] - 存在降低模型性能的情况需特别注意[3] 模型崩溃化解策略 - 提出Token-Level Editing 黄金比例混合和递归训练样本控制等方法解决崩溃问题[4] - 需量化合成数据带来的信息增益以保证模型泛化能力[4]
清华大学张小劲谈数据标注:高质量数据集走到哪,AI就到哪
南方都市报· 2025-08-29 06:50
行业发展趋势 - 数据标注产业进入新战略阶段 行业逐步完善并走向成熟 催生新职业和职业技能标准 [3] - 传统人工标注市场竞争激烈且内卷化 用工需求规模大且流动性高 [4] - 未来大模型将带动标注工作 智能检测和工具优化成为长远发展方向 [4] - 合成数据领域发展值得关注 通过AI数据搭接适应发展需求 [5] 地域与行业分布 - 用工需求从低成本地区向经济发达地区和人工智能前沿领域转移 [4] - 河南、四川等人力资本丰富地区呈现活跃发展态势 [4] - 行业主要集中在信息技术和科学研究领域 人工智能先导研究行业用工需求最旺盛 [4] 企业分类与发展模式 - 数据标注企业可通过2×2矩阵按场景强度和基础强度划分为双强、双弱、偏强、偏弱四种类型 [5] - 具身机器人行业发展较好 技术具有引领性 [5] - 大型产业和企业拥有更多专业力量开发模型并进行数据标注 [5] - 国外场景团队专注于垂直场景的数据采集和标注 [5] - 外包团队和众包团队提供灵活低成本劳动力 众包团队在小众场景创新方面具有优势 [5] 发展战略建议 - 推进AI辅助标注与全自动化标注技术 使产业从劳动密集型向知识密集型转变 [8] - 建立多轮质检与反馈机制 完善质控体制 精准淘汰劣质数据 [8] - 开发行业针对性标注系统 利用中国丰富应用场景和数据资源推动垂直细分领域发展 [8] - 深化校企合作加速技术转化 推动行业标准制定 [9] - 强化技能培训优化人力配置 建立质量追踪机制提升从业人员专业技能 [9] 核心发展理念 - 大模型人工智能与高质量数据集形成相辅相成、双轮驱动的格局 [1][6][8] - 人工智能+行动到哪里 高质量数据集就走到哪里 [6] - 高质量数据集走到哪里 人工智能就走到哪里 [1][6][8]
打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner
机器之心· 2025-08-27 08:36
核心观点 - BGE-Reasoner在推理密集型信息检索领域取得突破性进展 以45.2分刷新BRIGHT基准纪录 领先第二名3.6分[2][12][14] - 该技术通过三阶段模块化框架解决复杂查询问题 显著提升RAG和AI Agent在深度研究场景的推理能力[3][8][19] - 创新性采用大模型合成数据与强化学习技术 突破训练数据稀缺和困难样本泛化的行业瓶颈[4][5][22] 技术架构 - 提出可复制的三模块框架:Rewriter实现查询理解与改写 Embedder负责向量检索 Reranker进行精排[3][19][24] - 基于Qwen系列模型微调:Rewriter采用Qwen2.5-7B-Instruct Embedder基于Qwen3-8B Reranker基于Qwen3[21][22] - 端到端工作流程:原始查询经改写后 由Embedder与BM25并行检索 最终通过Reranker输出排序[19][24] 性能表现 - 在BRIGHT基准取得45.2分 超越蚂蚁集团DIVER(41.6分)和百度ReasonRank(40.8分)等竞争对手[12][14] - 向量模型BGE-Reasoner-Embed获得32.5分 显著优于Seed1.5-Embedding(27.2分)和Qwen3-Embedding等基线[12][15] - 测试时扩展技术增强排序稳健性 强化学习提升困难样本推理能力[5][22] 数据创新 - 利用大模型合成多领域训练数据 覆盖数学与代码等推理密集型场景[4][21] - 通过教师模型生成推理路径 采用拒绝采样策略构建高质量训练样本[21] - 合成数据有效解决行业数据稀缺瓶颈 验证于BRIGHT基准的显著性能提升[4][22] 行业影响 - 推动RAG技术在复杂推理任务发展 解决AI Agent智能化的核心难题[2][8] - 模型权重与训练代码即将开源 促进检索与人工智能领域研究应用[6][25] - 由中科大 智源研究院 北邮与港理工联合研发 体现中国在AI前沿领域的创新能力[2][25]