量子位

搜索文档
腾讯入局具身智能,宇树首批用上“大脑”
量子位· 2025-07-30 09:44
腾讯具身智能战略 - 公司推出具身智能通用外接大脑Tarios平台,以模块化方式提供多模态、规划、感知算法及开发工具,不涉足硬件本体、量产和商业化[1][2][16] - 平台包含模型算法(多模态感知模型、规划大模型、感知-行动联合模型)和云服务(仿真平台、数据平台、开发工具),通过标准化接口和SDK提供服务[7][8][9][10][11] - 首批合作厂商包括宇树、越疆、乐聚等6家机器人企业,平台可灵活补足厂商在感知模块或长线程规划等领域的短板[12][13][15] Tarios平台技术架构 - 多模态感知模型类比人脑右脑,融合图像/语音/触觉数据实现3D建图和空间理解[8][9] - 规划大模型类比左脑,具备任务推理、子任务规划和少样本泛化能力[8][9] - 感知-行动联合模型类比小脑,实现像素到动作映射及零样本泛化[8][9] - 云服务提供仿真环境训练、三维视觉数据集和可视化开发工具链[9][11] 腾讯机器人技术路线 - RoboticsX实验室聚焦移动、操作和智能决策三大方向,研发成果包括机器狗Max和人居环境机器人"5号"[20][21] - 采用轮腿一体化设计而非双足人形,探索更适应现代人居环境的高效形态[24][25][26][27] - 提出SLAP层次化学习框架(感知/学习/行动/规划)和IDEAS发展框架(虚实集成/技术降槛等)[32][33] 行业合作与趋势 - 国内机器人硬件厂商从2018年稀缺发展到当前60家走访企业,推动公司专注软件层合作[30] - 行业需解决3D世界认知、动态环境交互等痛点,突破文本描述局限实现真正具身智能[32] - 平台目标推动行业进入"大哥大时刻",终极形态追求身智融合的适应性[34][35]
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
量子位· 2025-07-30 06:06
豆包APP视觉推理功能升级 - 核心功能升级为视觉推理,支持图片深度思考,通过开启深度思考模式可拍照或上传图片进行分析[4][5] - 分析过程结合以图搜图、图片分析工具(放大/裁剪/旋转)等多步骤,例如识别上海东方明珠年份为1999年左右[1][7][8] - 支持AI识别AI生成图片,通过放大细节识别右图西红柿蒂部不自然卷曲判定为AI生成[10][11][13] 实测场景表现 - 复杂图像处理:在熊猫群像中精准定位足球,采用"初步识别→放大区域→空间定位"三步骤[17][22][25] - 小众知识检索:识别鄂温克族口弦琴、云南翅果藤等冷门内容,结合图片检索+文字检索双重验证[29][34][35] - 学术与工作辅助:解答IMO数学题(经ChatGPT验证答案正确),一键提取财报数据并保持准确性[40][43][46][49] 技术模式创新 - 采用"边想边搜"动态推理机制,区别于传统AI"先搜后想",支持多轮搜索与工具调用[50][52][53] - 实现图搜文能力,例如通过技术截图反向定位OpenAI论文原文及图表出处[62][64][65] - 多模态融合:Transformer架构统一处理文字/图像/音频,支撑工业检测、医疗分析等场景需求[72][75] 行业趋势 - 视觉推理成为大模型技术新门槛,OpenAI的o3/o4-mini推动多模态深度理解范式[68][69][70] - 技术成熟度与行业需求(工业/医疗)形成共振,促进行业竞速发展[71][74][76] - 豆包APP将高阶视觉推理功能免费开放,降低用户使用门槛[76][77]
1.5B参数撬动“吉卜力级”全能体验,国产开源之光多模态统一模型,来了
量子位· 2025-07-30 04:48
多模态AI技术趋势 - GPT-4o引发的"吉卜力风暴"成为上半年最热AI事件,证明多模态融合(文本、图像、声音)已成为AIGC新范式,更接近人类认知方式[2][4] - 行业技术方向从割裂的单模态处理转向统一模型,满足用户"看图+生图+改图"一体化需求[4][62] - 原生多模态统一模型实现"一次训练,处处生效",推动AIGC从拼规模转向拼效率与体验[63] Skywork UniPic模型特性 - 昆仑万维开源1.5B参数多模态统一模型Skywork UniPic,实现图像理解、文本生成图像、图像编辑三大能力深度融合[5][13] - 模型性能密度高:1.5B参数效果接近/超越百亿参数专用模型,可在RTX 4090等消费级显卡运行[10][12][27] - 完整开源模型权重、技术报告及全流程代码,推动技术社区协作[11][65] 技术性能表现 - 在GenEval指令遵循评估中得分0.86,超越多数同类模型,逼近7B参数BAGEL带CoT的0.88分[25] - DPG-Bench复杂指令生图基准达85.5分SOTA水平,与14B参数BAGEL(85.07分)相当[26] - 图像编辑能力:GEditBench-EN得分5.83,ImgEdit-Bench得分3.49,可精准执行跨区域编辑指令[27][51] 模型架构创新 - 采用自回归模型架构(与GPT-4o同路线),深度整合图像生成至多模态框架,区别于主流扩散模型[30] - 双路径设计:MAR编码器用于图像生成路径,SigLIP2编码器用于图像理解路径[34] - MAR编码器通过Diffusion Loss替代传统VQ离散化,实现高质量生成与低延迟响应[36] 训练策略优化 - 渐进式多任务训练:先聚焦文本生成图像,再逐步引入理解与编辑任务,避免能力失衡[56][57] - 分层分辨率训练:从512×512微调基础特征,逐步提升至1024×1024强化细节捕捉[55] - 分阶段参数解冻策略:先对齐视觉与语言特征,再优化视觉主干,最终端到端联合训练[55] 数据体系构建 - 亿级精选预训练语料+百万级SFT样本,远低于行业百亿级数据需求但性能相当[40][42] - 自研两套奖励模型:Skywork-ImgReward优化文生图质量,Skywork-EditReward筛选编辑样本[48][50] - 数据提纯三大策略:均衡任务分布、多样化指令模板、多层质检机制[49] 行业影响与开源生态 - 昆仑万维持续开源布局:从百亿参数大模型到视频生成模型SkyReels系列,覆盖多模态全领域[68] - 开源推动技术平民化,降低AI应用门槛,加速创意生态发展[66][69] - 中国技术力量引领多模态创新,开源社区贡献获全球关注[65][69]
第三届世界科学智能大赛圆满收官!开放多项真实数据,1.6万人共探产业场景关键科学问题
量子位· 2025-07-30 02:29
大赛概况 - 第三届世界科学智能大赛总决赛及颁奖典礼于7月25-26日在上海举行 由上海科学智能研究院与复旦大学联合主办 吸引了全球近30个国家和地区的近1.6万名选手报名参赛 [1] - 大赛设立航空安全 材料设计 合成生物 创新药 新能源五大赛道 最终决出一等奖5项 二等奖10项 三等奖15项 [1] - 大赛协办单位包括中国南方电力调度控制中心 上海复星医药 晶泰科技 阿里云等近40家企业组成生态企业联盟 [1][4] 赛事特点 - 本届大赛呈现更产业 更开放 更年轻三大特点 赛题全部来自真实产业场景 如航空结冰气象预报 新能源发电功率预测等 [4] - 专门开辟中学组比赛 吸引上海16区146所中学的331支队伍参与 选手平均年龄约14周岁 围绕新能源发电预测主题展开角逐 [7] - 开放大量产业真实数据 如发电站功率数据 气象数据 分子构象数据 并提供算力和工具链支持 [5] 技术平台与合作 - 上智院与道通集团共同启动Physical AI赛道 聚焦空间智能 推理模型等核心技术难题 [4] - 优秀模型将部署至星河启智科学智能开放平台 该平台初期汇聚12个学科的200多个科学模型 建成4万多个共12PB的科学数据 已吸引120多个实验团队入驻 [5] - 平台由上智院联合复旦大学 无限光年打造 提供科学数据 开源模型 高效智算等全栈基础设施 [5] 行业影响与未来规划 - 复旦大学特聘教授漆远指出 AlphaFold开放工具已吸引超200万研究者使用 大赛致力于构建类似开放生态 [4] - 材料设计赛道一等奖团队采用自回归技术路径测试不同分子语法表征方法 创新方案可互相融合 [8][9] - 未来将继续依托上智院平台 联动星河启智平台推出更多前沿赛事 打造系列化多元化赛事体系 [10]
我在WAIC看见的十大趋势
量子位· 2025-07-30 02:29
核心观点 - AI行业热度空前,WAIC展会呈现十大核心趋势,展现中国AI产业的快速发展和创新活力 [2][3][5] 十大核心趋势 趋势一:中国AI因DeepSeek而不同 - DeepSeek带来观念改变,AGI在中国被真正相信,中国人可能率先实现AGI [6] - DeepSeek-R1让普通人不再认为AI是"智障",唤醒中国AI创始人直接瞄准AGI [7] - 前谷歌CEO施密特等国际专家认可中国AI实力 [6] 趋势二:基础大模型综合实力比拼 - 基础大模型竞逐重点从SOTA转向推理、多模态和低成本 [8][9] - 阶跃星辰Step-3模型总参数321B,具备多模态推理能力,联合千里科技和吉利汽车落地智能座舱 [12] - 商汤日日新V6.5在多模态推理能力上表现优异,部分指标超过Gemini 2.5 Pro和Claude 4-Sonnet [14][15] - 讯飞深度推理X1升级版在幻觉治理、综合能力等方面有提升 [15] 趋势三:开源大模型进入中国时间 - 开源成为中国大模型领域的标配,通义千问是开源旗手 [17][18][21] - 阿里通义千问系列模型和通义万相2.2全部开源 [18][20] - 中国开源模型方阵蔚为壮观,包括基础大模型和垂直模型 [23][24][26] - 开源共识形成,中国可能成为AI时代的"安卓" [28][31] 趋势四:国产化AI生态闭环 - 国产芯片与国产大模型协同构建生态 [32][33] - 摩尔线程实现100token/s跑满血DeepSeek,推动AI训练向万卡级规模演进 [37] - 后摩智能发布能效比最高的存算一体AI芯片M50,功耗仅10W [39] - 中昊芯英发布中国首枚TPU架构高性能AI芯片"刹那®"和计算集群"泰则®" [41] - 联想、燧原科技等推出国产算力+国产模型的大模型一体机 [44][46] 趋势五:AI基建与垂直行业应用 - 华为展示昇腾384超节点真机,支持万张算力卡的数据中心 [51] - 中国电信展出五大技术体系,包括智传网、算网一体服务等 [53] - PPIO发布国内首个Agentic AI基础设施服务平台 [56] - 国家电网和南方电网展示电力行业大模型"大瓦特",机器人代人率达80% [60] - 蚂蚁数科推出金融大模型Agentar-Fin-R1,在金融基准测试中表现优异 [62] - 百度展示数字人技术NOVA,曾支撑罗永浩数字人直播间创5500万GMV [64] 趋势六:ToC创新与AI Agent - C端产品创新开始,AI Agent成为新风口 [66][67] - WPS发布原生Office办公智能体,通过自然语言完成文档创作等 [76] - 钛动发布全球营销AI Agent,赋能营销全链路 [77] - 深势科技发布通用科学智能体SciMaster,提供专家级科研助手 [79] - Agent被视为AI时代的软件形态产品,将革新各领域应用 [82][83] 趋势七:商业化AI终端 - 汽车、耳机和眼镜成为第一批商业化AI终端 [86][87] - 特斯拉、吉利等车企展示AI能力,座舱领域创新打开新增长空间 [88][90][94] - 讯飞AI耳机iFLYBUDS Pro 3和Air 2主打商务办公场景 [99][100] - AI眼镜备受关注,Rokid预定量达25万台,Halliday中国首秀 [104][105][107] - 夸克发布AI眼镜,集成阿里和支付宝生态 [109][110] 趋势八:具身智能机器人 - 具身智能机器人赛道白热化,今年实现大飞跃 [112][113] - 智元、银河通用、北京人形机器人创新中心等展示能走能动的机器人 [117][119][121] - 宇树科技通过"机器人打拳击"展示灵活运动能力 [129] - 戴盟聚焦触觉感知技术,展示精细化操作能力 [135][137][139] - 行业开始向人形收敛,VLA和世界模型成为共识 [133] 趋势九:非Transformer架构 - 非Transformer架构从学术研究进入产业应用 [144][145] - RockAI展示自研非Transformer架构驱动的机器狗和灵巧手 [146] - RWKV元我智能公开RWKV-7s架构,KV cache仅为MLA的1/9大小 [146] 趋势十:中国与硅谷AI差距 - 中国与硅谷AI差距缩短至6个月,集中在大模型先进技术层面 [154] - 发展目标转向AGI实现,而非追赶硅谷 [155] - 中国拥有发展AI的宝贵资源——人才和用户基础 [157][158]
超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源
量子位· 2025-07-30 00:24
CriticLean 团队 投稿 量子位 | 公众号 QbitAI 当人工智能已经能下围棋、写代码,如何让机器理解并证明数学定理,仍是横亘在科研界的重大难题。 字节跳动Seed团队与南京大学 联合发布 CriticLean 框架,一举将 数学自然语言到Lean 4代码的形式化准确率从38%提升至84%。 该框架创新性地将评估模型置于核心位置。通过强化学习训练的CriticLeanGPT模型,能像数学专家一样精准判断形式化代码是否贴合原始语 义,配合迭代优化机制,让生成的定理证明既符合语法规范,又忠实于数学逻辑。 ⽬前论⽂和数据代码仓库均已对外公开,欢迎开源使用。 数学形式化领域的核心挑战 将自然语言描述的数学命题转化为机器可验证的形式化代码(如Lean 4定理),是自动化定理证明领域的基础性难题,其核心挑战不仅在于 语法层面的准确转换,更在于对数学语义的深度理解与忠实还原。 尽管现有研究在生成模型与编译有效性上取得一定进展,但在复杂问题的语义对齐上仍存在显著瓶颈,具体体现在以下三方面: 语义鸿沟: 引入Critic角色以实现可靠形式化 上述挑战的核心在于:形式化流程中"评价"与"生成"的割裂。 CriticL ...
小扎天价offer创新高:10亿刀!但这支前OpenAI班底0人心动
量子位· 2025-07-30 00:24
核心观点 - Meta试图以高额报价挖角Thinking Machines核心团队成员但未成功 报价高达10亿美元但无人接受[1][2][3][4] - Thinking Machines团队背景强大 三分之二成员来自OpenAI 包括多位关键人物如John Schulman等[6][7] - Meta此前也曾尝试以超百亿美元收购Thinking Machines但被拒绝[9] - Meta成功从苹果挖走多名AI核心人才 包括基础模型主管及团队成员 一个月内挖走四人[13][16] - Meta正在调整AI战略 可能放弃开源路线 转向闭源模型开发[18][20] - MetaAI投资导致运营成本上涨9% 但股价仍上涨20%以上[19][22] 人才争夺 - Meta向Thinking Machines员工提供2亿至5亿美元报价 最高达10亿美元 但无人接受[2][4] - Thinking Machines团队50人中约四分之一被Meta瞄准 报价第一年保障金额达5000万至1亿美元[4] - 该团队核心成员包括OpenAI前CTO John Schulman等重量级人物[6][7] - Meta成功从苹果AFM团队挖走4名核心成员 包括基础模型主管庞若鸣及其同事[13][16] - 苹果被迫提高AFM团队薪酬但仍缺乏竞争力 管理架构也进行调整[16][17] 公司动态 - Thinking Machines完成20亿美元种子轮融资 估值达100亿美元 创种子轮融资纪录[2][9] - Meta考虑放弃开源AI战略 可能转向闭源模型开发[18][20] - Meta第二季度利润增长率11.5% 为两年来最慢 AI投资导致运营成本上涨9%[19] - Meta预计2025年支出将达到1130亿至1180亿美元[20] - Meta股价今年以来上涨20%以上 投资者对其AI战略调整持支持态度[22] 行业趋势 - AI人才争夺战激烈 头部公司互相挖角核心团队成员[1][13] - 初创AI公司估值快速攀升 Thinking Machines五个月内估值达100亿美元[9] - 大公司采用内部赛马机制 如苹果同时开发多个竞争性AI模型[18] - AI Agent技术受关注 Meta探索类似OpenAI o1系列的分步任务执行模型[21]
ChatGPT大更新推出学习模式!“一夜之间1000个套壳应用又死了”
量子位· 2025-07-30 00:24
ChatGPT学习模式推出 - 公司正式推出学习模式,旨在引导用户逐步思考而非直接提供答案[1] - 该功能已向免费版、Plus、Pro和Team用户开放,Edu用户将在未来几周内获得[2] - 学习模式不仅可用于问题辅导,还能帮助用户准备考试[3] 教育应用与影响 - 数据显示约三分之一的大学生使用ChatGPT辅助学业,但存在直接抄答案的担忧[4] - MIT研究发现使用ChatGPT写作文的人大脑活动较低,显示批判性思维可能受损[5] - 公司表示不会立即推出锁定学生模式的工具,但未来可能探索此功能[10] 学习模式设计原理 - 学习模式通过引导性问题促使用户自主思考,而非直接给出答案[12][13] - 该模式是与教师、科学家及教学法专家深度合作的成果,基于学习科学研究[15] - 采用定制系统指令驱动,融合主动参与、认知负荷管理等教育原理[15] 核心功能特点 - 交互式提问:结合苏格拉底式提问和自我反思提示引导学习[16] - 支架式响应:信息被组织成易于理解的部分,突出关键联系[16] - 知识点检查:通过测验和开放式问题提供个性化反馈[17] - 个性化教学:根据用户技能水平和对话记忆提供定制内容[18] - 灵活切换:用户可随时开启或关闭学习模式[19] 实际应用案例 - 学习"博弈论"时,系统会制定多阶段学习路线图[20] - 教学过程穿插引导性示例、思想实验和检验性问题[21] 未来发展计划 - 当前功能通过自定义系统提示词实现,未来将直接训练到主要模型中[24] - 改进方向包括更清晰的可视化展示、进度跟踪和深度个性化[24] - 公司与多个合作伙伴开展研究,包括斯坦福大学SCALE计划[24] - 承诺发布模型设计与认知联系的深入分析[25] 战略意图 - CEO对传统教育持怀疑态度,认为18年后教育将截然不同[26][27] - 公司可能从根本上重塑未来教育模式[28]
首个企业级智能体全开源!京东云将Agent门槛直接给打没了
量子位· 2025-07-29 07:07
核心观点 - 京东云JoyAgent成为行业首个100%开源企业级智能体,包含前后端、框架、引擎、核心子智能体等完整能力,企业开发者无需二次开发即可本地独立部署 [2][8][10] - JoyAgent在GAIA榜单上以Validation集准确率75.15%的成绩上榜,性能比肩行业领先产品,且具备轻量化优势 [4][5][13] - 该智能体已在京东内部经过超2万个智能体实践验证,可靠性有保障 [6][42] - 产品采用多智能体协同、并行处理等创新架构,显著提升执行效率并减少工具使用错误40% [16][21][41] 产品特性 技术架构 - 采用双层级规划架构:Work Level负责整体任务规划(最多分解5个子任务),Task Level采用ReAct模式执行具体任务 [34][35] - 创新文件系统+内存混合的上下文管理系统,突破LLM上下文限制并实现任务间文件共享 [36][37] - 工具/智能体具备自动进化机制,可根据任务动态生成专业化数字员工角色 [38][39] 功能表现 - 支持SearchAgent、ReportAgent、CodeAgent等多种子智能体及文档处理工具,可扩展性强 [16][17] - 演示案例显示其能并行启动5个搜索线程,1-2分钟内完成复杂报告生成 [21][22][23] - 在京东618实战中精准预测数百万台销量并实现采购流程从数天缩短至分钟级 [42] 行业意义 - 首次实现企业级智能体端到端完整开源,将使用门槛降至零成本 [10][47] - 解决企业场景三大核心挑战:专业知识门槛、传统系统协同复杂性、输出结果严谨性 [44][45] - 提供可复制的商业化样本,使中小企业能快速获得与京东同等的Agent能力 [47] 数据表现 - GAIA榜单成绩:总分0.7515(超过10个对比产品中的6个),一级指标达0.8679 [5] - 工具使用错误率降低40%,并行处理效率提升显著 [41][21] - GitHub Star数持续攀升,开发者社区反响热烈 [3][6]
自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
量子位· 2025-07-29 05:05
AI图像生成技术 - 当前AI图像生成领域Diffusion模型占据主导地位,但在精准控制方面存在不足[1] - 自回归模型(AR)成为新研究方向,MENTOR框架通过两阶段训练法实现像素级精准控制[2][3] - MENTOR在多模态图像生成中解决了模态失衡问题,仅需十分之一训练数据即超越Diffusion方法性能[2][5] 技术架构创新 - MENTOR采用统一的自回归架构,将多模态输入与输出图像token对齐[8][9] - 两阶段训练范式:第一阶段通过图像重建等任务建立多模态对齐,第二阶段通过指令微调提升跨模态推理能力[10][12] - 框架仅需3M训练数据和2.31B参数规模,在8张A100上训练1.5天即可完成[13][18] 性能表现 - 在DreamBench++测试中,MENTOR的CP-PF分数超越Emu2(37B参数)和DreamEngine(10.5B参数)[14][15] - 图像重建任务表现优异,在COCO和JourneyDB数据集上误差率仅0.1008和0.0867,显著低于其他模型[21] - 与Kosmos-G对比实验中,MENTOR在CP指标上提升0.40,PF指标提升0.13[19] 应用前景 - 框架具备通用性,可应用于文本引导图像分割、多图像融合生成等复杂任务[24] - 自回归范式为可控图像生成开辟新路径,未来有望通过更强大基础模型释放潜力[26] - 研究团队来自UIUC、清华大学、Adobe等机构,技术路线已获验证[2][26]