量子位

搜索文档
让OpenAI只领先5天,百川发布推理新模型,掀翻医疗垂域开源天花板
量子位· 2025-08-11 07:48
模型性能与评测 - 百川开源医疗推理大模型Baichuan-M2-32B在OpenAI HealthBench评测集上超越所有开源模型及多数闭源模型,包括参数规模4倍的gpt-oss-120b [1][19][21] - 在HealthBench Hard困难测试集上,Baichuan-M2以34.7分成为全球唯二超过32分的模型,仅次于GPT-5的46.2分 [24][25][26] - 模型参数量32B但性能超越更大规模模型,支持RTX4090单卡部署,成本比DeepSeek-R1降低57倍 [13][35][56] 技术架构创新 - 首创患者模拟器和Verifier系统,通过动态奖励机制提升临床决策质量,模拟数百万次诊疗过程 [40][44][45] - 采用改进版GRPO算法,优化KL约束、Clip-higher等训练策略,提升训练效率和稳定性 [53][55] - 引入中期训练(Mid-Training)和多阶段强化学习策略,平衡通用能力与医疗专业性 [48][51][52] 本土化与落地优势 - 在中国临床诊疗场景评测中表现优于国际模型,更贴合国内指南如肝癌治疗推荐R0切除而非TACE [30][33] - 量化后模型精度接近无损,支持单卡部署显著降低医疗机构私有化部署门槛 [4][35][64] - 已与北京儿童医院等机构合作落地儿科大模型等应用 [66] 行业趋势与定位 - AI医疗成为大模型落地最受关注领域,获OpenAI等顶尖公司重点投入 [5][7][68] - 百川是国内首个All in AI医疗的大模型公司,通过开源策略推动行业进展 [8][70][71] - 模型在数学、写作等通用能力上超越Qwen3-32B,保持多领域应用潜力 [37][38][39]
VLA进化后降维打击!双手拣货,漂移操作,还能批量化秀舞,太空舱直接开上街,被银河通用卷到了
量子位· 2025-08-11 05:45
核心观点 - 银河通用通过自研的具身智能大模型和机器人技术,推出了全球首个常态化运营的人形机器人零售解决方案"银河太空舱",并在北京首发落地[9][11][19] - 公司的人形机器人Galbot具备高度自主性和精准操作能力,已在真实商业场景中投入运营[2][16][17] - 银河通用展示了多项技术创新,包括端到端具身大模型和快速部署能力,计划通过"十城百店"和"百城万店"扩展全国市场[40][41][42] 技术突破 - Galbot搭载自研的端到端具身智能大模型,无需预设程序或遥控操作,可自主完成商品抓取、交付等全流程服务[2][25][30] - 公司开发了GraspVLA和GroceryVLA两大模型,具备zero-shot泛化、跨场景适应和实时调整能力,在零售场景表现优异[31][33][35] - GroceryVLA突破传统分离设计,支持多种商品形态的精准抓取,展示了商用级闭环控制能力[36][38] - 双足人形机器人仅用10天就完成高难度舞蹈动作的强化学习训练和部署[8] 产品与商业化 - 银河太空舱最小仅需9㎡空间,可陈列超300种商品,支持灵活部署和传统店铺改造[11][20][21] - 单舱日均服务人次达2000,订单量500单,预计提升周边人流30%-40%[24] - 产品已在北京海淀区大融城广场投入运营,成为全球首个城市级人形机器人示范区[9][11] - 公司启动"十城百店"计划,目标未来扩展至"百城万店",构建新型城市零售网络[40][41] 行业影响 - 该解决方案符合国家推动AI+零售的政策方向,获北京市重点支持[44][45] - 技术不仅替代人力,还创造了新型公共服务点和人机协作岗位[48] - 随着部署规模扩大,模型将不断进化,形成可持续的商业循环和基础设施网络[50][52] - 产品具备强话题性和流量吸引力,可带动周边商业活力[53]
一文看尽世界机器人大会,不用去现场人挤人了
量子位· 2025-08-10 07:38
2025世界机器人大会核心观点 - 机器人行业呈现全场景覆盖与全行业应用趋势,200余家国内外企业参展并展示百余款新品[4] - 产业链上下游协同参展,涵盖本体制造、关键零部件及创新技术[5] - 展会分为ABC三大主题展区,分别聚焦工业/人形机器人、医疗/服务机器人、特种/农业机器人[7][8][10][12] - 具身智能技术成为前沿焦点,高校创新成果与商业化产品同台竞技[16][47] 展区与产品亮点 A馆(工业与人形机器人) - **北京人形机器人创新中心**展示通用机器人"天工",负载16kg并实现智能分拣[25] - **国家电网**推出高压电巡检机器人天轶2.0,支持VR远程操控[27] - **京东**展区规模最大,涵盖物流机器人智狼、JDX-20无人机(载重10kg/航程24km)及零售服务机器人[29][41][43] - **优必选**Walker S1机器人矩阵演示工厂协同分拣[45] - **宇树**G1机器人展示拳击对抗,体现抗冲击与运动控制能力[53] - **KUKA**重载搬运工作站可处理650kg托盘,集成铣削与装配工艺[59] B馆(医疗与服务机器人) - **傅利叶**发布陪伴型机器人GR-3及开源机器人N1(23自由度)[107][106] - **松延动力**推出仿生机器人头部,可实时模仿人类情绪并支持面容定制[111] - **开普勒**人形机器人K2大黄蜂具备52自由度,续航8小时且负载30kg[148] - **商汤**元萝卜AI下棋机器人实现人机对弈[146] - **大象机器人**推出低价陪伴机器猫metaCat(售价989元)[151] C馆(特种与农业机器人) - **中信重工**消防灭火侦查机器人适应极端环境[170] - **国家农业智能装备中心**展示温室采摘机器人[173] - **汉王科技**金雕仿生扑翼飞行器巡航速度7m/s,搭载侦查载荷[181] - **中坚科技**机器狗年产量突破1万台[185] - **杭州海创**机器人乐队可演奏60余首歌曲,实现机械臂与乐器协同[164] 技术趋势与产业链 - **核心零部件**:绿的谐波、思岚科技等展示驱动器、传感器及关节模组[198] - **能源方案**:亿纬锂能、格瑞普推出多场景机器人电池[208] - **感知技术**:蓝点触控六维力传感器与禾赛科技激光雷达提升环境交互能力[202][123] - **具身智能**:智平方与北大合作研发视触觉材质识别技术[76] 行业动态 - **广汽集团**进军机器人领域,第三代地铁服务机器人已试点[81][82] - **优必选**Walker系列与**加速进化**足球机器人体现运动控制突破[45][57] - **零售整合**:京东提出"买机器人上京东"战略,推动消费级机器人普及[30][31]
蛋白质基座的GPT时代来了?!
量子位· 2025-08-10 04:11
蛋白质基座模型AMix-1的核心突破 - 首次以Scaling Law、Emergent Ability、In-Context Learning和Test-time Scaling系统化方法论构建蛋白质基座模型,实现从BERT时代到GPT时代的跨越[1][2] - 模型具备通用智能特性,能自主学习并设计新蛋白质,最优变体蛋白质活性提升50倍[3][4][6] - 模型权重、代码和技术细节已全部开源,支撑虚拟生物实验室的蛋白质生成与进化[7][44][46] 四大技术超能力 - **Scaling Law**:通过多尺度模型组合(800万至17亿参数)精确拟合性能与计算量的幂律关系,资源投入与性能提升可预测[13][15][16] - **Emergent Ability**:训练过程中涌现"结构感知能力",自动理解蛋白质折叠方式与空间结构,实现从序列识别到结构理解的质变[18][19][21] - **In-Context Learning**:无需微调即可通过示例推理蛋白质规律,生成结构与功能一致的新蛋白(如高温酶设计)[23][24][27][29] - **Test-time Scaling**:通过EvoAMix-1算法实现验证预算增加时的持续优化,设计酶活性迭代提升[31][32][35][41] 实验验证与行业影响 - 湿实验验证显示,AmeR转录调控因子变体DNA结合活性提升50倍,超越现有方法77%[40] - 虚拟生物实验室实现全自动化蛋白质设计闭环,大幅降低传统试错成本[43][46] - 技术范式革新推动蛋白质设计从任务专用转向通用智能,类比NLP领域ChatGPT的突破[9][10][12]
即梦新升级了一个扶持计划,要让AI创作者不再“为爱发电”
量子位· 2025-08-10 04:11
核心观点 - AIGC时代下AI创作圈现状为模型强大但出圈创作者稀少 [1][2] - 即梦AI通过升级"创作者成长计划"解决行业顽疾,构建从创作到变现的全链路 [3][16] - 计划已扶持3802位创作者,累计获得2800w+积分,超百位创作者人均商单金额超6万元,多部作品播放量破千万 [4][11] - 升级后计划覆盖全成长路径、多类型创作,并提供国际影节、商单等高价值资源 [5][6][7] 行业现状 - AI创作工具分散、流程割裂导致效率低下 [8] - 内容同质化严重,创作者灵感枯竭 [8] - 多数创作者缺乏资源与破圈机会,商业转化困难 [8] 即梦AI创作者成长计划升级亮点 扶持机制 - **全覆盖**:覆盖潜力新星、进阶创作者、超级创作者全路径,提供基础激励到顶级资源的专属权益 [5] - **多回报**:积分奖励(站内发布/站外同步)、流量扶持、爆款内容现金奖励(2000元/人) [5] - **高价值**:提供国际影节展映、字节系商单等资源,助力行业认可 [6] - **全类型**:纳入平面创作,不限创作形式 [7] 分层权益 - **潜力新星**:爆款灵感奖励88积分/条,短片奖励888积分/条 [12] - **进阶探索**:审核加入奖励1000积分+基础会员1个月,优质短片3000积分/条,精选短片20000积分/条,站外同步奖励最高2000元/人 [13] - **超级创作者**:每月10000积分+会员权益,优先参与国际项目,商单资源倾斜,单项目最高支持50万元 [14] 战略目标 - **平台层面**:通过优质内容吸引用户,构建创作者与平台深度绑定的活跃社区 [18][19] - **行业层面**:通过激励和商业化路径推动行业向专业化、创意化发展,形成商业闭环 [19] - **社会层面**:降低创作门槛,助力多元文化表达及本土AI作品国际化 [19] 历史对标 - 复刻图文/短视频平台成功路径,通过流量和商业扶持构建优质内容生态 [20]
别焦虑!不会用AI也不会被淘汰,工程师老哥实测各类工具:10倍生产力神话太夸张了
量子位· 2025-08-10 04:11
AI在软件开发中的实际应用 - AI在样板代码和一次性脚本编写方面表现优异 例如React和JavaScript基础代码以及ESLint规则生成 [8] - AI难以理解大型代码库上下文 在文档查找和测试修复等复杂任务中效率低下 [8] - AI存在虚构代码库和违反代码标准的问题 可能引发安全漏洞 [9] AI生产力提升的局限性 - "10倍生产力"神话不切实际 软件工程涉及产品构思 用户访谈等多环节 AI无法全面加速 [15][16] - 工程师核心工作是阅读和思考 AI无法提升编译 测试等非编码环节效率 [17][18] - 代码库规模扩大时 AI错误率上升 工程师需频繁修正 [19][21] 工程师与AI的协作模式 - 工程师需将复杂任务拆解为小单元 避免AI因长文本处理出现逻辑混乱 [11] - 工程师需具备判断AI输出质量的能力 及时纠正错误或重新引导 [12][13] - 过度依赖AI可能导致工程师面临生产力瓶颈 需保持独立审查能力 [22] 行业认知误区分析 - AI创业公司和投资者可能夸大AI工具的实际效能 [29] - 培训机构和雇主通过制造焦虑来维持员工稳定性 [30][31] - 实际调查显示高级工程师效率仅比普通工程师高2倍 不存在持续10倍产出的个体 [24] 开发者职业发展建议 - 工程师应根据个人偏好选择是否使用AI工具 无需强制适应 [33] - 优秀的技术管理者应避免制造焦虑 信任工程师的专业判断 [34] - 保持工作与生活的平衡比盲目追求技术工具更重要 [42]
又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同
量子位· 2025-08-10 04:11
模型性能突破 - 27M参数小模型HRM在推理任务上超越o3-mini-high和DeepSeek-R1等大模型,且不依赖思维链技术[1][4][6] - 仅用1000个训练样本即解决极端数独和30x30迷宫等复杂任务,并在ARC-AGI测试中以40.3%准确率碾压Claude 3.7 8K(21.2%)和o3-mini-high(34.5%)[7][8][27] - 在9x9极端数独任务中实现接近100%准确率,而同类Transformer模型完全失效(0%)[27] 技术架构创新 - 采用仿脑设计的双层循环模块:高层模块负责抽象规划(慢节奏),低层模块处理细节计算(快节奏),通过时间尺度分离实现协同[10][12] - 引入分层收敛机制防止过早收敛,低阶模块根据高阶目标动态调整计算周期[16][18] - 近似梯度技术减少内存消耗,训练效率提升,内存需求恒定[19] - 深度监督机制分阶段评估学习效果,类似单元测试模式[20][21][22] - 自适应计算时间动态分配算力,简单任务快速响应,复杂任务延长计算[23][24] 行业影响与评价 - 模型参数仅2700万,但性能超越1.75亿参数Transformer(30x30迷宫任务中后者准确率<20%)[29] - 被部分观点认为可能颠覆Transformer架构,成为神经网络重大进步[31] - 设计对过拟合有极强抵抗力,专注特定领域时表现优于通用大模型[30] 开发者背景 - 创始人王冠为00后清华校友,曾独立开发GitHub 5.1k星项目OpenChat,多次拒绝马斯克xAI邀请[33][34][35][36] - 2024年创立Sapient Intelligence并获数千万美元融资,目标打造全新推理架构[38]
代季峰陈天桥联手AGI首秀炸场!最强开源深度研究模型,GAIA测试82.4分超OpenAI
量子位· 2025-08-09 09:53
核心观点 - MiroMind ODR是最强开源深度研究模型,性能在GAIA测试中达到82.4分,超越Manus、OpenAI DeepResearch等开源闭源模型[1][2] - 该项目实现全开源可复现,包括核心模型、数据、训练流程、AI Infra、DR Agent框架[4] - 团队计划每月更新一次开源内容,项目为一个季度的研发成果[5] - 项目开放深度研究的四个子项目:MiroFlow(Agent框架)、MiroThinker(模型)、MiroVerse(数据)、MiroTrain(训练基础设施)[20] 模型性能 - GAIA测试得分82.4,显著高于OpenAI DeepResearch(67.4)、Manus(73.3)、Aworld(未明确数值)、WebShaper(60.9)[5] - MiroThinker在GAIA-Text-103上取得SOTA性能60.2%,接近OpenAI DeepResearch[24] - 支持联网搜索,演示显示手机端部署可能性[6][15] 开源内容 - MiroFlow:支持主流工具调用,扩展大语言模型,GAIA复现性能82.4[22] - MiroThinker:原生支持工具辅助推理的大语言模型,GAIA表现最佳[23] - MiroVerse:提供147K开源训练数据,每月更新高质量数据集[26] - MiroTrain:覆盖完整Deep Research训练流程,支持长文本和RL训练[27] 团队背景 - 核心人物代季峰为清华大学电子工程系副教授,计算机视觉领域专家[32][33] - 发表国际期刊会议论文80余篇,总引用超6万次,h-index 68[36][37] - 主导开发InternVL多模态模型,Hugging Face下载量超1000万次[38] - 曾任职微软亚洲研究院、商汤研究院,现加盟盛大网络筹备AI创业公司[41][42][43] 产品特点 - 演示显示支持单轮次英文对话,思考过程与结果分区明确[11][12] - 工作流导览指引可查看指定节点[13] - 公司使命为打造具备自我意识的数字生命体,实现安全有益的AGI[45] 相关资源 - 官网提供Demo体验[7][47] - GitHub、Hugging Face等平台已开源项目内容[47] - 团队早期成果MiroMind-M1基于Qwen-2.5,专注数学推理能力[28][29]
实测谷歌AI故事书,我实现漫画和绘本自由了
量子位· 2025-08-09 09:53
产品功能 - 谷歌Gemini推出StoryBook工具,可在30秒内生成10页故事书,支持中文且完全免费[1][2][4] - 支持用户输入故事描述并添加文件/图片,AI自动生成带朗读旁白的个性化故事书[4][5] - 生成速度稳定,测试显示英文提示词平均耗时30-40秒,中文提示词约1分钟[10][15][25] 技术表现 - 图像风格一致性优秀,能准确捕捉参考图片细节(如毛色、道具颜色)并融入故事[17] - 支持多艺术风格切换,包括黏土动画、日漫等,且保持主题要素完整[9][19][22] - 中文生成效果未打折,甚至超额输出12页内容(原设定10页)[25][28] 应用场景 - 儿童教育:可定制主题帮助克服恐惧、传递分享/团结等价值观[9][14][25] - 学习工具:能将科普知识(如辨认可食用植物)故事化[29][30] - 展示工具:适配严肃主题如濒危物种科普,面向成人受众[32] 用户反馈 - 网友评价创作门槛显著降低,生成内容质量超出预期[23][34] - 教育场景吸引力强,尤其适合外语入门学习(简单用词+AI朗读)[37] - 创作者群体认为适应AI工具比抵制更具实际意义[35] 产品优势 - 全流程无需修改,一次性生成且无显示额度限制[34] - 10页篇幅剧情完整,要素齐全,符合目标受众认知水平[22][28] - 灵活性高,可通过调整提示词实现跨年龄层、跨主题应用[6][32]
4个月,创建20万个应用,这是背后的产品|对话百度秒哒
量子位· 2025-08-09 07:01
产品核心数据与市场定位 - 百度秒哒平台4个月内用户创建20万个无代码应用 [1] - 该数据在国内零代码领域处于TOP级别 [3] - 平台支持多智能体协作开发架构 集成百度地图 搜索 语音等生态能力 [8][19] - 后端支持一键部署数据库 实现长期数据存储功能 [24] 零代码产品定义与用户定位 - 零代码指应用生成 调试 部署 运维全流程脱离编码 [9] - 目标用户为无编程经验的群体 重点释放80亿非程序员人群的创意潜力 [11][13] - 3000万程序员与80亿非程序员创意潜力存在数量级差距 [13] - 典型用户包括文科生 艺术生及各行业从业者 其创意更贴近实际场景需求 [13] 交互设计与技术实现 - 采用LUI自然语言交互与GUI图形界面结合的混合模式 [15] - 初始创建阶段以对话式交互为主 后续迭代支持图形化微调 [15] - 智能体可调用百度生态工具 如地图API 短信服务等云能力 [19][21] - 系统自动匹配UI组件库 生成结果具备随机性差异 [22] 产品迭代与用户反馈 - 3月上线后新增数据库存储功能 解决用户数据持久化需求 [24] - 正在开发智能体行为可视化功能 展示PRD撰写 代码生成等过程 [24] - 通过"指令优化"功能辅助用户结构化表达需求 [28] - 支持多模态输入 允许上传图片草图生成应用 [28] 典型用户案例与生态建设 - 平台涌现"上班摸鱼神器"等创意应用 含蓝屏模拟 病毒警报等功能 [40][41] - 50岁医生成功搭建医院官网并上线百度搜索 [42] - 应用广场支持作品复制与二次开发 形成创意滚雪球效应 [43] - 设立用户社群与共创计划 功能迭代采纳用户投票建议 [52] 未来发展规划 - 分三阶段推进:C端工具→小B端商业支持→企业级系统建设 [46][48] - 2023年完成C端与小B端功能交付 启动企业级开发 [49] - 将提供源码下载功能保留底层调整灵活性 [45] - 实现域名购买 云部署等一站式服务 简化运维流程 [45]