量子位
搜索文档
61岁贝佐斯创业物理AI!亲任CEO,首轮获投62亿美元融资
量子位· 2025-11-18 00:59
公司创立与领导层 - 杰夫·贝佐斯创立新公司Project Prometheus并亲自担任联席CEO [1][2][6] - 公司已获得62亿美元(约合人民币440亿元)的雄厚资金支持 [3][8] - 联合首席执行官为物理学家兼化学家Vik Bajaj,其拥有宾夕法尼亚大学生物化学学士/硕士、MIT物理化学博士及UC伯克利博士后背景 [12][14] 公司战略与研究方向 - 研究重点是将人工智能应用于机器人、药物设计和科学发现等物理任务 [9] - 技术方向聚焦于开发能够从物理世界学习的、比现有聊天机器人(如ChatGPT)学习方式更复杂的AI模型 [11] - 明确将技术应用于计算机、汽车、航空航天等高科技领域,并与贝佐斯对人类太空探索(如蓝色起源)的兴趣相吻合 [9][10] 团队与资源 - 员工规模已达上百人,其中包括从OpenAI、DeepMind等顶级人工智能公司招募的研究人员 [9] - 联合CEO Vik Bajaj具备丰富的跨界研发与创业经验,曾与谷歌联合创始人谢尔盖·布林在谷歌X合作,并参与创立Verily及Foresite Labs [14][15][16] 行业竞争格局 - 物理AI领域已有OpenAI、谷歌和Meta等科技巨头在研究相关技术,旨在加速物理科学领域的突破 [18] - 来自Meta、OpenAI和谷歌DeepMind的离职研究人员共同创立了Periodic Labs公司,并获得3亿美元支持,目标是构建“AI科学家”和自主实验室 [19] - 资本与顶尖人才正加速汇流,大型科技公司与初创企业在该领域展开激烈角逐 [21]
小红书提出社交大模型RedOne 2.0:兼听、敏行
量子位· 2025-11-18 00:59
文章核心观点 - 小红书NLP团队推出RedOne 2 0大模型 该模型面向社交网络服务场景 以强化学习为核心并结合轻量级监督微调 旨在解决传统方法在领域适配与通用能力平衡上的困境[1] - RedOne 2 0在显著压缩数据需求的前提下 实现了小模型对下游任务的快速适配 并同步保障模型的通用能力 提供高性价比、强泛化的LLM部署基座[7] - 模型在社交领域评测SNS-Bench上保持领先 同时在通用能力评测General-Bench上也有提升 尤其在指令跟随、科学推理、多语言等维度表现突出[1][2] 模型训练框架与技术创新 - 采用以RL主导的三阶段渐进式训练方法 包括主动探索、靶向微调和持续优化 从根本上缓解SFT训练导致的性能失衡问题[6][8] - 主动探索阶段利用RL的探索特性 让模型在SNS任务空间中自主学习并暴露能力短板 实现初步的领域迁移适配[10][11] - 靶向微调阶段基于识别到的困难样本构建靶向训练数据 并通过混合通用任务数据进行SFT 对能力缺口进行精确校准[13][14] - 持续优化阶段再次启用RL进行全局优化 深化模型与平台安全、用户体验等高级目标的对齐 得到行为更稳定、泛化能力更强的模型[16][17] 模型性能表现 - RedOne 2 0-4B模型在SNS-Bench上以67 57的平均分远超同量级开源模型 如Qwen3-4B的51 81分 并在General-Bench上从69 80提升至70 80[20][21] - RedOne 2 0 30B-A3B模型以极小的激活参数 在通用任务上的表现接近百亿参数模型 其General-Bench得分为75 17 接近部分超大模型[20] - 在SNS-TransBench翻译能力评测中 RedOne 2 0系列达到同尺寸模型顶尖水平 例如4B模型得分为47 67 显著高于Qwen3-4B的38 22[20][21] - 消融实验证明 相比不同尺寸的基座模型 RedOne 2 0训练框架在社交领域和社交翻译任务上均带来显著的能力增强[20] 实际应用效果与商业价值 - 在线实验显示 基于RedOne 2 0的笔记标题个性化重写使核心业务指标广告主价值提升了0 43%[27][28] - 内容质量得到全面优化 模糊标题比例减少11 9% 而实用性、真实性和互动性标题比例分别提升7 1%、12 9%与25 8%[27][28] - 实例研究表明 RedOne 2 0生成的标题更具感染力和互动性 例如使用生动描述增强情感共鸣 有效激发用户好奇心和点击意愿[32][33][34] 未来发展方向 - 团队计划进一步拓展RedOne 2 0在SNS中的多模态与多语言能力 探索其在图文交错内容、视频内容理解、跨文化沟通等复杂场景的应用潜力[35] - 旨在将这一以强化学习为主的渐进式训练框架推广至金融、医疗、教育等更多垂直领域 解决专业场景中领域适应与通用能力平衡的挑战[35] - 将持续优化训练效率 推动轻量化模型在边缘设备上的部署 为实现更普惠、可信、高效的人工智能服务提供技术基础[36]
AI为啥不懂物理世界?李飞飞、杨立昆:缺个「世界模型」,得学大脑新皮质工作
量子位· 2025-11-17 13:23
文章核心观点 - AI领域顶尖专家杨立昆和李飞飞均指出当前大语言模型的局限性,并强调发展“世界模型”是通往通用人工智能的关键路径[1][3][4] - “世界模型”的核心在于让AI系统具备理解物理世界、进行预测和规划的能力,其灵感来源于动物和人类大脑的智能行为学习机制[5][6][8] - 人类大脑新皮质的生成模型特性(如填补性、逐一性、无法忽视性)是实现模拟、想象和预测的基础,这为构建AI“世界模型”提供了神经科学依据[11][12][13][15][16][20][27][29][31][32] AI专家动态与研究转向 - 杨立昆计划离开Meta,筹备以“世界模型”为核心的AI公司[1] - 李飞飞提出AI未来应聚焦“空间智能”,而非单纯扩大语言模型规模[3] - 两位专家共同认为“世界模型”能弥补当前AI系统在物理理解、行为预测等方面的不足[4][6] 当前AI系统的局限性 - AI无法产出完全接近现实的视频,也未发明出能完成家务的实用机器人[5] - 系统缺乏对物理世界的理解,如距离、大小、远近等基本概念[5][6] - 过度依赖语言和符号,忽视了动物所展现的更基础、更早进化的智能行为[6] 人类感知特性与生成模型 - 人类感知具有三大属性:填补性(自动补全缺失信息)[12][13]、逐一性(一次只能选择一种解释)[15][17]、无法忽视性(一旦形成解读便难以推翻)[16][20] - 亥姆霍兹提出感知是“推断”过程,即大脑模拟现实而非直接感知输入[20][27] - 杰弗里·辛顿的“亥姆霍兹机器”通过生成与识别模式切换,实现了无监督学习手写数字识别与生成[21][22][25][26] - 生成模型能解释人类幻觉、做梦、睡眠及想象等机制,新皮质在生成模式下可模拟现实[27][28][29] “世界模型”的智能行为基础 - 大脑新皮质支持规划、情景记忆和因果推理等高级智能行为[33] - 想象力与感知共享同一系统,想象时瞳孔扩张,实际视觉处理暂停[30] - 预测能力依赖持续对比模拟数据与实际感觉,异常触发即时反应(如踩空警觉)[31][32] 行业应用与前沿探索 - 麦克斯·班尼特通过研究大脑进化史,著书《智能简史》架起神经科学与AI的桥梁[10][35] - 其创立的AI公司Alby致力于整合大语言模型至企业网站,提升智能化导购与搜索体验[37] - 班尼特曾联合创立的Bluecore估值突破10亿美元,为全球顶尖公司提供AI技术服务[37]
小扎再出奇招:Meta员工绩效,AI来评判
量子位· 2025-11-17 13:23
Meta公司AI绩效改革 - 从2026年起AI使用情况将与员工绩效挂钩直接影响内部评级和奖励[8][9][12] - 2025年对AI使用娴熟的员工将给予奖励但2024年考核暂不作为评分指标仅鼓励在自我评价中报告AI成果[12] - 推出内部AI助手Metamate帮助员工撰写绩效评估内容该工具可搜索员工文件并生成工作成果摘要但存在生成不准确或不完整总结的问题[16][17][18] 行业AI融合趋势 - 大型科技公司如微软、谷歌、亚马逊均强硬将AI融入员工工作其中谷歌跟踪工程师借助AI节省的工作时间微软尝试将AI使用与绩效评估挂钩[23] - 使用AI在这些公司中已成为强制性要求而非可选项行业普遍购买软件监控员工AI依赖程度[23][24] - Meta在招聘中允许面试者笔试环节使用AI写代码内部通过仪表盘追踪AI使用情况并为员工设定AI使用目标同时设立"Level Up"激励计划根据使用等级授予徽章奖励[21] 公司战略背景 - Meta近期动作频繁包括大规模裁员和挖角AI人才明确传递All in AI的战略决心[1][21] - 公司通过多种措施强化AI文化包括强制AI使用目标和游戏化激励系统体现其对AI转型的激进投入[21]
GPT-5败下阵,这款中国AI拿下全球第一,众多医生已在用它做诊断
量子位· 2025-11-17 13:23
政策背景与行业痛点 - 基层医生工作负荷高,病种繁杂且节奏快,缺乏时间进行查文献、请会诊等操作[1][2] - 慢病患者增多导致随访任务日益繁重,诊室外工作难以应付[3] - 国家卫健委发布《促进和规范"人工智能+医疗卫生"应用发展的实施意见》,将"人工智能+基层应用"列为八大重点方向之首[4] - 政策目标为到2030年基层诊疗智能辅助应用基本实现全覆盖[5] 未来医生AI工作室核心优势 - 其核心模型MedGPT在由32位顶尖临床专家组织的多模型临床实战测评中,击败OpenAI-o3、DeepSeek-R1等国际前沿模型,夺得临床"安全"与"有效性"评测全球第一[13] - 测评基于2069道从真实病历中整理的开放式问题,MedGPT总分第一,领先第二名15.3%,安全性得分比全部模型平均水平高出近70%[16][17] - 模型底层架构围绕临床推理、安全可控、循证链可追溯打造,目标为每一句话都安全、可验证、能复盘,与通用大模型根据概率生成内容的路线完全不同[19] 临床决策AI助手功能特点 - 专为诊中环节设计,充当医生的"智能参谋",帮助在高强度工作中快速厘清风险点、用药安全及遗漏关键[23][24][25] - 工作方式贴合临床实际:支持口语输入、思考过程可视化、自动梳理症状链与风险点、只引用高等级医学证据并附证据卡[26] - 在典型疑难病例盲评中,于所有临床决策维度上均优于GPT-5和OpenEvidence[30][31] - 多位专家反馈其能帮助医生更快看到风险点,理清复杂病例,让基层医生也能像专家那样看病例[29][34] 患者随访AI助手功能特点 - 专为诊后慢病管理设计,能自动提醒患者复查、记录症状、调整生活方式,并对普通健康咨询即时答复[44][48] - 当出现药物调整、症状加重等医疗问题时会自动上浮医生确认,并能识别"胸闷""头晕"等高危词进行风险预警[48] - 社区医生及大医院专家反馈其能帮助关注已出院但仍需管理的患者,让随访更省心,实现"看得更远"[45][46][47] 产品设计理念与市场认可 - 产品设计坚持"人机协同"哲学,医生是所有诊疗行为的核心,AI仅提供思路提示、证据索引和风险提示,医生掌握最终判断权[62][63] - 通过可回溯、可解释、可预警三层设计,精准击中医生对安全性、可控性的需求,提供三重安全感[59][60][64] - 已被数十位全国学科主委纳入日常使用,被临床主委专家们一致认为是AI赋能基层医疗的"最佳实践"[67][68][74]
2位斯坦福顶流博士,携手具身创业
量子位· 2025-11-17 13:23
公司概况与产品发布 - 由斯坦福具身智能领域顶尖学者赵子豪与迟宬联合创办的机器人公司Sunday近日曝光,并宣布将于11月19日发布产品[1] - 公司宣称其产品将成为像Macintosh、iPhone、ChatGPT一样的划时代产品,并已让机器人具备猫级智能[4][6] - 公司目前处于高度保密状态,官网仅显示“敬请期待”,推特主页仅发布两条演示视频[12][13][14] 技术演示与硬件特点 - 第一条演示视频展示机器人操作全尺寸意式咖啡机,动作流畅连贯,具备毫米级精度和扭矩管理能力[15][16][33] - 第二条演示视频展示机器人夹取物品,末端执行器设计独特,可能基于ALOHA低成本硬件基础进行创新[19][20][21] - 从泄露图片推测,新产品可能为带手臂的人形机器人,设计风格在“可爱”与“实用”间寻求平衡[23][27][29] 创始人背景与技术路线 - 赵子豪为ALOHA、ACT、Mobile ALOHA等明星项目的核心作者,并参与谷歌Open X-Embodiment数据集和手术机器人项目[38] - 迟宬为UMI、Diffusion policy的一作,同时是Open x-embodiment和Droid数据集的贡献者[47][49] - 公司采用从硬件到人工智能的全栈技术路线,在硅谷以软硬件分离为主的生态中显得另类[33][36][37] 行业资源与资金支持 - 公司已获得风投机构Conviction的早期投资意向,创始人强调初创企业在灵活性和执行速度上的优势[52][54][56] - 创始人拥有斯坦福系在具身智能领域的深厚人脉,包括Sergey Levine、Chelsea Finn、宋舒然等知名学者[41][44][50] - 产品发布前已获得Andrej Karpathy、Kevin Weil、David Singleton等行业大佬的公开站台[2][27][50]
今日截止!AI年度榜单申报最后冲刺,错过再等一年
量子位· 2025-11-17 13:23
组委会 发自 凹非寺 量子位|公众号 QbitAI 「2025人工智能年度榜单」将于今日截止申报。 本次评选已经从 企业 、 产品 、 人物 三大维度,设立五类奖项。 欢迎企业抓住最后时间,尽快报名! 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 报名方式 本次评选将于 今日 截止。评选结果将于12月10日 MEET2026智能未来大会 上正式公布。 扫描二维码即可报名评选: 网页端链接:https://wj.qq.com/s2/23740133/iso8/ 如对本次评选有其他疑问,请联系量子位工作人员。添加微信18801103170,或邮件发送至linyu@qbitai.com,并备注「评选-企业-姓 名」。 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用 ...
成本暴降99%!万人大会系统全是AI生成的,Vibe Coding终于真上战场了
量子位· 2025-11-17 12:00
百度秒哒2.0平台核心能力升级 - 无代码对话式应用搭建平台"秒哒"宣布进化至2.0版本,实现从"可玩"到"可用"的关键跨越 [1][3] - 平台通过多智能体协作模拟完整开发流程:产品经理智能体梳理需求、架构师智能体设计技术方案、程序员智能体负责前后端编码、测试员智能体保障应用质量 [42] - 相比传统纯人工开发,平台为企业级应用开发实现综合成本暴降99% [4] 全栈应用生成与部署能力 - 实现全栈应用一键生成,完整覆盖开发、调试、线上部署等环节,生成应用具备前后端逻辑、数据库及支付能力 [6][7] - 应用可一键发布至公网,支持搜索引擎曝光和微信小程序转化,域名证书配置后立即上线 [6][39][40] - 现场演示构建个人闲置物品电商平台,完整跑通商品上架、AI试衣、支付全流程 [5][7][10][11] 产品功能特性与实测表现 - 支持AI自动优化指令,将笼统需求转化为周全的需求说明,降低表达门槛 [22] - 集成微信支付、图像编辑、视频生成等插件,无需额外开发对接 [23] - 实测生成"北京小猫小狗领养平台"首次即成功,自动分类宠物信息并实现后台数据管理 [25][26][29][30] - 可生成复杂交互应用如"狗了个狗"小游戏、视频网站(含弹幕评论功能)、双十一凑单助手等 [32][34][36][41] 生态整合与后端能力支撑 - 深度整合百度生态,直接调用百度地图、短信服务、语音搜索等成熟工具 [44] - 依托百度智能云实现支付、域名购买等商业功能一站式搞定 [45][46] - 后端能力升级至自动配置数据库,支持内容安全存储及长期增删改查操作 [48] 市场认可与应用规模 - 根据IDC报告,秒哒在服务集成、用户生态、应用复杂度支持等方面总体能力行业领先 [50][52] - 平台已诞生超过40万个应用,平均每分钟生成一个新应用,覆盖教育、电商、办公等场景 [55] - 海外版MeDo登上Product Hunt日榜榜首,显示全球市场接受度 [70][71] 行业影响与商业化潜力 - 平台释放非程序员群体(占人口99%)的数字化创造力,举办中国首届非程序员黑客松大赛 [56] - 涌现《技能五子棋》《化学分子结构分析》等创新应用,展示教育、垂直专业工具的商业化前景 [58][60][61][64] - 技术社区看好其在聚合内容平台、SVG设计工具、可视化仪表盘等垂直领域的应用潜力 [65]
这些大神在Meta的论文看一篇少一篇了
量子位· 2025-11-17 04:52
文章核心观点 - 研究揭示了大模型强化学习训练中参数更新稀疏性的内在机制,即模型条件优化偏差,而非表面上的稀疏现象[4][5] - 提出了三门理论,系统阐述了强化学习可验证奖励训练如何通过KL锚定、模型几何和精度过滤三个机制,将参数更新定位至特定区域[6][11] - 研究结果表明强化学习可验证奖励训练与监督微调在参数空间中的优化区域完全不同,这对参数高效微调方法的设计具有重要启示[18][25] 研究背景与现象观察 - 观察到推理模型通过大规模强化学习可验证奖励训练获得能力大幅提升,但参数更新却异常稀疏,形成高收益、低变化的悖论[8][9] - 具体数据显示监督微调的稀疏度仅为0.6%到18.8%,而强化学习的稀疏度高达36%到92%,相差一个数量级[9] - 分析涵盖多个开源模型,包括Qwen系列和DeepSeek-R1等,这些模型经过超过3000步的长时间强化学习训练[9] 三门理论机制分析 - **第一门KL锚定**:通过策略KL界限确保每次更新不会让模型输出风格大幅偏离,限制了参数的移动范围[12][13] - **第二门模型几何**:预训练模型具有高度结构化的几何特性,强化学习更新倾向于保持原始权重结构,偏向优化景观中的低曲率方向[14][15] - **第三门精度过滤**:bfloat16的有限精度隐藏了微小更新,只有持续更新路由到特定参数子集时,存储的值才会改变,表现为稀疏性[17] 实验验证与发现 - 通过奇异值分解分析发现强化学习更新与主成分权重的重叠度始终低于随机水平,强烈倾向避开这些权重[18] - 因果性验证实验显示,故意扰乱模型特定层的几何结构后,更新重叠度降至随机水平,证明预训练模型的几何结构是优化偏差来源[20] - 光谱分析表明强化学习可验证奖励检查点在顶部主成分内表现出明显稳定的谱,而监督微调引起了显著更大的旋转和漂移[23] 对参数高效微调方法的启示 - 许多监督微调时代的参数高效微调方法在强化学习可验证奖励训练中迁移效果很差[25] - 实验发现仅更新主成分权重会产生最差的优化轨迹,而更新非主成分、低幅度权重能够紧密跟踪密集强化学习可验证奖励轨迹[26][27] - 对于LoRA变体,主成分定向的PiSSA在较高学习率下经常变得不稳定并提前崩溃,因为强制沿主方向更新会触及强化学习可验证奖励倾向于避免的高曲率区域[28][29]
Gemini 3“超前点映”效果炸场,巴菲特305亿重仓谷歌
量子位· 2025-11-17 04:52
Gemini 3性能表现 - 用户实测反馈模型表现非常强大[2] - 具备多游戏融合能力,可在网页创建《我的世界》风格塔防游戏[4] - 使用SVG动画在网页端复刻可运行宝可梦的Switch模拟器[4] - SVG图形绘制能力显著提升,绘制苹果手机已无矢量元素拼接不真实感[17] - SVG支持交互功能,如可调节开关和风速的网页版风扇[20] - 可创建画风逼真且支持移动探索的《我的世界》风格竞技场[22] - 能够克隆带有可播放视频的YouTube网页[24] 市场关注与热度 - 模型关注度相当火热[6] - 有机构发起竞猜活动,消息获谷歌CEO转发并配耐人寻味表情[7] - 投资界因超前点映表现开始蠢蠢欲动[26] - 巴菲特旗下伯克希尔·哈撒韦公司重仓43亿美元(约305亿人民币)加仓Alphabet[27][28] - Alphabet已成为该集团第十大最有价值持股[31] 公司战略与市场地位 - 谷歌运用全栈优势追赶AI竞争,包括自研模型、庞大分销产品和云业务基础设施支持[35] - 随着Nano Banana发布,使用Gemini用户快速飙升,AI增强谷歌核心广告业务[36] - 公司股价今年以来飙升46%,AI需求推动云业务并巩固搜索和YouTube统治地位[34] - 要求CEO辞职呼声因业务增长逐渐平息[37] - 巴菲特承认多年前未买入谷歌是错失良机[38] 产品发布动态 - Gemini 3超前点映入口已出现在APP和网页端[8][10] - 第三方平台OpenRouter据传也藏有Gemini 3.0[14] - 除Gemini 3外,Nano Banana 2据传将于本周发布[39] - 知情人士表示谷歌本周还将有其他发布内容[40]