Workflow
量子位
icon
搜索文档
聊AI,当然得来量子位MEET大会!
量子位· 2025-11-18 05:02
大会概况 - 大会主题为“共生无界,智启未来”,关注AI技术穿透产业、学科与场景边界,成为社会演进核心动能 [3] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展 [4] - 内容涵盖学术前沿与商业落地碰撞,以及来自Infra、模型、产品产业的领先技术成果 [5] - 预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [64] 核心发布 - 大会将权威发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项 [6][60] - 将重磅发布年度AI趋势报告,提名释放巨大潜力的十大AI趋势并进行深入分析 [61] 嘉宾阵容(部分) - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁 [12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,曾主持国家973项目等20余项国家级项目 [17] - 王仲远:北京智源人工智能研究院院长,曾任职于快手、美团、Facebook,发表顶级学术论文100余篇,获得ICDE 2015最佳论文奖 [21][22][23] - 赵俊博:浙江大学百人计划研究员、蚂蚁集团资深技术专家,聚焦大模型与合成数据技术,首创数据库大模型TableGPT [27] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,中文Linux奠基人之一 [30] - 尤洋:潞晨科技创始人、新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲)等荣誉 [35][36] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者 [40] - 朱宁:上海交通大学上海高级金融学院金融学教授,研究涵盖行为金融学、中国宏观经济等领域 [44][45] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型,首倡“群体智能”理念 [48][49] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出“平台+应用+服务”大模型落地三级引擎战略 [53][54] - 乔梁:太初元碁联合创始人兼首席运营官,清华大学计算机系博士,长期从事高性能计算技术研究 [57][58]
32个随机数字,1分钟推演地球未来15天丨谷歌DeepMind
量子位· 2025-11-18 05:02
产品核心能力 - 谷歌DeepMind发布WeatherNext 2,实现天气预报的小时级、实时化更新[1][2] - 模型运行速度比上一代快8倍,在1个TPU上生成一次15天的全球预报仅需不到1分钟[6][21] - 模型分辨率达到小时级,可提供如“明天2-3点有小雨”的精细化预测[2] - 能够从相同输入生成几十至上百个可能的天气演化情景,提供概率化预测[4] - 99.9%的预测变量和时效性能超过上一代WeatherNext[7] 技术创新与性能 - 核心技术为新提出的功能生成网络(FGN),通过输入32维随机向量生成全球一致的天气变化模式[13][15][16] - FGN将低维噪声扩散成高维空间相关性,用32个数字生成高达8700万维的全球天气变化[18][19] - 模型整体表现全面超越之前最强的GenCast,预测误差更低、概率表现更好、空间结构更自然[19] - 在极端天气预测上能力显著,例如台风路径预测能比GenCast提前约24小时达到相同精度[19] 行业应用价值 - 精细化天气预报对能源系统协调负荷、城市管理安排人力、农业制定节奏至关重要[8][9] - 物流和航班等行业每天依赖天气预报进行决策,小时级预测提升决策效率与准确性[9] - 将大气系统视为混沌机器,微小扰动会影响未来天气,高精度模型有助于更早洞察极端天气影响范围[10][7]
金山与华科发布多模态模型MonkeyOCR v1.5:文档解析能力超越PaddleOCR-VL,复杂表格解析首次突破90%
量子位· 2025-11-18 05:02
行业背景与需求 - 多模态文档解析领域在2025年6月以来迎来新一轮研究热潮,成为多模态理解及大模型数据来源的重要前沿课题[2] - 文档智能解析技术是信息抽取、检索增强生成和自动化文档分析的核心基石,但现实世界中的复杂文档(布局复杂、表格嵌套、内含图片公式、跨页分布)对现有OCR系统构成挑战[2] - 传统OCR系统采用串联式流水线容易导致错误累积,而端到端模型则因文档图像高分辨率面临巨大计算瓶颈[5] 技术核心突破 - MonkeyOCR v1.5采用高效的两阶段解析管道:第一阶段进行布局分析与阅读顺序预测,第二阶段进行区域级内容识别,实现全局结构理解与细粒度内容识别的解耦[7][8][9] - 针对复杂表格推出三大创新方案:基于视觉一致性的强化学习方案通过奖励模型自我优化提升解析保真性;图像解耦表格解析通过先遮住图片再解析结构完美解决图片干扰问题;类型引导的表格合并采用规则匹配+BERT语义判别混合决策流程精准合并跨页表格[11][13][14][16] - 新框架在嵌入式图像恢复、跨页表格重建以及多列表格合并等关键功能上展现出更强应用潜力[5] 性能表现数据 - 在OmniDocBench v1.5基准测试中以93.01%的整体得分登顶榜首,超越前最佳模型PPOCR-VL(92.86%)和MinerU 2.5(90.7%)[18] - 在专门测试复杂表格的OCRFlux-complex数据集上取得90.9%的得分,领先PPOCR-VL(81.7%)达9.2个百分点[19] - 在OCRFlux-Total数据集上取得91.8%的得分,显著高于Nanonets-OCR(82.8%)、OCRFlux(86.1%)和PaddleOCR-VL(86.3%)[20] 应用场景优势 - 布局分析能准确识别所有图像和表格区域,大幅避免将表格误判为孤立文本和图片的错误[21] - 嵌入图像恢复功能能完美还原表格结构和其中所有嵌入图像,解决其他模型常见的图像丢失、表头丢失或结构错乱问题[25] - 跨页表格合并功能能完整重建跨页表格,消除因页眉/页脚造成的结构中断,而其他方法易被中途"截断"[27]
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
量子位· 2025-11-18 05:02
技术突破与核心优势 - 采用单一视觉Transformer架构实现从单张图像、多视角照片到视频的任意视图3D重建,极大简化了模型设计[1][2][7] - 模型核心预测目标仅聚焦于深度和光线两个关键参数,通过双任务头输出深度图和光线参数[7][10] - 在全新视觉几何基准测试中,相机定位精度平均提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2[3] 模型架构与工作流程 - 输入处理环节将多视角图像转化为特征块,相机参数通过编码器或可学习token处理,最终与图像特征融合[9] - 核心Transformer基于预训练的DINO,通过单视角自注意力和跨视角自注意力机制适应不同输入形式[9] - 除了深度和光线预测,模型还能从特征中提取相机姿态信息,确保相机运动轨迹精准[11] 训练策略与性能表现 - 采用师生蒸馏训练策略,利用教师模型从海量数据生成高质量伪标签,降低对精确标注数据的依赖[13][14] - 在整合了5个室内外数据集的基准上,模型能生成密度更高、噪声更低的3D点云,质量明显优于传统方法[14][16][17] - 支持从少量场景图片进行视角补全,生成未拍摄角度的图像,在虚拟漫游和数字孪生领域应用潜力巨大[19] 团队背景与行业影响 - 项目由字节跳动研究科学家康炳易带队,其领导的Depth Anything系列此前已被苹果CoreML库收录[20][25] - 核心研究人员拥有加州伯克利和新加坡国立大学人工智能专业背景,并与谢赛宁等业内专家有过合作[23][24]
马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
量子位· 2025-11-18 00:59
大模型竞技场排名表现 - Grok 4.1思考模式以1483的Elo分数位居大模型竞技场榜首,领先非xAI模型最高分31分[2] - Grok 4.1非思考模式以1465分排名第二,超越公开排行榜上所有其他模型的完整推理模式[3] - 相比之前Grok 4仅排第33位,xAI在不到半年时间实现巨大飞跃[4] - 在大模型竞技场新推出的专家榜上,Grok 4.1思考模式以1510分排名第一[5][6] - 在职业榜八个细分领域中,Grok 4.1在文学榜输给Gemini 2.5,数学榜输给Claude 4.5和o3,其他六个榜单均拿下第一[6] 技术性能提升 - 在EQ-Bench情商测试中,Grok 4.1表现超过刚发布不久的Kimi K2(非Thinking版本)[9] - 从11月1日起新版模型逐步推送用户,盲测对比评估显示64.78%的用户更喜欢新版[13] - 关闭推理功能后,输出标记数从约2300个减少到850个,实现快速回复模式特别加强[23] - 在后训练阶段专注于减少信息检索提示中的事实性幻觉,幻觉发生率显著降低[25] - 在包含500个个人传记问题的FActScore测试中,非推理模式成绩比前一代有明显改善[26] 功能特性改进 - 在创造性、情感性和协作性互动方面带来显著改进,模型更善于捕捉细微意图,对话更有吸引力[18] - 响应情感问题时表现出更强同理心,回答更加细腻和人性化[18] - 创意写作能力明显提升,回答更具文学性和思想深度[18] - 可以输出图文并茂的回答,展示多模态能力[26] - 团队使用大规模强化学习基础设施,将RLHF推向前所未有的高度,RL规模扩大一个数量级[19][20][22] 市场推广情况 - Grok 4.1已在grok.com、X平台以及iOS和Android应用上向所有用户开放[27] - 模型默认以自动模式推出,用户也可在模型选择器中明确选择Grok 4.1[27] - 由于模型刚发布,投票数还很少,等"Preliminary"标记消失后的成绩更有参考价值[8]
61岁贝佐斯创业物理AI!亲任CEO,首轮获投62亿美元融资
量子位· 2025-11-18 00:59
公司创立与领导层 - 杰夫·贝佐斯创立新公司Project Prometheus并亲自担任联席CEO [1][2][6] - 公司已获得62亿美元(约合人民币440亿元)的雄厚资金支持 [3][8] - 联合首席执行官为物理学家兼化学家Vik Bajaj,其拥有宾夕法尼亚大学生物化学学士/硕士、MIT物理化学博士及UC伯克利博士后背景 [12][14] 公司战略与研究方向 - 研究重点是将人工智能应用于机器人、药物设计和科学发现等物理任务 [9] - 技术方向聚焦于开发能够从物理世界学习的、比现有聊天机器人(如ChatGPT)学习方式更复杂的AI模型 [11] - 明确将技术应用于计算机、汽车、航空航天等高科技领域,并与贝佐斯对人类太空探索(如蓝色起源)的兴趣相吻合 [9][10] 团队与资源 - 员工规模已达上百人,其中包括从OpenAI、DeepMind等顶级人工智能公司招募的研究人员 [9] - 联合CEO Vik Bajaj具备丰富的跨界研发与创业经验,曾与谷歌联合创始人谢尔盖·布林在谷歌X合作,并参与创立Verily及Foresite Labs [14][15][16] 行业竞争格局 - 物理AI领域已有OpenAI、谷歌和Meta等科技巨头在研究相关技术,旨在加速物理科学领域的突破 [18] - 来自Meta、OpenAI和谷歌DeepMind的离职研究人员共同创立了Periodic Labs公司,并获得3亿美元支持,目标是构建“AI科学家”和自主实验室 [19] - 资本与顶尖人才正加速汇流,大型科技公司与初创企业在该领域展开激烈角逐 [21]
小红书提出社交大模型RedOne 2.0:兼听、敏行
量子位· 2025-11-18 00:59
文章核心观点 - 小红书NLP团队推出RedOne 2 0大模型 该模型面向社交网络服务场景 以强化学习为核心并结合轻量级监督微调 旨在解决传统方法在领域适配与通用能力平衡上的困境[1] - RedOne 2 0在显著压缩数据需求的前提下 实现了小模型对下游任务的快速适配 并同步保障模型的通用能力 提供高性价比、强泛化的LLM部署基座[7] - 模型在社交领域评测SNS-Bench上保持领先 同时在通用能力评测General-Bench上也有提升 尤其在指令跟随、科学推理、多语言等维度表现突出[1][2] 模型训练框架与技术创新 - 采用以RL主导的三阶段渐进式训练方法 包括主动探索、靶向微调和持续优化 从根本上缓解SFT训练导致的性能失衡问题[6][8] - 主动探索阶段利用RL的探索特性 让模型在SNS任务空间中自主学习并暴露能力短板 实现初步的领域迁移适配[10][11] - 靶向微调阶段基于识别到的困难样本构建靶向训练数据 并通过混合通用任务数据进行SFT 对能力缺口进行精确校准[13][14] - 持续优化阶段再次启用RL进行全局优化 深化模型与平台安全、用户体验等高级目标的对齐 得到行为更稳定、泛化能力更强的模型[16][17] 模型性能表现 - RedOne 2 0-4B模型在SNS-Bench上以67 57的平均分远超同量级开源模型 如Qwen3-4B的51 81分 并在General-Bench上从69 80提升至70 80[20][21] - RedOne 2 0 30B-A3B模型以极小的激活参数 在通用任务上的表现接近百亿参数模型 其General-Bench得分为75 17 接近部分超大模型[20] - 在SNS-TransBench翻译能力评测中 RedOne 2 0系列达到同尺寸模型顶尖水平 例如4B模型得分为47 67 显著高于Qwen3-4B的38 22[20][21] - 消融实验证明 相比不同尺寸的基座模型 RedOne 2 0训练框架在社交领域和社交翻译任务上均带来显著的能力增强[20] 实际应用效果与商业价值 - 在线实验显示 基于RedOne 2 0的笔记标题个性化重写使核心业务指标广告主价值提升了0 43%[27][28] - 内容质量得到全面优化 模糊标题比例减少11 9% 而实用性、真实性和互动性标题比例分别提升7 1%、12 9%与25 8%[27][28] - 实例研究表明 RedOne 2 0生成的标题更具感染力和互动性 例如使用生动描述增强情感共鸣 有效激发用户好奇心和点击意愿[32][33][34] 未来发展方向 - 团队计划进一步拓展RedOne 2 0在SNS中的多模态与多语言能力 探索其在图文交错内容、视频内容理解、跨文化沟通等复杂场景的应用潜力[35] - 旨在将这一以强化学习为主的渐进式训练框架推广至金融、医疗、教育等更多垂直领域 解决专业场景中领域适应与通用能力平衡的挑战[35] - 将持续优化训练效率 推动轻量化模型在边缘设备上的部署 为实现更普惠、可信、高效的人工智能服务提供技术基础[36]
AI为啥不懂物理世界?李飞飞、杨立昆:缺个「世界模型」,得学大脑新皮质工作
量子位· 2025-11-17 13:23
文章核心观点 - AI领域顶尖专家杨立昆和李飞飞均指出当前大语言模型的局限性,并强调发展“世界模型”是通往通用人工智能的关键路径[1][3][4] - “世界模型”的核心在于让AI系统具备理解物理世界、进行预测和规划的能力,其灵感来源于动物和人类大脑的智能行为学习机制[5][6][8] - 人类大脑新皮质的生成模型特性(如填补性、逐一性、无法忽视性)是实现模拟、想象和预测的基础,这为构建AI“世界模型”提供了神经科学依据[11][12][13][15][16][20][27][29][31][32] AI专家动态与研究转向 - 杨立昆计划离开Meta,筹备以“世界模型”为核心的AI公司[1] - 李飞飞提出AI未来应聚焦“空间智能”,而非单纯扩大语言模型规模[3] - 两位专家共同认为“世界模型”能弥补当前AI系统在物理理解、行为预测等方面的不足[4][6] 当前AI系统的局限性 - AI无法产出完全接近现实的视频,也未发明出能完成家务的实用机器人[5] - 系统缺乏对物理世界的理解,如距离、大小、远近等基本概念[5][6] - 过度依赖语言和符号,忽视了动物所展现的更基础、更早进化的智能行为[6] 人类感知特性与生成模型 - 人类感知具有三大属性:填补性(自动补全缺失信息)[12][13]、逐一性(一次只能选择一种解释)[15][17]、无法忽视性(一旦形成解读便难以推翻)[16][20] - 亥姆霍兹提出感知是“推断”过程,即大脑模拟现实而非直接感知输入[20][27] - 杰弗里·辛顿的“亥姆霍兹机器”通过生成与识别模式切换,实现了无监督学习手写数字识别与生成[21][22][25][26] - 生成模型能解释人类幻觉、做梦、睡眠及想象等机制,新皮质在生成模式下可模拟现实[27][28][29] “世界模型”的智能行为基础 - 大脑新皮质支持规划、情景记忆和因果推理等高级智能行为[33] - 想象力与感知共享同一系统,想象时瞳孔扩张,实际视觉处理暂停[30] - 预测能力依赖持续对比模拟数据与实际感觉,异常触发即时反应(如踩空警觉)[31][32] 行业应用与前沿探索 - 麦克斯·班尼特通过研究大脑进化史,著书《智能简史》架起神经科学与AI的桥梁[10][35] - 其创立的AI公司Alby致力于整合大语言模型至企业网站,提升智能化导购与搜索体验[37] - 班尼特曾联合创立的Bluecore估值突破10亿美元,为全球顶尖公司提供AI技术服务[37]
小扎再出奇招:Meta员工绩效,AI来评判
量子位· 2025-11-17 13:23
Meta公司AI绩效改革 - 从2026年起AI使用情况将与员工绩效挂钩直接影响内部评级和奖励[8][9][12] - 2025年对AI使用娴熟的员工将给予奖励但2024年考核暂不作为评分指标仅鼓励在自我评价中报告AI成果[12] - 推出内部AI助手Metamate帮助员工撰写绩效评估内容该工具可搜索员工文件并生成工作成果摘要但存在生成不准确或不完整总结的问题[16][17][18] 行业AI融合趋势 - 大型科技公司如微软、谷歌、亚马逊均强硬将AI融入员工工作其中谷歌跟踪工程师借助AI节省的工作时间微软尝试将AI使用与绩效评估挂钩[23] - 使用AI在这些公司中已成为强制性要求而非可选项行业普遍购买软件监控员工AI依赖程度[23][24] - Meta在招聘中允许面试者笔试环节使用AI写代码内部通过仪表盘追踪AI使用情况并为员工设定AI使用目标同时设立"Level Up"激励计划根据使用等级授予徽章奖励[21] 公司战略背景 - Meta近期动作频繁包括大规模裁员和挖角AI人才明确传递All in AI的战略决心[1][21] - 公司通过多种措施强化AI文化包括强制AI使用目标和游戏化激励系统体现其对AI转型的激进投入[21]
GPT-5败下阵,这款中国AI拿下全球第一,众多医生已在用它做诊断
量子位· 2025-11-17 13:23
政策背景与行业痛点 - 基层医生工作负荷高,病种繁杂且节奏快,缺乏时间进行查文献、请会诊等操作[1][2] - 慢病患者增多导致随访任务日益繁重,诊室外工作难以应付[3] - 国家卫健委发布《促进和规范"人工智能+医疗卫生"应用发展的实施意见》,将"人工智能+基层应用"列为八大重点方向之首[4] - 政策目标为到2030年基层诊疗智能辅助应用基本实现全覆盖[5] 未来医生AI工作室核心优势 - 其核心模型MedGPT在由32位顶尖临床专家组织的多模型临床实战测评中,击败OpenAI-o3、DeepSeek-R1等国际前沿模型,夺得临床"安全"与"有效性"评测全球第一[13] - 测评基于2069道从真实病历中整理的开放式问题,MedGPT总分第一,领先第二名15.3%,安全性得分比全部模型平均水平高出近70%[16][17] - 模型底层架构围绕临床推理、安全可控、循证链可追溯打造,目标为每一句话都安全、可验证、能复盘,与通用大模型根据概率生成内容的路线完全不同[19] 临床决策AI助手功能特点 - 专为诊中环节设计,充当医生的"智能参谋",帮助在高强度工作中快速厘清风险点、用药安全及遗漏关键[23][24][25] - 工作方式贴合临床实际:支持口语输入、思考过程可视化、自动梳理症状链与风险点、只引用高等级医学证据并附证据卡[26] - 在典型疑难病例盲评中,于所有临床决策维度上均优于GPT-5和OpenEvidence[30][31] - 多位专家反馈其能帮助医生更快看到风险点,理清复杂病例,让基层医生也能像专家那样看病例[29][34] 患者随访AI助手功能特点 - 专为诊后慢病管理设计,能自动提醒患者复查、记录症状、调整生活方式,并对普通健康咨询即时答复[44][48] - 当出现药物调整、症状加重等医疗问题时会自动上浮医生确认,并能识别"胸闷""头晕"等高危词进行风险预警[48] - 社区医生及大医院专家反馈其能帮助关注已出院但仍需管理的患者,让随访更省心,实现"看得更远"[45][46][47] 产品设计理念与市场认可 - 产品设计坚持"人机协同"哲学,医生是所有诊疗行为的核心,AI仅提供思路提示、证据索引和风险提示,医生掌握最终判断权[62][63] - 通过可回溯、可解释、可预警三层设计,精准击中医生对安全性、可控性的需求,提供三重安全感[59][60][64] - 已被数十位全国学科主委纳入日常使用,被临床主委专家们一致认为是AI赋能基层医疗的"最佳实践"[67][68][74]