大语言模型
搜索文档
NeurIPS 2025奖项出炉,Qwen获最佳论文,Faster R-CNN获时间检验奖
机器之心· 2025-11-27 03:00
NeurIPS 2025 会议概况 - 会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN》获得时间检验奖 [2] - 《Random synaptic feedback weights support error backpropagation for deep learning》获得Sejnowski-Hinton奖 [3] 最佳论文奖核心研究 - 论文《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》提出Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [5][6] - 研究揭示了语言模型在开放式生成中存在人工蜂群思维效应,包括模型内重复和模型间同质化 [6] - Infinity-Chat包含31,250条人工标注,每个样本有25位独立标注者参与 [8] - 论文为理解语言模型多样性、价值多元与社会影响做出重要贡献 [9] - 论文《Gated Attention for Large Language Models》首次系统分析注意力门控对大模型性能的影响 [12] - 研究证明门控机制通过增强注意力机制的非线性和提供输入相关稀疏性来提升性能 [12] - 门控机制能消除注意力池和巨量激活现象,提高训练稳定性并减少损失波动 [16] - 该方法已成功应用于Qwen3-Next模型,并在各尺寸架构上验证有效性 [16] - 论文《1000 Layer Networks for Self-Supervised RL》证明将网络深度增加到1024层可显著提升自监督强化学习性能 [18] - 在无监督目标条件设定下,该方法在对比式RL算法上将性能提升2×–50× [18] - 增加模型深度不仅提升成功率,还会在质量上改变学到的行为 [18] - 论文《Why Diffusion Models Don't Memorize》揭示了训练动力学中存在隐式动态正则化 [20] - 研究发现随着训练集大小N线性增长,模型泛化时间窗口变宽 [20] - 只有当N超过与模型相关的阈值时,过拟合才会在无限训练时间极限下消失 [20] 最佳论文亚军研究 - 论文《Optimal Mistake Bounds for Transductive Online Learning》解决了长达30年的公开难题 [30] - 研究精确刻画了传导式在线学习的最优错误上界为Ω(√d),并给出与之匹配的O(√d)上界 [30] - 这一结论确立了传导式在线学习与标准在线学习之间存在二次量级差距 [30] - 论文《Superposition Yields Robust Neural Scaling》论证表征叠加是支配神经网络缩放定律的主要机制 [33] - 研究不再停留在现象描述,而是为缩放定律提供了新的机制性洞见 [33] 时间检验奖研究 - 《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文已被引用超过56,700次 [40] - 该论文是第一个用完全可学习的两阶段pipeline取代selective search和手工设计候选框的方法 [41] - 实现了极高精度与接近实时(5 FPS)检测的统一,使目标检测模型得以真正部署到实际应用中 [40] Sejnowski-Hinton奖研究 - 获奖论文《Random synaptic feedback weights support error backpropagation for deep learning》提出了著名的反馈对齐机制 [46] - 研究证明多层网络可在无需对称反馈权重下有效学习,前向权重会自然与随机反馈信号对齐 [46] - 这项工作帮助建立了生物可行学习规则的全新研究方向 [47]
a16z前合伙人重磅科技报告:AI如何吞噬世界
华尔街见闻· 2025-11-26 12:08
文章核心观点 - 生成式人工智能正引发科技产业约每十至十五年一次的平台大迁移,其最终形态和主导者仍不明确 [1][4] - 科技巨头正以前所未有的规模投资AI基础设施,但模型性能趋同、用户参与度不足、企业部署缓慢等挑战并存 [4][11][23][27][33] - AI技术成功落地后将像过去的自动化技术一样融入基础设施,不再被称为"AI" [4][40][43] 平台转移的历史规律 - 科技产业大约每十到十五年经历一次平台转移,从大型主机到个人电脑,从万维网到智能手机,每一次都重塑行业格局 [5] - 早期领导者在平台转移中往往会消失,例如微软在个人电脑时代拥有接近100%的操作系统市场份额,但在智能手机时代变得无关紧要,其全球份额从2010年前后的高点降至2025年的不足20% [5] - 类似地,在个人电脑市场早期占据主导地位的苹果也曾被IBM兼容机边缘化 [5] 当前AI发展的不确定性 - 尽管ChatGPT的发布可能是下一次"十五年之变"的起点,但三年过去,对这次转移的最终形态依然所知甚少 [4][10] - 各种可能性令人眼花缭乱,包括浏览器形态、智能体形态、语音交互或全新的用户界面范式,没有真正答案 [10] - 互联网早期和移动互联网早期失败的想法(如美国在线AOL、雅虎门户、Flash插件)提示当前AI探索同样存在不确定性 [10] 科技巨头的投资竞赛 - 微软、亚马逊AWS、谷歌、Meta四家公司2025年资本支出预计将达到4000亿美元,超过全球电信行业全年约3000亿美元的投资规模 [4][11] - 这一2025年的增长计划几乎在年内翻了一番 [14] - 美国数据中心建设正在超越办公楼建设规模,成为新的投资周期驱动力 [17] AI基础设施的供应瓶颈 - 英伟达因无法跟上需求而面临供应瓶颈,其季度收入已超越英特尔多年的积累 [17] - 台积电同样无法或不愿足够快速地扩张产能以满足英伟达的订单需求 [17] - 美国数据中心建设的主要限制因素是公用电力供应,美国电力需求增长约为2%,而AI可能额外增加1%的需求,这在美国难以快速建设 [20] 模型性能趋同与商品化风险 - 顶级大语言模型在基准测试上的差距正在缩小至个位数百分比 [23] - 如果模型性能高度趋同,意味着大模型可能正在变成"商品",价值捕获将重新洗牌 [23] - 模型领导地位每周都在变化,护城河并不明显,AI公司必须在算力规模、垂直数据、产品体验或分发渠道上重新寻找护城河 [23][26] 用户参与度与企业部署现状 - ChatGPT声称拥有8亿周活跃用户,但仅约10%的美国用户每日使用AI聊天机器人,大多数人仍处于偶尔尝试阶段 [27][30] - 企业部署缓慢,真正进入生产环境的项目仅为25%,计划2025下半年部署的约30%,至少2026才部署的约40% [33] - 目前成功案例仍集中在编程辅助、营销优化、客户支持自动化等"吸收阶段" [36] AI对广告与推荐系统的颠覆 - AI最快发生巨大改变的领域是广告与推荐系统,传统推荐依赖"相关性",而AI有能力理解"用户意图"本身 [37] - 万亿美元级广告市场的底层机制可能被重写,谷歌和Meta披露AI驱动的广告投放能带来3%至14%的转化率提升 [37] - 广告创意制作成本也可能从每年1000亿美元的大盘上进一步被自动生成技术重塑 [37] 价值捕获与竞争模式转变 - 如果模型成为商品且缺乏网络效应,竞争模式可能从基于网络效应转向基于资本获取能力 [45] - 微软的资本支出占销售收入比例从历史低点大幅上升,反映了这一竞争模式的根本变化 [45] - OpenAI采取了"对一切说是"的多元化策略,包括基础设施交易、电商集成、广告、垂直数据集及应用平台等 [45]
“AI主流发展路线已经遇到瓶颈”
第一财经· 2025-11-26 09:52
文章核心观点 - AI行业单纯依靠堆算力、扩规模的阶段已经结束,行业正从“规模化时代”回归到“研究时代”,需要重新思考通往AGI的真正范式[4][9] 对当前AI发展路径的批判 - 前OpenAI首席科学家苏茨克维认为,AI的扩展(Scaling)时代已经终结,算力规模已很大但不能持续带来更好的“扩展”,扩展与浪费算力的界线变得模糊[4] - 当前主流路线遇到瓶颈,行业从规模化扩展回到了研究范式本身,进入“只是有了更大的计算机”的研究时代[4] - 图灵奖得主杨立昆认为,绝大多数同行致力于的大语言模型是死胡同,LLM由于其计算机制的限制,无法进行复杂的推理和规划,只是为了迎合训练数据的统计规律[8] - 斯坦福大学教授李飞飞指出,当前以LLM为代表的AI虽然擅长处理抽象知识,却如同在“黑暗中行走”,缺乏对物理世界的真实理解[9] AI模型存在的核心问题 - 大模型的泛化能力比人类差很多,这是通向AGI途中需要解决的根本问题[5] - 模型在各种评测上表现出色,但在某些情况下会重复犯错,例如编程时能解决复杂问题却不断引入简单Bug,存在评测性能与现实世界性能的脱节[6] - 苏茨克维提出两种可能解释:一是强化学习训练让模型变得过于一根筋和视野狭窄;二是强化学习训练时针对评测集选择数据,导致训练数据太狭窄[6] - 当下的AI可能缺少了类似人类情绪的价值函数,这能让AI更有方向感,苏茨克维引用脑损伤案例说明情绪对人类有效决策的重要性[7] 对未来AI发展范式的探讨 - 杨立昆认为,世界模型将成为人工智能架构的主流模型,它通过摄取视觉信息来了解周围世界,学习方式类似动物幼崽或人类幼儿[8] - 杨立昆将于年底离开Meta,创建专注于世界模型的初创公司,他认为未来五到十年解决“世界模型”相关难题,有望构建真正智能、能够规划和推理的AI系统[9] - 李飞飞强调建立“世界模型”和空间智能的重要性,她认为人类对世界的理解是整体性的,关乎空间关系、意义及关联[9] - 李飞飞提出,新的“世界模型”需要具备生成性、多模态性和交互性三种核心能力,以构建环境内部表征[9]
小米大模型首曝光:参数规模为64亿 在CMMLU中文向大模型排名第1
新浪科技· 2025-11-26 08:25
在今年的一季度财报中,小米表示,2023年4月,小米集团正式组建AI实验室大模型团队。目前小米AI 领域相关研发人员超1200人。 近日,小米的大语言模型MiLM-6B首次现身C-Eval、CMMLU两大AI模型评测榜单。 资料显示,MiLM-6B是由小米开发的一个大规模预训练语言模型,参数规模为64亿。截至当前, MiLM-6B在C-Eval总榜单排名第10、同参数量级排名第1,在CMMLU中文向大模型排名第1。 ...
WPS 365升级为全球一站式AI协同办公平台 年底将推出国际版
证券日报· 2025-11-26 08:09
WPS 365产品升级与定位 - 金山办公将WPS 365正式升级为全球一站式AI协同办公平台,推出WPS灵犀企业版、团队空间、"轻舟"引擎等新产品,并对智能文档库、数字员工两大AI核心产品进行升级 [3] - WPS 365成为首个拥有全产品矩阵、覆盖全球主流平台、链接全球各地的AI协同办公平台 [3] - 公司推出AI中台新产品,具备轻量化部署、标准化接入特点,能交付整套可观测、可评估、可调优的文档AI助手 [1] 产品功能与技术整合 - WPS 365一站式协同办公将消息、文档、会议、邮件、工作台和智能文档库等全产品矩阵无缝整合,实现入口统一、集成统一、数据统一和管控统一 [1] - WPS 365率先实现原生信创、全栈适配,覆盖几乎全平台所有操作系统,同时支持主流中央处理器品牌 [1] - 智能文档库作为企业大脑的重要承载者,运用多模态文档识别、大语言模型和自然语言处理等技术,将组织内文档转化为可复用知识 [2] - 数字员工升级到2.0版本,是依托企业私域知识打造的智能体,成为构建企业大脑"懂组织"的重要载体 [2] 市场拓展与国际化 - WPS 365宣布将在年底推出国际版,支持跨地域、跨语言的全球一体化办公,并与Microsoft 365实现格式兼容、接口一致和互联互通 [1] - 国际版旨在更好地解决出海企业的全地域沟通及合规问题 [1] AI能力与行业应用 - AI中台已在多个行业中应用,例如帮助大型企业让云盘获得数据知识化能力,实现文档智能检索和分析 [2] - 有企业通过AI中台增强合同审计业务的文档智能解析能力,实现解析结果可溯源,打造高可信、合规化、智能化的合同系统 [2] - 协同办公软件的"企业大脑"需具备大模型引擎以及执行任务的MCP或API,并融合企业自身的私域知识 [2] - 金山办公能帮助企业激活全域知识,利用知识驱动"企业大脑"做出决策 [2]
杨震原:2021 年字节团队曾训出大语言模型,但当时 “没眼光”
36氪· 2025-11-25 11:26
公司技术发展历程 - 2014年公司创始人提出使用大规模机器学习系统搭建推荐系统,以解决图片、文字、视频等多种媒体形式的推荐问题,并设定了万亿级别特征规模的激进目标[1][5] - 公司早期在优化算法上进行了多路径探索,包括CDN优化器项目和SGD-FTRL项目,最终SGD-FTRL方案在几个月内成功上线,实现了稀疏化万亿特征的目标[8] - 2014年底公司引入FM类算法,并演化为更通用的深度学习体系,从上线第一天起就是一个流式训练系统[9] 科学计算领域探索 - 2020年左右公司开始探索AI在科学计算领域的应用,认为通过求解薛定谔方程可以模拟世界绝大部分现象,并利用模拟产生有价值数据驱动机器学习进步[10] - 公司在神经网络量子蒙特卡洛方法领域进行投入,2021年后的多项工作已达到业界前沿,其中LAVA项目显示出该问题与大模型一样存在Scaling Law[16] - 公司提出首个能适用于固体体系的NNQMC方法DeepSolid,并用于研究拓扑绝缘体等材料,发现MoTe2二维材料在特定条件下会变为拓扑绝缘体[17] - 在分子动力学领域,公司开发了GPU4PySCF实现GPU加速DFT计算,达到1GPU≈500~1000CPU core的加速效果,算力成本降低1个数量级[20][21] - 公司开发了Bamboo-MLFF和ByteFF两类分子动力学力场,其中ByteFF-Pol在无实验数据zeroshot预测电解液性质上实现业界SOTA精度[21] - 公司与比亚迪成立联合实验室,将高通量自动化实验与科学计算算法结合,探索AI for Science在电池材料领域的工业落地应用[21] XR技术研发进展 - 2021年字节跳动收购Pico团队,最初有两条产品路线并行推进,2023年决定减少内容和营销投入,更坚定地投入技术路线[22] - 在清晰度方面,公司2022年启动MicroOLED定制,目标达到近4000PPI,最终成品平均PPD40,中心区域超过45,达到行业领先水平[24][26][29] - 公司为解决MR技术挑战,2022年6月立项全链路自研头显专用芯片,2024年回片并进入量产阶段,系统延迟可做到12毫秒左右[30][31] - 公司建设了专业的高精度测试系统用于环境识别和交互校准,并开发了专门的3D重建机制与高精度手势数据采集系统[33] - 新的MR产品计划于2026年发布[33] 大模型技术布局 - 公司在2021年曾有机会早期关注大语言模型,但当时评估认为LLM暂无实用价值,2022年ChatGPT发布后公司快速调整并加大投入[1][34] - 目前豆包是中国最流行的AI对话助手,火山引擎的大模型服务根据IDC报告是中国MaaS市场第一名[2][34] - 公司在Infra方面具备积累,大规模稳定训练系统MegaScale在训练任务上MFU超过55%,是当时主流开源框架的1.3倍以上[34] - 公司在模型结构、自研服务器上有很多探索,实现了大模型的低调用成本,能够打破业界价格下限同时保证不错毛利[35] - 公司的GenMedia模型、VLM、语音模型表现良好,长期属于国际一流水平,还在进行Seed Edge等前沿探索[35]
第十六届IEEE云计算技术与科学国际会议落幕
中国新闻网· 2025-11-25 09:24
会议概况 - 由深圳北理莫斯科大学主办的第16届IEEE云计算技术与科学国际会议(CloudCom2025)在深圳举行[1] - 会议吸引了全球200余名顶尖学者、院士及行业专家参会[1] - 会议为期三天,胡希平教授担任大会主席[1] 前沿技术主题 - 专家探讨了自动化网络智能在驱动5G及未来发展中的关键作用[1] - 分享了构建安全互联网架构与关键技术的思路[1] - 提出了遥感技术在智能解译中的应用与发展趋势[1] - 详细探讨了6G时代对网络管理带来的新机遇与挑战[1] - 会议议题涵盖6G语义通信、人机回环学习、AI在Web3金融中的应用等[2] 技术细分领域 - 多个并行专题会议同期进行,涵盖云调度优化、联邦边缘学习、5G与AI安全等热门领域[2] - 讨论了情感识别、无人机资源分配、数字孪生、任务卸载等多个具体技术问题[2]
——电力设备行业周报:锂电材料价格具备长期增长空间,储能需求有望持续向好-20251123
国海证券· 2025-11-23 11:01
行业投资评级 - 对电力设备行业的投资评级为“推荐”,并维持该评级 [1] 核心观点 - 锂电材料价格具备长期增长空间,储能需求有望持续向好 [2] - 电力设备各行业均有基本面层面的积极变化和潜在催化 [8] 行业表现 - 截至2025年11月21日,电力设备行业近1个月下跌1.4%,近3个月上涨20.6%,近12个月上涨24.4% [3] - 同期沪深300指数近1个月下跌3.3%,近3个月上涨3.9%,近12个月上涨11.6% [3] 光伏行业 - 政策持续聚焦光伏“反内卷”,行业自律已取得积极成效 [4] - 供应端收缩有效对冲需求走弱影响,安泰科预期11月国内多晶硅产量将降至12万吨以内,环比降幅约14% [4] - 多晶硅企业稳价意愿坚决,产业链上下游形成隐性共识,行业景气度有望持续改善 [4] - 建议关注硅料协鑫科技、通威股份;高效电池技术隆基绿能、博迁新材、爱旭股份、帝尔激光、迈为股份 [4] - 海外需求相对强劲,建议关注辅材及出口链阿特斯、聚和材料、福莱特、福斯特、中信博 [4] 风电行业 - 江苏、海南、浙江等省份海风机制电价政策友好,国内海风项目有望加速推进 [5] - 江苏海风项目竞价范围0.3-0.391元/kWh,较燃煤发电基准价下浮0%-23%;海南为0.35-0.4298元/kWh,下浮0%-19%;浙江拟给予19个海风项目0.3653-0.3853元/kWh的机制电价,下浮7%-12% [5] - 建议关注海风产业链东方电缆、大金重工、海力风电、中天科技、天顺风能、亨通光电 [5] - “风能北京宣言2.0”上调我国“十五五”年均装机目标至不低于120GW,预计“十五五”年均风机需求总量能达到140GW左右,约合2万台风机 [6] - 建议关注风机、零部件行业金风科技、运达股份、明阳智能、三一重能、新强联、金雷股份、德力佳 [6] 储能行业 - 2025年GWh级储能电站大规模建设,截至目前共40.15GW/167.24GWh的GWh级储能在建、投运中,涵盖90个项目 [6] - 投运及在建项目主要分布在西北、华北地区,内蒙古、新疆、甘肃三地项目合计规模达30.14GW/128.95GWh,占比超77.1%(GWh) [6] - 内蒙古总规模高达67.8GWh,单体规模≥2GWh的项目有18个,全部处于在建中,预计年底或2026年初将迎来投运高峰 [6] - 天合光能控股子公司天合储能签订合计2.66GWh的储能产品销售合同,其中与北美区域客户签订的合同规模达1.08GWh [6] - 持续看好海外储能需求增长及国内独立储能发展,建议关注头部集成商及电芯厂商阳光电源、海博思创、艾罗能源、德业股份、固德威、盛弘股份、宁德时代、亿纬锂能、欣旺达 [6] 锂电行业 - 产业链公司持续推进固态电池布局,中科固能实现多系列硫化物电解质粉体与固态电解质膜的批量生产与供应,粉体离子电导率最高超过18 mS/cm,并建成全球首条百吨级硫化物电解质生产线 [6] - 博路威将辊压技术用于固态电解质成膜等关键步骤,设备有效幅宽最高达1000mm,速度可达50–100 m/min [6] - 建议关注材料龙头厦钨新能、容百科技、当升科技、恩捷股份及新锐企业上海洗霸、天赐材料、华盛锂电、纳科诺尔等 [6] - 容百科技与宁德时代签署钠电正极粉料采购协议,宁德时代承诺年采购量不低于其总采购量的60%,协议有效期至2029年12月31日 [7] - 容百科技计划在2026年通过改造与并购实现5万吨钠电正极材料产能,并新建5-10万吨一体化新产线,合计产能10万吨以上 [7] - 建议关注钠电池产业链核心材料厂商容百科技、振华新材、五矿新能、元力股份等 [7] AIDC行业 - 英伟达第三财季营收570.1亿美元,超出市场预期的549.2亿美元;净利润319.1亿美元,同比上涨65% [7] - 数据中心业务营收512亿美元,同比增长66%,约占总营收的80% [7] - 英伟达目前具有5000亿美元的芯片未交付订单,订单已排至2026年 [7] - 国内外大模型持续迭代驱动AIDC建设需求增长,AIDC建设可能引发缺电等问题,对供配电系统节能提出更高要求 [7] - 建议重点关注液冷设备英维克、冰轮环境、申菱环境等;柴油发电机泰豪科技、科泰电源;机柜外电源科华数据、禾望电气等;服务器电源麦格米特、欧陆通;变配电设备金盘科技、伊戈尔等 [7] 电网行业 - 渝黔、湘粤、湘黔、闽赣、皖鄂等5项背靠背工程获国家发展改革委核准批复,总投资244亿元,共新建5座容量为300万千瓦柔直换流站,建设500千伏接入系统线路1227公里 [7] - 工程计划2027年迎峰度夏前投产,建成后将有效提升省间电力互济和事故支援能力 [7] - 清洁能源仍是“十五五”能源行业发展的确定性方向,电力基建有望保持增长 [7] - 建议重点关注平高电气、许继电气、国电南瑞,关注海兴电力 [7] - 随着新能源渗透率提升及电力市场化程度深入,AI赋能电力运营的价值有望凸显,建议重点关注朗新集团、国能日新 [8]
IT员工抄公司量化代码赚8千万,被罚1.7亿;传毫末智行停工解散、赔偿不明;实习生抽中显卡被公司要求上交?回应来了 | AI周报
AI前线· 2025-11-23 05:33
IT员工窃取量化代码受罚 - 杭州某科技公司IT员工林艺平利用职务便利窃取公司量化交易代码 通过他人证券账户进行趋同交易 在2022年11月16日至2023年9月6日期间获利8857.69万元[3][4] - 浙江证监局对林艺平作出行政处罚 没收违法所得8857.69万元并处以等额罚款 合计罚没1.7715亿元 同时采取5年证券市场禁入措施[5] 自动驾驶公司运营动态 - 长城汽车旗下自动驾驶公司毫末智行被传已于11月22日通知员工停工解散 赔偿机制等后续安排尚未明确[6] - 毫末智行业务面临挑战 随着长城汽车向元戎启行等供应商倾斜 公司处境艰难 2025年曾出现技术副总裁艾锐等核心高管离职的人事动荡[7] 人工智能行业人才流动 - 字节跳动Seed大语言模型团队核心成员乔思远离职加入Meta 视觉模型研究团队核心成员蒋路和田值于今年中离职 蒋路加入苹果 今年该团队已有七位研究骨干离职[11] - TikTok主站视频推荐算法负责人宋洋离职加入Meta 将全面负责Instagram Reels推荐业务 据传Meta创始人扎克伯格亲自邀请并开出数千万美元年薪[14][15] 人工智能初创企业融资与技术进展 - 前百度副总裁景鲲创立的AI公司Genspark完成2.75亿美元B轮融资 融资后估值达12.5亿美元 跻身独角兽行列 同时发布全新平台Genspark AI Workspace[12] - Genspark创始团队背景豪华 CEO景鲲为前百度集团副总裁 CTO朱凯华曾在谷歌开创AI驱动搜索排序技术 COO桑文为MIT博士[13] AI硬件公司运营状况 - Rabbit公司被曝已连续数月拖欠员工工资 部分员工从10月起罢工 但公司仍声称计划在2026年推出下一代AI硬件[16] - Rabbit R1设备实际表现被用户指出远逊于发布会效果 例如实景拍摄需等待20秒才回应 被指如同低端安卓手机安装APK文件[16] 互联网公司AI产品发布与市场反应 - 阿里巴巴AI应用"千问"公测首日因用户涌入过载出现服务拥堵 "阿里巴巴千问崩了"话题登上微博热搜 公司回应称状态良好并计划推出国际版[20] - 蚂蚁集团全模态通用AI助手"灵光"上线两天下载量突破50万 冲上App Store总榜第七 但其闪应用功能因流量过大暂时无法使用[21][22] 人形机器人领域技术争议 - 优必选发布人形机器人Walker S2量产交付视频后 遭Figure创始人布雷特·阿德科克质疑视频造假 称机器人方阵为电脑特效[23] - 优必选回应质疑并发布一镜到底原速视频 公司CBO谭旻表示质疑源于对中国智能制造实力缺乏了解 并称公司公布的所有订单均向公众负责[24] 人工智能大模型技术突破 - 谷歌上线Gemini 3 Pro Image Preview图像模型 支持4K分辨率输出 在MathArena基准测试中达到23.4%正确率 远超其他模型1%左右水平[29][30] - OpenAI推出GPT-5.1-Codex-Max编程模型 专为长时间运行任务设计 采用压缩技术可处理百万级别Token 在SWE-Bench Verified任务中思考Token减少30%[32][33] AI智能体与专用工具发展 - 马斯克xAI公司推出Grok 4.1 Fast模型和Agent Tools API Grok 4.1 Fast拥有200万token上下文窗口 在智能体调用测评中以93.3%得分位居榜首[34][35] - 非营利研究机构FutureHouse发布AI科研系统Kosmos 单次12小时运行可阅读1500篇论文并生成4.2万行分析代码 工作量相当于人类团队半年产出[36] AI在教育与健康领域应用 - 斑马口语正式上线 号称全球首个AI外教一对一产品 基于猿力大模型打造 具备超人类教学能力 能实现低延迟实时对话和精准发音纠错[37] - Lumia公司推出智能耳环Lumia 2 重量不足1克 满电续航8天 可高精度追踪睡眠、体温、月经周期等健康数据 号称"全球最小可穿戴设备"[41] 企业AI应用与开源项目 - 微博发布自研开源大模型VibeThinker 拥有15亿参数 单次训练成本仅7800美元 在国际数学竞赛基准测试上击败DeepSeek R1模型[39] - OceanBase发布并开源首款AI数据库seekdb 开发者仅需三行代码即可构建知识库等AI应用 支持百亿级多模数据检索[40]
Karpathy组建大模型「议会」,GPT-5.1、Gemini 3 Pro等化身最强智囊团
机器之心· 2025-11-23 04:06
文章核心观点 - AI时代用户内容消费习惯转向追求效率,倾向于使用大模型快速总结信息[1] - 行业专家通过构建多模型协作的“LLM议会”系统,以提升信息处理质量和洞察力[3][4] - 该系统通过模型间匿名互评和排名机制,实现了一种新颖的模型评估与答案生成方式[4][6][9] LLM议会项目概述 - 项目由前OpenAI联合创始人Andrej Karpathy开发,是一个Web应用[3][4] - 系统集成四个最新大模型:OpenAI GPT-5.1、Google Gemini-3 Pro Preview、Anthropic Claude-Sonnet-4.5、xAI Grok-4[10] - 工作流程分为三阶段:首次意见独立回答、模型间匿名互评排名、主席模型整合最终输出[4][8][9][11] 技术流程与特点 - 第一阶段用户提问分发给所有模型,答案以标签页视图展示[8] - 第二阶段模型对匿名同行答案基于准确性与洞察力进行排名,避免偏袒[9] - 第三阶段主席模型综合所有回答和排名生成最终输出[11] - 该系统展现了模型愿意承认其他模型答案更优的有趣现象[7] 行业应用与影响 - 类似方法已被知名游戏博主PewDiePie采用,使用8个同模型不同提示词配置组成委员会[5] - 该方法可能成为一种新的基准测试形式,探索多模型集成设计的巨大空间[12][13] - 项目已在GitHub开源,但作者声明不提供后续支持,仅作为灵感工具[14][15]