Workflow
机器之心
icon
搜索文档
夸克x千问,AI浏览器还能这么玩?
机器之心· 2025-12-01 04:06
AI浏览器行业市场前景 - 全球AI浏览器市场正高速爆发,2024年规模约45亿美元,2034年将达到768亿美元,年复合增长率高达32.8%[1] - 行业处于新旧秩序更替阶段,OpenAI、Perplexity等原生AI势力与Google、Microsoft等传统巨头正以不同方式诠释AI浏览器的未来[3] 行业竞争格局与产品战略 - 国际厂商呈现两大路径:原生AI势力(如OpenAI Atlas、Perplexity)试图重构信息获取方式,而传统巨头(如Chrome、Microsoft Edge)选择基于既有生态进行稳健升级[3] - 国内厂商普遍将AI能力与国民级应用深度捆绑,以润物细无声的方式渗透具体场景,构建一站式智能平台[4] - 夸克通过融合阿里千问大模型,定位为国内首个操作系统级智能中枢,强调浏览器与AI的乘法式重构而非简单加法[7] 夸克AI浏览器产品创新 - 发布六大AI套件实现系统级全局AI能力,包括千问读屏、快捷框、侧边栏、悬浮球、划词、截屏,支持从首页搜索框、侧边栏、桌面悬浮球等多入口随时唤起AI[15] - 突破传统浏览器AI交互局限,实现真正的全局桌面唤起,仅需一句指令即可完成搜索对话、写作创作、总结翻译等任务[8] - 通过智能标签管理功能按域名和最近使用排序,有效解决多标签页管理难题,并能识别处理高内存标签提升流畅度[26][28] 核心功能体验升级 - 在线文档编辑支持浏览器内直接处理PDF文档,无需下载即可进行高亮标注和图文编辑,并支持一键格式转换和快速翻译[30][31] - 跨端流畅传输功能实现文字、文档、网页、大文件(支持100G)在不同设备间的无缝同步,打破地点限制[34][36] - 云端存储与浏览器深度集成,支持一键无损备份网页内容,独家的分栏模式优化资料管理体验[38][39] - 产品坚持清爽无广告的极简设计理念,配合底层性能优化,提升信息获取效率[40] 技术底座与模型能力 - 夸克基于阿里通义千问大模型技术底座,Qwen3-Max参数规模突破万亿级,预训练数据量达36T tokens[44] - 针对浏览器场景进行深度定制,模型具备精准识别网页结构、用户意图与上下文关系的能力[44] - 多模态融合设计与实时推理引擎确保长文总结、专业分析等场景下仍保持毫秒级响应速度[45] - 在实际测试中展现出强大的逻辑推理能力(如解决复杂逻辑题)、专业问题处理能力(如法考真题解析)和创意写作能力(如模仿鲁迅风格)[48][49][59]
无需标注图像,VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题
机器之心· 2025-12-01 04:06
文章核心观点 - VisPlay框架首次提出自进化强化学习方案,使视觉语言模型仅依赖海量未标注图像数据即可自我演化和提升能力,突破了传统方法对高质量人工标注数据的依赖 [2][3] - 该框架将基础模型分解为“提问者”和“推理者”角色,通过迭代的自我进化机制协同进化,结合GRPO算法及多样性/难度奖励,平衡问题复杂度与答案质量 [3][10] - 实验证明该框架在主流模型上实现了持续性能提升,尤其在视觉推理、组合泛化和幻觉减少方面效果显著,为可扩展、低成本的多模态智能进化提供了新路径 [5][19] VLM推理能力的数据困境 - 主流提升方式如指令微调或强化学习均面临核心难题:高度依赖高质量标注数据或针对具体任务设计的复杂规则,成本高昂且难以规模化 [7] - 随着模型规模扩大,人工标注的成本和速度已成为进一步提升能力的主要瓶颈,促使研究者探索“自进化”思路以实现自主能力迭代 [7] VisPlay自进化框架设计 - 核心理念是自我进化,从基础预训练VLM出发,分解为“提问者”和“推理者”两大相互作用角色 [10] - “提问者”根据输入图片生成具挑战性但可回答的视觉问题,通过难度奖励和多样性奖励机制指导自我进化质量,鼓励复杂推理并防止问题重复 [11][12] - “推理者”基于图片和问题生成伪标注答案,并以回答准确性作为训练信号 [13] 实验结果与能力突破 - 在八个主流基准数据集上评估,涵盖通用视觉理解、跨模态推理、视觉数学推理及幻觉检测 [16] - Qwen2.5-VL-3B模型经过三轮迭代后,在MMMU上的准确率从基准的19.95%提升至37.11%,在HallusionBench上从32.81%大幅提升至90.54% [17] - Qwen2.5-VL-7B模型经过三轮迭代后,在MMMU上的准确率从基准的23.10%提升至38.27%,在HallusionBench上从66.88%提升至92.32% [17] - 框架展现出强大的组合泛化能力,并在训练中未见的复杂推理组合上表现鲁棒,同时通过高质量问答对有效抑制模型“幻觉”现象 [18]
影响有多大?ICLR开盒大瓜后,OpenReview公布真相
机器之心· 2025-12-01 04:06
ICLR审稿人身份泄露事件核心观点 - 学术顶会ICLR 2026发生严重安全漏洞,审稿人匿名信息遭自动化爬虫攻击泄露,导致审稿身份和评分被公开[1][3][7] - 事件引发学术圈震动,ICLR官方采取重置所有审稿意见与分数的紧急措施,OpenReview平台发布安全事故报告并紧急修补漏洞[4][5][9] - 行业讨论聚焦学术评审体系脆弱性,呼吁加强平台资金支持并建立长效透明机制,而非单纯谴责技术团队[15][17][22] 事件概述与影响范围 - 漏洞利用方式为通过浏览器输入特定网址替换paper ID和审稿人编号,即可获取本应匿名的审稿人身份和评分细节[1] - 泄露内容显示存在审稿人打低分时带有个人恩怨的情况,包括组内成员互打低分、为同赛道论文"让路"等非学术因素[3] - ICLR官方应对措施包括重新分配所有Area Chair、将审稿意见与分数重置回讨论前状态,导致已完成的rebuttal工作无效化[4][5] OpenReview平台响应与数据披露 - 平台确认3%的出版场所(约96个)受影响,其中约一半(48个)仅有4篇或更少论文被查询[11] - 97%的OpenReview出版场所(共3,203个)未受此次事件影响,但ICLR 2026遭遇针对性自动化爬虫攻击[7][11][12] - 平台已采取补丁修复、聘请外部网络安全公司、进行代码审计、与执法部门合作要求删除泄露数据等应对措施[9][12] 行业生态与系统脆弱性 - OpenReview由20人非营利团队运营,年筹款需求超过200万美元,坚持免费开放模式缺乏商业变现[17] - AI研究社区成为蓄意攻击重灾区,研究系统破坏、非法数据抓取、伪造身份等行为显著增加[13] - 业界建议会议方从高昂注册费中拨付资金支持基础设施,建立审稿结束后(如一年)公开审稿人身份的透明机制[22] 社区反应与支持声浪 - MIT-IBM Watson AI Lab首席研究员公开声援,强调不应因意外事件责难非营利团队,否则将打击未来公共服务意愿[15][18] - 社区讨论区分ICLR组委会与OpenReview平台责任,负面情绪主要指向前者,认可平台方的努力[20] - 评论指出顶级会议注册费用日益高昂与免费审稿服务形成反差,呼吁建立资金反哺机制完善学术生态[22]
AI独立解决三十年数学问题的变体,陶哲轩分享自动化研究经验
机器之心· 2025-12-01 00:40
文章核心观点 - 数学AI智能体Aristotle独立证明了Erdos问题124的一个弱化版本,展示了AI在复杂数学证明方面的能力[1][2] - 该问题的证明存在微妙错误,AI实际解决的是因拼写错误导致的一个较简单的弱化版本[3][4][5] - 陶哲轩认为AI工具能够规模化攻克数学中大量未被关注的"低垂果实"问题,这将引发数学领域的深刻变革[9][15][16] Erdos问题124证明事件 - 普林斯顿大学数学博士Boris Alexeev使用Harmonic的数学AI智能体Aristotle运行了该问题[2] - 问题自1984年在《算术杂志》发表以来近30年悬而未决[2] - 证明过程中发现Formal Conjectures项目中的猜想声明存在拼写错误,将"=1"误写为"≥1",这使得声明变弱[4] - Aristotle在数小时内就自主找到并用Lean形式化了该弱化版本的解答[14] 数学AI智能体Aristotle的技术能力 - Aristotle是用于自动形式化和形式验证的API,具备IMO金牌级引擎解决复杂推理问题的能力[7] - 能够自动将英语陈述和证明转换为经过验证的Lean4证明[7] - 可以无缝集成到项目中,自动利用用户的整个定理库和定义、依赖项以及Mathlib[7] - 在该问题证明中采用了"出奇的简单"的方法[8] AI在数学研究中的应用前景 - 数学未解决问题呈现典型的"长尾"结构,存在大量未被关注的相对容易问题[9] - AI能够规模化地尝试攻克这些"低垂果实",陶哲轩在Equational Theories项目中验证了这一观点[9][10] - 该项目攻击了普遍代数中2200万个蕴含式,利用自动化方法在几天内解决了相当大部分问题[10] - 研究者正系统性地扫描Erdos问题网站上的剩余问题,寻找更多误述或快速解决方法[15] 自动化工具对数学研究的影响 - AI工具通过清除最容易的部分,使真正困难的问题更加清晰地呈现[15] - 几周前一批标注未解决的问题被划为"已解决",AI驱动的文献搜索工具发现其解答早已存在于文献中[13] - 数学家结合使用AI工具和形式化证明助手来验证证明、生成整数序列项或补全推理步骤[13] - 这标志着数学领域"Vibe证明"时代的到来,数学领域将面临深刻变革[16][17]
NeurIPS 2025 | 英伟达发布Nemotron-Flash:以GPU延迟为核心重塑小模型架构
机器之心· 2025-12-01 00:40
文章核心观点 - 小语言模型(SLM)参数虽少但实际部署延迟未必同步下降,关键在于模型设计需以真实GPU延迟为第一原则而非单纯缩小参数[2] - 英伟达研究院通过重构小模型设计原则,构建的Nemotron-Flash模型同时实现了SOTA准确率、低延迟和高吞吐[2] - 小模型的未来发展方向是“更快、更稳、更强”,需围绕延迟优化深宽比、明确算子分工并保持训练稳定性[27] 小模型为何不够快 - 深宽比存在矛盾:模型越深能力越强但对GPU延迟越敏感,等参数下越深延迟越高,等延迟下越宽速度越快[9][14] - Attention成本是吞吐瓶颈:业界对Mamba2、DeltaNet等高效算子的组合缺乏系统方法,未明确各层应使用何种算子[9] - 训练后期易“提前退场”:权重尺度偏移导致有效梯度下降,模型性能受训练过程限制而非参数量限制[10] Nemotron-Flash的核心方法 - 深宽比优化:通过绘制“准确率–延迟”曲线找到深度(负责能力)与宽度(负责速度)交汇的黄金点,使模型既不深得拖速度也不宽得能力不足[14] - 混合算子结构:系统研究各类算子的准确率-延迟权衡,使用遗传算法确定Attention、Mamba2、DeltaNet和FFN在不同层的最优分工与协作模式[16][18] - Weight Normalization技术:在训练每个迭代后对线性层权重施加显式归一化,去除径向分量避免梯度被“巨权重”吃掉,解决训练后期停滞问题[17][20] Nemotron-Flash Model Family性能表现 - Nemotron-Flash-1B相比Qwen3-0.6B准确率提升5.5%,端侧推理延迟快1.9倍,最大吞吐高出45.6倍[24] - Nemotron-Flash-3B相比Qwen2.5-3B与Qwen3-1.7B准确率提升2%至5.5%,端侧推理延迟快1.3至1.7倍,最大吞吐提升6.4至18.7倍[24] - 模型已集成进TensorRT-LLM,单H100 GPU吞吐可达41K tokens/second,具备高并发在线服务、端侧边缘设备及成本敏感企业部署能力[2][25]
15岁拿下量子物理博士,他马不停蹄转战AI医学,誓言「创造超人类」
机器之心· 2025-11-30 06:00
文章核心观点 - 15岁少年Laurent Simons在安特卫普大学获得量子物理学博士学位,其研究聚焦于利用玻色-爱因斯坦凝聚态作为量子模拟器探索多体物理现象[2][4] - 该学者已完成非常规的加速学术路径,并计划结合医学与人工智能领域攻读第二个博士学位,目标是创造“超人类”以解决生命难题[8][16][19][23] - 学者及其家庭拒绝商业合作邀请,坚持研究应专注于造福医学领域而非成为商业工具[25][27] 学术成就与研究方向 - Laurent Simons以15岁年龄获得量子物理学博士学位,博士论文题为《Bose polarons in superfluids and supersolids》[2][7] - 论文利用变分路径积分等方法分析带电玻色极化子及超固态玻色极化子系统的基态性质,观察到强相互作用下极化子定域于单个液滴等现象[4] - 学者在德国马克斯·普朗克量子光学研究所Attoworld研究组实习期间,曾利用激光光谱学技术探索癌症血液检测,涉足物理与医学交叉领域[15] 教育背景与加速路径 - 学者具备“照相式记忆”能力,4岁开始小学教育,6岁完成小学全部课程,8岁完成中学课程[10][11][12] - 曾在荷兰埃因霍温理工大学就读电子工程专业,后转入安特卫普大学,用18个月完成三年物理学本科课程,12岁时一年内完成量子物理学硕士学位[12][14] - 目前已在德国慕尼黑加入亥姆霍兹慕尼黑中心及慕尼黑大学研究团队,师从Ali Ertürk教授,攻读医学科学博士学位[19][23] 未来目标与研究方向 - 学者目标为结合物理、化学、医学和人工智能创造“超人类”,通过替换身体部件延长生命,该想法源于祖辈心脏疾病经历[16][17][19] - 在慕尼黑的研究将利用DISCO组织透明化技术及人工智能解析生物大数据,为人造器官和抗衰老疗法奠定基础[22][23] - 学者家庭拒绝来自美国和中国科技巨头及富豪的商业邀请,坚持研究应专注于医学造福而非商业利益[25][27]
空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间
机器之心· 2025-11-30 06:00
技术突破与核心优势 - 提出名为Spatial-SSRL的全新自监督强化学习范式,无需任何外界标注,旨在提升视觉大语言模型的空间理解能力[2] - 该范式利用低成本、易采集的RGB和RGB-D图像,构建了五种自监督任务,包括打乱图块重排序、翻转图块识别等,从多方位全面提升空间理解能力[10] - 相较于传统方法,该技术具备高度可扩展性、成本低廉、轻量高效以及天然可验证性四大核心亮点,无需依赖已标注数据集或额外人工标注[16] 实验验证与性能提升 - 实验在Qwen2.5-VL(3B&7B)和最新的Qwen3-VL(4B)架构下进行,结果表明该范式成功提升了模型的空间理解能力[2][14] - 在Qwen2.5-VL-7B模型上,经过Spatial-SSRL训练后,其在空间理解基准上的平均性能提升达3.89%,而3B模型的提升更为显著,达到4.63%[15][17] - 对于Qwen3-VL-4B架构,在空间理解任务上实现了1.29个百分点的性能提升[19] 通用能力保持与开源进展 - 研究团队验证了模型在提升空间理解能力的同时,其原有的通用视觉能力基本保持稳定,甚至在通用视觉问答基准上平均表现略有提升(如7B模型提升0.57个百分点)[17][18] - 该工作的代码、模型和数据集均已开源,Huggingface平台上的模型和数据集总下载量已经突破1千次[3][20]
泄露代码显示,OpenAI要往ChatGPT里插广告了
机器之心· 2025-11-30 03:19
广告功能筹备情况 - 代码泄露显示公司正在为ChatGPT安卓应用筹备广告功能,包括“搜索广告”、“搜索广告轮播”以及“集市内容”等字符串引用 [1] - 代码结构表明公司可能正在测试多种广告形式,包括针对用户查询的单一赞助位、可滑动的广告轮播以及类似电商平台的内容展示单元 [3] - 广告大概率在用户有消费意图时触发,例如比较产品、规划旅行或寻找本地服务,与传统搜索广告逻辑类似 [3] 潜在广告模式与行业趋势 - 广告可能出现在AI生成的产品概述旁,例如当用户询问降噪耳机推荐时看到赞助商品卡片 [3] - AI领域广告探索已非新鲜事,微软Copilot展示赞助链接,Perplexity推出赞助搜索结果,谷歌在AI概览功能中试验广告投放 [7] - 早期测试可能集中在免费用户,广告将出现在回复上方或内嵌于回复中,并限制广告密度 [7] 盈利模式变革动因 - 公司目前主要依靠ChatGPT Plus订阅收入和API授权支撑扩张,但大规模AI推理算力成本极高 [5] - 据汇丰分析,公司需每年烧6200亿美元维持算力,到2030年前需要额外筹集至少2070亿美元以弥补收入缺口 [5] - 广告作为第三条收入渠道可能大幅改善财务状况,且无需提高免费用户使用门槛 [7] - ChatGPT拥有超过1亿周活跃用户,这一体量足以吸引品牌方关注高购买意向查询场景 [7] 可能带来的问题 - 植入广告可能引发用户排斥心理,使平台被视为推销工具,导致用户反感 [9] - 存在信任问题,答案可能因商业利益偏向某些产品或服务,影响中立性和可信度,甚至引发责任和品牌安全问题 [10] - 存在隐私担忧,广告定位可能基于用户偏好和对话内容,引发私人对话被商业化利用的顾虑 [11]
那些年,AI创始人创业有多奇葩
机器之心· 2025-11-30 03:19
文章核心观点 - 在当前的AI创业浪潮中,许多成功的公司并非单纯依靠先进技术起家,而是通过创始人采取极端的非技术性生存策略,包括“伪装”(用真人模拟AI)、“苦行”(极端节俭与高强度工作)和“蛮力”(人工手动推动业务)来验证市场、获取资源并实现从0到1的突破[7][38][53] 用真人假装AI - Fireflies.ai的创始人为验证产品,亲自假扮名为“Fred”的AI机器人,手动记录超过100场会议笔记,以此赚取初始收入支付每月750美元的房租[4][5] - 该策略被称为“绿野仙踪技术”,早期公司如x.ai和Clara也曾用人类员工扮演AI助理处理邮件,旨在为AI模型积累训练数据[15][17] - 部分公司滥用此策略进行欺诈,如“AI软件工程师”Devin的演示视频被揭露存在误导,其修复的代码错误是自己生成的无意义错误,任务处理与客户描述不匹配[10] - 另一家YC投资的初创公司Pear AI,其核心产品被指直接复制了开源项目Continue,并试图修改开源许可证,引发社区批评[13][14] 创业 = 苦行 - 硅谷AI创业圈流行“不喝酒、不睡觉、没娱乐”的苦行文化,将享受生活视为罪过,将“睡在办公室”视为成功途径[20] - 为节省成本,有创始人住在月租700美元、类似火车卧铺的全封闭“睡眠舱”中,感觉像睡在棺材里[6][24] - 为提升效率,有创始人主要食用预制罐头食品,以避免在吃饭上花费时间[24] - 苦行文化被制度化,如AI保险初创公司Corgi只雇佣愿意每周工作7天的员工,并以办公室床垫作为新员工入职礼物[26] - Cognition AI(Devin母公司)推崇极端绩效文化,员工每周工作超过80小时,许多人直接住在办公室[26] - 有创始人在领英公开炫耀连续三周每周工作92小时的工时表[26] - 这种极端的苦行被视为一种向风险投资人传递“硬核”决心和必胜信念的战略信号[27] 智能时代还得靠蛮力 - 在创业初期,创始人往往依赖最原始、非自动化的“蛮力”手段来推动业务[29][30] - Airbnb在低谷期通过设计并街头兜售选举主题麦片盒来筹集救命资金[31] - Stripe的创始人采用“Collison安装法”,直接拿过潜在客户的笔记本电脑手动安装配置产品,以消除用户拒绝理由[32] - Fireflies.ai的创始人亲自搞定前50到100个客户,阅读每一条反馈并回复每一封邮件,在没有销售或营销团队的情况下实现早期增长[36] “异类”的胜利与高层“宫斗” - 行业顶尖AI公司常由背景奇特的“怪才”创立,如DeepMind创始人Demis Hassabis兼具国际象棋神童、游戏设计师和认知神经科学博士背景[42] - Midjourney创始人David Holz曾任职NASA并经历创业失败,他拒绝风险投资,将公司开在Discord上并在一年内实现盈利[43][45] - OpenAI在2018年因埃隆・马斯克试图接管未果并撤资,被迫从非营利组织转型为接受微软注资的“有上限利润”公司[46][47] - 2021年,OpenAI内部因商业化与安全理念分歧,导致包括研究副总裁Dario Amodei和安全副总裁Daniela Amodei在内的11名核心员工出走,创立了竞争对手Anthropic[48][50]
NeurIPS 2025 | Language Ranker:从推荐系统的视角反思并优化大模型解码过程
机器之心· 2025-11-30 03:19
核心观点 - 提出一种全新的大语言模型解码视角,将其类比为推荐系统的排序阶段,并据此开发了名为Language Ranker的轻量级重排序框架,旨在以极低计算成本显著提升模型输出质量[2][6][33] 重新理解LLM:从“生成”到“推荐” - 大语言模型可被视为特殊推荐系统,将输入视为“用户信息”,在庞大候选响应空间中挑选最合适响应[3] - 模型关键组件与推荐系统一一对应:模型骨架对应特征工程,语言头对应召回层,解码方法对应排序层[4][6][11] - 现有主流解码方法如贪婪解码、束搜索等依赖固定规则缺乏学习能力,而基于奖励模型的重排序方法存在特征提取冗余和计算成本高昂的问题[6] Language Ranker框架 - 核心思想是直接复用主模型已提取的隐藏层特征,通过极小学习模块完成候选响应重排序,避免重复特征工程[8][14] - 框架包含三步:候选召回、特征提取(从模型底部约60%层提取最后一个token的隐藏状态)、候选排序(通过轻量Transformer或MLP计算相关性)[10] - 该模块参数极少,仅包含不到0.5M参数,比GPT-2小200多倍[9] - 具备极低训练与推理开销、即插即用、模块可分性等优势,支持CPU级别训练与部署,主模型可与Ranker在不同设备上独立运行[16][22] 实验结果 - 在多项任务中,仅需不到0.5M参数的Language Ranker达到或超越大规模奖励模型性能,例如在Qwen2.5-7B-Instruct模型上,ListRanker在MATH任务准确率达74.8%,优于GPT-2奖励模型的71.9%[19] - 训练效率极高,在MBPP任务上使用CPU仅需67秒即可完成训练,而GPT-2级别奖励模型需超过1小时[21][23] - 展现出优秀的跨任务与跨模型迁移泛化能力,在MATH内部七类子任务间迁移时性能下降均小于2%[24][26] - 遵循Ranker Scaling Law,随着候选响应数量从1增加至100,模型性能持续提升,例如在MATH任务中准确率从25%稳步上升至56%[31][34] 总结与展望 - 该框架通过共享主模型隐藏层特征,以极小参数实现与数千倍规模奖励模型相当性能,无需额外训练主模型且显著降低推理与部署门槛[33] - 天然支持个性化扩展,同一主模型可搭配不同Ranker以满足多样化场景需求,是迈向个性化智能体的重要一步[15][33]