Workflow
量子位
icon
搜索文档
阿里千问开始蹬鼻子上脸了
量子位· 2025-11-28 06:31
梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 标题没开玩笑——这回千问是真的"上脸"了。 昨天阿里发布了搭载千问的首款硬件——夸克AI眼镜。 为这场"造势",阿里动作不小:发布会开场直接亮相千问App下载量破千万的成绩单,这波操作属实是先把声量垫到顶,再把"压轴"产品推出 来。 这次发布的夸克AI眼镜共 有S1、G1两个系列,共六款机型,S1最低到手价3799元,G1最低到手价1899元。 不掏手机、不切页面,抬头就能问,备忘、翻译、提词这些常用动作都能在眼镜端完成: 这副能让"千问"上脸的眼镜到底咋样,咱往下看~ 旗舰性能+阿里千问,打造随身超级AI助理 我们先把机型关系讲明白,S1、G1的配置整体比较接近,G1除了没有显示功能,其它硬件配置和S1没区别。 咱直接来看性能。 在核心配置上,夸克AI眼镜用的是 第一代骁龙AR1平台 ,S1还叠了 双旗舰 芯片,配上双光机双目显示,所以在亮度、清晰度和画面一致性 上会更占优势。 影像部分也做了不少打磨,不仅上了 AI"云台" 来稳住画面,能做到0.6秒的极速抓拍,还给到 3K超清画质 ,整体成像更可靠: 此外,阿里这次把自家 生态场景 也一并带上了:现在 ...
夸克AI浏览器来了!深度融合千问,迎来“Chrome级”进化时刻
量子位· 2025-11-28 04:11
行业趋势:AI重塑浏览器入口形态 - 全球浏览器行业正从被动网页展示窗口向更高的AI操作层和系统层演进,负责调度理解、执行任务和承接整套AI能力[7][8] - 浏览器被视为AI时代的核心入口竞争焦点,AI将深度渗入浏览器底层能力层,成为系统结构的一部分,使浏览器变成真正的AI协作中枢[18][19] - 在该趋势下,中国浏览器行业面临如何进入AI化下一阶段的现实问题,需打造具备系统级全局AI能力的产品以参与全球竞争[9][51] 公司战略:夸克AI浏览器对标全球领先 - 夸克浏览器全面进化为新一代AI浏览器,战略上全面对标Chrome,目标打造全球领先的AI浏览器并加入全球主战场竞争[2][10][16] - 公司依托阿里完整的技术生态和最强大的Qwen大模型,实现有别于AI插件形式的深度技术融合,将国产浏览器技术线推上新高度[3][11] - 此次升级是重大版本发布,而非功能层小修小补,旨在让浏览器具备"参与任务"的能力,推动浏览体验从"够用"走向"顺手"[10][15][42] 技术核心:深度融合Qwen大模型 - 夸克将阿里最强大的Qwen家族模型直接接入浏览器底层,千问AI助手参与整体任务流,实现全局AI能力[5][11] - Qwen3-Max在首届AI大模型真实投资比赛Alpha Arena中以22.32%的收益率赢得比赛,账户价值达$12,232,展现了在复杂决策与多变量推理任务中的稳定性[12] - Qwen模型家族自23年全线开源以来累计发布300+模型、全球下载量突破6亿次、衍生模型超过17万个,在Chatbot Arena子榜单Vision Arena中Qwen3-VL拿下全球第二、开源第一[12][13] - Qwen模型覆盖文本、视觉、语音、视频、代码、图像等全模态方向,形成规模完整、能力均衡的模型家族,在内容理解与信息处理上具备天然优势[14] 产品功能:系统级全局AI交互体验 - 发布千问六大AI套件:千问悬浮球、快捷框、截屏、划词、侧边栏、读屏,实现系统级全局AI能力[21] - 千问悬浮球作为桌面AI快速操作台,可随时唤起进行录音、截屏提问、润色总结翻译等操作[23] - 千问快捷框解决临时提问需求,千问划词支持指哪答哪,千问截屏可解析图片内容,千问读屏可直接共享屏幕内容给AI[26][27][28] - 新增千问侧边栏作为沉浸式AI第二屏,实现边浏览边总结、边看边对话的同场操作,承载更长更复杂的思考链路[31][32][35][36] - 支持快捷键Alt+空格唤起快捷框,可进行翻译、总结、研究分析、格式转换、做表格、做PPT等操作,实现一句话指令AI接手干活[39][40][41] 用户体验优化:提升浏览效率与流畅度 - 对标签管理场景进行智能化优化,支持排序、分组、识别并处理高内存标签,避免浏览器卡顿[44][45] - 强化PDF处理能力,支持万能编辑(包括修改PDF图片中的文字)和对照翻译功能,生成双栏对照排版[46][47] - 在底层进行针对性优化,实现启动更快、占用更低、卡顿更少的流畅体验,并保持搜索无广告、界面干净简约[48][49] - 整体浏览体验从过去的断续跳转转变为连续流,协作更连续高效,工具不再打断工作生活节奏[29][37][49]
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
量子位· 2025-11-28 04:11
文章核心观点 - 多模态大模型后训练中,样本难度比训练范式更为关键,仅使用强化学习策略(GRPO-only)进行优化是可行且有效的,无需监督微调(SFT)作为前置步骤 [2][3][36][37] - 研究提出了两种可量化的样本难度评估策略(PISM和CMAB),并基于此设计了分层训练框架,在多个基准测试上取得了显著性能提升 [6][7][36] 研究方法与创新 - 提出渐进式图像语义掩码(PISM)策略,通过模拟不同程度的视觉信息损失来量化样本对视觉细节的依赖程度,从而划分样本难度 [10][14][15][16][17] - 提出跨模态注意力平衡(CMAB)策略,通过分析模型生成响应时对文本和图像的注意力之比,评估跨模态交互复杂度以划分样本难度 [19][20][21][22] - 设计了两种后训练范式进行对比:GRPO-only范式(直接对中高难度样本应用强化学习)和SFT+GRPO范式(先进行监督微调再进行强化学习) [23][24][25] 实验结果与分析 - 在视觉推理任务上,GRPO-only(中等+困难样本)范式在MathVista达到68.3分,OCRBench达到77.8分,MMMU提升0.107,MMStar提升0.083,全面超越传统SFT+GRPO范式 [28][29] - 在视觉感知任务上,GRPO-only(中等+困难样本)范式在MathVista达到68.3分,MMVet达到50.367分,MMMU达到0.550分,MMStar达到0.629分,尤其在需要跨模态深度融合的任务中优势明显 [33][34] - 实验表明SFT阶段并未带来性能增益,甚至可能因引入“伪思维链”而限制模型真实推理能力,所有SFT+GRPO范式的性能均低于GRPO-only范式 [29][36] 行业影响与未来方向 - 该研究为多模态大模型性能提升提供了全新技术路径,推翻了“SFT是RL后训练必要前提”的传统认知,极大简化了训练流程 [3][37] - 未来研究方向包括动态难度调整、多策略融合以及在百亿参数级大模型上验证方法的泛化性 [38] - 研究代码已开源,为后续研究提供可复现的技术基础,有望推动多模态AI在医疗、教育、自动驾驶等领域的实际应用 [39][40]
速报!MEET2026嘉宾阵容再更新,观众报名从速
量子位· 2025-11-28 04:11
大会概况 - 大会主题为"共生无界,智启未来",关注AI等智能科技穿透产业、学科与场景边界,成为驱动社会演进的核心动能[2] - 聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题[3] - 涵盖学术前沿与商业落地的最新碰撞,以及来自Infra、模型、产品产业的领先技术成果[4] - 将权威发布人工智能年度榜单与年度AI趋势报告[5] 参会嘉宾阵容 - 张亚勤:清华大学智能产业研究院院长、中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁[11][12] - 孙茂松:清华大学人工智能研究院常务副院长、欧洲人文和自然科学院外籍院士,主持国家973项目等20余项科研项目[15] - 王仲远:北京智源人工智能研究院院长,前快手、美团、Facebook、微软亚洲研究院高管,发表论文100余篇,获美国专利5项、中国专利50余项[19] - 韩旭:文远知行WeRide创始人兼CEO,带领公司在全球11国超30城开展自动驾驶业务,2024年登陆纳斯达克成为"全球通用自动驾驶第一股"[27][28] - Daniel Povey:小米集团首席语音科学家、IEEE Fellow,著名开源语音识别工具Kaldi提出者,论文引用近52000次[33] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,中文Linux奠基人之一[36][37] - 尤洋:潞晨科技创始人、新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜等荣誉,曾任职谷歌、微软、英伟达等公司[42][43] - 杨帆:商汤科技联合创始人、大装置事业群总裁,主导建设人工智能专用计算中心,推动AI基础设施产业布局[45] - 万卫星:高通公司AI产品技术中国区负责人,负责智能终端侧AI引擎软硬件规划及生态系统建设[48][49] - 陈晓建:亚马逊云科技大中华区产品部总经理,拥有超过20年企业级业务经验,中国公有云服务早期探索者[53][54] 大会发布内容 - 将发布2025人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[117] - 将发布2025年度AI十大趋势报告,结合技术成熟度、落地现状、潜在价值等因素深入分析行业趋势[118] 大会影响力 - 每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[122] - 已成为智能科技行业年度风向标,汇聚技术、产业、投资领域代表性企业和人物[122]
80后诺奖得主:AlphaFold下一步融合大模型
量子位· 2025-11-28 04:11
AlphaFold的发展历程与现状 - 由谷歌DeepMind开发,能精确预测蛋白质三维结构的AI科研工具[8],利用序列和结构数据库中的大量实验数据训练网络以发现氨基酸序列间的关联和模式[9] - 自2020年AlphaFold2首次公开后,迅速成为结构生物化学领域的坚实基座,并陆续推出可预测多个蛋白质结构的AlphaFold Multimer以及迄今速度最快的AlphaFold 3[12] - 从最初的蛋白质结构预测,发展到能处理更复杂的多分子复合体及更广范围的生物分子交互[13],已帮助全球超过300万研究人员预测了数亿种蛋白质结构,影响了超过50万篇相关论文[3] - 标志着生命科学继量子力学和分子生物学革命后的又一次重大跃迁[4],并已在科研中实现工具化,成为当代实验设计的重要组成部分[23] AlphaFold的具体科研应用与突破 - 在心血管疾病研究方面,帮助密苏里大学团队揭示了坏胆固醇(LDL)核心蛋白ApoB100的原子级笼状结构,为治疗提供了理论依据,成果发表于《Nature》[14][15][17] - 在生态保护领域,帮助研究人员在两天内解密了与蜜蜂免疫力相关的关键蛋白Vitellogenin(Vg)的近原子级结构,完成了过去需数年的工作,对濒危种群保护起到关键作用[18][20] - 展现出非常规应用潜力,如被用于预测蛋白质合成设计的成功率,或作为搜索引擎在成千上万个候选蛋白中筛选最可能与目标蛋白结合的蛋白[21][22][23] AlphaFold的未来发展方向 - 核心开发者John Jumper公开表示,下一步是与大模型融合[1][26],目标是使AlphaFold在预测结构之外,还能读懂科学文献数据、进行科学推理、提出假设、设计实验流程甚至自动生成研究思路[26][27] - 未来将能更好地帮助理解更复杂的多分子多功能系统,例如蛋白之间、核酸(DNA/RNA)之间的相互作用等生物过程[27] - 技术思路可能与谷歌面向数学和计算机科学领域的AlphaEvolve系统类似,即使用一个大模型生成解决方案,再用第二个模型检查并过滤错误信息[28][29] AlphaFold的核心开发团队与关键突破 - 由DeepMind创始人兼CEO哈萨比斯和首位"80后"诺贝尔化学奖得主John Jumper领导开发[30][32],Jumper拥有数学、物理及理论化学背景,其博士论文即研究将机器学习应用于蛋白质动力学[33][34] - 初代AlphaFold在第13届CASP中崭露头角,成功预测43个蛋白质中的25个,证明了"机器学习+统计信息"推断蛋白质结构的可行性,但预测质量尚不足以实际应用[41][42] - 关键突破在于采用Transformer架构重构出AlphaFold 2,其预测结构精度达到1.5埃(约一个原子宽度),并在CASP 14竞赛中将准确性均分从60多分提升至92.4分(此前其他方法约40分),成功解决了困扰学界50余年的蛋白质折叠问题[44][48][50][52][53][54]
量子位编辑作者招聘
量子位· 2025-11-28 04:11
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,经过8年积累,拥有顶流影响力和广泛且备受认可的产业资源[1] - 截至2025年,公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万+[12] - 在新榜和清博等第三方数据平台,公司已是AI以及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向岗位招聘:AI产业方向、AI财经方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[4][6] - 所有岗位不同能力层级职位均在开放,工作地点位于北京中关村[2][4] 岗位职责详情 - **AI产业方向**:关注基建层创新,包括芯片、AI Infra、云计算领域新进展及核心玩家动态[5][6];做前沿论文、开源社区、技术大会技术报告的大众化解读[6];参与核心采访,对话产业专家、技术大牛,撰写AI云落地案例[6][7] - **AI财经方向**:聚焦创投、AI创业公司、上市公司、商业模式、产业链资本动向[11];产出创投融资、招股书财报解析、公司战略分析等稿件[11];访谈对话投资人、创业者、产业分析人士[11] - **AI产品方向**:关注AI在终端的落地,包括软件应用产品和硬件方向[6][11];撰写AI应用产品深度评测,跟踪多终端新品发布[11];对话访谈AI应用创业者、产品专家、终端技术专家[11] 任职要求 - **AI产业方向**:对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11];熟悉AI行业的供应链与生态[11];能把复杂技术内容结构化表达[11];有技术背景、理工或CS/EE方向优先[11] - **AI财经方向**:对数据敏感,对财报、股权结构、战略规划感兴趣[11];逻辑结构强,对商业叙事敏感[11];热爱对话采访,社交型人格[11] - **AI产品方向**:对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11];熟悉各大终端厂商业态、体验方法论[11];有强逻辑、体验表达和结构化能力[11] 加入公司的优势 - 员工可站在AI浪潮之巅,第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可玩转AI新工具,将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 员工有机会打造个人影响力,通过撰写独家原创内容建立个人知名度,成为AI领域的意见领袖[6] - 员工可拓展行业人脉,与AI领域大咖零距离接触,参与重要科技活动和发布会[6] - 应届新人会由主编级编辑出任mentor,提供一对一指导[6] - 员工可加入扁平、简单、开放、多劳多得能者上位的活力团队[6] - 员工可获得行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6] 应聘方式 - 应聘者需将个人简历发送至指定邮箱,邮件主题需注明应聘方向及姓名[11] - 随简历需附上科技行业代表作品,或能展现个人写作水平和风格的作品[11]
顶会双盲评审大翻车!一个Bug审稿人信息全泄露,ICLR、NeurIPS、ACL都遭殃…
量子位· 2025-11-28 01:53
学术圈不眠夜啊。 万万没想到,一个系统级大Bug,直接把ICLR、NeurIPS、ACL……各大顶会所有审稿人通通"开盒"了。 事情是这样的。 各大计算机顶会不都是双盲评审嘛,对于论文作者们而言,并不知道给自己打分的审稿人都是谁。 但就在昨个晚上,一个Bug突然疯传:只要输入特定字段到一个API链接,系统就会把审稿人的个人信息一股脑全部吐出来,包括姓名、邮 箱、单位…… 并且不限于某个顶会,而是用了OpenReview的全中招了。 鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 好家伙,约等于官方系统直接成了"人肉"平台了。 事情迅速发酵,最先被发现出问题的ICLR 2026赶忙po出声明: 2015年11月27日,ICLR发现了一个软件漏洞,这个漏洞泄露了作者、审稿人和领域主席的姓名,并影响了所有托管在OpenReview上 的会议。我们感谢OpenReview团队迅速修复了该问题。 任何对泄露信息的利用和分享,都违反了ICLR行为准则,将立即导致所有投稿被拒,还会面临ICLR的多年期禁入惩罚。如果有任何作 者或审稿人联系、威胁或贿赂您,请立即向program-chairs@iclr.cc报告。 声明 ...
DeepSeek再破谷歌OpenAI垄断:开源IMO数学金牌大模型
量子位· 2025-11-28 01:53
文章核心观点 - DeepSeek开源了专注于可自验证数学推理的新模型DeepSeekMath-V2,其在多项国际顶级数学竞赛中取得超越人类和主要竞争对手的卓越成绩[1][7] - 该模型的核心创新在于通过迭代的强化学习循环,开发和利用强大的证明验证能力来指导和优化证明生成,克服了传统方法的局限性[7][9] - 模型的发布被视为对OpenAI和谷歌等行业巨头的重要市场动向,可能影响行业竞争格局[5] 模型性能表现 - 在Putnam 2024竞赛中得分118/120,超过人类最高分90分[2][43] - 在IMO 2025和CMO 2024竞赛中取得金牌级分数,其中IMO 2025的P1至P5题目正确率达到83.3%[2][44] - 在所有CNML级别问题类别(代数、几何、数论、组合学、不等式)上均优于GPT-5-Thinking-High和Gemini 2.5-Pro[2][34] - 这是第一个开源的IMO金牌模型[4] 技术方法创新 - 采用685B参数的大型语言模型架构,专注于自验证数学推理[7] - 开发迭代的强化学习循环,交替优化证明验证器和证明生成器[9] - 引入元验证机制作为二级评估过程,审查验证器生成的证明分析,使验证器分析的平均质量分数从0.85提升到0.96[14][21] - 训练验证器能够根据人类专家标准识别证明问题并评分,分数分为1、0.5和0三个级别[10] - 利用从AoPS竞赛收集的1.75万个奥赛级别数学问题构建初始数据集[12] 训练流程优化 - 实现完全自动化的数据标注流程,在最终训练迭代中取代耗时的人工标注[29][31] - 采用GRPO进行强化学习,迭代地优化证明验证和生成能力[32] - 通过拒绝微调巩固前次迭代中的验证和生成能力[33] - 证明生成器具备自我审查和修正能力,随着最大顺序尝试次数增加,Pass@1指标大幅提升[23][40] 团队背景 - 论文一作邵智宏是DeepSeekMath 7B的一作,提出了经典的GRPO方法[6][45][46] - 邵智宏目前是DeepSeek从事大模型推理研究的研究员,本科毕业于北京航空航天大学,博士毕业于清华[48]
第三波嘉宾来袭!等你一起MEET2026,速戳报名
量子位· 2025-11-27 09:30
大会基本信息 - 会议名称为MEET2026智能未来大会,聚焦AI与前沿科技,旨在回顾过去一年最值得关注的议题并更早看见未来科技趋势[1] - 大会将于2025年12月10日在北京金茂万丽酒店举办[31] - 作为年度影响力科技商业峰会,每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光,已成为智能科技行业年度风向标[33] 嘉宾阵容 - 已有20+位行业专家大咖确认出席,包括Google Cloud大中华区企业与中国初创业务负责人Dennis Yue等[2] - Dennis Yue在云计算和IT服务领域拥有超过30年领导经验,曾任职IBM 21年担任多个高管职位,目前负责Google Cloud大中华区企业与中国初创业务[8][9] - PPIO联合创始人兼CEO姚欣是P2P-Streaming协议发明人,曾创办覆盖全球4.5亿用户的网络电视平台PPTV,现聚焦AI云计算领域推出高性能推理加速引擎等产品[13][14] - 云徙科技COO毛健拥有20多年管理咨询和技术落地经验,主导GOS.AI企业运营超级智能体产品研发,提出消费行业数字化增长飞轮体系[17][18][19] - 卓世科技创始人兼CEO屠静曾任百度多款核心产品高管,具备丰富AI行业实践经验,公司为国内领先的行业模型及智能应用科技创新企业[22] - 联汇科技CEO赵天成博士研发的Om多模态大模型是国内首个通过工信部信通院评测认证的预训练大模型,2025年发布开源视觉语言大模型VLM-R1等终端智能产品[26][27] - 其他确认出席的重磅嘉宾包括张亚勤、孙茂松等AI行业领袖,以及百度、京东、高通、亚马逊等头部AI企业和RockAI、太初元碁等业内新秀[34] 大会核心内容 - 大会将重磅发布人工智能年度榜单与年度AI趋势报告[28] - 人工智能年度榜单从公司、产品、人物三大维度评选五类奖项,为AI行业最具影响力榜单之一[29] - 年度AI趋势报告将结合技术成熟度、落地现状和潜在价值提名十大AI趋势,并进行深入分析及提名代表机构和最佳案例[30] - 大会诚邀技术、产业、投资领域具有代表性的企业和人物共论行业破局之道,洞见智能新未来[33]
大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索
量子位· 2025-11-27 07:30
研究核心概念 - 提出“类人视觉搜索”新任务,使智能体能在360度全景环境中通过自主旋转头部搜索目标物体或路径[6] - 该研究将视觉空间推理从“脱离身体的被动范式”转向“具身的主动范式”[9] - 旨在解决大模型目前只能处理单张静态低分辨率图像、无法改变初始视角获取视野外信息、缺乏物理实体移步换景的局限[12] 技术框架与特性 - 类人视觉搜索具备交互性和具身性两大特性:智能体从窄视角开始行动,每次头部旋转改变视觉输入;将视觉推理与物理动作结合,要求智能体有意识协调头部运动[13] - 具体分为两类搜索问题:类人物体搜索定位目标物体,难度根据初始可见度比率分为简单中等困难三个等级[12];类人路径搜索识别可通行路径并调整身体朝向,难度分为四个级别由文本线索存在及一致性决定[16] - 将搜索问题构建为多模态推理任务,通过策略网络实现工具使用与头部旋转,仅利用决策点采集的单个360°全景图构建闭环搜索环境而无需3D模拟器或硬件[17] 基准测试与数据集 - 构建全新针对性基准测试H*Bench,突破传统测试多聚焦简单家庭场景的局限,涵盖交通枢纽大型零售场所城市街道公共机构等真实世界复杂环境[7][8] - H*包含约3000个带标注任务实例,来源于多样化高分辨率全景视频,通过为每个任务实例设置四个不同起始方向获得12000个搜索回合[21][22] - 数据来源于全球大都市地区自行采集素材及开放平台,场景包含零售环境交通枢纽城市街道公共机构办公室娱乐场所六个主要类别[22][24] 模型训练与性能表现 - 基于Qwen2.5-VL-3B-Instruct模型展开pipeline,经训练后目标搜索准确率从14.83%提升至47.38%,路径搜索准确率从6.44%提升至24.94%[28] - 训练流程包括监督微调灌输基本任务导向推理和工具使用能力,以及多轮强化学习精炼策略鼓励长程推理[31] - 研究发现更大模型尺寸并不保证更好性能,较小4B/3B模型在类人物体搜索任务中超越较大12B/7B模型,在类人路径搜索任务中表现持平[32][33] 错误分析与性能瓶颈 - 类人物体搜索错误主要源于感知能力不足和感知动作差距[36] - 类人路径搜索错误更为复杂,包括缺乏物理常识缺乏社会空间常识以及视觉动作不匹配[36] - 研究表明后训练能有效提高低级感知运动能力,但暴露了高级推理方面根本瓶颈,这些推理需要物理空间和社会常识[34]