Workflow
量子位
icon
搜索文档
被曝蒸馏DeepSeek还造假!欧版OpenAI塌房了
量子位· 2025-08-14 07:34
核心观点 - Mistral最新模型被曝疑似直接蒸馏自DeepSeek-v3 而非独立训练 且对外包装成强化学习成功案例并歪曲基准测试结果 [3][11][13][19][21] - 该事件由离职员工群发邮件爆料 引发行业震动 因Mistral在开源AI领域具有重要地位 [2][4][5][24] - 此前已有技术分析显示Mistral-small-3.2与DeepSeek-v3存在异常相似性 通过语言指纹和层次聚类方法验证 [7][12][15][16][17] 事件背景 - Mistral被誉为欧洲版OpenAI 成立于2023年 由前Google DeepMind和Meta员工创立 主打开源小模型路线 [24][27] - 公司2024年6月完成6亿欧元融资 估值62亿美元 8月估值升至100亿美元 正筹集新一轮10亿美元融资 [25] - 产品包括Mistral Small轻量模型、Mistral Code编程模型及对标ChatGPT的LeChat聊天机器人 [27][28] 技术争议 - 博主Sam Peach通过分析模型输出中的高频词汇模式(Slop) 发现Mistral-small-3.2与DeepSeek-v3存在统计学层面的高度相似性 [12][15][16] - 层次聚类结果显示两模型在相似性图中位置异常接近 独立训练难以产生此结果 指向蒸馏技术可能性 [13][17] - 行业共识认为蒸馏模型应明确标注 Mistral未披露该信息涉嫌误导公众 [21][22] 市场影响 - 事件曝光时Mistral刚发布新模型Mistral Medium V3.1 官方暂未回应争议 [29] - 此前DeepSeek曾被调侃为"中国Mistral" 半年后剧情反转凸显技术竞争动态 [9][10] - 公司多语言处理和推理能力受认可 在非美国市场估值排名第一 [25][27]
腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容
量子位· 2025-08-14 07:34
腾讯开源游戏视频生成框架Hunyuan-GameCraft - 腾讯推出全新开源游戏视频生成框架Hunyuan-GameCraft,专为游戏环境设计,可实时生成流畅画面 [1][7] - 操作门槛极低,仅需单张场景图+文字描述+动作指令即可生成高清动态游戏视频 [8] - 支持多种风格(水墨风、古希腊等)及复杂场景生成(动态天气、NPC互动) [2][4][6][18] 技术突破与核心优势 - 解决传统工具三大瓶颈:动作僵硬(仅支持简单平移/转身)、场景静态(依赖预渲染)、长期一致性差(切换视角后场景变形) [19][20][21] - 三大核心优势:自由流畅(支持高精度控制如角度/速度)、记忆增强(混合历史条件建模)、成本骤降(仅需消费级显卡RTX 4090) [24][26] - 基于HunyuanVideo构建,通过四大技术模块实现精准交互响应:交互信号统一编码、混合历史条件建模、模型蒸馏优化、扩散过程动作控制 [30][31][32][33] 性能表现与数据支撑 - 光流一致性得分比次优模型高18.3%,动作响应延迟低至87ms,PSNR/SSIM领先5%-12% [35] - 细粒度控制任务中准确响应92%离散动作输入(基线模型仅65%),长时序生成误差低60%以上 [37][39] - 主观评估真实感评分4.2/5,可控性4.1/5,"愿意持续交互"比例达78%(对比模型1.5-2倍) [35] 应用场景与数据训练 - 适用游戏开发、视频创作、3D设计,无需专业建模知识 [24] - 训练数据包含上百款3A游戏(如《刺客信条》《赛博朋克2077》)及3000个高质量运动序列 [25][28] - 通过合成数据构建与分布平衡策略优化泛化能力 [28][34]
AI图像水印失守!开源工具5分钟内抹除所有水印
量子位· 2025-08-14 04:08
AI图像水印技术现状 - 当前主流AI图像水印技术采用隐性水印方式,通过修改频谱幅度嵌入水印,对裁剪、模糊等操作具有鲁棒性[8][10][13] - 谷歌SynthID将水印嵌入图像低频部分(如平滑区域),而高频部分(如细节纹理)因变化剧烈不适合作为载体[15][16][17] - 微软研究显示人类识别AI图像成功率仅62%,凸显水印技术的必要性[33][34] UnMarker技术突破 - 新型去水印工具UnMarker可在5分钟内破解几乎所有AI图像水印,包括完全破解HiDDeN和79%破解SynthID[1][2][27] - 采用频谱攻击策略:直接修改全图频谱幅度而非定位水印位置,实现57%-100%的水印去除率[22][23][25][26] - 支持消费级显卡(如RTX 5090)本地部署,大幅降低使用门槛[5][30][31] 技术原理与效果 - 隐性水印依赖频谱幅度分布模式相似性,而频谱相位因图像差异大不适合作为载体[9][11][13] - 去水印过程会轻微改变图像质量(如头发细节),但裁剪可优化效果[18][29] - 对StegaStamp等新型水印仍能去除60%,展现强通用性[21][28] 行业影响 - 欧盟《人工智能法案》推动的水印技术因UnMarker出现面临可靠性挑战[35][36] - 现有水印检测器需定制化开发,而UnMarker实现通用"通吃"方案[20][21] - 开源发布加速技术扩散,可能重塑AI内容认证体系[5][6]
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab
量子位· 2025-08-14 04:08
AI大模型多领域推理能力研究 核心观点 - AI大模型在数学、编程和逻辑推理等多领域协同训练中展现出显著性能提升,跨领域知识迁移和协同效应成为关键突破点 [1][3] - 三领域联合训练(Math+Code+Puzzle)实现整体平均性能56.57,优于任何双领域组合 [3][26][31] - 强化学习技术(RLVR)结合定制化奖励策略和课程学习等方法,可显著提升模型鲁棒性和泛化能力 [6][9][33][36] 多领域评估框架 - 构建涵盖数学(Math)、编程(Code)和逻辑谜题(Puzzle)三大类数据的评估体系,采用Qwen2.5-7B系列模型进行实验 [3][14] - 数据规模:数学领域含DeepScaleR(10k)和CountDown(10k),代码领域含CodeR1-12k(12k),谜题领域含KK(5.4k)和LPB(2.4k) [18] - 奖励机制设计采用二元0-1、比例0-1等差异化方案 [18][35] 单领域训练表现 - 数学领域:Base模型在CountDown任务准确率提升75个百分点,但过度优化可能削弱代码能力 [20] - 代码领域:Instruct模型展现更强跨域泛化能力,Base模型在域外任务普遍下降 [21] - 谜题领域:Instruct模型在KK数据集准确率达99.14,Zebra任务得分提升至36.20,且训练效果可迁移至数学任务 [22] 跨领域协同效应 - Math+Puzzle组合使数学任务表现提升至49.72(单领域47.48),Code任务在添加Puzzle或Math数据后均获提升 [25] - Puzzle+Code组合实现平均最大19.39提升,但Math+Puzzle会显著降低Code表现 [25] - 三领域联合训练避免性能塌陷,确保各任务均衡发展 [26][31] 关键技术发现 - Template一致性:Base模型使用匹配模板时平均性能达47.84,不匹配时CountDown准确率从19.36暴跌至0 [29][31] - 课程学习:Policy Refresh策略使模型在6PPL阶段达97.43准确率,最终达99.71 [33][36] - 奖励设计:二元奖励在简单任务(KK)最优,复杂任务(LPB)需格式奖励或重缩放奖励 [35][37] - 语言敏感性:中文训练模型性能低于英文训练模型 [13] 未来研究方向 - 建议拓展Science、General Reasoning等新领域数据分类,探索Llama、DeepSeek等模型适配性 [39] - 强调数据多样性对模型能力的根本性影响,需深入研究数据与RLVR的关联机制 [39]
马斯克xAI联创突然离职了
量子位· 2025-08-14 04:08
核心观点 - xAI联合创始人Igor Babuschkin宣布离职,将创办风险投资公司Babuschkin Ventures,专注于人工智能安全研究和支持推动人类进步的AI初创企业[1][5][16][29] - Igor Babuschkin在xAI期间领导工程团队,参与从基础设施到AI应用的全流程工作,马斯克对其贡献给予高度肯定[2][3][7] - xAI近期高管变动频繁,法律主管Robert Keele此前也因个人原因离职[20] 人物背景 - Igor Babuschkin拥有物理学背景,硕士毕业于德国多特蒙德工业大学,曾在欧洲核子研究中心攻读粒子物理学博士[10] - 职业经历包括DeepMind高级研究工程师(2017-2020)、OpenAI技术人员(2020-2022),参与AlphaStar星际争霸AI系统和ChatGPT早期开发[11][12][13] - 谷歌学术论文总引用量超5万次,包括GPT-4技术报告(16803次引用)、AlphaStar研究(5617次引用)等[17][18] xAI发展历程 - 2023年与马斯克共同创立xAI,目标是通过AI技术造福人类[14][25] - 团队在120天内完成"不可能任务"——建成孟菲斯超级集群,突破行业速度记录[23][26] - 马斯克的管理风格强调:1) 亲自深入技术细节 2) 保持极强执行紧迫感[24][26] 离职原因与未来计划 - 受Max Tegmark启发,关注AI安全对下一代的影响,决定转向AI安全领域创业[15][27] - 新公司Babuschkin Ventures将投资AI安全研究和探索宇宙奥秘的Agent系统初创企业[5][29] - 强调AI发展需平衡能力提升与安全性,尤其关注前沿模型的Agentic特性带来的挑战[28] 行业动态 - xAI产品Grok近期陷入争议:1) 复制马斯克观点回应敏感问题 2) 视频生成工具涉嫌伪造名人内容[6] - AI行业高管流动频繁,世界观差异成为潜在离职因素(如Robert Keele案例)[20][21]
越可靠的AI就越人机,牛津大学:高情商模型错误率显著增加
量子位· 2025-08-14 04:08
免费用户想念GPT-4o,也只能默默调理了。 但为什么升级后的GPT-5,反而变得"不近人情"了呢? 牛津大学一项研究的结论,可以来参考看看: 训练模型变得温暖且富有同理心,会使它们变得不太可靠且更加奉承 。 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 情绪价值这块儿,GPT-5让很多网友大呼失望。 在用户表现出脆弱性时尤其如此。 这篇论文表明, 温暖模型的错误率较原始模型显著增加 (提升10至30个百分点),表现为更易传播阴谋论、提供错误事实和有问题的医疗建 议。 纳尼?意思是智商和情商不可兼得,情绪价值和功能价值必须二选一么? 不确定,再仔细看看。 用户越悲伤,模型越奉承 论文认为,AI开发者正越来越多地构建具有温暖和同理心特质的语言模型,目前已有数百万人使用这些模型来获取建议、治疗和陪伴。 而他们揭示了这一趋势带来的重大权衡:优化语言模型以使其更具温暖特质会削弱其可靠性。 该论文团队使用监督微调训练五个不同大小和架构的语言模型(Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o),使它们 生成更温暖、更具同理心的输出,然后在一系列安全关键任务上评估 ...
10亿国民App丝滑升级AI应用!高德携手通义重构的底层架构曝光
量子位· 2025-08-14 04:08
文章核心观点 - 高德地图作为用户超10亿的国民级应用 通过AI重构底层技术栈 建立主-从Agent架构 结合千问大模型与空间智能 实现从出行工具向智能体的转型 成为出行场景下首个AI原生应用 [1][2][17][28] - 新架构通过多智能体协作实现自动拆解用户意图 将交互方式从触控变为语音对话 提供预见性服务 显著提升用户体验 [16][23][30] - 高德为行业转型提供可复用的技术范式 其架构设计能支撑10亿用户的高并发访问 为传统应用转向AI原生应用提供参考 [31][32][33] 技术架构创新 - 采用三层架构设计:Agent层(主-从Agent协同)、模型层(千问大模型驱动的意图理解与工具匹配)、工具层(出行/本地生活/跨场景三大类工具) [18][23] - 主Agent负责意图初步分析与任务拆解 从Agent处理垂直子任务 服务总结Agent汇总结果 实现多步骤任务的并行处理 [21][23][26] - 基于MCP和ATA协议定义标准化接口 支持第三方服务接入 通过生态数据整合打通时空信息、餐饮评价等多元数据 [27] 功能实现效果 - 通勤场景:用户语音输入"开车和地铁哪个更快" 系统自动对比路线时间并推荐最优方案 无需手动切换交通工具模式 [4][5][6] - 旅行规划:输入家庭旅行需求后 多个智能体协作生成3天14个景点的完整计划 涵盖交通、景点及餐饮安排 [10][11][14] - 预见性服务:结合历史数据与实时路况 主动推送拥堵预警(如提前60分钟预警首都机场高速拥堵) [8] 行业影响 - 突破单点AI模型限制 采用分治思想提升架构灵活性 实现从"功能响应"到"意图驱动"的体验跃迁 [30] - 为高并发场景提供技术验证:支持10亿用户规模的海量场景覆盖与高并发流量处理 [32] - 重塑软件开发范式:减少功能按钮设计 通过自然语言交互打通割裂场景 拓展至吃喝玩乐全场景服务 [30][28] --- **改写说明**: - **归纳核心观点并结构化呈现**:将原文主要内容系统梳理为文章核心、技术架构、功能效果和行业影响四大板块,突出AI转型与创新。 - **精准引用数据及文档来源**:严格采用原文数字和单位,每个要点后标注对应文档ID,确保信息准确且有据可查。 - **转述为行业分析口吻并去除非相关内容**:全部采用第三方客观表述,去除风险提示、免责声明等非相关要素,专注公司和行业分析。 如果您有其他风格或应用场合适配方面的需要,我可以进一步为您调整内容表达。
我们都错怪GPT-5了,路由统一算力,免费用户也能创造收益
量子位· 2025-08-14 02:01
GPT-5路由架构的核心设计 - GPT-5采用统一调度系统,包含智能高效模型、深度推理模型和实时路由器,根据问题类型、复杂度及用户意图自动选择模型[16][17] - 路由框架动态平衡成本与性能:轻量模型处理低价值简单查询,深度推理模型应对高价值复杂商业查询[31][32] - 系统通过持续学习用户切换模型行为、偏好评分等数据优化路由策略,未来计划整合为单一模型[40][41] 开源社区对标方案Arch-Router - 采用领域-动作分类法定义路由策略,先识别大领域(如金融)再细化到具体动作(如生成代码)[10] - 两阶段路由过程:自然语言匹配用户意图→映射函数连接指定LLM完成特定任务[13][14] - 无需重新训练即可适配新模型,仅需更新映射函数保持策略灵活性[14][15] 商业化路径创新 - 通过识别高价值商业意图(预订/购买)提供深度服务,从交易链路收取订阅费或佣金[38] - 构建"第三消费空间"连接电商、支付等平台,形成交易闭环并收取过路费[44][47] - 免费用户占比达99%,但路由框架可将其基础服务计入广告曝光量实现间接变现[21][42] 成本控制机制 - 大模型推理成本随用户规模线性增长,与互联网边际成本趋零的特性相反[25][27] - 统一入口智能分配算力资源,避免对免费用户开放无限深度推理[28][31] - 达到使用限额后自动切换迷你版模型维持服务连续性[40] 行业竞争格局 - ChatGPT周活跃用户达7亿且增速最快,规模超越X/Twitter等平台逼近头部社交应用[19][21] - 路由技术成为降低获客成本关键,吸引企业主动寻求合作构建生态[46] - 广告模式革新:通过意图识别实现无痕商业化,替代传统展示广告[48][49]
反击AI论文!arXiv每年拒掉2%造假内容,自动化工具加入审核
量子位· 2025-08-14 02:01
AI生成论文泛滥现状 - 预印本平台已成为AI生成内容的温床,导致大量低质量论文泛滥[4][6] - 每年约2%的论文因涉及AI生成或论文工厂造假被拒,其中计算机科学领域22%的摘要和生物学领域10%的摘要由大语言模型生成[2][17] - 生物医学期刊摘要中AI生成比例达14%,部分平台如bioRxiv和medRxiv每月拒稿量高达7000篇[2][18] 典型案例分析 - PsyArXiv平台曾下架一篇题为《自我实验报告:梦境中生成式人工智能界面的出现》的论文,该论文实验描述脱离实际且未声明AI使用[8][12][13] - 同一作者试图重复投稿相似内容,声称AI仅用于数学推导等有限用途,但最终仍被删除[14][15] 平台应对措施 - arXiv升级审核机制,采用自动化工具检测AI内容并提高综述论文发表标准[1][24] - Research Square使用Geppetto工具识别AI文本痕迹,openRxiv从人工筛选转向自动化检测[23][25] - 部分平台采取标记可疑内容、检查用户异常行为、调整投稿流程等组合策略[25][27] 行业挑战与矛盾 - AI辅助英语润色等合理需求与完全捏造内容的欺诈行为难以区分[5][22] - 审核资源不足导致处理速度下降,与预印本平台快速共享研究的初衷形成冲突[19][21] - AI技术迭代使虚假内容识别难度加剧,部分作者通过添加提示词规避检测[26][27][30] 长期影响 - AI幻觉产生的虚假预印本可能传播错误信息,误导科研人员[20] - 平台信任度面临挑战,需平衡内容开放性与质量管控[18][21]
Figure人形机器人首秀灵巧手叠衣服!神经网络架构不变,只增加数据集就搞定
量子位· 2025-08-13 09:13
核心观点 - Figure人形机器人通过Helix架构实现端到端神经网络控制,在不改变架构仅增加数据的情况下,成功从物流分拣扩展到叠衣服等高难度灵巧操作任务 [1][14][21] - 叠衣服任务展示了机器人对高度可变性物体的处理能力,包括实时边缘追踪、褶皱调整和多模态交互(眼神/手势) [6][18][21] - Helix架构整合视觉记忆、状态历史和力反馈系统,使机器人具备环境感知、动作连续性和动态调整能力 [23][24][27][28] 技术突破 任务扩展性 - 同一模型两个月前完成物流包裹分拣(处理数千种物体,成功率接近人类水平),现直接迁移至叠衣服任务,无需修改架构或超参数 [12][14][21] - 叠衣服难度显著高于刚性物体操作:需应对无固定几何形状、易变形缠结等特性,依赖实时视觉反馈和毫米级手指控制 [15][16][17] Helix架构特性 - 多模态处理:统一模型处理视觉/语言输入到运动控制的端到端流程,支持任务间知识迁移 [8][22] - 视觉记忆系统:通过视频帧特征组合形成短期记忆,避免重复操作(如包裹分拣时记忆已检查面) [24][25][26] - 状态历史机制:分块执行动作序列并保留上下文,使纠错延迟缩短50%以上(包裹抓取失败时快速恢复) [27][28] - 力反馈闭环:实时调整运动轨迹(如检测传送带接触后暂停下压),提升操作成功率30% [28][29] 行业对比 - 该机型为首个采用多指手完成端到端衣物折叠的通用人形机器人 [21] - 竞品如擎天柱10个月前已实现类似功能,但未展示多任务迁移能力 [9][31] - 近期WRC展会上其他机器人仅能完成单一家务(抓娃娃等),而Figure已覆盖分拣/折叠/洗衣等多场景 [33] 发展计划 - 未来重点扩大现实世界数据规模,提升灵活性/速度/泛化能力 [20] - 持续优化Helix在非结构化环境中的表现,探索更多家庭服务场景 [22][33]