量子位

搜索文档
陶哲轩经费被断供,在线发帖自证数学有用
量子位· 2025-08-05 04:13
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 菲尔兹奖得主、UCLA数学教授 陶哲轩 (Terence Tao) 这几天很无助,更多的还有是愤怒。 这位数学家中的天才,最近接连 遭遇重创—— 先是他就职的UCLA有3.39亿美元的科研经费被冻结, 陶的个人研究以及UCLA应用数学研究所IPAM失去资金支持,后续研究几近无枝可 依。 摆事实:"压缩感知"是一个了不起的跨界合作故事 紧接着,当陶哲轩在社交媒体上表达对这一举措的不理解后,招来了更猛烈的舆论争议—— 许多网友 开始质疑陶的一些学术成果并不像宣传中所说的那么重要 ,"因为医学成像领域 (以及其他领域,如地震学、天文学和统计学) 的 研究人员已经在不同时间通过实证发现了非常相似的算法"。 所以,为什么要给"无用的数学"投入那么多公共资金?数学研究回报率究竟在哪里? 面对这些争议,陶哲轩没有沉默。 他又开新帖,洋洋洒洒,以自己曾参与推动的"压缩感知"研究为例, 力证公共投资在数学领域的回报是怎样一点点累积出来、并最终改写现 实世界的。 压缩感知 (Compressed Sensing,简称CS) 是一种革命性的信号处理技术。 简单来说,压缩感知打破 ...
Claude Opus 4.1被曝即将发布!Anthropic靠两大客户API收入超OpenAI
量子位· 2025-08-05 04:13
Claude Opus 4.1模型进展 - Claude Opus 4.1正在进行内部测试,型号为"claude-leopard-v2-02-prod",重点提升推理和规划能力[1][3][10] - 内部安全系统Neptune 4已启动红队测试,通常在模型部署前1-2周进行,推测未来半个月内发布[12][13] - 历史版本升级显示,0.1版本可能带来重大性能飞跃,参考Claude-3到Claude-3.5的显著提升[5] 商业表现与收入结构 - Anthropic过去7个月ARR增长5倍至50亿美元,API收入主要来自编程领域[8][9] - 两大客户Cursor和GitHub Copilot贡献14亿美元API收入,占近半年API总收入的近半数[9][29] - Claude Code推出后ARR达4亿美元,6月起周下载量增长6倍至300万次,累计吸引11.5万开发者[30] 市场竞争格局 - OpenAI过去6个月ARR从60亿美元翻倍至120亿美元,主要依赖C端和企业订阅收入[27][31] - Anthropic在API收入上超越OpenAI,但面临收入过度依赖AI编程的风险[29][33] - GPT-5在Cursor内测可能威胁Claude编程市场份额,Meta和Grok也在强化编程能力[36][38][40] 产品特性与用户反馈 - Claude模型在编程领域表现突出,被Meta和OpenAI等竞对用于代码生成[7][23] - 用户关注新模型定价问题,Opus版本价格是Sonnet的5倍(Opus输入token单价15美元/MTok vs Sonnet 3美元/MTok)[20][21] - 模型合规性较强,易拒绝回答争议问题,但对编程任务影响有限[21][22]
Qwen新开源,把AI生图里的文字SOTA拉爆了
量子位· 2025-08-05 01:40
通义千问开源图像生成模型Qwen-Image - 通义千问开源200亿参数图像生成基础模型Qwen-Image,采用MMDiT架构,是系列中首个图像生成基础模型[3][4] - 模型主打复杂文本渲染能力,能准确生成包含复杂图文混合布局的图像,文字准确度和契合度高[5][6] - 支持生成海报、PPT、商品宣传图等多种应用场景,文字渲染能力突出[8][16][22] Qwen-Image核心能力 - 具备复杂文本渲染能力,支持多行布局、段落级文本生成和细粒度细节呈现,中英文均能高保真输出[28] - 拥有一致性图像编辑能力,支持风格迁移、增删改、细节增强、文字编辑等多种操作[27] - 采用渐进式训练策略,从非文字到文字渲染逐步过渡,增强原生文字渲染能力[34] 性能表现 - 在多个公开基准测试中实现SOTA,包括通用图像生成的GenEval、DPG和OneIG-Bench等[29][30] - 在文本渲染基准LongText-Bench、ChineseWord和TextCraft上表现尤为出色,中文文本渲染大幅领先现有最先进模型[32][33] 实测效果 - 情境插画生成效果优秀,文字与画面融合度高,细节氛围感强[11][13][14] - 能准确理解提示词生成PPT和海报,主体文字和图中图符合要求[16][18][20] - 商品宣传图生成中能准确对应文字与画面元素[22][24]
“没有AI味”的Flux.1新模型,现可以免费试用
量子位· 2025-08-05 01:40
模型发布与核心特点 - 全新AI生图模型FLUX.1 Krea [dev]发布,主打"没有AI感"的自然细节和真实感,避免过曝高光和过度饱和纹理[1][3][5] - 该模型为Krea 1的开源权重版本,训练目标是生成更真实、更多样化的图像[5] - 官方称其在人类偏好评估中超越以往开源文生图模型,与FLUX1.1 [Pro]等闭源方案表现相当[71] 技术性能测试 光学真实性 - 模型能理解物理光学规律,如为不锈钢管主动添加锈点特质增强真实感[15] - 但对波浪等动态元素理解较浅显,存在重复失真现象[21] 纹理连续与语义理解 - 微观结构连续性表现良好,如针织面料纹理过渡自然[27] - 难以准确理解特定术语如"斜纹针",且对植物类型识别能力有限[28][32] 透视与动态模糊 - 能处理多物体交错场景的空间关系,实现浅景深效果[38] - 对运动物体的时间维度模拟不足,模糊方向不符合物理规律[43][44] 物理规则遵循 - 能优先遵循基本物理规律(如保持树影存在)[47] - 面对明显反常识场景(如空中游动的鱼)会放弃物理规则[49] 功能应用与局限 - 支持风格选择和图像调整功能,但人物特征识别能力较弱[61][64] - 架构与FLUX.1 [dev]生态系统兼容,可作为下游应用定制的基础模型[73] - 免费试用存在额度限制,默认输出4张图可能消耗较多额度[74] 行业活动 - 8月7日将举办AI沙龙,聚集百度文心快码、智谱、Kimi等厂商探讨AI Coding发展[76]
字节Seed数学新模型,SOTA了
量子位· 2025-08-04 08:55
模型性能突破 - Seed-Prover在MiniF2F数据集上实现100%正确率,全面超越谷歌AlphaGeometry2 [1][3] - 普特南数学竞赛成绩达331/657,是主流模型Goedel-Prover-V2的4倍 [4][5] - 历年IMO难题解决率78.1%,CombiBench正确率30%较Deepseek-Prover-V2提升20个百分点 [4][5] 技术架构创新 - 采用Lean 4形式化推理框架,实现数学对象精确定义与机器自动验证 [7][8] - 首创引理式证明范式,通过生成模块化引理提升推理效率(如示例中round1_h0与round1_h1独立编译) [9][10][11] - 建立引理池存储2.3亿几何问题数据,支持轻/中/重量三级推理策略 [12][13][15][18] 几何推理专项优化 - 集成Seed-Geometry引擎,采用前向链推理+反向依赖追踪架构 [16][17] - 在2000-2024年IMO几何题中解决43道,比AlphaGeometry2多1道 [22][23] - IMO候选题解决22道,较AlphaGeometry2多3道,并在2秒内破解IMO2025第2题 [24][25][26] 行业标杆对比 - IMO2025实战中6题解决5题,达金牌水准(Heavy模式赛后达5/6) [4][22] - MiniCTX-v2正确率81.8%,远超o4-mini基准模型的44.3% [4][5] - 前谷歌成员评价其为"唯一为IMO发表完整论文的AI实验室" [4][28]
Claude断供OpenAI,AI编程竞争再升级
量子位· 2025-08-04 08:55
核心观点 - Anthropic突然撤销OpenAI员工对Claude的访问权,声称OpenAI违反了其服务条款,禁止使用其服务构建竞争性产品或训练竞争性AI模型[1][22] - OpenAI被指控使用Claude辅助GPT-5的开发和安全测试,触发Anthropic的API防御策略[4][5][6] - Anthropic CEO达里奥·阿莫迪批评OpenAI领导层动机不真诚,并抨击Meta高薪挖人破坏行业公平[8][10][12][13] - 行业竞争焦点在于AI编程领域的技术互鉴与安全评估,双方对API访问权限的互惠性存在分歧[24][29][31] 事件背景 - Anthropic依据商业服务条款切断OpenAI对Claude的访问,禁止其用于训练竞争模型或逆向工程[22] - OpenAI通过特殊API权限接入Claude,用于编程能力对比测试及安全提示反应评估[24][25] - 此前Anthropic已对AI编程初创公司Windsurf采取类似权限限制措施[31] 行业竞争动态 Anthropic立场 - 公司CEO强调层级式薪酬架构,反对Meta式高薪挖人策略,认为会破坏公司文化[16][17][18] - 否认垄断意图,主张通过树立行业榜样实现良性竞争而非恶意对抗[20][21] - 允许API用于安全评估和基准测试,但禁止直接用于竞争对手模型开发[29] OpenAI回应 - 首席通信官称评估竞品属行业惯例,对Anthropic单方面关闭API表示失望[24] - 技术团队使用Claude主要进行编程辅助和模型行为对比,非直接训练GPT-5[5][27] 技术争议焦点 - 行业对"使用竞品输出训练模型"与"常规编程辅助"的边界存在分歧[27] - 网友指出双方API条款均包含互惠保护条款,个人使用未被禁止[29] - GPT-5在编程领域实现编码规则重写,加剧技术竞争烈度[5] 行业影响 - 事件反映AI头部公司在模型安全评估与知识产权保护间的矛盾[22][24] - 人才争夺战引发对薪酬公平性与公司文化可持续性的讨论[12][13][17] - 技术互鉴与竞争边界问题或成为未来行业监管重点[27][29]
监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力
量子位· 2025-08-04 07:00
大模型推理能力研究进展 - 可验证奖励的强化学习(RLVR)技术取得突破,尤其是"一题强化学习"在多个任务中表现亮眼[1] - RL训练面临资源成本高(上百小时A100GPU)和训练不稳定的现实难题[2] - 传统监督式微调(SFT)在低数据量下易过拟合,效果难以保证[2] One-Shot CFT技术原理 - 滑铁卢大学TIGER Lab提出One-Shot Critique Fine-Tuning新方法,通过"逐步分析判断答案好坏"激发LLM推理能力[3] - 方法流程:选取代表性任务→多模型生成解答→强大模型点评→训练目标模型从点评中学习[4] - 仅需一题数据+多个解答+多个点评即可完成微调,训练仅需约5个GPU小时[5] 实验效果验证 - 在数学任务上,Qwen2.5-Math-7B经CFT微调后准确率提升+15%,超越使用4万多个样本的全监督微调模型[9] - Qwen2.5-Math-7B在MATH-500等基准测试中平均提升+14.9分,最高单任务提升+23.1分[9] - 在BBEH逻辑推理任务中获得+10~16%准确率增幅,展现跨任务迁移能力[10] - 效果对具体任务和种子选择不敏感,具有良好的稳定性和复现性[11] 技术优势分析 - 批判性学习:理解"答案为何正确或错误",学习信号更具深度[12] - 多视角输入:一个问题模拟多种推理路径与错误类型,接近人类学习方式[12] - 强泛化性:点评语言包含通用逻辑判断规则,更易迁移至新任务[12] - 更换问题、模型、点评风格时,提升幅度保持稳定[13] 应用前景 - 相比RL方法大幅降低资源需求(5 GPU小时 vs 上百小时)[14] - 为个人研究者、资源有限实验室和初创团队提供高性价比解决方案[15] - 全流程开源(训练脚本、模型参数、数据集等),极大降低复现门槛[17]
科学家首次实现修正线粒体DNA突变,治愈不治之症打开新大门
量子位· 2025-08-04 07:00
发表在《PLOS Biology》(生物学top期刊)的最新研究显示,荷兰科学家 成功纠正了线粒体DNA中的突变 ,在基因治疗领域取得重大突 破。 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 治愈不治之症,又被向前推进了一公里:直接修改基因的那种。 我们知道,线粒体基因突变会导致其功能障碍,进而引发 与衰老相关的疾病、某些类型的癌症以及严重且可能致命的母系遗传线粒体疾病 。 尽管CRISPR/Cas技术的开发为核DNA编码的突变带来了革命性的可能性,但该系统无法有效穿过线粒体膜并到达线粒体DNA,导致患有线 粒体疾病的患者没有治疗的选择。 而 DdCBE(双链DNA脱氨酶衍生的胞嘧啶碱基编辑器) 解决了这个问题,能够通过一种不依赖CRISPR/Cas的系统在线粒体基因组中进行 编辑,精确改变线粒体DNA中的错误遗传字母,无需切割DNA链。 该研究让一些饱受疾病困扰的网友看到了治愈的希望。 该研究证实,DdCBE能 在原代成人细胞中有效恢复线粒体功能 。 在原代成人细胞中有效恢复线粒体功能 为探索DdCBE介导的线粒体DNA基因编辑的临床应用潜力,论文的研究团队在相关细胞类型中构建并功能校正了致病突变 ...
00后创始人重新定义AI编程范式!全球首个搭载云端Agent编程团队的IDE来了!
量子位· 2025-08-04 07:00
产品概述 - 全球首个真正实现项目级开发的AI IDE 名为Vinsoo 由芸思智能推出 创新性地采用云端安全Agent团队与本地IDE相结合的工作模式 使AI从Copilot转变为开发团队成员[1][2][15] - 产品支持从需求分析到最终交付的完整开发流程 适用于新手码农和资深架构师[3] - 目前产品已率先在国内上线 优先邀请中国开发者体验[4][50] 技术架构 - 系统基于本地IDE+云端Agent模式运行 开发者在本地编写代码时可一键同步项目到云端 多个智能Agent在各自隔离、安全的环境中并行执行任务[8][22] - 云端Agent系统具备后台任务并行、安全可控和Agent能力进阶三大特点 支持多智能体并行工作和多终端环境协同运行[22][23] - 每个Agent被分配到独立的容器沙盒中执行工作流 避免资源冲突并保障数据和权限的安全隔离[29] - 云端环境提供统一的类Linux执行层 Agent可无障碍使用各种终端指令[30] - 通过WebView可视化工具赋予Agent操作能力 可模拟鼠标点击、拖拽元素、填写表单等前端交互操作[31] 工作模式 - 提供两种工作模式:Vibe模式主打轻量高速 适合灵感驱动的即时试验和快速迭代 AI作为具备上下文记忆的搭档实现"所想即所得"[16][17] - Full Cycle模式侧重完整工程化流程 注重代码质量和项目规范 适用于中大型团队协作或严谨交付项目[18] - Full Cycle模式下AI团队按照软件工程最佳实践工作 覆盖需求确认、系统设计、任务拆解、动态规划、环境配置、代码生成、单元测试、模块联调、Bug修复、结果验收及文档生成全流程[19][26] 核心功能 - IDE内嵌AI Agent系统 集成强大的代码库索引和智能补全功能 数分钟内可完成数百个文件的大型项目代码库索引分析[34][35] - 支持长上下文工程化压缩 提升项目内记忆能力以处理大型项目历史上下文[36] - 智能补全引擎根据上下文实时提供代码补全建议 提升人工编码效率和准确性[38] 行业定位 - 代表AI Coding新范式 未来开发模式将是人类架构师/产品师/设计师与专业分工的AI Agent共同协作[5] - 相比Cursor等竞品 具备多终端命令执行与监控、Agent自主视觉交互等高级功能 且目前没有其他IDE具备云端安全环境执行任务的能力[9][10] - 相比专注于编码环节部分功能的传统AI编程工具 该产品实现需求分析、代码实现、测试部署全流程自动化[11][12] - 较GitHub Copilot X从Issue描述生成PR的尝试 Vinsoo的Full Cycle模式打造"需求→任务→实现→交付"完整闭环 从根本上重新定义软件开发流程[13] 团队背景 - 芸思智能去年年底完成天使轮投资 团队规模20-30人[39] - 研发团队来自华盛顿大学、卡内基梅隆大学、清华大学、北京大学等中美顶尖学府硕博士 以及亚马逊、京东、腾讯、字节跳动资深工程师[39] - 创始人兼CEO殷晓玥本科毕业于华盛顿大学(U.S. News世界排名第8) 曾拒绝布朗大学offer选择回国AI创业[40][41] - 核心团队5位成员均结识于创始人2019年发起的"Peer to Peer"教育公益项目 该项目曾集结百余名世界名校志愿者为超过1.5万名中国中学生提供帮助[44][45][46]
浙大打造全球最大类脑计算机,拥有20亿个神经元,接近猕猴大脑规模,能运行DeepSeek
量子位· 2025-08-04 07:00
全球最大规模类脑计算机 - 浙江大学发布全球规模最大的类脑计算机"Darwin Monkey(悟空)",采用第三代类脑芯片Darwin 3构建,拥有超过20亿个脉冲神经元与1000亿突触连接,首次在工程系统中逼近猕猴大脑的神经元规模 [1] - 系统功耗降低至2000瓦,是国际上首台突破20亿神经元的神经拟态类脑计算机 [1] - 已成功部署包括DeepSeek在内的智能应用,可模拟不同神经元规模的动物大脑(如秀丽线虫、斑马鱼、小鼠及猕猴) [1][19] 类脑计算技术背景 - 神经拟态类脑计算通过人工神经元和突触模拟大脑计算机制,旨在实现更高效的信息处理,人脑约含860亿神经元 [4] - 脉冲神经网络(SNN)使用离散脉冲传输数据,比传统人工神经网络更接近生物神经元功能 [8] Darwin3芯片技术突破 - 配备960颗自研Darwin3芯片,单芯片支持235万个脉冲神经元,采用24×24二维计算节点网格架构,支持4096神经元/节点 [6][8] - 采用事件驱动架构,每次突触操作能耗低至5.47皮焦耳,最大扇入/扇出能力分别提升1024倍和2048倍 [11][13] - 支持10条专用指令集,可高效表达多种脉冲神经元模型和学习规则,指令解码时间显著降低 [9][10] 系统集成创新 - 64颗芯片组成刀片式服务器,15台服务器构成完整"悟空"系统 [16] - 采用2.5D先进封装技术开发DarwinWafer晶上系统,64颗芯片集成于12英寸晶圆,互联速度更快、功耗更低 [18] - 配套开发分层资源管理架构的达尔文类脑操作系统,实现神经拟态任务高效并行执行 [20] 行业地位与应用前景 - 超越Intel 2024年发布的Hala Point系统(11.5亿神经元),成为当前最大神经拟态计算机 [22] - 可作为AI发展的新计算基础,为脑科学研究提供模拟工具,并支持超越人脑计算速度的类脑智能研究 [23][24] - 前代产品"Darwin Mouse"(2020年)已具备1.2亿神经元规模 [21]