Workflow
AI前线
icon
搜索文档
谷歌创始人罕见反思:低估 Transformer,也低估了 AI 编程的风险,“代码错了,代价更高”
AI前线· 2025-12-21 05:32
编译| Tina 很多人喜欢用一句话概括过去两年的变化:AI 终于开始"会写代码了"。 从 Copilot 到 Cursor、从 Claude Code 到各类 Coding Agent,生成代码的速度与覆盖面早已超过大多数人的手写能力。但在 一场公开对话中,谷歌联合创始人 Sergey Brin 给这种乐观判断泼了盆冷水——问题不在"能力不够",而在风险。AI 写代码"有 时并不能正常工作",一旦出错,往往会是"相当严重的错误"。 他还用一个反差很强的例子解释这种风险:如果是一篇比较文学论文,"写错一句话,通常不会造成那么大的后果"。因此在他 看来,AI 也许更适合先去承担那些"写错了也没那么要命"的创意类、文字类工作。 在同一场对话里,他也罕见回顾了谷歌在生成式 AI 路线上的迟疑与误判:包括对 Transformer 之后技术浪潮的低估、对扩大 量级算力的投入不够,以及"太害怕把它交到用户手里,因为聊天机器人会说蠢话",结果让竞争对手抢先把产品化窗口打开。 他甚至笑着提到,自己在疫情前一个月选择"退休",后来发现那是个"非常糟糕的决定",最终还是被这一轮 AI 浪潮拉回了办公 室。 但他也不认同把今天的 ...
阿里干死豆包图疯传,千问:相煎何太急;字节大幅涨薪,传年利润或达500亿刀;印度AI妖股近两年暴涨550倍,仅2名员工|AI周报
AI前线· 2025-12-21 05:32
千问全员会干死豆包现场图疯传,阿里紧急辟谣 12 月 19 日,网络上流传一张所谓"阿里千问全员大会"现场照片,画面中疑似大量人员在广场上手举豆包,背景标语显示"阿里 千问全员会""干死豆包"。 整理 | 褚杏娟 千问全员会干死豆包现场图疯传,阿里紧急辟谣;周鸿祎遭前高管实名举报财务造假:"至少几十亿";姚顺雨入职腾讯,帮混元 招到更多人才;字节大幅增加调薪投入,正推进与多家厂商的 AI 手机合作;摩尔线程发布新一代 GPU 架构,可支持十万卡规模 集群;马斯克上诉获胜,恢复 2018 年 560 亿美元的特斯拉薪酬协议;TikTok 美国方案揭晓!字节保留电商、广告业务,甲骨文 等入股成立新公司;印度一股票 20 个月暴涨 550 倍,公司仅 2 名全职员工;抹黑小米华为理想等品牌 12 人被抓;谷歌大规 模"回聘老员工";Manus:实现 1 亿美元 ARR;寒武纪拟用近 28 亿资本公积弥补亏损,前三季净利扭亏为盈…… 行业热点 该网传的截图表示:说千问开了一个全员会,把所有人拉到了一个广场,每个人发了一个豆包,让他们把豆包举过头顶,边喊 干死豆包,边掰成两半,最后吃掉。 对此,阿里相关人士回应称,网传 ...
Alex Wang“没资格接替我”!Yann LeCun揭露Meta AI“内斗”真相,直言AGI是“彻头彻尾的胡扯”
AI前线· 2025-12-20 05:32
编译|冬梅 "通往超级智能的那条路——无非是不断训练大语言模型、喂更多合成数据、雇上几千人做后训练、再在强化学习上搞点新花样——在我看来完全是胡 扯,这条路根本行不通。" 近日,在一档名为《The Information Bottleneck》的访谈栏目中,主持人 Ravid Shwartz-Ziv 和 Allen Roush 与图灵奖得主、前 Meta 首席 AI 科学家 Yann LeCun 展开了一场近两小时的高质量对话,在访谈中,LeCun 解释了为什么会在 65 岁这个别人已经退休的年纪他还在创业,此外,他也对当前 硅谷主流的人工智能发展路径给出了罕见而尖锐的评价。 结束在 Meta 长达 12 年的职业生涯后,LeCun 正将个人学术声誉与职业"遗产"押注在一套截然不同的 AI 愿景之上。他直言,业界对大语言模型规模化 的执念,正在把人工智能引向一条看似高速、实则封闭的死胡同。 在 LeCun 看来,真正制约 AI 进步的关键,并不是如何更快地逼近"人类级智能",而是如何跨越一个常被低估却极其困难的门槛—— 让机器具备"狗的智 能水平" 。这一判断挑战了当前以语言能力和知识覆盖面为中心的评估体系。 ...
TPU 订单狂增,谷歌扩产新一代芯片!谷歌首席科学家:我们使用 10 多年了,一直非常满意
AI前线· 2025-12-20 05:32
作者 | 褚杏娟 所以,这就是我们的初衷:如果我们设计专门用于这类机器学习计算的硬件,也就是密集低精度线性代数相关的硬件,就能大 幅提升效率。事实也证明了这一点。第一代 TPU 的能效比当时的 CPU 或 GPU 高出 30 到 70 倍,速度也快 15 到 30 倍。 根据最新报道,随着谷歌 TPU 芯片需求大涨,谷歌扩大了对联发科合作定制新一代 TPU v7e 的订单,订单量比原规划激增数 倍。消息称,联发科为谷歌操刀定制的首款 TPU v7e 将于下季度末进入风险性试产,并再拿下谷歌下一代 TPU v8e 的订单。 联发科大单获得了台积电的先进封装产能支持,2027 年台积电提供给联发科谷歌项目的 CoWoS 产能更将暴增 7 倍以上。 尽管承认谷歌在过去 10 年中取得了进步,但英伟达认为其大约领先谷歌 TPU 两年。由于人工智能模型变化迅速,英伟达认为 谷歌很难让云服务提供商采用 TPU,因为 TPU 是为更特定的模型类型而设计的。相比之下,英伟达相信其更灵活、可编程的 平台仍然是构建大规模云端人工智能基础设施的最佳选择。 但无论如何,谷歌确实让英伟达产生了些许危机。近日,在 NeurIPS 大会期 ...
“GPT-6”或三个月内亮相?奥特曼亲口承认:9亿用户难敌谷歌“致命一击”,1.4 万亿美元砸向算力
AI前线· 2025-12-20 02:01
编译 | Tina 坐拥近 9 亿用户,为何奥特曼依然觉得 OpenAI"命悬一线"? 奥特曼最近一次对外露面时,罕见地把话说得很直:"谷歌依然是最大的威胁之一,他们太强了。坦白讲,如果他们在 2023 年 就认真出手,我们当时可能会非常难受;在我看来,他们本来就有能力把我们直接击碎。" 而就在不久前,谈到 Gemini 3 的冲击时,他还表示:"它对我们指标的影响,并没有我们担心的那么大。" 不过,奥特曼的愿景并不是在谷歌最擅长的领域与之正面竞争。谷歌的路线更像是把 AI 塞进现有的一切:搜索、Gmail、地 图、YouTube……几乎每一个入口都在"加一层 AI"。奥特曼则认为,生成式 AI 终将改变我们使用软件的方式,关键不在于给 旧软件打补丁,而在于重做一套"AI 原生软件"。 在这套逻辑里,他最在意的不是"把 AI 接到多少产品上",而是先把用户留住,并让他们形成依赖:先让用户进门,向他们展示 能力边界,再通过记忆、个性化和深度定制把"粘性"一点点加固。 本文翻译整理自 Alex Kantrowitz 主持的一期播客节目。 他用"牙膏品牌"打了个比方:"从某种意义上说,AI 就像牙膏。大多数人一旦选 ...
突发!OpenAI 放出“代码之神”GPT-5.2 Codex 剑指谷歌、Anthropic,网友实测后感慨:很贵很好用
AI前线· 2025-12-19 03:07
编辑|冬梅 北京时间昨日深夜,OpenAI 正式发布了新一代智能体编码模型 GPT-5.2 Codex,并在官网同步发布 技术博客,对该模型的定位、能力改进及部署方式进行了说明。 OpenAI 重磅发布 GPT-5.2 Codex 据介绍,GPT-5.2 Codex 基于通用模型 GPT-5.2 构建,并针对"智能体编码"(Agentic Coding)场景 进行了专门优化,主要面向复杂的软件工程任务。相较此前版本,新模型在长程任务执行、大规模代 码变更、Windows 原生环境支持以及网络安全相关能力等方面进行了系统性改进。 在工程能力层面,OpenAI 表示,GPT-5.2 Codex 通过引入原生的上下文压缩(compaction)机制, 提高了对超长上下文的理解与利用效率,使模型在跨文件、跨模块的长期编码任务中具备更稳定的表 现。同时,该模型在代码重构、迁移等涉及大规模改动的场景下,整体可靠性和一致性有所提升。 安全能力也是此次更新的重点方向之一。OpenAI 在博客中提到,随着模型在推理与工具调用能力上 的增强,其在网络安全领域的适用性也随之提升。 官方披露,就在上周,一名安全研究人员使用 GPT- ...
BUILD 大会精华版正式上线!跟 Agentic AI 时代的开发者一起构建 | Q推荐
AI前线· 2025-12-19 03:07
今日,由全球领先的 AI 数据云 Snowflake 主办的年度技术盛会 BUILD 精华版在 InfoQ 中文社区正式上线。作为 Data + AI 领域的年度风向标,这不仅 是 BUILD 这一具有深厚积淀的技术盛事首次系统性地亮相中国,更是 Snowflake 为中国开发者量身定制的一场技术饕餮盛宴。 以"构建"之名,重塑 Data + AI 的技术坐标 BUILD 的诞生并非偶然,它起源于 Snowflake 对构建(Build)这一开发者核心行为的致敬与深思。自创立以来,BUILD 始终秉持着由开发者创造,为 开发者服务的初心,逐渐演变为全球范围内探讨云端架构、大规模并行计算与数据处理的最前沿阵地。 如今,BUILD 不仅仅是一个会议的名称,它代表了技术圈内极致性能与无限扩展的代名词,在 Data + AI 领域地位显著。 以实战赋能,为中国开发者点亮创新火花 扫描下方海报二维码,或点击左下角 【 阅读原文 】 ,开始 BUILD! Data + AI 的深度融合 :随着生成式 AI 的爆发,BUILD 迅速进化,成为定义"AI Data Cloud"这一概念的核心舞台; 开发者生态的基石 :在全球 ...
豆包 1.8 多模态超越谷歌Gemini 3!字节祭出“推理代工”,要做模型届的英特尔?
AI前线· 2025-12-18 07:24
运行效率方面,豆包 1.8 的 TPM(每分钟处理 Token 数)达到了 5000k,而 RPM(每分钟请求数)为 30k。 谭待表示,这些能力让豆包 1.8 在 AIME 2025 等 Agent 评测集上稳步提升,在通用智能体测评 Benchmark 上取得全球领先成绩;在多模态理解 方面,于视觉判断准确性、空间理解、文档解析、视频运动识别等多项能力上超越 Gemini 3,在其他任务上也都处于全球第一梯队水平。 | | | | | 豆包大模型1.8 | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | | | | | | | | Qwen3-235b-a22b- | | | 紹力推度 | 测浮集 | GPT-5 High | Claude-Sonnet-4.5 | Gemini-3-pro | Doubao Seed-1.8 | Doubao Seed-1.6-1015-high | thinking | | | 数学 | AIME-25 | 94.6 | 87.0 | 95.0 | 94.3 | 85.0 | 87 ...
8 个月 50 亿产值,非程序员用秒哒赚疯了?秒哒如何解决后端难、token 贵、屎山烦
AI前线· 2025-12-18 00:40
文章核心观点 - AI Coding是当前行业最具价值的领域,是突破Chatbot同质化竞争的关键赛道 [2] - 秒哒(Medo)作为一款无代码AI开发工具,凭借其独特的产品设计、强大的后端技术能力、精细化的成本与代码质量管控,在全球市场获得认可,并展现出中国团队在产品体验上的优势 [2][7][9][12][17] 产品定位与市场表现 - 秒哒是一款发布仅8个月的无代码工具,已在全球被广泛使用 [2] - 生成的应用累计服务超1000万人,日均近10万人使用 [2] - 在变现工具、业务软件、AI应用三大场景中累计创造超50亿元产值 [2] - 81%的用户为非程序员,主要集中在职场人群与高校群体 [3] 产品核心设计:从模糊需求到清晰定义 - 与国内外同类Vibe Coding产品不同,秒哒强化了“需求沟通阶段” [4] - 通过“产品经理智能体”介入,将用户原始、模糊的需求(如“把超市搬到线上”)通过多轮对话转化为含功能清单的结构化产品文档,再交付“研发智能体”落地 [4][5][6] - 此设计大幅降低非技术用户的表达门槛,避免因需求模糊导致的反复返工 [6] 用户策略与技术支撑 - 面对多元化的“小白”用户群体,秒哒现阶段优先打造通用的能力底座,未来计划向具体场景延伸垂直版本 [7] - 针对复杂需求,提供深度研究模式,智能体可联网调研,并支持对话、可视化界面、截图定位三种修改方式 [7] - 可无缝集成千帆、Coze等主流智能体平台能力,并将其转化为插件 [7] - 依托百度智能云,确保应用高可用、高性能,并支持源码导出、权限管理等企业级需求 [7] 后端能力突破与行业认可 - 后端(BaaS)是行业痛点,秒哒的解决方案获得全球BaaS领军者Supabase的认可,其海外版Medo成为Supabase新云平台首批三大合作伙伴之一,且是其中唯一的中国企业 [9] - 团队上半年集中攻克后端三大核心挑战 [9] - **挑战一**:应对海量、微小、轻量的Agent应用带来的数据库实例“小而多”格局,上线首周的数据库实例数就超过百度智能云团队过去七年企业服务总和,需云原生技术突破以保障弹性与高并发 [9] - **挑战二**:实现AI与数据库的深度融合,让大模型能够理解并操作数据库,而非仅服务于由程序员编写的SQL代码 [10][11] - **挑战三**:高效管理底层资源,实现灵活调度与云化部署,确保稳定与成本效益 [11] - 在产品体验上,秒哒实现了“一次对话”完成数据库对接,无需用户跳转配置,相比行业头部产品Lovable需要用户自行跳转配置且最快仍需两次对话的流程,具有显著优势 [12] 效率优化与成本控制策略 - 团队核心方向是极致提升效率,让每个Token发挥更大价值,以降低代码生成模型的高昂成本 [14] - **智能体层面**:优化智能体规划能力,设计更优的“标准作业程序(SOP)”,减少交互轮次和Token消耗 [14] - **模型层面**:利用数据飞轮迭代训练,并训练更小、更快的专用模型以降低成本 [14] - **任务调度层面**:实行精细化模型分工,为开发流程的不同阶段匹配最恰当的模型(如在需求沟通阶段不调用昂贵的代码生成模型),以提升效果并控制成本 [14][15] 代码质量维护与“代码屎山”防治 - 智能体设计不当会导致无节制堆砌冗余代码,形成难以维护的“代码屎山” [15] - 关键实践是引入“克制性添加”与代码历史审查机制,训练智能体在添加新功能前先系统回顾已有代码,力求“加一行,减两行”,甚至只减不增 [15] - 虽然审查历史代码会消耗Token,但能避免后期迭代成本急剧上升和项目无法修改的后果 [15] - 秒哒在八月版本曾经历教训,促使团队将“定期回顾与重构”作为智能体工作流的重要环节,已有用户项目经历数百甚至上千轮迭代后仍能保持代码库清晰 [15] 行业竞争格局与国内团队优势 - 国内在Vibe Coding领域建设起步平均比国外晚1-2年,但核心竞争力差距正在缩小 [17] - Vibe Coding的核心竞争力在于底层的代码生成能力(取决于模型与智能体策略)和最终面向用户的产品体验 [17] - 在产品体验层面,中国团队不仅没有落后,反而往往具备显著优势 [17] - 百度不追求通用代码能力全面超越,而是让场景化应用能力超越国际水平,预期明年中国产品的迭代速度会更快 [17]
刚刚,谷歌祭出迄今最前沿模型 Gemini 3 Flash!编程能力上反超 Gemini 3 Pro,且更快更便宜
AI前线· 2025-12-17 18:16
谷歌发布Gemini 3 Flash模型 - 谷歌发布其迄今最快AI模型Gemini 3 Flash,该模型专为速度而生,旨在帮助用户更快地学习、构建和规划[2][3][4] - 模型发布标志着谷歌在大模型竞赛进入“效率与规模并重”新阶段的关键落子,旨在建立更具性价比的企业级应用和开发者生态护城河[6][7] - 新模型从发布日起即面向全球数百万用户推出[8] 模型性能与基准测试 - 在博士级别推理基准测试GPQA Diamond中得分90.4%,在Humanity‘s Last Exam(不使用工具)中得分33.7%,展现出前沿性能,足以媲美规模更大的前沿模型[8] - 在MMMU Pro测试中取得81.2%的成绩,与Gemini 3 Pro性能相当[12] - 在编程代理能力基准测试SWE-bench Verified中得分高达78%,超越了Gemini 2.5系列甚至Gemini 3 Pro[19] - 在多项基准测试中显著超越了前代最佳模型Gemini 2.5 Pro[8] 定价与成本效率 - Gemini 3 Flash定价为每百万输入token 0.50美元,每百万输出token 3.00美元[13] - 相比前代Gemini 2.5 Flash(输入0.30美元/百万token,输出2.50美元/百万token)略贵,但性能优于Gemini 2.5 Pro且速度是其三倍[15] - 在处理思维任务时,平均使用的token数量比Gemini 2.5 Pro少30%,有助于用户节省总体token消耗[14][15] - 谷歌将Flash系列定位为“主力机型”,其更低的成本使其更适合承担大规模、批量化的任务处理需求,以降低企业使用门槛和整体成本[28] 技术特点与应用场景 - 模型设计目标是突破质量、成本和速度之间的帕累托极限,能够灵活调整思考时间以实现极高效率[13][16] - 拥有极快的速度,基于Artificial Analysis基准测试,速度比Gemini 2.5 Pro提升3倍[15] - 具备强大的多模态推理、工具使用和视觉问答能力,适合复杂的视频分析、数据提取等应用[22] - 能够实现近乎实时的AI辅助,例如在手部追踪游戏中提供多模态推理,或近乎实时地构建和A/B测试新的加载旋转器设计[23][24] - 可作为搜索中AI模式的默认模型,有效解析用户查询,提供结合实时信息的周全答案和具体建议,速度堪比搜索[27] 行业竞争与市场影响 - 谷歌正与OpenAI展开围绕新品发布节奏和模型性能的正面竞争[30] - 有报道称,随着谷歌在消费者市场份额上升,ChatGPT整体访问量出现下滑,促使OpenAI内部发出“红色警报”备忘录并接连发布新品[30] - 自Gemini 3发布以来,谷歌在其API上的处理规模迅速放大,目前每日处理的token数量已超过1万亿个[29] - 行业处于模型快速演进、相互竞争、不断突破性能边界的状态,密集的新模型发布正在推动整个行业加速前进[31] 市场初步反馈 - 部分开发者与技术爱好者认为Gemini 3 Flash在特定应用(如Stagehand Agent)上的准确度几乎与Gemini 3 Pro不相上下,但价格更低、速度更快[34][35] - 有用户感叹其能力之强,称“从没见过能力这么强的轻量级模型”[37] - 也有观点指出基准测试成绩不能完全代表真实复杂场景中的表现,并对“刷基准分数”的做法表示怀疑[38] - 有观点认为谷歌最近的发布彰显了其行业领头羊地位[38]