Workflow
Vibe Coding
icon
搜索文档
Andrej Karpathy年度复盘:AI大模型正在演变成一种新型智能,今年出现6个关键拐点
华尔街见闻· 2025-12-20 04:41
文章核心观点 - 2025年是大型语言模型领域蓬勃发展的关键一年,出现了六个改变行业格局的“范式转变”拐点,揭示了LLM正在演变成一种全新的智能形态 [1][3] - LLM展现出独特的“锯齿状”智能特征,既是博学的天才,又像思维混乱的小学生,其潜力目前实现尚不足10%,预计未来将持续飞速进展 [1][3] - 从训练范式、智能形态到应用层、交互界面,LLM技术栈的各个层面均发生根本性变革,标志着AI应用进入新的发展阶段 [3] 技术范式转变 - **拐点一:基于可验证奖励的强化学习成为训练新阶段**:传统的LLM生产流程(预训练、指令微调、基于人类反馈的强化学习)被改变,基于可验证奖励的强化学习成为新阶段 [4][5] - RLVR通过在数学题、代码谜题等可自动验证的环境中训练,使LLM自发演化出类似“推理”的策略,如将问题拆解为中间步骤并掌握多种解决方法 [5] - 与指令微调和基于人类反馈的强化学习不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化,具有极高的“能力/成本比” [5] - 2025年大部分能力提升源于各实验室将原本用于预训练的算力转向消化RLVR这一新阶段的“算力积压” [5] - OpenAI o3的发布是真正的拐点,RLVR带来了通过增加“思考时间”来控制推理能力的新调节旋钮 [6] LLM智能形态认知 - **拐点二:“幽灵智能”展现锯齿状性能特征**:业界开始理解LLM是一种与生物智能完全不同的全新智能实体,其神经架构、训练数据、算法和优化压力均不同 [7] - LLM展现出“锯齿状”性能特征:在可验证领域附近能力“激增”,但整体表现极不均衡,既是博学天才,又可能被简单提示词破解 [3][7] - 这种现象导致对基准测试产生信任危机,因为基准测试本质是可验证环境,极易受到RLVR攻击,“面向测试集训练”成为新艺术形式 [7] 应用层与交互范式革新 - **拐点三:Cursor引领新一代LLM应用层崛起**:Cursor的成功揭示了“LLM应用”的全新层级,标志着垂直领域LLM应用的兴起 [8] - 此类LLM应用为特定垂直领域封装并编排LLM调用,核心功能包括处理上下文工程、编排多个LLM调用串联成复杂有向无环图、提供特定图形界面以及提供“自主程度调节滑块” [8] - LLM实验室倾向于培养通用能力的“大学生”,而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环,将这些“大学生”组织成特定领域的专业从业者 [8] - **拐点四:Claude Code开创本地AI智能体新范式**:Claude Code成为LLM智能体的首次令人信服展示,它以循环方式串联工具调用和推理进行长时间问题解决,且运行在用户电脑上,使用私有环境、数据和上下文 [9] - 这种本地化、个性化的AI交互范式改变了AI的样貌,使其从被动访问的网站变为“住”在电脑里的灵体,强调了隐私保护和个性化体验的重要性 [9] - **拐点五:Vibe Coding让编程能力普及化**:2025年AI跨越关键能力阈值,使人们仅凭英语就能构建复杂程序,“Vibe Coding”概念的流行标志着编程门槛的彻底降低 [10] - 编程不再是专业人士专利,普通人从LLM中获益远超专业人士、企业和政府,代码变得免费、瞬时、可塑,用完即弃,将重塑软件生态并让创意实现的成本接近零 [11] - **拐点六:Nano Banana开启LLM图形界面时代**:谷歌Gemini Nano Banana被称为2025年最震撼、最具范式转移意义的模型,预示着LLM交互界面的根本变革 [12] - 文本并非人类偏好的信息消费格式,真正的“LLM GUI”需要以人类偏好的图像、信息图、幻灯片、白板、动画视频、网页应用等方式进行交流 [12] - Nano Banana的显著特征不仅是图像生成,更是文本生成、图像生成和世界知识在模型权重中的交织融合,提供了多模态融合能力的早期雏形 [12]
Z Event|年底最Vibe的一场聚会?MiniMax/Kimi/智谱/Trae/Kiro/CodeBuddy...都来啦!
Z Potentials· 2025-12-12 04:15
活动概况 - 活动由东升科技园原点学堂、Vibe Friends、极客邦科技联合举办,旨在邀请Vibe爱好者、创作者、开发者、创业者、投资人、媒体及相关企业畅谈AI并交流 [2] - 活动预计于2025年12月27日周六晚17:00至21:00举行,预估报名人数为300人 [3] - 活动地点位于北京市海淀区五道口东升大厦A座F9-10原点学堂 [3] 行业趋势与发布内容 - 行业背景是AI在2025年高速发展,年初兴起的“Vibe Coding”概念促使越来越多人通过AI模型与工具实现更丰富自由的创作 [2] - 活动将发布三项内容:原点学堂AI超级个体扶持计划、State of Vibe - 中国Vibe创作生态报告、极客邦科技战略发布 [6] 活动流程 - 活动流程包括:16:30签到、17:00发布环节、18:00晚餐、18:30开放麦(主题:2025年AI/Vibe对我的影响)、19:30趣味问答(AI/Vibe抽象知识抢答)、20:00抽奖及自由交流 [6] 合作伙伴与参与方 - 活动合作伙伴及参与方包括一系列AI及科技相关公司与社群,例如:MINIMAX、KIMI、KIRO、YouWare、Cursor中文圈、通往AGI之路、出海同学会、硅基流动、出海去孵化器、SEAMATE、SiliconFlow、AGICamp、檀十、Z Potentials、极信、PPT.AI、Lianpu、LanguageX [4][5][7]
朱啸虎投了一家Vibe Workflow公司
暗涌Waves· 2025-12-10 01:05
文章核心观点 - 公司Refly.ai提出“Vibe Workflow”新范式,旨在通过自然语言指令让AI自动编排复杂工作流,降低自动化门槛,目标是成为“AI Workflow领域的Canva”[3][4] - 公司近期完成数百万美金种子轮融资,估值近千万美金,投资方包括金沙江创投、高瓴创投和Classin,金沙江创投主管合伙人朱啸虎在接触项目一周内便锁定TS[3] 行业痛点与市场机会 - 当前Workflow领域主流工具(如n8n、Dify)仍复杂,涉及节点配置、参数调试和API对接,将普通用户挡在门外[3] - 当前Agent市场呈现两极分化:一端是Manus、Genspark等通用但过程不可控的“黑盒”Agent;另一端是n8n、Dify等强大但门槛极高的专业工具[9] - 行业存在空白,需要介于两者之间的“智能辅助驾驶”方案,在提供强大能力的同时保证过程可控,解决企业应用AI的最大顾虑[9] 公司产品与解决方案 - 公司产品核心理念是“Vibe Workflow”,与“Vibe Coding”一脉相承,实现“一句话生成Workflow”,用户用自然语言描述需求,AI自动完成节点编排与配置[3] - 平台将每个节点封装为能力强大的Agent,用户无需从零配置,过程“白盒化”,生成的工作流被封装成简单落地页,用户可随时介入、暂停、修改或人工接管[9] - 公司定位不是取代人,而是让人像搭乐高一样组装AI能力[10] 团队背景与创业历程 - 创始人黄巍是字节跳动workflow产品线老兵,曾负责内部代号“Aily”的产品(飞书智能伙伴前身)及Coze,是国内最早探索“LLM+Low-code+Workflow”的团队之一[6] - 团队在2022年底、2023年初开始探索AI+workflow,源于对低代码可能被AI替代的危机感[6] - 在字节的实践中发现,传统低代码平台及Coze本质仍是“程序员的工具”,将小白用户拒之门外,因此决心打造全新的AI Native形态[6] - 团队于今年8月底完成融资交割,从2人迅速扩充至14人,兼具技术能力和商业落地经验,曾在字节兼任研发、产品和销售[7] 市场定位与用户策略 - 第一批目标用户是“逃离复杂”的技术尝鲜者,他们可能用过n8n或Dify,公司提供“一键迁移”功能,允许他们将复杂流程导入更轻量的平台运行[12] - 第二波核心增量用户精准瞄准“自媒体”与内容创作者,解决其两大痛点:1) 模型迭代快,单点使用效率低,需串联成工作流;2) “追热点”压力大,需自动抓取热点并按风格批量生成内容[13] - 通过让KOL将其工作流(如“写文工作流”)做成可付费运行的模板,形成类似“文字版滤镜”的商业模式,粉丝付费使用模板生成自己风格的内容,KOL获得收益,公司借此实现高ROI的获客与用户辐射[13] 应用场景与商业愿景 - 公司已跑通金融投研的数据监控、自媒体的多源信息聚合与选题生成等典型场景[14] - 公司认为无论技术概念如何,最终需落实到大众市场,若只服务几十万专业群体则非大众商品[14] - 公司观察到,用户购买的不仅是模板,更是一种“可能性”或先进性的假设,如同企业购买飞书不仅是买工具,也是假设能获得如字节跳动的先进管理[14]
字节前技术负责人联手清华姚班校友创业!
具身智能之心· 2025-12-05 16:02
文章核心观点 - 由清华姚班校友领军的中国初创公司“词元无限”开发的编码智能体InfCode,在SWE-Bench Verified和Multi-SWE-bench-CPP两项权威基准测试中均取得第一名的成绩,标志着AI编程从注重快速原型的“感性时代”(Vibe Coding)进入了面向企业级复杂工程的“工程时代” [6][9] - InfCode的技术突破主要体现在其多智能体体系,能够解决传统AI编程在大型代码库、跨文件修改和C++等系统级语言中面临的挑战,为企业引入AI编码提供了从“单体提效”走向“组织进化”的新范式 [8][12][17] AI编程范式演进与行业基准 - AI编程正从传统大模型生成代码片段,演进为强调自主性、全流程覆盖和工程实用性的“编码智能体”(Coding Agent)时代 [10][11] - **SWE-Bench Verified**:由普林斯顿大学等提出、OpenAI升级的权威基准,包含来自真实GitHub项目的Python问题,要求智能体解决问题且不破坏其他功能 [11] - **Multi-SWE-bench**:由字节跳动等机构于2025年推出,覆盖Java、TypeScript、JavaScript、Go、Rust、C与C++七种语言,包含1632个人工验证的修复任务 [11] - 系统级语言(如C++)的修复任务远难于高级语言,通常需要一次修改200多行、涉及7个文件,导致大语言模型表现显著降低,领先模型的解决率往往不足8% [12][16] 公司产品InfCode的性能表现 - 在**SWE-Bench Verified**基准上,InfCode以Pass@1得分**79.4%** 刷新世界最佳记录(SOTA),远高于公开排行榜上GPT-5、Claude等顶尖模型约70%的成绩 [7][14] - 在**Multi-SWE-bench的C++子集**上,InfCode达到**25.58%** 的解决率,大幅领先于Claude 3.7 Sonnet的**8.59%**、DeepSeek V3的**7.75%** 以及Qwen2.5-72B-Instruct几乎为零的解决率 [7][15][16] - 该成绩体现了产品在复杂语法和大型项目中生成正确补丁的能力,对工业界具有重要价值 [17] InfCode的核心技术亮点 - **基于功能意图的复杂上下文定位**:提出“代码意图分析”机制,超越传统基于向量相似度的RAG,通过理解自然语言背后的功能意图并将其映射到具体实现单元,精准定位问题代码,尤其在无堆栈信息的条件下表现突出 [20][21] - **基于AST的结构化检索**:自研基于抽象语法树的结构化检索引擎,通过Tree-Sitter构建完整语法树,提供如FindClass、FindFunction等语法层API,实现语法感知搜索,在C++等复杂语言中能高精度定位bug,避免传统文本搜索工具(如grep)的噪声问题 [22][23][25][26][28] - **对抗式双智能体生成架构**:首创由代码补丁生成器与测试补丁生成器构成的对抗式双智能体架构,二者在闭环中交替迭代,使补丁在鲁棒性与完备性上持续演化,达到工程级质量,契合了下一代编码智能体迭代-验证-优化的核心范式 [29][30][31][32][33] 产品的工程化流程 - 修复流程分为**生成**与**筛选**两阶段 [35] - **生成阶段**:系统并行启动多个独立容器运行修复链路,允许模型查看代码库、运行测试、分析错误,并最多进行五轮迭代以产生多样化候选补丁 [40] - **筛选阶段**:在真实构建和测试环境中重放每个补丁,除验证测试通过外,还考虑行为一致性、稳定性和副作用,最终选出具有更强工程完整性与可维护性的补丁 [40] 公司团队背景与战略 - 核心团队由**清华姚班校友**带队,拥有顶尖技术实力,并融合了技术前瞻、产品化能力与商业化思维 [6][42] - 团队领军人物**杨萍**曾在字节跳动主导创立公司首个软件工程实验室,其孵化的内部AI Coding产品已全面覆盖公司研发体系,对在超大规模组织中应用AI有深刻理解 [42] - **CTO 王伟**来自清华姚班,曾带队在SWE-Bench获得全球第二的成绩,具备扎实的大模型与智能体算法工程经验 [42] - **商业化负责人 李莹**拥有十余年AI产业落地经验,曾主导完成大模型To B领域数亿元规模的项目落地,具备将技术价值转化为商业回报的能力 [43] - 团队汇聚了来自字节、百度、微软等顶尖企业及清华、北大、哥大、MIT等世界名校的人才,构成“顶尖老将 + 新生代骨干”组合,多个重要岗位由00后领衔 [43] - 公司对AI Coding赛道的认知已从“工具效能”提升转向对软件工程全生命周期的重构(AI SWE),致力于打造提供端到端价值闭环的“数字员工”平台,并通过“Coding + 细分行业”的深度融合构建商业生态闭环 [44]
“人人都是程序员”的梦该醒了,AI 编程“大逃杀”:Cursor 或成创业公司唯一“幸存者”,“60 分开发者”撑起最后防线
36氪· 2025-12-04 07:26
行业核心观点 - AI编程工具(Vibe Coding)行业正经历从资本驱动超高速增长到热度迅速回落的“价值回归”阶段,用户流量普遍大幅下滑,用户留存率低成为核心挑战 [1][2] - 行业内部出现路径分化:一条是面向非专业开发者的“异步Agent式氛围编程”,追求一键生成完整应用;另一条是面向专业开发者的“人主导的严肃工程协同”,作为现有工作流的效率助手 [7][8] - 面向大众消费者(C端)的Vibe Coding工具面临需求刚性问题,其真实市场价值被高估,而面向企业专业开发者(B端)的工具更具长期价值,但当前估值可能仍难以支撑 [10][11][12] - 技术基础设施(如可观测性、可控性、调试环境)的成熟度严重滞后于市场承诺,是制约AI编程工具投入生产的关键瓶颈 [15][16][18] - 退潮后,行业真实价值可能体现在:1)在企业内部赋能非技术员工解决特定、简单需求;2)最终市场将整合,由少数拥有成熟模型和基础设施的大厂及头部创业公司主导 [19][12][21] 市场表现与用户数据 - **用户流量普遍大幅下滑**:Lovable近几个月流量从3500万降至不足2000万,几乎腰斩;Bolt.new下降27%;Vercel v0自5月以来下降64%;Cursor、Replit、Devin等平台流量也出现下滑 [1] - **流量变化数据(12周变化)**:根据表格数据,多个平台近期流量同比变化为负,例如Lovable在10月10日数据为-37%,Cursor为-18%,Replit为-18%,Bolt为-31% [3] - **唯一例外**:Base44依靠投放驱动,流量增长显著,在9月26日数据显示同比变化高达568% [1][3] - **用户构成与留存**:Lovable宣称的3500万月活用户接近全球专业开发者总数上限(约4000-4700万),说明其用户主要为非专业开发者(如产品经理、学生),且用户留存率极低,“几乎没人续费到第二个月” [10] - **企业级应用实例**:在美团,非技术员工利用AI Coding工具已构建超过3000个持续在使用的内部应用 [21] 商业模式与资本动态 - **资本驱动增长**:过去一年行业经历资本驱动的“超高速增长期”,公司估值与用户数同步飙升,例如Lovable以18亿美元估值完成A轮融资,几周后市场传闻估值飙升至40亿美元 [2][6] - **资本逻辑与试错**:支撑这场全民实验的是数十亿美元的资本,投资人指出,高估值源于资本投入,这些资金被用于补贴算力和搭建平台,吸引非专业用户体验 [10] - **资本热潮退却**:国内投资市场对Vibe Coding的关注度从上半年所有投资人都在询问,到目前主流投资人已不再看此类项目,热度骤降 [13] - **商业模式挑战**:行业当务之急是构建能留住用户的业务模式,Bolt.new的CEO公开承认所有平台的用户流失率都非常高 [2] 技术路径与产品分化 - **“氛围编程”路径**:以Lovable、Claude Code为代表,强调“交托任务-后台执行”的沉浸式体验,Agent可独立规划并完成任务,包括生成和提交代码 [7] - **“编程助手”路径**:以GitHub Copilot和Cursor为代表,嵌入现有开发工作流,专注于代码补全、重构、写测试等,将决策权保留在工程师手中 [8] - **模型依赖与竞争**:面向专业开发者的工具非常依赖模型能力,Cursor等公司已被迫开始自研模型以保持竞争力,这被判断最终将是“大厂的生意” [12] - **基础设施瓶颈**:当前AI编程过程缺乏稳定的调试环境、清晰的上下文和可观测性,更像“抽盲盒”,导致用户体验挫败,这是阻碍其投入生产的关键 [15][16][18] 市场前景与价值重估 - **C端市场收缩**:面向大众消费者的Vibe Coding,最终可能只会收缩成类似建站工具或无代码平台的小市场 [19] - **B端与企业价值**:真正的长期价值在于面向专业用户,并与成熟模型及大厂基础设施深度绑定,在企业内部,工具能大幅降低开发门槛,让“60分能力”的非技术员工做出可用的产品 [19][20] - **“Vibe Working”新方向**:一个潜在的演进方向是“Vibe Working”,即用户丢入数据,由AI直接产出结果,而无需关心背后实现方式,但此方向最终是否会被大厂垄断尚不清晰 [19] - **能力边界明确**:当前Vibe Coding工具难以开发高并发、复杂业务逻辑的超级应用(如大厂App),但适合开发百人级别使用的简单系统(如数据上报系统) [20] - **行业整合趋势**:全球面向开发者市场的最终竞争者预计不会超过5家,创业公司中仅有起步最早的Cursor可能有机会,开源模型也可能占据一席之地 [12]
这,才是Vibe Coding的未来。
数字生命卡兹克· 2025-12-04 01:20
蚂蚁灵光产品更新与市场反响 - 蚂蚁公司正式加入AI超级入口战场,推出名为“灵光”的产品,该产品上线后市场反响热烈,口碑极佳[3] - 产品最初的核心功能是“闪应用”,用户可通过自然语言描述需求,快速生成可直接使用的小型应用程序,无需具备编程知识或了解服务器、端口等技术概念[2][26][27] - 近期产品重要更新是推出了“闪游戏”功能,允许用户通过自然语言指令快速生成可玩的小游戏[2][29] 产品核心优势与用户反馈 - 产品“闪应用”功能强大且稳定,其用户界面和交互体验被认为优于其他大厂的AI产品,视频对话功能也做出了差异化[6] - 用户反馈非常积极,有用户表示其找回了初次使用ChatGPT时的惊艳感,并认为“闪应用”是极具前景的方向[6] - 产品能生成包含界面、动效和交互流程的完整应用,被用户形容为“就是一个现成的产品”,展示了其强大的生成能力[6] “闪游戏”功能的具体应用与潜力 - “闪游戏”目前更侧重于快速实现创意,方便用户将日常的“灵光一闪”以游戏形式具象化,例如用于教育场景[30][35] - 具体案例:一位历史老师通过描述需求,在几十秒内生成了一个用于练习《三国演义》人物关系的小游戏,具备答题、积分、连击特效和生命值等机制[35][37][41] - 用户可继续通过自然语言指令对生成的小游戏进行迭代修改,例如添加成就系统和收集系统,修改过程同样仅需几十秒[42][43][44] - 产品能生成多种经典游戏类型的简化版,例如类似“水果忍者”的切方块游戏、斗地主以及成语接龙游戏[48][50][51][53] - 在生成复杂游戏逻辑时可能出现错误,例如生成的成语接龙游戏规则有误,但通过修正指令可以解决问题,展现了基于提示词迭代开发的过程[56][58] 产品的战略意义与行业视角 - 该产品的核心价值在于降低技术使用门槛,让普通用户无需掌握专业编程知识即可将想法转化为可用的应用或游戏,这被认为是“Vibe Coding”的未来方向[8][9][67] - 行业发展的一个重要方向是让技术“隐形”,即用户无需理解底层复杂技术即可享受其带来的便利,如同使用电灯或智能手机相机,蚂蚁灵光等产品正朝此方向努力[21][64][66][67] - 真正的AI革命在于使其成为普通人触手可及的工具,当人们有想法时能自然地使用工具快速实现,而非必须寻求专业程序员帮助[67][68] - 该产品代表了从宏大技术叙事到关注普通人日常生活的转变,通过赋能个体创造微小但具有情感价值的应用(如为亲人制作小游戏),展现了技术的另一种深刻影响力[60][61][62][63][72]
Vibe Coding 加速创业,路上有哪些“坑”要提前避开?答案请戳 >> GTLC 杭州站议程
AI前线· 2025-12-01 09:27
大会核心信息 - 大会主题为“Vibe Coding 时代新创业者”,旨在探讨AI编程、创业实践、Agent、产品运营等多个方向 [5] - 大会将于2025年12月6日在杭州举办,预计规模为300-500位新时代创业同行者 [5] - 大会形式新颖,包含TED式快速分享、创业开放麦、Hackathon、闭门会等多种互动环节,旨在打破传统会议界限 [3] 大会核心议题与内容 - 探讨AI编程作为创业者的新生产力引擎,如何帮助快速验证点子、做出MVP,并提升个人与团队的开发效率 [7] - 分享从模型范式演进角度看下一代Agent应用开发,特别是从Workflow式开发到类Manus、Claude Code方式的转移 [8] - 解析AI Coding Stack全景图,涵盖IDE、CLI、Extension到Coding大模型,以在AI时代获得10倍生产力 [10][11] - 讨论如何基于开源的Agentic OS构建Vibe Coding项目,并探讨其与Cursor & Claude Code的竞争态势 [12] - 探讨Vibe Coding时代的组织变革,包括绩效考核、项目周期管理,以及Native AI公司与传统老业务的差异 [12] 特色活动与日程安排 - 大会前一天(12月5日)设有外地学员及讲师欢迎晚宴 [19] - 主议程日(12月6日)上午为大会主议程,下午包含“Idea Shot”快速分享(18分钟/人)和“Creator Show”开放麦环节 [19] - 下午分会场同步举行关于“AI时代下对研发组织管理的变革与应对”的闭门会,以及“Vibe Coding Sprint · 新创业者闪电黑客松” [19] - 当晚将举行科技领袖晚宴暨TGO鲲鹏会(杭州)家宴 [19] - 次日(12月7日)安排有身心和悦冥想活动 [19] 参与者与社区价值 - 大会目标人群是敢想敢做的“新创业者”和渴望精准驾驭AI Coding的“新开发者” [21] - 参与者可通过“Creator Show”开放麦获得8分钟舞台,直达300多位创业同行,并与多名资深投资人及CEO现场交流 [13][14] - 大会为共创合作伙伴提供与300多位科技领导者深度交流、品牌曝光及展示的机会,以精准渗透企业决策人群并收获业务增长 [22] - 主办方TGO鲲鹏会是科技领导者同侪学习平台,学员由公司创始人、CXO、技术VP等组成,超2000位,在全球多个地区举办活动 [29] 报名与门票信息 - 标准门票价格为2999元/人 [27] - TGO鲲鹏会学员可免费参会,并可邀请符合标准的朋友免费报名 [27] - 非TGO鲲鹏会学员可申请免费门票,审核通过即可参会 [28]
6小时告破30年数学难题,亚里士多德一夜成名
量子位· 2025-12-01 05:45
AI数学证明突破 - Harmonic的数学AI模型独立证明了Erdős问题 124的简易版本,该问题已悬置近30年[1] - 解决方案100%由AI生成,总计耗时6小时[3] - 顶尖数学家陶哲轩对比发现Harmonic模型在该问题证明上表现优于Gemini和ChatGPT的深度研究工具[4] 数学问题细节 - 原版Erdős问题 124证明要求为∑(1/(dᵢ-1))≥1,且不允许使用数字1并需满足gcd条件,仅对特定集合{3,4,7}部分解决[8] - Harmonic证明的简易版本允许使用数字1且不需要gcd条件,只要满足∑(1/(dᵢ-1))≥1就能凑出所有大整数,证明已获Lean形式化验证[8] - 证明过程中修正了形式化猜想项目中的一个笔误,将条件从=1改为≥1,使表述更准确[10][11] Harmonic公司背景 - 公司目标为打造世界上最先进的数学推理引擎[16] - 两位联合创始人为CEO Tudor Achim(卡内基梅隆大学计算机科学学士、斯坦福大学计算机科学PhD在读)和执行主席Vlad Tenev(斯坦福大学数学学士、加州大学洛杉矶分校数学硕士)[17][18][21] - Vlad Tenev同时兼任金融公司Robinhood Markets的CEO[22] - 公司约一周前完成1.2亿美元(约合人民币8.5亿)C轮融资,由Ribbit Capital领投,估值达14.5亿美元(约合人民币103亿)[23][24] 技术能力 - 旗舰模型Aristotle(亚里士多德)是第一个在2025年国际数学奥林匹克竞赛中给出五道题形式化验证解决方案的模型,达到金牌级别表现[24][25] - 此次使用的Aristotle模型经过更新,具有更强大的推理能力和自然语言界面[26] - 公司联创称数学领域正处深刻变革边缘,"Vibe证明时代已经到来"[15] 行业影响 - AI解决复杂数学问题的能力不断突破,有望攻克更多被搁置的百年难题[27] - 此次证明展示了AI在数学推理领域的巨大潜力,引发行业广泛讨论[14]
Gemini3 Pro实测:文科生确实能自己做网页了
虎嗅APP· 2025-11-27 23:58
文章核心观点 - Gemini 3 Pro的Vibe Coding能力允许用户通过自然语言描述指挥AI生成代码,显著降低了编程门槛[4] - 该产品在理解抽象需求方面表现异常强大,能够从自然语言中读出用户核心需求并自动补齐交互逻辑和设计细节[33] - 工具类产品可能逐步走向"私人应用"时代,使得普通用户能够定制个性化工具而无需依赖商业化产品[41] 产品功能实测总结 牛马时钟生成 - 从输入需求到网页交付仅耗时81秒,无需任何调试即可生成完整可用的交互页面[10] - 产品优势体现在三个方面:对自然语言指令要求低、能自动整理交互逻辑、能匹配UI和文案风格[7][8][9] - 自动创作了提示词中未要求的"牛马语录"随机刷新功能,显示其创造性思维能力[10] 教育应用场景 - 成功生成勾股定理证明演示网页,针对小学生受众设计了四个页面的教学流程和交互点击操作[15] - 在调试过程中出现图形位置偏移问题,提出调整需求后AI重新编写代码110秒但效果不理想[35] 个性化工具定制 - 可定制个人照片处理工具,支持添加颗粒感和留言等个性化功能[17][19][21] - 能够生成婚礼电子请柬制作网页,支持第三方地图调用和直接分享功能[24][25] - 通过10分钟调试即可获得可直接分享的定制婚礼请柬,尽管在歌词引用上出现错误[25] 游戏工具开发 - 生成24点发牌和计分器仅需102字提示词,从思考到完成代码耗时124秒[29] - 主流程测试完全可用,适合线下聚会场景定制专项玩法工具[30] 产品能力评估 优势特点 - 特别擅长执行抽象的一句话需求,不喜欢用户"教它做事",更有效的调整方式是描述未满足的需求而非具体实现方案[33] - 相当于配备了交互设计师和UI设计师,能将一句话需求升级为完整可用的交互方案[10] 技术局限性 - 对精确指令的理解和执行仍存在困难,典型问题是BUG越修越多[34] - 在调试过程中容易出现"嘎巴一下死机"的情况,且无法通过回滚指令恢复,需要重新编写代码[37] 行业影响展望 - 前端程序员评价开发最难的部分是理解产品需求并进行反驳,而AI在这方面表现出色[38] - 工具产品最后一公里可由用户自行完成,不再受限于丑陋界面、广告和易误触链接[41][43] - 普通用户无需代码能力即可体验工具定制,标志着真正根植于C端的大众化内容生产能力时代到来[44]
Gemini 3 Pro刷新ScienceQA SOTA|xbench快报
红杉汇· 2025-11-20 03:38
文章核心观点 - Google正式发布新一代基础模型Gemini 3,在深度推理与思考、多模态理解、Agent编程能力上有极大提升[1] - Gemini 3 Pro在xbench-ScienceQA榜单中以71.6的平均分超越Grok-4成为新SOTA,并且响应时间快,价格低[1] - 模型实现了从“反应式”推理向“审慎式”推理的转变,解决了大模型常见的“幻觉”问题,标志着AI从“知识检索”向“逻辑推理”的跨越[8] 模型性能表现 - Gemini 3 Pro在ScienceQA榜单中平均分为71.6,BoN(N=5)达到85分,超越第二名Grok-4的分数6分[3][5] - 平均响应时间仅48.62秒,远快于Grok-4的227.24秒和GPT-5-high的149.91秒[3] - 官网API价格为输入每百万token 2美元,输出每百万token 12美元,低于Grok-4的3美元/15美元和GPT-5-high的1.25美元/10美元[3] - 与Gemini 2.5 Pro相比,平均分从59.4提升到71.6[5] - 运行ScienceQA成本估算显示,GPT-5.1花费32美元,Gemini 3 Pro仅花费3美元,成本约为前者的1/10[6] 技术架构创新 - 引入“深度思考”模式,在处理高复杂度任务时在内部构建多条推理链路进行自我博弈与验证[8] - 采用稀疏MoE架构,拥有海量参数专家但每次仅激活一小部分,显著降低计算开销[8] - 彻底摒弃外挂式编码器,采用极致的原生多模态架构,使文本、代码、图像、视频和音频在模型底层共享同一套“世界模型”[11] - 上下文长度显著扩充至百万级,可直接处理整本书、完整代码库或长时间音视频逐字稿[12] Agent与开发能力 - 带来“氛围编程”概念,模型能捕捉代码库中隐含的工程风格、架构规范及开发者直觉[9] - 作为自主Agent在IDE中运行,具备操作终端、浏览器和文件系统权限,拥有长程规划能力[9] - 在Google Antigravity平台中与Gemini 2.5 Computer Use模型、视觉模型Nano Banana等深度集成,实现“计划-执行-反馈”的自主多步骤工作流[10] 交互与生成能力 - 引入Generative UI,模型能根据用户意图实时编写前端代码并渲染出动态可交互界面[12] - 具备惊人感知能力,能转录3小时会议视频,精准识别说话人语气,从模糊低质量文档照片中无损提取结构化数据[11] 硬件支持体系 - 在Google自研的TPU上训练,TPU是为大型模型特别设计的高带宽、高并行计算芯片[13] - 借助TPU集群的强大算力和高效并行,在相对可控时间内完成训练,实现能耗与成本平衡[13]