Workflow
上下文工程
icon
搜索文档
近两百万人围观的Karpathy年终大语言模型清单,主角是它们
机器之心· 2025-12-21 03:01
2025年大语言模型(LLM)发展的核心观点 - 2025年是大语言模型快速演进、重磅事件密集出现的一年,行业格局发生了真正的改变[2][6] - 大语言模型正在显现出一种全新的智能形态,其既比预期的聪明得多,又比预期的愚蠢得多[37] - 大语言模型已经极其有用,但行业甚至还没有发挥出它们10%的潜力[38] 可验证奖励强化学习(RLVR)成为新标配 - 2025年初,几乎所有实验室的LLM生产训练流程都包含预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)[8][9] - 2025年,一种新的训练阶段——可验证奖励强化学习(RLVR)——浮出水面并迅速成为事实上的标配[10] - RLVR的核心是让模型在可自动验证的环境中接受强化学习训练,模型能自发学会类似“推理”的策略,如将复杂问题拆解成中间步骤并逐步逼近答案[10] - 与SFT或RLHF这类“计算量相对较小的薄层微调”不同,RLVR使用客观、难以被投机取巧的奖励函数,使得训练可以持续非常久[10] - RLVR提供了极高的能力/成本比,大量吞噬了原本准备用于预训练的算力[10] - 2025年的大部分能力提升,并非来自模型规模的暴涨,而是来自相似规模模型加上更长时间的强化学习训练[11] - RLVR带来了新的“旋钮”:通过在推理时生成更长的思考链条、投入更多测试时算力,模型能力可以继续提升,并呈现出新的扩展定律[11] - OpenAI的o1是第一个明确展示RLVR思路的模型,而2025年初的o3则是让人直观感受到质变拐点的版本[12] 对LLM智能“锯齿状”分布的新认知 - 2025年,行业第一次真正直觉性地理解了LLM智能的“形状”,认识到其与人类智能的优化目标完全不同[14] - 大语言模型的智能被描述为“锯齿状”明显的能力分布:它们可以在某些可验证领域表现得像博学的天才,同时在另一些地方像困惑的小学生,甚至容易被攻击[14] - 这种“锯齿状”智能也解释了为何在2025年对基准测试普遍不当回事与不信任,因为基准测试本质上是可验证环境,天然容易被RLVR或“合成数据训练”所攻破[15] - 模型团队往往会在基准所在的嵌入空间附近“培育能力突起”,把能力尖刺精准地长到测试点上,“在测试集上训练”已经演变成了一门艺术[15] Cursor揭示LLM应用新范式 - Cursor在2025年的爆发清晰地揭示了一种全新的LLM应用层[16] - 像Cursor这样的LLM应用,本质是在为特定垂直领域打包和编排LLM能力,引发了关于“这一层会有多厚”的大量讨论[17] - 基础模型会趋向于“一个通用能力很强的大学毕业生”,而真正把他们组织成专业团队、在具体行业中落地的会是应用层,通过私有数据、传感器、执行器和反馈回路将模型组织并投入实际工作流程[17] - 应用层的关键功能包括:上下文工程、在后台编排多次LLM调用形成复杂的有向无环图、提供面向人的领域专用图形用户界面、提供“自主性滑块”[18] Claude Code定义本地化智能体新形态 - Claude Code被认为是第一个“真正的LLM智能体”,它以循环方式将推理与工具调用串联起来,能持续解决长任务[19] - 更重要的是,它运行在用户的本地电脑上,直接使用用户的环境、数据和上下文[20] - 在一个能力锯齿、起飞缓慢的世界里,更合理的顺序是先让智能体成为开发者身边的伙伴,Claude Code用一个极其优雅、极简、极具说服力的命令行界面形态呈现了这一点[20][21] - 这代表AI不再只是一个访问的网站,而是一个住在电脑里的伙伴,是一次全新的交互范式转变[22][23] “氛围编程”重塑软件开发 - 2025年,AI跨过了关键门槛,使得人们可以只用英语构建复杂程序,甚至忘记代码本身的存在,这被称为“氛围编程”[24][25] - “氛围编程”让编程不再只是专业工程师的专利,同时也让专业工程师可以写出大量原本永远不会被写出来的软件[27] - 代码变得不值钱、短暂存在、并可随意改写与丢弃,这正在重塑软件形态和工作角色[28][29] Nano Banana预示LLM的图形用户界面未来 - Google Gemini的“Nano Banana”是2025年最令人震撼的模型之一,它被视为构建真正LLM图形用户界面的一个早期但重要的信号[31][33] - 其意义不只在于图像生成,而在于文本、图像与世界知识在同一模型中深度纠缠[34] - 在UI/UX层面,“聊天”就像80年代的命令行,而人们更喜欢视觉化、空间化的信息,因此LLM应该用人类偏好的形式(如图片、信息图、幻灯片)进行交流[32][33]
Manus 8 个月突破 1 亿美金 ARR,让我眼前一亮的语音 AI 产品种子轮拿了 4000 多万美金
投资实习所· 2025-12-18 05:35
公司财务与增长里程碑 - 公司ARR已突破1亿美元,成为从零到一亿美元ARR最快的初创公司[1] - 公司总收入年化运行率超过1.25亿美元,该数据包含基于使用量的收入和其他业务收入[1] - 自公司1.5版本发布以来,月度复合增长率超过20%[1] - 公司在8月份宣布年化收入突破9000万美元[1] 产品能力与技术演进 - 1.5版本任务完成速度提升近4倍,并能构建完整的Web应用[1] - 产品可在单一上下文中执行整个价值链:研究产出深度内容、构建网站、分析用户交互数据、并基于发现生成见解或演示幻灯片[1] - 近期更新版本已支持移动开发,用户可通过其开发完整的移动App,包括后端和数据库设计[1][2] - 自上线首个通用Agent以来,已累计处理超过147万亿Tokens,创建超过8000万个虚拟计算机实例[3] 用户生态与应用案例 - 有用户通过公司产品开发了完整的移动App,例如构建一个AI笔记产品,并集成OpenAI API,产品还提供了发布到App Store的指南[2] - 在社交媒体上发现有不少日本用户分享使用公司产品制作移动App和Web产品的帖子,推测日本用户占相当比例[2] 通用AI Agent的上下文工程经验 - 核心观点是代理的未来在于巧妙地塑造上下文,通过设计记忆、环境和反馈循环,即使底层模型不变,代理表现也能有质的飞跃[8] - 优先考虑KV缓存:保持前缀稳定,避免在系统提示词开头放置动态信息,并通过只增不删确保上下文序列化是确定性的[5] - 采用遮蔽而非移除工具:当工具数量爆炸时,动态删除工具会导致模型困惑和缓存失效[6] - 将文件系统作为外部记忆:使用持久化存储应对长上下文昂贵和导致性能下降的问题,让模型学会读写文件,将其视为无限大的结构化外部记忆,并实施可恢复压缩[7] - 通过“复述”引导注意力:在上下文中不断更新todo.md文件,通过自然语言将全局目标反复推送到模型的近期注意力范围内,防止代理在长任务中偏离目标[7] - 保留错误的记录:将错误的行动、观察结果和堆栈跟踪保留在上下文中,让模型意识到之前的路径行不通,从而实现错误恢复和自我修正[7]
12月,我们推荐这 7 款 AI 新品
Founder Park· 2025-12-17 14:28
文章核心观点 文章通过介绍七款在极客公园创新大会上亮相的AI新产品及其创始人的思考,展现了当前AI产品发展的几个关键趋势:从追求通用效率转向深度个性化服务,从技术炫技转向解决具体场景的真实需求,以及AI如何作为辅助工具赋能而非取代人的主动性与创造力[1][2][7] AI笔记与个人洞察 - flomo笔记产品坚持不做AI润色和生成内容,其核心是帮助用户基于自己记录的真实经历和思考(即“个人上下文”),通过内置的多元思维视角(如CBT疗法、逆向思考)来获得更好的自我解释[4][7][8] - 产品理念强调“事实 + 不同的视角 = 更好的解释”,AI的作用被定位为一种“透镜”,帮助用户看到不一样的自己,而非单纯的效率工具[12][13] - 该产品通过“AI洞察”功能,将芒格的逆向思考等经典思维方法工具化,内置到产品中,以解决用户“不知道自己不知道什么”的认知盲区[9][11] AI摄影与用户主权 - Doka相机是一款AI构图相机,通过AI实时构图分析和AR引导线,帮助用户随手拍出构图平衡、色彩合适的照片,其产品登顶了台湾地区摄影分类榜单第一名,在零投放成本下获取了数万用户[14] - 产品定位源于对市场的洞察:93%的用户对摄影参数不感兴趣,且近80%的用户排斥1:1模仿他人照片,市场缺乏能屏蔽专业技能、让用户简单跟拍的产品[17][21] - 公司经历了一次重要的战略转向,从早期的“机位灵感跟拍地图”产品转向当前方案,原因是旧模式存在需求低频和用户排斥模仿两个致命问题[18][19][20] - 产品核心理念是“把拍照主权交还给用户”,AI仅作为辅助,提供构图建议但不强迫用户审美,强调“修得好、生成得好,不如拍得好”,认为摄影的本质是记录真实[7][23] - 产品设计追求简单纯粹,超过六成的相机类产品首页是信息流,而Doka旨在提供简约、有质感的纯粹拍照体验[24] 个人化AI办公助手 - remio是一款个人办公助手产品,旨在成为“Personal ChatGPT”,通过自动同步本地文档、无感捕获网页浏览等方式,智能构建用户的工作上下文,以解决用户需要手动为AI提供资料的“数据管理员”困境[27][29] - 产品通过一个真实案例说明了其价值:当通用AI只能简单总结一周工作时,remio能清晰梳理出访谈用户、更新官网、优化数据等所有工作细节,其优势不在于模型更聪明,而在于把“上下文”做到了极致[30] - 公司认为程序员是当前AI时代的受益者,因为AI Agent能访问整个代码仓库,而其他工作场景缺乏完整的资料库,remio的核心就是构建这样一个资料库并对接优秀AI模型,成为真正的工作助理[31] - 解决了两大核心技术难题:一是通过浏览器插件和本地文件实时解析功能实现“全面无感记录”,其中本地文件解析性能比许多开源同类技术提高了10倍;二是通过本地向量库和精细化的策略高效管理上下文,确保回答一次性准确[34][35][36] AI营销与品牌平权 - Pallas AI是一款基于GEO、帮助企业进行AI营销的Agentic产品,其背景是ChatGPT每天影响的交易额在20亿人民币以上,且在41.2%的对话中AI会主动提及特定品牌,33.8%的对话会出现自发产品推荐[38] - 公司认为需要“重新做一次针对‘AI’的营销”,让品牌从被动搜索变为被AI主动推荐,而当前在北美组建一个专业的AEO(AI引擎优化)专家团队起步价每月高达4000美金,这成了大企业的游戏[39][40][41] - Pallas AI旨在成为每个人的AEO专家团队,通过简单的对话框交互,能对客户及竞品进行全域追踪,并进行超过2000次关键词研究、100篇文章研究和30轮次以上的思考,最终生成一个清晰的“营销地图”[42][43] - 产品提供全面的数据监控面板和全内容生产平台,并内置“AI警察局”机制验证内容真实性,从而形成一个能持续学习、优化迭代的闭环营销团队,为企业带来真实增长[43][45] AI Agent商品化与市场生态 - MuleRun是一个AI Agent的Marketplace,平台在上线一个月后达到了50万注册用户数[46][47] - 公司认为随着AI技术发展,制作Agent已不难,但实现其商品化和市场化交付给全球用户仍是难题,解决方案是构建一个由市场经济驱动的AI Agent市场,让开发者能将知识变现,因为“人类社会最强大的动力就是‘搞钱’”[48][49] - 平台定位是覆盖AI领域的中长尾需求,而非解决如AI编程等头部问题,认为Agent只有商品化后才具备价值[50][51] - MuleRun是一个串联开发者、用户和平台的三方平台,具有框架和模型中立、提供开箱即用的底层工具(如聚合主流API、网盘空间、云端Sandbox)以及允许用户用自然语言构建Agent等特点[52][53][54][55] AI可穿戴硬件与健康管理 - OdyssLife品牌的首款产品Odyss N1是一个AI项链,集多模态感知能力于一体,旨在全天候无感记录用户的饮食与运动行为[56] - 产品出发点在于解决健康管理中的核心痛点:尽管人们记录运动、睡眠,但在最重要的饮食行为上从未有过好的用户体验,因为日常饮食行为碎片化,手动记录麻烦且不准确[58] - 选择项链形态是基于第一性原理,因为它可以24小时贴身佩戴、毫无存在感,且拥有与用户相同的视角,能清晰“看见”用户的饮食结构,但只关心健康数据,不记忆原始音频和图像[60] - 产品能智能分析进食顺序、速度、营养成分,并结合运动数据给出个性化健康建议,如同私人营养师提供“今日生活指南”,目标是重新定义用户与食物、与世界的关系[59][62][64] AI视觉内容与时尚产业 - LavieAI是一家专注于服饰垂类的AI视觉内容生成公司,业务包括AI模特生成、广告内容制作和虚拟IP运营,其思路是用AI模型取代传统模特拍摄,以更快、更省钱的方式获得成片[65][66] - 公司的视觉定制化解决方案相比传统拍摄,平均可降低90%的费用成本和90%的制作周期[68] - 公司技术能力扎实,拥有自研的人像生成模型、一个包含5000多位多元模特的AI模特库,并自研了Photoshop AI插件和“无限画布”系统来提升工作效率和图像质量[70] - 公司认为AI让创意的门槛更低,但对审美和想法的要求更高了,其优势在于坚持艺术与技术的结合,在模型训练中加入美术指导专家模式,确保结果符合时尚行业审美[7][71]
AI智能体时代中的记忆:形式、功能与动态综述
新浪财经· 2025-12-17 04:42
记忆已成为并将继续成为基于基础模型的智能体的核心能力。它支撑着长程推理、持续适应以及与复杂环境的有效交互。随着智能体记忆研究的快速扩张 并吸引空前关注,该领域也日益呈现碎片化。当前统称为"智能体记忆"的研究工作,在动机、实现、假设和评估方案上往往存在巨大差异,而定义松散的 记忆术语的激增进一步模糊了概念上的清晰度。诸如长/短期记忆之类的传统分类法已被证明不足以捕捉当代智能体记忆系统的多样性和动态性。 在这些智能体的核心能力中,记忆 尤为关键,它明确地促成了从静态大语言模型(其参数无法快速更新)到自适应智能体的转变,使其能够通过环境交 互持续适应(Zhang et al., 2025r; Wu et al., 2025g)。从应用角度看,许多领域都要求智能体具备主动的记忆管理能力,而非短暂、易忘的行为:个性化聊 天机器人(Chhikara et al., 2025; Li et al., 2025b)、推荐系统(Liu et al., 2025b)、社会模拟(Park et al., 2023; Yang et al., 2025)以及金融调查(Zhang et al., 2024)都依赖于智能体处理、存储和管 ...
Google全链路赋能出海:3人团队调度千个智能体,可成独角兽|MEET2026
量子位· 2025-12-17 03:38
编辑部 整理自 凹非寺 量子位 | 公众号 QbitAI 未来应该是智能体之间自主协同,解决复杂问题、自动化工作流程、自主下达任务,创建一种全新的商业模式。 MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了 主流媒体的广泛关注与报道。 核心观点 初创企业在全球化过程中面临不同侧重点与挑战,Google的全链路生态在每一阶段都可以为初创企业助力,赋能高效出海。 Gemini 3是一次真正的突破,在多个权威榜单中排名第一,标志着从"辅助工具"向"自主智能体"的跨越。 谷歌主导推出了A2A协议(Agent-to-Agent Protocol,智能体间通信协议),旨在打通跨企业、跨系统的智能体协同。 商业模式正在从SaaS按月订阅转向Outcome-based按结果付费,这是智能体时代的底层逻辑变化。 3到10人的初创团队完全可能通过调度大量智能体成长为独角兽,但需要重视数据壁垒、行业深度集成以及法律合规。 初创出海的五个阶段与Google全链路解决方案 在演讲开篇, Dennis系统梳理了初创企业出海的五个阶段,以及谷歌在每个阶 ...
硅谷人工智能研究院院长皮埃罗·斯加鲁菲:2025年AI智能体将重塑数字劳动力
金融界· 2025-12-10 08:41
行业峰会与产品发布 - 中关村科金联合甲子光年主办“超级连接·智见未来”EVOLVE 2025大模型与智能体产业创新峰会,并首次公开企业级智能体落地路线图 [1] - 中关村科金发布“3+2+2”智能体产品矩阵,包括大模型平台、AI能力平台、AI数据平台三大基础平台,智能客户平台、智能工作应用平台两大通用场景应用平台,以及金融和工业两大行业智能体平台 [1] - 中关村科金联合华为云、阿里云、百度智能云、火山引擎、亚马逊云科技、超聚变、软通动力等企业共同发布“超级连接”全球生态伙伴计划,旨在打造开放、连接、可持续的“人工智能+”产业生态圈 [1] 2025年生成式AI技术趋势 - 2025年生成式AI呈现技术融合趋势,包括扩散模型与Transformer结合的扩散Transformer、降低应用门槛的小型语言模型、成为标配的多模态能力,以及思维链、专家混合、蒸馏等新技术 [3] - DeepSeek被视为工程成就典范,因其首次将上述多种技术整合到单一模型中 [3] - 行业研究正致力于开发理解三维真实世界的“世界模型”,以超越语言模型的一维预测和图像模型的二维预测,让机器人能自然地与世界互动,相关探索者包括李飞飞创立的World Labs和Meta的Yann LeCun [3] AI智能体的演进与特征 - AI智能体正从“副驾驶”模式(如传统ChatGPT,协助人类完成任务)进化为“自动驾驶”模式,能够自主完成包含多步骤的完整工作流而无需人类干预 [4] - 智能体可执行从市场调研、产品设计、采购、生产规格说明、营销材料生成、销售培训到客户支持的全流程自动化 [4] - 智能体的核心运作机制是“感知-决策-行动-学习”的循环,使其能够突破传统脚本限制并应对环境变化 [4] 多智能体系统与评估 - 随着应用演变为多智能体系统,新的技术栈正在形成,涵盖硬件层、云服务层、语言模型层、编排层(如LangChain)以及最终的智能体应用层 [5] - “上下文工程”概念变得关键,它要求智能体深刻理解组织的完整信息、结构和真实目标,而不仅仅是执行单一任务,从而实现动态组建和解散的群体智能 [5] - 评估智能体的关键指标包括:准确性、效率、稳定性、用户体验、适应性,以及通过强化学习实现的自我提升能力和长期保持上下文的自我监控能力 [5] 智能体的行业应用与价值 - 在客户支持领域,真正的智能客服需能理解问题与上下文、识别客户情绪,并了解组织架构以精准找到答案,而非像传统聊天机器人那样答非所问 [6] - 江森自控为10万名员工打造了集成所有手册和技术笔记的AI系统,相当于最优秀工程师的集合体,大幅提升了维护和故障排查效率,并用于培训新员工 [6] - Strategy公司使用AI设计的金融产品Stretch,创造了今年美国股票发行中最大的IPO [6] - 生成式AI的核心价值在于“生成”原本不存在的东西,例如在旅游业,AI可通过分析用户社交媒体照片了解偏好,提供比传统旅行社更精准的个性化行程 [6] - AlphaFold获得诺贝尔奖证明,AI能够完成人类科学家无法做到的事情,从而加速各类科学研究 [6] AI信任与社会协作愿景 - “Waymo效应”指随着谷歌自动驾驶汽车在旧金山日益普及,公众对AI的信任正在快速提升,这为AI智能体的广泛应用奠定了社会基础 [7] - 对AI未来的愿景并非一个全知“神”般的AI,而是由多个智能体组成的动态协作群体,它们像人类社会一样交换信息、相互协作以达成目标,人类也将作为协作链条的一部分参与其中 [7]
当创业遇见苍洱:开发者如何抓住AI浪潮的黄金机会?
新浪财经· 2025-12-09 13:43
12 月 4-6 日,由中国计算机学会主办,CCF TF、工业级 5G 创新应用(大理)研究院、麦思博(msup)承办的 2025 CCF 程序员大会在云南大理国际会议 中心盛大召开。本次大会依托大理独有的数字产业特色 IP,精心打造两大主论坛及 24 个特色分论坛,涵盖 AI 前沿技术实践、工具应用、人才培养、全 球协作、数字游民生态、创业及出海等热门方向,使得技术交流与大理的自然人文气息深度交融。来自各地的技术大咖及程序员代表们线下齐聚大理,开 启了一场专属技术人的精彩年度盛会。 共探 AI 创业新浪潮 在丰富多元的议程中,"AI 创业新浪潮"论坛格外引人关注。近年来,大理依托苍山洱海的独特生活方式、开放多元的城市气质,以及不断完善的数字产 业基础,吸引了越来越多创业者、技术自由职业者与数字游民在此落脚、实验与生长。这样的创新氛围,也让本次讨论更贴近当下创业者的真实需求。 论坛上,来自 CSDN、久痕科技、麟玺创投、杭州指令集等企业与投资机构的嘉宾齐聚一堂,围绕创业方向、行业格局和技术趋势进行了高密度分享,为 开发者和创业者带来了一份兼具前瞻性与实践性的系统化思考。 开发者迎来 AI 创业黄金时代 CSD ...
AI写70%,剩下30%难得要命?Google工程师直言:代码审查已成“最大瓶颈”
猿大侠· 2025-12-04 04:35
AI编码工具对软件开发行业的影响 - AI编码工具(如GitHub Copilot、Gemini、Claude)显著提升了代码生成速度,使开发者生产力变强[1] - 但AI生成代码导致拉取请求(PR)数量暴增,修复一个Bug可能引入更多新Bug,工程细节处理成为最耗时的环节[1] AI生成代码的质量与审查瓶颈 - AI在用户界面、业务流程和样板代码生成上高效,但常产生系统边界不清、未处理边界条件、强耦合替代弱耦合、忽略安全与配置等问题的代码[4] - 这些问题在代码审查阶段暴露,资深工程师需花费更长时间拆解AI生成的逻辑,使代码审查成为新的开发瓶颈点[2][5] - 初级开发者借助AI快速产出看似可用的演示,但资深工程师视其为隐藏技术债务的定时炸弹[4] - 行业调查显示AI编码工具使用率上涨,但开发者对其信任度在下降[6][7] AI编码的“70/30”现象与维护挑战 - AI可快速生成约70%的代码(如界面、流程、基础逻辑),但剩下30%涉及业务边界、异常处理、稳定性、系统适配、长期维护性与性能优化等难题仍需人工解决[8] - 修改AI生成的代码易陷入“向前一步,向后两步”的恶性循环,修复一个Bug会触发更多新Bug[9] - 若无妥善的回滚机制、状态检查及开发者亲自修改的准备,代码库可能演变为无法维护的黑箱[9] 开发者能力与信任度的潜在风险 - 过度依赖AI可能导致开发者批判性思维被侵蚀,失去深入理解代码和从错误中学习的能力[10] - 开发者对AI生成代码的好感度从两年前的70%下降至60%,30%的开发者表示几乎不信任AI代码[11] - 建议通过设立“无AI编码日”来保持工程师的解题与系统思考能力,并建立“决策记录文件”以形成可溯源的知识资产[12] 提升AI编码质量的关键:上下文工程与测试 - “上下文工程”是突破AI生成代码质量限制的核心,即向AI提供更多有用信息(如系统提示、文档、项目结构、配置、示例代码)[13] - 测试是AI编码的安全网和反馈信号,但人类必须能理解并仔细审查AI生成的测试用例[13] - 应避免“写了就祈祷”的模式,充分利用AI工具自动加载文档和代码目录的能力来丰富上下文[13] AI对生产效率的真实影响 - 尽管有宣传称AI能将生产力提升5倍或10倍,但内部调查与数据显示,AI对编码效率的提升远不到2倍[13] - 声称获得极高效率提升的情况通常发生在全新的、无技术债务和历史包袱的低复杂度项目中[14] - 在现实世界中,AI可能帮助完成额外20%的工作量,但同时导致代码审查量爆炸式增长[16] - 代码审查严重依赖数量和时间有限的资深工程师,其审查模式尚未适应AI暴增的代码量,造成审查压力呈指数级上升[16] AI作为学习与协作伙伴的积极潜力 - AI的最佳用途之一并非直接写代码,而是作为“学习伙伴”帮助开发者快速补齐思维节点,理解遗漏的系统部分[17] - AI有助于开发者理解老系统并形成完整的“心智模型”[18] - 行业正在研究“主动式AI代码建议”(如预测开发者下一步意图),但此类工具达到日常可用成熟度仍需数年时间[17]
AI写70%,剩下30%难得要命?Google工程师直言:代码审查已成“最大瓶颈”
猿大侠· 2025-11-26 04:24
AI编码工具对开发效率的影响 - AI编码工具如GitHub Copilot、Gemini、Claude显著提升代码编写速度,但导致PR数量暴增和工程细节耗时增加[1] - AI主要提升UI、业务流程和样板代码等部分的效率,占整体代码量的70%[4][8] - 实际效率提升远低于宣传的5-10倍,内部数据显示提升不到2倍[13] - 在全新无历史包袱项目中效率提升更明显,可达5-6倍[14] 代码质量与技术债问题 - AI生成代码存在系统边界不清、未处理边界条件、强耦合替代弱耦合等质量问题[4] - 安全、鉴权、API Key、环境配置等关键部分经常空缺,运维集成考虑不足[4] - 代码逻辑缺乏一致性和可维护性,形成"技术债定时炸弹"[4][5] - 修改AI代码易陷入"修一个Bug触发新Bug"的恶性循环,称为"向前一步,向后两步"模式[9] 代码审查瓶颈与团队压力 - 代码审查成为新的开发瓶颈点,资深工程师审查压力呈指数级上升[2][16] - 初级工程师编写速度加快与AI代码量暴增导致PR队列延长[16] - 资深工程师数量有限且审查模式尚未适应AI生成的代码量[16] - 公司需要建立可回滚机制和变量检查等应对措施[9] 开发者能力与信任度变化 - 过度依赖AI可能导致开发者失去理解代码和犯错学习的能力[10] - 开发者对AI编码工具的好感度从70%下降至60%[11] - 30%的开发者表示对AI生成代码"几乎不信任"[11] - 建议设立"AI Free Sprint Day"和"决策记录文件"来保持开发者能力[12] 提升AI代码质量的关键因素 - 上下文工程是突破AI 70%限制的核心,需要提供系统提示、文档、项目规范等信息[13] - 测试作为AI编码的"安全网",人类必须理解AI生成的测试代码[13] - AI工具正在研究"主动式代码建议"功能,但需数年才能成熟[17] - AI更适合作为学习伙伴帮助开发者补齐思维节点和形成系统心智模型[17][18]
查资料、劝老板、写周报,给上班人准备的大模型评测
晚点LatePost· 2025-11-25 15:01
大模型用户增长与市场趋势 - 截至2025年11月,中国每天使用大模型助手应用的用户数量已超过1亿人,与2024年4月相比,用户数增长超过900%[3] - 用户使用大模型的心态发生变化,从让大模型执行任务转向更多地进行咨询询问,OpenAI报告显示“询问”类互动占比从40%增长到50%,而“执行”类任务从40%下降到30%[96] - 工作场景中42%的任务与写作相关,其中约三分之二不是从头生成内容,而是让大模型修改文本[96] 参与测评的大模型概况 - 测评涵盖14款国内外大模型,包括GPT-5.1、Claude Opus 4.5、Gemini 3 Pro、文心5.0、Kimi K2 Thinking等最新版本[3] - 测评通过官方网页版助理进行,测试时间在11月中下旬,累计交互超千次,采用中文提问,每个问题单开对话框[4][5] - 测评聚焦日常工作相关场景,设定15个问题,不涉及编程工作、agent和深度研究[3] 角色扮演与头脑风暴能力 - 在组建8人决策委员会任务中,ChatGPT盲评得分最高(22.4分),阶跃星辰StepFun排名第二(22.2分),商汤商量排名第三(21.3分)[8][13] - MiniMax Agent得分最低(13.2分),仅调整提示词而未有效组织委员会[11][13] - 在劝说老板调整商业计划任务中,阿里千问得分最高(4.6分),其话术将修改方案融入执行策略并引用名人名言[18][22] - 阶跃星辰话术得分最低(2.2分),因直接指出“三大致命矛盾”而被认为不合理[20][22] 长文本处理能力 - 在处理36页会议手册提取参会人员名单任务中,无一大模型完美解决,Gemini 3.0 Pro和腾讯元宝表现相对较好但仍有错误[25] - 智谱清言出现幻觉,添加未参会人员如创始人唐杰;通义千问表现最差,仅提取4个参会者且3个单位错误[25][26] - 在总结长文章任务中,ChatGPT、Gemini和Kimi总结质量最高,作者盲评得分均为4分;MiniMax Agent表现最差,仅生成920字总结且有事实错误[31][32][33] 周报生成与识别能力 - 在周报生成任务中,ChatGPT周报最长(1902字),DeepSeek周报最短(488字)[37][43] - 多数大模型会虚构工作细节,如客户名称和潜在收入,仅阿里千问未脑补细节[37] - 在周报识别任务中,Claude最严格,识别出11份AI生成周报并给予低分(平均4.3分);豆包和文心一言最宽松,仅识别出1份AI周报[41][42] - Claude生成的周报获得最高工作努力程度评分(8.2分),阿里千问因未脑补细节得分最低(4.6分)[42][43] 规划与统筹能力 - 在聚餐做菜规划任务中,Claude、豆包、千问、智谱清言、Kimi、MiniMax均能提供合理方案,智谱清言甚至考虑洗锅时间[44][46] - GPT-5驱动的ChatGPT表现不如去年的GPT-4,建议当场腌腊肉;DeepSeek、文心一言、阶跃星辰、讯飞星火提供的方案导致牛腩炖不熟[46][50] 联网搜索能力 - 在搜索大疆技术文章任务中,GPT-5、Kimi、GPT-5.1驱动的ChatGPT、文心一言、MiniMax均能找到相关官方文章[54][69] - 在搜索英伟达1999年招股书任务中,5款大模型(ChatGPT、Claude、Gemini、豆包、Kimi)能直接提供招股书链接[60][69] - 在以图找图任务中,10款大模型正确识别数据来自中国互联网络信息中心;Gemini 2.5 Pro最初杜撰答案,升级3.0 Pro后改正[65][67][69] 多模态识别能力 - 在识别未标注数据图表任务中,仅Gemini能给出接近实际数据的答案,其他模型仅提供估算[70][71] - 在分析甲状腺体检报告任务中,大多数模型建议“细针穿刺活检”,与三甲医院医生建议一致;DeepSeek建议定期观察,科大讯星星火还建议基因检测[75][79] - 在工位整理视觉识别任务中,DeepSeek和Kimi提示仅能使用OCR识别文字;能工作的模型仅识别部分物体,GPT-5.1驱动的ChatGPT提供ASCII示意图[86][89]