Workflow
Founder Park
icon
搜索文档
吴欣鸿内部分享,美图在 AI 时代的组织进化心得
Founder Park· 2025-10-12 02:04
公司AI技术应用与市场表现 - 美图秀秀凭借AI合照功能获得欧洲14个国家App Store总榜第一,28个国家分类榜第一[4] - RoboNeo项目通过封闭开发一个月完成全球发行,上线首月MAU突破百万,未借助美图产品导流和PR推广即进入全球数十个国家应用商店分类榜前10名[22] - 公司AI编码普及率达到86%,设计流程中AI赋能使整体效率提升50%以上[43] 行业竞争格局与挑战 - 影像赛道成为行业风口,影像产品成为大厂标配,市场竞争激烈[9] - 全球涌现大量影像AI创业团队,不到10人团队能做出千万美元年度经常性收入,AI全栈工程师越来越普遍[9] - 公司面临大厂和灵活创业公司的双重竞争,内部存在17年积累带来的认知惯性和路径依赖[10] 传统工作流程痛点 - 产品需求文档需要开发长时间阅读理解,会议繁多但效率低下[16] - 需求排期长达三个月,OA审批流程需要几十人审批耗时三天[16] - 创新想法需要层层汇报,传达到决策层时已背离初衷,职能边界思维导致项目推进缓慢[16] RoboNeo项目反惯性工作流实践 - 采用需求共创模式,只确定大方向,研发设计同步开工,高频协作代替厚重文档[25] - 取消不产生决策的会议,缩短决策链路,小范围快速讨论当场拍板[26][27] - 借助AI实现单一职能多面手,海外运营工作由一人完成,传统项目需要两三人[28] - 要求所有Leader躬身入局承担执行任务,用最短时间构建MVP根据用户反馈快速迭代[29][30] AI时代组织进化方向 - 提倡全员拥抱AI生产力工具,迈向人人都是多面手,甚至一个人就是一支团队[39] - 内部搭建AI Agent平台、MCP服务平台、AI翻译平台等基础设施[44] - 鼓励简单事务不求人,用AI工具完成个人闭环,但需避免无脑照搬AI产出[44] 内部创新机制建设 - 推出AI创新工作室机制,鼓励员工组建极小规模团队实践产品构想[45] - 通过立项评审的团队获得项目启动预算和利润分红,目前已成立5个AI创新工作室[47] - 目标是构建蜂巢型组织,文化六边形提供稳定性,创新工作室保持敏捷性与体系化[58] 公司文化价值观升级 - 发布升级版价值观:热爱影像、追求极致、着眼全球、求真务实、打破惯性、爱拼能赢[55] - 文化六边形是公司最优解,提供稳定性和方向感,支撑使命让艺术与科技美好交汇[57][58] - 价值观不是推倒重来而是迭代升级,这些特质原本就深植公司基因[58]
谁在赚钱,谁爱花钱,谁是草台班子,2025 年度最全面的 AI 报告
Founder Park· 2025-10-11 11:57
行业宏观趋势 - 2025年AI行业核心变化是实际业务发展终于匹配上早期的市场炒作叙事[2] - AI已成为最重要的经济增长动力之一,16家头部AI-first公司年化总收入达到185亿美元,进入百亿美元时代[3] - AI正从前沿技术研究演变为重塑社会结构和经济基础的生产系统,影响能源市场、资本流动和政策制定[3] 模型能力与竞争格局 - 2025年被定义为“推理之年”,各大公司密集发布具备思考、推理能力的模型,如OpenAI的o1-preview和DeepSeek的R1-lite-preview[6][11] - DeepSeek R1-lite-preview在AIME 2024上以52.5分击败OpenAI o1-preview的44.6分[8] - OpenAI在前沿研究领域仍是行业标杆但优势微弱,GPT-5在关键推理与编码能力上仅领先其他模型数个百分点[17] - 模型基准测试因数据污染和结果方差逐渐失效,AI真正价值体现在实用性上[21][22] - 模型发布时机成为重要策略,Anthropic平均在融资前44天发布新模型,OpenAI平均在融资前50天发布新模型[15] 开源生态演变 - 中国正取代Meta成为全球开放权重生态系统新领导者,阿里巴巴通义千问在用户偏好、全球下载量和模型采用率上实现反超[24] - Qwen模型在Hugging Face上每月新衍生模型占比超过40%,而Llama份额从2024年末约50%下降到仅15%[24] - 中国开源生态崛起得益于完善工具链和宽松开源许可证,极大降低全球开发者使用门槛[26] AI智能体发展 - AI智能体框架生态系统进入“百家争鸣”阶段,数十个相互竞争框架共存并各自占据细分市场[27][28] - 智能体记忆从临时上下文管理转向结构化持久记忆系统,支撑推理、规划和身份认同[31][32] - 字节跳动原生GUI Agent“UI-TARS-2”在多个主流基准测试中创下最佳纪录,在网页游戏上平均得分达59.8分,约为人类水平60%[33] AI应用商业化 - 截至2025年8月,16家领先AI-first公司年化总收入达185亿美元[42] - 企业级和消费级AI应用中位数年化经常性收入在第一年分别达200万美元和400万美元以上[43] - 44家小型AI公司总收入超40亿美元,平均每位员工年创收超250万美元[43] - 顶尖AI公司从创立到达到500万美元ARR的速度比传统SaaS公司快1.5倍,2022年后成立的新一代AI公司增长速度达4.5倍[45] - 美国企业付费AI采用率从2023年初5%升至2025年9月43.8%,12个月留存率80%,平均合同价值两年内从3.9万美元涨至53万美元[48] 具体应用赛道表现 - AI编程赛道独角兽涌现,Lovable成立8个月后估值18亿美元,Base44以8000万美元估值被收购[49] - 音频与视频生成领域头部公司实现规模化营收,ElevenLabs收入在9个月内翻倍达2亿美元[52] - AI搜索成为高意向获客渠道,ChatGPT引荐零售访问转化率从约6%增长至约11%,超过所有主要营销渠道测量值[53] 芯片与硬件市场 - NVIDIA在AI芯片市场占据主导地位,市值突破4万亿美元,约90%明确引用计算硬件的开源AI论文提到NVIDIA产品[55][57] - 电力供应已取代芯片成为新制约因素,预测到2028年美国将出现68GW隐含电力缺口[64] 用户行为与基础设施 - 95%专业人士在工作或家庭中使用AI,76%专业人士自行付费使用AI工具,AI从实验性技术转变为核心生产力工具[67] - 付费用户更能感受到生产力提升,认为AI没有帮助或导致生产力下降的用户中60%是免费用户[71] - AI正改变用户信息获取习惯,“提升生产力和效率”、“编码与技术辅助”、“研究与知识学习”是三大主要使用动机[73] 行业资源分配 - AI安全研究机构资源严重不足,11家著名美国AI安全研究机构2025年预计总支出约1.33亿美元,而AI前沿实验室同年总支出估算约920亿美元[74]
智能体开发大赛、AI 项目月度路演,近期优质 AI 活动都在这里
Founder Park· 2025-10-11 11:57
AI行业近期活动与赛事 - 由深势科技、北京科学智能研究院(AISI)及上海交通大学人工智能学院联合主办的玻尔科研智能体开发大赛正在进行,第一阶段为2025年9月11日至10月10日,第二阶段为2025年10月至12月,活动形式为线上与线下结合[4] - 该大赛为第一阶段入选队伍提供研发经费支持,包括算力机时与模型API等资源,并提供全套Agent开发工具箱与孵化机会[4][5][6] - 大赛设置总奖金100万元人民币(税前),分两次发放:第一次评比奖金20万元计划于10月底发放,第二次评比奖金80万元计划于比赛结束后发放[9] - 中国技术创业协会主办的元创营高校AI Agent创新赛将于9月22日至11月7日在上海举行,聚焦“AI+互娱”方向,设置五大赛题[10] - 该创新赛提供重磅现金奖池,单个作品最高可赢取十万元大奖,优秀作品有机会上线Soul App,全球高校优胜者将汇聚上海Soul App总部[10] - S创月度路演第四十九期“未来智能Future Intelligence 1024”将于10月24日在上海漕河泾会议中心举行,活动形式为夜间场,设有酒水畅饮与DJ驻场[11] - 该路演活动将有10个未来智能项目亮相,其中8家进行路演竞技,2家进行展示,前2名将直通S创上海2026科创大会路演大赛复赛,路演项目申请截止日期为10月14日24:00[11] - 赤道象限(EquatorQ)主办的“AI全球未来峰会”将于10月17日至18日在上海举行,活动汇聚近百位行业大咖,内容涵盖创新项目路演、前沿展位、五大年度AI荣誉榜单、两大年度AI奖项及两大AI行业研究报告[11][12] - 该峰会设有AI社交名片、特邀AI主持、AI玄学解签、AI调奶茶等互动环节[12] - NVIDIA初创加速计划正在招募中,该计划为会员创业公司提供免费的NVIDIA深度学习培训中心(DLI)课程、SDK访问权限、精选软硬件优惠价格、GPU云折扣以及投融资与商务对接和联合营销机会[14][15]
为什么 OpenAI 们都要搞 AI 基建?Groq 创始人把背后的逻辑讲透了
Founder Park· 2025-10-10 13:27
AI算力供需格局与市场动态 - AI应用增长完全受限于算力供给,推理算力翻倍可令OpenAI和Anthropic的收入在一个月内几乎翻倍[3][23] - 市场算力供给远不应求,大量接近五年前发布的英伟达H100 GPU仍在被高价租用,且其产生的收入远高于运营成本[7][46][47] - 全球约有35或36家公司贡献了99%的AI收入或算力开销,市场集中度极高[14] - 在算力稀缺时代,交付能力和供应链的确定性本身构成强大的护城河,价值主张从速度转向算力容量的可获得性[3][7][49][51] 自研芯片的战略意义与挑战 - 科技巨头自研芯片的核心动机并非单纯追求性能超越,而是为了掌控自身命运和获取供应链议价权[7][32] - 自研芯片的挑战远超硬件设计,涉及极为复杂的软件生态、持续工程优化以及对技术生态演进节奏的精准把握[7][27] - 芯片成功的关键在于系统视角而非单一芯片性能,SRAM单位成本虽比DRAM贵10倍,但在系统层面因所需芯片数量大幅减少,总成本可能更具优势[145][147] - 行业预测五年后英伟达营收份额仍将超过50%,但芯片出货量占比可能低于10%,品牌溢价和客户决策惯性将维持其高端市场地位[140] 芯片行业竞争与投资逻辑 - 芯片行业存在极高的进入壁垒,首版流片成功率仅14%,从设计到量产理想情况下需三年,构成了时间护城河[159] - 投资应关注真实价值而非情绪价值,AI领域存在实打实的价值兑现,例如私募基金寻求廉价算力以直接改善被投企业利润表[104] - 英伟达的买方垄断地位体现在HBM市场,其通过大额预付款提前两年锁定产能,使得其他玩家难以获得关键组件[30][36] - Groq等新进入者通过缩短交付周期(6个月对比传统18-24个月)和独特的LPU架构切入市场,其最新一轮融资规模达7.5亿美元,估值接近70亿美元[52][53][126][127] AI三要素与经济影响 - AI三要素(数据、算法、算力)中,算力是当前最容易调整、见效最快的要素,提升任意一项都能改善AI整体表现[3][90] - AI与工业革命不同,其增长不受单一要素制约,增加算力可直接提升模型质量、用户数和经济活动,产生强烈的通缩压力[90][96][97] - AI将导致大规模的用工短缺而非失业,通缩压力使人们减少工作时间,同时催生目前难以想象的新岗位和新兴产业[98][99] - 芯片的摊销周期应更为激进,甚至按一年一换的节奏看待,其价值分为覆盖资本支出的部署阶段和覆盖运营成本的持续运行阶段[40][41][43] 地缘政治与能源制约 - AI竞赛存在主场和客场优势,中国在主场依靠政府补贴和能源建设(如计划建设150座核电机组)具备优势,但在客场能效更高的芯片是关键[68][70][74] - 欧洲在AI竞赛中面临落后风险,若无法解决算力基础设施建设(如利用挪威风电等可再生能源),其经济可能沦为旅游经济[74][78][86] - 美国及其盟友通过将算力中心建在能源便宜的地方可获得比中国更多的可用能源,行动速度和对不作为风险的恐惧是其优势[70][74][76] - 算力是AI的基础,而能源是算力的基础,未来竞争的核心在于能源基础设施的建设速度与规模[84][86] 商业模式与未来展望 - AI商业模式不同于SaaS,增加算力投入可直接提升产品质量,导致按量计费成本几乎贴着营收走,形成算力投入与收入的强正反馈[61][90] - 开源模型并不总是更便宜,某些中国模型的运行成本估计比美国模型高出十倍,价格差异源于市场锁定而非实际成本[66][67] - 大模型被视为心智的望远镜,短期让人感到自身渺小,长期将展现智能的广阔前景,未来可能从七巨头演变为九巨头甚至二十巨头[122][123][174] - 推理与训练形成正向循环,推理越多越需要追加训练优化效果,训练越多又需要铺开更多推理摊薄成本,相互促进[89]
Sam Altman:我承认我之前错了,AI 超级系统才是 OpenAI 真正想要的
Founder Park· 2025-10-09 12:37
公司战略愿景 - 核心目标是构建一个集前沿研究、超大规模基础设施和消费级产品于一体的AI超级系统,而非单一的“超级应用”[4] - 公司致力于成为人们普遍订阅的个人AI服务,用户可在其消费产品、其他服务及未来专用硬件上使用[4] - 公司将自身定位为垂直整合的AGI公司,业务核心包括个人AI订阅服务、支撑该服务所需的海量基础设施以及研究实验室[8] 垂直整合与业务逻辑 - 公司发展路径表明,为实现使命必须进行垂直整合,其技术栈包含研究、基础设施和产品,三者相互依存[11] - 公司认为垂直整合在其案例中至关重要,并以实现了极高垂直整合度的iPhone作为科技行业的成功典范[11] - 连接不同业务的底层逻辑是研究推动伟大产品,基础设施支撑研究,形成一个整合的技术栈[11] 产品策略与分发 - 产品战略是构建强大的AI超级系统,而非无所不包的“超级应用”[12] - 将Sora作为独立应用发布,而非集成进ChatGPT,是基于用户对不同产品有不同认知和心态,混合会产生割裂感[12][13] - 未来开发者将找到适合自身的新分发机制,App与ChatGPT的结合非常棒[7][8] Agent发展与技术展望 - 最看好的Agent发展方向是参考Codex在编程领域的成功,将其体验推广至法律、金融等其他行业[14] - 像Code Interpreter这样的工具,距离完成“一周的工作量”已不遥远,并非遥不可及的2025年目标[14] - 实现更高级Agent所需的技术突破包括更聪明的模型、更长的上下文处理能力和更好的记忆系统[16] - 未来交互界面可能是一个由AI实时渲染出的动态视频世界,这将解锁新的可能性[7][29] 竞争优势与护城河 - 公司认为不存在通用的“最佳答案”式护城河,独特的竞争优势往往是为特定产品、技术、市场定位量身打造且仅在特定时间点成立[7][16] - 竞争优势是在实践过程中逐步发现的,例如“记忆”功能意外成为了ChatGPT一个非常强的竞争优势和用户留存原因[17] - 获得优势的底层机制未因AI改变,网络效应、品牌、用户数据、平台双边效应等传统因素依然有效[18] 基础设施扩张与行业合作 - 公司已下定决心进行非常激进的基础设施投资,因其对研究路线图和模型能创造的经济价值充满信心[20] - 大规模投资需要整个行业或一批关键角色共同支持,涉及从底层硬件到模型分发的所有环节,未来几个月会有更多合作动作[20] - 限制公司规模的客观因素存在(如全球GDP),但距离当前水平遥远,公司因能预见未来模型能力而进行激进扩张[21][22] Sora的战略角色与盈利模式 - 发布Sora是“社会与技术共同演进”策略的一部分,旨在让社会提前感受并适应强大的视频生成技术[26][28] - Sora有助于研究计划,是通往AGI之路的一部分,并且只占了公司总算力的一小部分[26][28] - Sora的盈利模式可能需按次收费,以应对高制作成本和用户高频创作行为,对广告变现持开放但谨慎态度[30][31][32] AGI认知与未来突破 - AGI的重要标志是AI具备“发现新知识”、扩展人类知识边界的能力,目前已观察到微小但重要的突破[39] - 公司认为基于现有大语言模型技术路线能走得足够远,直至创造出能帮助找到下一条技术路线的AI[38] - 未来最令人兴奋的能力跃迁是“AI科学家”,预计两年内模型将能承担更大部分科学研究并做出重要发现[39][40] - 模型能力与公众认知之间存在巨大鸿沟,公司已创造出巨大的“能力富余”[36][37] 版权与数据使用 - 预测社会最终将接受AI使用公开数据训练属于“合理使用”,但在生成内容时需有新模式(如模仿风格、使用IP需授权)[33] - 观察到版权方态度变化,部分版权方担忧的不是其IP被过度使用,而是在AI互动中被使用得不够多[34]
OpenAI年度发布会:ChatGPT里能直接用App、Sora 2 API开放、推出Agent开发工具包
Founder Park· 2025-10-07 00:31
文章核心观点 - OpenAI DevDay 2025 发布会聚焦于“如何让人更好的用 AI 去创造”,核心是让开发者定义人与AI的交互方式 [5][6] - AI已从研究试验的新鲜玩意儿转变为每天都在用的生产工具,OpenAI开发者生态规模显著扩大 [73][75][65] App Inside ChatGPT - 这是Plugin系统的加强版,第三方应用不仅提供数据还可提供界面,用户可在ChatGPT内直接使用应用功能而无需跳转 [7][8] - 发布Apps SDK,基于MCP标准构建,开发者可快速将现有MCP服务器升级为完整App并集成到ChatGPT获取流量 [12] - 功能已开始Preview,年底开放正式提交和审核,首批合作伙伴包括Figma、Canva、Coursera、Spotify、Zillow等,未来将支持Uber、Tripadvisor及多种商业化方式 [13][15][17] Agent Kit - 发布Workflow编辑器Agent Builder,可视化拖拽节点搭建工作流,支持预览、版本管理及Guardrails安全模块,Ramp团队用其将采购agent开发周期从两个季度缩短至两个sprint,迭代周期减少70% [20][25][29][31] - Chat Kit为可嵌入聊天组件,Canva集成后节省两周开发时间,一小时完成集成 [32] - Evals for Agents新增四大能力:Datasets快速构建评估、Trace grading端到端评估工作流、自动化prompt优化、第三方模型支持 [34] 编程工具Codex - Codex正式版发布,使用专为写代码优化的GPT-5 Codex模型,OpenAI内部新代码均由其编写,使用工程师每周多完成70%的PR且每个PR都经Codex审核 [41][42] - 功能扩展至IDE、终端、GitHub、ChatGPT,现场演示通过语音和Real-time API控制会场摄像头及灯光系统,无需手写代码 [44][46][48] - 新增Slack Integration直接协作写代码,以及Enterprise Control企业级管理工具 [50][52] API迭代 - GPT-5 Pro API开放,具备400k上下文和272k最长输出,适合金融、法律、医疗等高精度场景,GPT-5 Codex已处理超40万亿tokens,为增长最快模型之一 [53][55] - Sora 2 API开放Preview,分快速版sora-2(几分钟出结果)和专业版sora-2-pro(高画质),价格每秒0.10美元起 [57][59] - Real-Time Mini语音API价格比Advanced Voice低70%,旨在推广语音交互;另发布生图模型GPT Image,最低每张图0.005美分 [61][63][64] 开发者生态与影响力 - OpenAI当前拥有400万开发者、每周8亿ChatGPT用户、API每分钟处理60亿tokens,较两年前(200万开发者、1亿用户、3亿tokens/分钟)翻倍增长 [65][67] - 现场表彰处理超100亿至1万亿tokens的开发者,并展示日本89岁退休老人用ChatGPT开发11个老年专用iPhone App的案例 [69][71]
硅谷资深工程师:不止是 AI 产品,Coding 也需要好的 taste
Founder Park· 2025-10-06 02:05
技术品味与工程价值观 - 技术品味与技术能力是两码事,有人可能技术能力强但品味差,或者技术弱但品味好 [2] - 技术品味的核心是为当前项目选择适配的工程价值观的能力 [2][6] - 软件工程中绝大多数决策核心是在不同目标之间进行权衡,很少会遇到一个选项在所有方面都绝对优于另一个选项的情况 [2][11] 品味与能力的区别 - 品味不等于能力,分歧本质上是价值观的差异 [7][10] - 不成熟的工程师对自己的决定很固执,认为做X或Y总是更好;成熟的工程师更愿意考虑决策的两面,知道两个方面都有不同的好处 [11] - 关键不在于决定技术X是否比Y更好,而在于在特定情况下X的好处是否超过了Y [11] 技术品味的构成要素 - 一个人的技术品味由他最看重的那套工程价值观构成 [11] - 重要的工程价值观包括弹性、运行速度、可读性、正确性、灵活性、可移植性、可扩展性、开发效率等 [11][12][14] - 品味取决于工程师把哪些价值观排在优先位置,例如更看重运行速度和正确性超过开发效率的工程师可能更偏爱Rust而非Python [11][14] 坏品味的识别 - 糟糕的品味意味着工程师偏好的价值观并不适合其正在从事的项目 [13] - 大多数坏品味都来源于僵化,即工程师极力推崇某样东西仅仅是因为这是他们喜欢的方式,无论是否适合当前项目 [13][15] - 永远不信任那些通过说这是最佳实践来为决策辩护的工程师,因为没有任何工程决策在所有场景下都是最佳实践 [15] 好品味的识别与培养 - 好品味的本质是为特定技术问题选择适配的工程价值观的能力,难以通过玩具问题或技术常识提问测试,必须结合真实问题及复杂现实背景判断 [16] - 培养良好品味建议多尝试不同类型的工作,仔细观察哪些项目做起来轻松,哪些部分困难重重,并注重灵活性,避免对软件开发的正确方式形成绝对化认知 [17] - 好品味可以慢慢积累,但有些人可以快速养成,编程领域也存在品味远超自身经验的天才 [18]
当下的 AI 产品:有 revenue,但不是 recurring 的
Founder Park· 2025-10-03 01:03
ARR指标的扭曲现象 - ARR(年度经常性收入)正被初创公司广泛用于展示快速增长,例如Midjourney在不到三年内ARR从零增长到2亿美元,ElevenLabs在20个月内ARR从零飙升至近1亿美元,Lovable在三个月内ARR从零增长到1700万美元,Cursor在一年内ARR从零做到1亿美元 [6] - 风险投资行业规模巨大,超过3000家VC公司管理着超过3600亿美元的资产,预计到2029年风险投资将成为一个超过7000亿美元的行业 [8] - 创始人们面临巨大压力,将各种非经常性收入计入ARR,包括试点项目、一次性交易甚至尚未激活的合同,这种做法被描述为"氛围收入"(vibe revenue) [4][8][9] ARR指标在AI时代的不适用性 - ARR指标诞生于21世纪初的SaaS浪潮,适用于稳定可预测的商业模式,但AI公司的业务动态与SaaS有本质区别 [10] - AI客户行为模式不同,早期客户更像是进行实验而非长期承诺,签订短期试点项目导致极高的客户流失风险 [12] - AI服务计费方式基于Token使用量,具有不可预测的波动性,与传统SaaS的"按席位"线性定价模式完全不同 [12] - AI初创公司的经济模型受制于少数巨头如OpenAI和Anthropic,这些"inference whales"拥有巨大定价权,可能随时调整成本,改变AI初创公司的单位经济模型 [13] 初创生态系统的封闭循环问题 - 创业过程被"产品化",像Y Combinator这样的机构将创办公司的方法标准化,导致创始人学会套用固定"剧本" [17] - 生态系统内部存在交易循环,许多AI初创公司将产品卖给其他初创公司,形成封闭经济圈 [18] - ARR指标成为给高估值找借口的工具,形成"如果我想给你更多的钱,请给我更多的ARR,我就会给你更高的估值"的循环逻辑 [18] - 风险投资是一个相对封闭的圈子,特定类型的人和商业模式更容易获得资金,导致可疑指标被接受为行业标准 [18]
OpenAI Sora 2 登场!同步推出APP,Altman称这是创意领域的「ChatGPT 时刻」
Founder Park· 2025-10-01 04:07
产品发布与市场定位 - OpenAI正式发布新一代AI视频模型Sora 2,被视为对谷歌Veo 3的正面竞争[3] - 此次发布被描述为视频领域的“GPT-3.5时刻”,标志着AI视频生成技术进入新阶段[17] - 公司推出首个Sora App,iOS版可在商店直接下载,安卓用户可通过sora.com访问,起步为邀请制并在美加上线[14][57] 技术性能突破 - 模型在物理准确性、逼真度上刷新SOTA,并在一致性、可控性上实现巨大飞跃[4] - 首次实现“音画同步”,音频与口型对齐,环境音、动作声效随场景变化[5][42] - 物理细节显著进化,能合理模拟物体运动惯性、受力和材质,例如篮球投掷可能打板弹开或投丢,而非强行进筐[19][27] - 人物角色一致性非常高,在多镜头切换时能保持服饰、光线、道具的连续性,解决了以往易穿帮的问题[12][35] 功能与新玩法 - 新增“Cameo”功能,用户可通过录制一段带声音的视频,将自己的形象和声音准确置入任意生成场景中[48][50] - 支持多风格生成,包括写实、电影质感、日漫等风格,并能实现复杂的运镜效果[37][39][40][60] - 用户可用自然语言指定镜头顺序、节奏、景别变化,像导演一样把握故事节奏[36] - 模型能赋予角色“超能力”,例如让人物飞起来,为创意玩法提供更多可能[49][53] 团队与未来发展 - Sora团队负责人为Bill Peebles,其背景包括MIT计算机本科和加州伯克利计算机博士,曾在英伟达、Adobe、Meta的AI岗实习[81][83][86] - 公司明确Sora 2不是终点,未来将继续用更多高质量视频数据喂养模型,提升世界模拟的准确性和细节感[88][89] - 该技术进化预计将影响影视广告、动画分镜、教育科普、产品演示乃至AI机器人训练等多个行业[90]
加量不加价,一篇说明白 Claude Sonnet 4.5 强在哪
Founder Park· 2025-09-30 03:46
产品发布与核心性能 - Anthropic发布Claude Sonnet 4.5模型,官方称之为世界上最好的编码模型 [2] - 该模型在处理复杂多步骤任务时能保持超过30小时的专注度 [2][9] - 在SWE-bench Verified评测中达到77.2%的得分,在Agentic coding with parallel test-time compute评测中达到82.0%的得分 [12] - 在OSWorld基准测试中得分达61.4%,相比四个月前Sonnet 4的42.2%得分有显著提升 [10] 定价与成本优化 - Claude Sonnet 4.5定价与Claude Sonnet 4相同,输入为3美元/百万token,输出为15美元/百万token [2] - 通过提示缓存可节省高达90%的成本,批量处理可节省50%的成本 [2] 功能与工具更新 - 在Claude Code中添加了检查点功能,可保存进度并即时回滚到之前的状态 [4] - 更新了终端界面并发布了原生VS Code扩展 [4] - 在Claude API中新增了上下文编辑功能和记忆工具 [4] - 代码执行和文件创建(电子表格、幻灯片和文档)功能已直接集成到对话中 [5] - 为Max用户提供了Claude for Chrome扩展程序 [6][13] 多领域能力表现 - 在金融分析Finance Agent评测中得分55.3%,优于GPT-5的46.9%和Gemini 2.5 Pro的29.4% [12] - 在研究生级推理GPQA Diamond评测中得分83.4% [12] - 金融、法律、医学和STEM领域的专家认为,相比旧模型,Sonnet 4.5在领域特定知识和推理方面能力显著更好 [14] 开发者工具与平台集成 - 发布面向开发者的工具Claude Agent SDK [2][30] - Sonnet 4.5已集成到Claude开发者平台、Amazon Bedrock和Google Cloud的Vertex AI中 [3] - Claude Agent SDK提供了管理内存、权限系统和协调子智能体的能力 [28][30] 实验性功能与安全特性 - 发布实验性研究预览功能"Imagine with Claude",可在五天内为Max订阅用户实时生成软件 [31][33] - 该模型是迄今为止对齐性最好的前沿模型,减少了谄媚、欺骗、权力寻求等未对齐行为 [24] - 模型在防御提示注入攻击方面取得重大进展 [24] - 根据AI安全级别3(ASL-3)保护下发布,包含针对CBRN武器相关内容的过滤器 [25]