Workflow
Founder Park
icon
搜索文档
The Information爆料:苹果的大公司病,是怎么搞砸了AI版Siri的?
Founder Park· 2025-04-14 11:34
科技媒体「The Information」近期发布了一篇关于苹果新版 Siri 延期发布内幕的评论文章,直指苹果 Siri 项目推迟发布背后隐藏的诸多问题。 模型技术路线摇摆、内部团队冲突、高层犹豫不决等,Siri AI 的失败,可以说是完整体现了一个公司面对新技术的「大公司病」。 文章基于 The Information 的文章编译,略有调整。 TLDR: 苹果 Siri 部门高级总监 Robby Walker 对此的说法是, 「但这也只是一个目标,并不意味着那时就会发布」。 换言之,关于新版 Siri 发布时间,最新的答案是: 苹果自己也不知道。 背后到底发生了什么?为何苹果在 AI 战略上进度这么缓慢,已经落后在其他手机品牌之后? 在 WWDC 2024 上预告的新版 Siri,迄今仍未发布。甚至有消息称,可能会延期到今年的 iOS 19 版本中才会正式发布。 Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核 后工作人员会拉你入群~ 进群之后,你有机会得到: 01 云端结合,还是一个云端模型 从大小模型协作到 ...
a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道
Founder Park· 2025-04-11 17:40
AI数字人技术发展 - AI数字人技术已能生成逼真的图片、视频和声音,通过视觉和听觉图灵测试,2025年将成为重大突破方向[2][7] - 字节跳动OmniHuman-1模型仅需一张照片和一段音频即可生成动态背景、全身动作且口型同步的逼真AI视频[5] - 结合GPT-4o与Hedra制作的吉卜力风格数字人主播视频在X平台获得231万次观看[4] 技术研究进展 - 模型架构从CNN/GANs演进至3D技术(NeRFs)、Transformer、扩散模型及DiT架构,质量显著提升[9][13] - Hedra Character-3模型在多数场景表现最佳,支持非人类角色及情绪动作文本控制[13] - 当前技术突破包括半身/全身运动生成、动态背景整合及复杂场景唇形同步精度提升[13] 核心构成要素 - 面部需保持帧间连贯性并实现上下文感知表情(如疲惫时打哈欠)[25] - 声音需匹配角色特征,ElevenLabs提供庞大语音库及声音克隆功能[25] - 唇形同步依赖音素-视素映射,字节OmniHuman等模型通过海量数据训练实现精确控制[9][25] - 身体动作、背景交互、实时流传输(Agora)及智能对话能力为关键挑战[25] 应用场景 消费者领域 - 单张图片即可创建动画角色,应用于AI主播、播客、音乐视频等内容创作[18] - Hedra支持图片+音频生成说话角色,Sync工具实现视频素材唇形同步[18][19] - 实时AI教练等交互场景潜力大,Praktika已探索语言学习应用[20] 中小企业领域 - Creatify等工具自动生成含AI演员的广告,降低传统制作成本[21] - 电商/游戏领域普及度高,B2B企业开始用于个性化客户拓展[21] 大型企业领域 - Synthesia自动化员工培训视频制作,提升规模化效率[22] - ElevenLabs支持多语言视频生成,助力全球化内容本地化[22] - 高管形象克隆(Delphi)实现个性化内容批量生产[22] 未来发展趋势 - 角色一致性突破:HeyGen已实现单一角色20种外观变换[26] - 面部表情精细化:Captions Mirage提升表情自然度[27] - 身体动作智能化:Argil尝试程序化手势控制[28] - 环境交互能力:Topview探索广告产品展示功能[29] - 实时互动场景:AI医生咨询、销售助手等应用前景广阔[30] 市场前景 - a16z预测AI数字人应用层将快速发展,孕育多个价值数十亿美元的公司[5][31] - 工作流程差异化决定细分市场,企业级需求偏向高质量与真实性[31]
Anthropic工程师教你怎么做AI Agent:不做全场景、保持简单,像Agent一样思考
Founder Park· 2025-04-11 11:11
Agent系统构建原则 - 避免构建全能型Agent 大模型更适合处理通用任务 应专注于特定领域[3] - 明智选择应用场景 非所有任务都需要Agent 保持系统简单性优先[9] - 迭代过程中需从Agent视角思考 理解其局限性并提供必要支持[9] Agent系统演进路径 - **简单功能阶段**:早期处理摘要/分类等基础任务 现已成为行业标配[9] - **工作流阶段**:通过编排多模型调用形成预定义控制流 牺牲成本/延迟换取性能提升[9] - **Agent阶段**:模型能力强化后出现领域专用Agent 可自主决策行动路径[9] - **未来趋势**:可能向通用单一Agent或多Agent协作发展 系统自主权持续扩大但伴随成本/错误率上升[9] Agent适用性评估框架 - **任务复杂度**:模糊问题空间适合Agent 清晰决策路径应选工作流[11][13] - **任务价值**:需验证Agent探索成本 低于$0.1/任务选工作流 高于$1可考虑Agent[11][13] - **能力可行性**:关键环节需无严重瓶颈 否则应缩减任务范围[11][13] - **错误成本**:高代价错误场景需设置只读模式或人工干预[11][13] - 编码是典型适用场景 因复杂度高/价值大/结果易验证[12] Agent核心架构设计 - 基础结构=模型+工具+循环 在特定环境中运作[15][21] - 优先迭代三大组件(环境/工具集/系统提示) 避免过早复杂化[16][21] - 不同领域Agent共享相似后端架构 产品层表现差异化[17] 开发者优化策略 - 模拟Agent有限上下文窗口(10k-20k token) 体验决策局限性[19][22] - 直接询问模型(如Claude)以诊断指令模糊性/工具理解障碍[23] - 优化方向包括缓存轨迹/并行化工具调用/改进用户界面[16] 未来发展方向 - **预算感知**:需强化成本/延迟控制 定义时间/token预算机制[24] - **工具进化**:探索Agent自设计工具能力 提升工具通用性[25] - **多Agent协作**:预计年底出现生产级应用 需解决异步通信等挑战[26]
福布斯2025 AI 50榜单:AI Agent全面崛起,应用层才是2025真正的主战场
Founder Park· 2025-04-11 11:11
核心观点 - AI 行业正从聊天和内容生成转向实际执行工作流程 2025年是AI应用的分水岭 企业级工具成为主角 消费级产品即将爆发[2][6] - 榜单评选竞争激烈 共收到1861份申请 聚焦私营企业 需提交商业模式、技术人才、融资等数据[8][9] 榜单趋势 - AI从响应提示转向解决问题和完成整个工作流程 创新侧重于实际完成工作[2] - 企业级AI工具能自动处理完整业务流程 如Harvey可替代初级律师团队[6] - 机器人技术快速推进 Figure AI和Skild AI构建通用模型与硬件结合能力 Figure年产1.2万台机器人[6] - 消费级AI应用尚未普及 但2025是转折点 2026是普及年[6] 融资与估值数据 - OpenAI累计融资639.2亿美元 Anthropic融资170亿美元 两家合计810亿美元 占榜单总融资1424.5亿美元的56.8%[13] - xAI融资121.3亿美元 Thinking Machine Labs以100亿美元估值融资20亿美元[13] - 新晋公司Anysphere(Cursor)估值25亿美元 年化收入超1亿美元[10] - Speak估值10亿美元 用户1000万 ARR 5000万美元[11][12] - Writer融资3.26亿美元 客户续约率160% 合同超5000万美元 预计今年达1亿美元[15] - 基础设施公司Crusoe融资18.2亿美元估值28亿美元 Lambda融资8.63亿美元估值25亿美元 Together AI融资5.34亿美元估值33亿美元[16][17] 企业级应用案例 - Harvey法律自动化软件融资5亿美元 处理从文件审查到客户沟通的完整法律流程[6][7] - Writer训练自研模型Palmyra 为300家企业提供生成式AI工具 包括Uber、Salesforce等 强调数据安全和低幻觉率[15] - Glean企业搜索引擎融资6亿美元[7] - Hebbia面向金融和法律的通用AI融资1.6亿美元[7] 消费级应用案例 - Captions视频编辑器融资1亿美元[5][7] - Speak语言辅导应用融资1.62亿美元 用户1000万[7][11] - Suno音乐生成服务融资1.25亿美元[7][19] - Perplexity AI搜索引擎融资9亿美元[7][19] 基础设施与模型开发 - 基础设施供应商满足AI对计算的巨大需求 Crusoe为OpenAI、Oracle和微软打造耗资5000亿美元的"星际之门"超级数据中心[16][17] - 模型开发商OpenAI融资639.2亿美元 Anthropic融资170亿美元 Cohere融资未披露具体金额 Mistral AI融资11亿美元[7][13] - 数据标注与AI基础设施公司Scale AI融资16亿美元[7] 区域与市场竞争 - 中国公司未上榜 因财务和商业实践不够透明 但DeepSeek、Manus等备受关注[18] - 美国发布40个知名模型 中国发布15个 性能差距从两位数百分点缩小到近乎持平[18] - 腾讯混元主打视频生成和复杂推理 字节跳动豆包生成3D场景 阿里巴巴通义千问有9万企业用户[21] 版权与法律挑战 - 多家公司面临版权侵权诉讼 包括OpenAI、Anthropic、Runway、Midjourney、Elevenlabs、Suno、Cohere、Perplexity等[19] - 被指控使用受版权保护作品训练模型 遭出版商、艺术家、音乐家、作家起诉[19] - 行业辩称属于"合理使用" 未来取决于法院判决结果[20] 新晋与特色公司 - Anysphere(Cursor)AI编程工具融资1.76亿美元 帮助工程师编写和编辑代码[5][10] - OpenEvidence医疗AI搜索平台融资1亿美元 为医生总结医疗信息 1/4美国医生使用[12][13] - World Labs由李飞飞创立 融资2.915亿美元 开发理解物理空间的模型[14] - Figure AI人形机器人融资7.5亿美元[7] - Sakana AI面向科学研究融资2.44亿美元[7]