AGI

搜索文档
对话智元首席科学家:把具身智能过度类比大模型,是对它最大的误读
36氪· 2025-04-05 11:41
文章核心观点 - 具身智能赛道存在泡沫但也有发展前景,软硬件一体的全栈路线是未来趋势,当下是入局和突破的最佳时间点 [10][23][44] 行业现状 - 具身智能赛道一边有投资人逃离泡沫,一边被高额融资激活,腾讯首次押注具身智能领域的智元机器人,该公司成立仅1月完成3亿天使轮融资,几个月内估值达10亿美金,成为全球最快跻身独角兽的具身智能公司 [5] - 行业还未收敛到确定性技术方案,未出现引领型明星公司 [30] - 全球有500万台机器人被部署在真实世界,但都是盲的,靠绝对定位操作,做重复性编程和工作 [42] 泡沫看法 - 泡沫意味着关注度和资源,是提前下注,技术范式转移都会经历泡沫阶段,具身智能更复杂,需要更长时间技术积淀 [10] 大模型与具身智能关系 - 不能简单将具身智能与大模型范式划等号,大模型准确率在机器人身上不适用,用大模型周期类比具身智能低估了作业智能和行动智能的独特挑战 [12][13] 软硬件重要性及卡点 - 软件和硬件同等重要,目前软件和硬件都未收敛到点,行业对两者集成也无共识 [14] - 软件方面,大模型缺乏长时间memory,跨任务尝试、分层控制和实时反馈是难题,仿真、数据使用及RL应用都存在挑战 [15] - 硬件方面,高性能硬件平台成本高,传感器反馈不够精细,可靠性有提升空间,未来可能根据不同行业有相对标准化本体和方案 [16][17] 数据问题 - 数据问题像蛋生鸡、鸡生蛋难题,可先从封闭、半封闭空间部署机器人获取数据来改进系统 [18][20] - 自动驾驶早期也有数据匮乏争论,现在数据过多,具身智能公司掌握产品和生态、有能力部署机器人将有先发优势 [21] 全栈路线必要性 - 自动驾驶和无人机行业发展表明,软硬件一起迭代的全栈路线会笑到最后 [22][23] 智元公司情况 - 智元是中国头部具身智能公司中最高举高打的一家,发布首个通用具身基座大模型,与Pi达成合作,首席科学家是罗剑岚 [6] - 公司内部是扁平、高度协作团队,稚晖君、姚卯青和罗剑岚是平行互补关系,分别负责系统工程、战略方向和算法路线推动及外部技术生态融合 [25][26] - 选择与Pi合作是因理念契合,Pi是国际上做具身智能最好的公司之一 [27][28] - 公司采用生态打法,强调开放协同,帮助外部公司迭代并引入其能力到自身生态体系 [29] 自主决策与任务定义 - 机器人自主决策关键在于对不确定性的分析和建模,换成可执行动作链,其感知、预测、生成机制的泛化能力是关键技术 [31] - 长周期任务关注任务先后复杂依赖关系和泛化能力,复杂任务在manipulation上有未解决问题,如机器手接触外界的物理现象和多模态视觉输入下完成灵巧任务 [32] 机器人AGI相关 - 实现manipulation就是AGI,是比LLM更高级的智能 [34] - 最感兴趣的是让系统有更强自主学习和泛化能力,智元新成立的具身智能研究中心希望打通从基础科学到技术落地的链路 [36] 强化学习与入局优势 - 受大模型影响,强化学习在具身智能领域成潮流,不同背景的人入局视角不同 [37][38] - 大厂和消费电子公司入局是积极信号,它们在用户体验、产品化等方面有积累,创业公司优势在于对行业底层逻辑理解更垂直、精致,擅长智能,最终两个方向会聚合 [39][40] 行业周期与入局时机 - 具身智能已走过约十年探索期,现在进入机器人应用窗口期,特定场景有使用价值且有持续学习能力的机器人会提前到来,是入局和突破的最佳时间点 [41][42][44]
腾讯控股20250331
2025-04-01 07:43
纪要涉及的公司 腾讯控股、Meta、苹果、阿里、美团、淘宝、抖音、快手、网易、阿里云 纪要提到的核心观点和论据 1. **腾讯在AI时代生态价值凸显** - 庞大用户基础和开发者资源:拥有14亿用户,超1000万开发者,月活用户达9亿,千万级商家资源,在多领域有布局[3][4] - 独特生态系统:具备显著整合能力和跨生态协作潜力[3] - 提升单用户收入:通过理解用户真实意图,缩短交易链条,目前单用户收入低于美团、淘宝等[3][7] 2. **AI时代流量入口转变影响互联网平台** - 流量入口集中化:从分散APP转变为集中大入口,交易平台需通过AI提升效率,内容平台以消磨时间为核心模式[5] - 平台需适应新分发方式:阿里、美团等交易平台需适应新流量分发方式以保持竞争力[5] 3. **AGI发展中不同生态协调能力重要** - 跨场景跨生态服务重要:OpenAI可调用网页完成餐厅预订展示其重要性[6] - 巨头优势体现在整合协作能力:目前工具型AI网络效应弱,Meta AI或ChatGPT调用存在瓶颈[6] 4. **腾讯通过理解用户意图提升收入** - 收入构成:约两千多亿人民币,主要来自广告和支付业务[7] - 单用户收入差异:约185元,低于美团、淘宝、抖音,若有更理解用户意图的AI agent可缩短链条提高收入[7] 5. **2025年腾讯AI策略变化** - 加速推进产品策略:组织重新协作,许多新产品转移至CSIG部门开发[8] 6. **腾讯新模型特点及多模态技术布局** - Turbo S和混元T1模型:Turbo S提高响应速度,混元T1解决信息记忆问题,推动智能协作发展[9] - 多模态技术发力:各大厂商重点领域,腾讯积极布局增强竞争力[9] 7. **腾讯Meta AI Agent发展情况** - 预计今年推出:形态类似Meta的meta AI,有个性化调整功能[11] - 变现方式差异:Meta AI通过付费推荐和高级订阅,国内腾讯倾向广告模式[11][12] - 面临技术挑战:内部生态系统和API接口未完全打通[13] 8. **腾讯AI助手发展方向** - 从主动操作到无感被服务:如自动预定餐厅等,需解决统一API接口问题[14] 9. **APP接入AI Agent情况及限制因素** - 面临阻力:流量掌控能力削弱,腾讯小程序生态部分无需接入,国内安卓生态分散,国外苹果或大一统[15] 10. **苹果在AI Agent发展现状及挑战** - 延迟发布:因重视隐私保护,处理能力受限,基础功能受技术和芯片能力制约,未来或缓解[16] 11. **腾讯C端硬件布局及与其他公司对比** - 布局差异:Meta看好智能眼镜,字节推VR头显,腾讯集中在机器人领域,硬件端布局少[17] - B端市场变现:Meta通过click to message和WhatsApp Business,腾讯企业微信凭客户管理优势竞争[17] 12. **AI技术赋能广告业务** - Meta案例:全平台AI分发占比提高,广告位置增长9%,价格提高约4%[18] - 腾讯情况:提升广告位置和转化率,预计视频号等广告收入翻倍增长[18] 13. **腾讯利用AI赋能原有业务** - 广告领域:提高精准推荐,增加广告库存释放,视频号等变现空间扩大[19] - 云服务领域:智能回复提高企业微信交流效率,增强私域价值变现能力,中期带来百亿量级收入增长[20] 14. **腾讯广告增长预期及AI影响** - 增长预期:宏观环境下约10% - 15%,AI赋能后可能提升至15% - 20%[21] - AI赋能表现:广告3.0系统达成率提升约8.7%,小程序广告CPM价格提升[21] 15. **腾讯云与阿里云对比** - SaaS占比:腾讯在国内有优势,因有大量C端产品[22] - 算力使用:阿里云65%用于外部,腾讯70%用于内部,阿里云发展节奏快,腾讯待SaaS或AI应用爆发凸显价值[22] 16. **2025年腾讯云增速预期及AI影响** - 增速预期:预计达20%,略高于阿里[23] - AI收入占比:去年不到10%,今年预计10% - 20%,国内SaaS爆发腾讯或成最大受益者[23] 17. **AI技术对腾讯游戏业务影响** - 增强游戏匹配体验:引入AINPC,强化基本盘[24] - 突破产能限制:降低内容成本,未来可能产生新爆款产品,编程成本下降[24] 18. **AI对腾讯研发和内容成本影响** - 降低研发成本:内部33%代码由AI生成,未来可能超50%[25] - 降低内容成本:游戏制作成本有望降80%,总体内容成本下降10% - 30%[25][26] 19. **AI对腾讯收入和利润拉动效果** - 收入拉动:每年对腾讯云和广告收入拉动100 - 300亿元,占内部收入2% - 3%,整体收入提升约4%,2025年总收入增长近10%[27] - 利润提升:资本支出摊销影响87亿元,但内容和研发支出节省60多亿元,利润每年提升近1个百分点[27] 20. **腾讯与Meta在AI赋能表现比较** - Meta:业务单一,AI对收入拉动明显,每年增长约10个百分点,2022 - 2024年总计增长30%[28] - 腾讯:业务多元化,AI带来年度收入增长约10%,当前17倍PE估值有上升空间,预期达20倍[28] 21. **腾讯未来发展前景** - 推出AI产品增强生态价值:如AI agent,带来市场遐想空间[29] - SaaS端应用爆发受益:短期内广告和云业务受推动,中期新技术或成催化点[29] 其他重要但是可能被忽略的内容 - 腾讯控股旗下DeepSeek R1优势在于内部生态整合能力,AI助手成国内第三大AI助手,腾讯云小微写文章和研报表现出色,企业级知识库产品“艾玛客”待打磨有望成小爆款[10] - 目前视频号广告加载率不到4%,抖音为15%,快手为9%,国际化tiktok为15% - 20%[19] - DeepSig出现后腾讯云API调用环比增长接近100%,GPU使用增长约30%[23]
速递|前OpenAI团队操刀,Nova Act浏览器AI助手,测试得分超竞品OpenAI
Z Potentials· 2025-04-01 03:49
亚马逊Nova Act AI Agent发布 - 亚马逊发布通用AI Agent技术Nova Act 旨在与OpenAI Operator和Anthropic Computer Use竞争 通过控制网页浏览器执行简单操作提升AI聊天机器人实用性 [1] - Nova Act由亚马逊AGI实验室开发 将集成至Alexa+升级版本 目前提供研究预览版 开发者可通过nova.amazon.com访问SDK工具包构建原型 [2] - 功能覆盖自动订餐、网页浏览、表单填写等基础操作 亚马逊称其内部测试表现优于OpenAI CUA(88%)和Anthropic Claude 3.7 Sonnet(90%) 在ScreenSpot Web Text测试中得分94% [3][4] 技术细节与团队背景 - Nova Act未采用WebVoyager等常见AI Agent评估标准 但通过SDK允许开发者定义工作流中的人类干预节点 以提高应用可靠性 [5][6] - 开发团队由前OpenAI研究员David Luan和Pieter Abbeel领导 二人曾创立Adept与Covariant 被亚马逊挖角后主导AI Agent项目 目标为实现"计算机上人类可完成的任何任务" [6] 市场竞争与行业意义 - 亚马逊凭借Alexa+的广泛用户基础 可能实现AI Agent技术最大覆盖范围 但需解决早期竞品(如OpenAI/谷歌/Anthropic)存在的响应延迟、操作失误等问题 [7] - Nova Act作为AGI实验室首款公开产品 被视为亚马逊AI战略关键 其表现将影响长期延迟的Alexa+市场反响 [7] (注:文档id 8-13为无关招聘信息 已跳过)
字节 AI 再创业:独立组织、全链条的饱和出击
晚点LatePost· 2025-03-31 11:58
字节跳动AI战略布局 - 公司面对AI机遇采取饱和式投入策略,至少5个团队同时开发不同智能体产品,包括对内工具[3] - 2023年年中决定自主开发AI后,公司在算力芯片层、云计算层、模型研发层、应用层实现全链条布局[3] - 产品矩阵覆盖聊天机器人、AI搜索、AI浏览器、Agent平台、AI陪伴社交、AI教育等主流方向,主力产品豆包在2024年底成为中国日活最多AI应用[4] - 2025年设定三大目标:探索智能上限、探索新UI交互形式、加强规模效应,由Flow/Seed/Stone三大板块近2500人团队支撑[17] 技术研发进展 - 模型迭代速度显著提升,2023年8月至2025年5月共发布12个版本,涵盖对话/视频生成/音乐/视觉理解等多领域[10] - 2025年1月发布豆包大模型1.5 Pro版本,多模态与推理能力全面提升[10] - 组建独立模型研发团队Seed,整合原有AI Lab资源,40%研究人员为近两年新增[15] - 引入Google Fellow吴永辉等顶尖人才,设立Seed Edge前沿研究计划瞄准AGI探索[21] 市场竞争态势 - 主力产品豆包被腾讯接入DeepSeek的元宝快速追赶,后者用十分之一时间达到豆包20%用户规模[5] - 错过中国ChatGPT时刻,因内部对复现OpenAI o1模型存在时间误判[10] - 面临DeepSeek开源模型冲击,该团队不足200人却实现技术突破[4][13] - 豆包2025年DAU目标超5000万,季度增长目标从30%调高至150%[22] 组织架构创新 - 建立独立AI组织Flow/Seed,与抖音/TikTok等业务平级,直接向创始人汇报[15] - 打破原有薪酬考核体系,为AI团队提供百万年薪及5年长周期评估机制[15] - 创始人张一鸣深度参与技术研究,每月召集核心团队复盘进展[16] - 采用"能力中台"模式,将模型能力模块化供产品团队调用[21] 资源投入规模 - 2023年GPU储备超10万张,上半年英伟达订单超10亿美元[22] - 2025年AI算力采购预算达900亿元人民币,优先保障大模型研发[22] - 通过收购补充技术能力,包括Oladance耳机品牌及存算一体硬件公司[15] - 调动全集团资源支持,曾阶段性限制非AI产品在抖音体系的广告投放[22]
智谱发布AutoGLM沉思版,背后推理模型媲美DeepSeek-R1:推动AI Agent进入「边想边干」阶段
IPO早知道· 2025-03-31 04:07
核心观点 - 智谱正式发布全球首个集深度研究与实际操作能力于一体的AI Agent AutoGLM沉思,推动AI进入"边想边干"阶段 [3][5][6] - AutoGLM沉思融合深度思考、感知世界和工具使用三大能力,突破传统AI局限,实现长程推理和任务执行 [7][8][9] - 智谱在AI Agent领域持续创新,从Function Call到智能体编排再到设备操控智能体,保持技术领先 [6] - 公司自主研发全栈大模型技术,包括基座模型、推理模型和沉思模型,将于4月14日开源 [13][14][28] 技术演进 - 技术路径:GLM-4基座模型→GLM-Z1推理模型→GLM-Z1-Rumination沉思模型→AutoGLM模型 [3] - 新版基座模型GLM-4-Air-0414:320亿参数,优化智能体任务能力,32B参数量比肩更大模型 [15] - 新版推理模型GLM-Z1-Air:深度优化通用能力,推理速度提升8倍,成本降低至1/30,可在消费级显卡运行 [17][19][21] - 沉思模型GLM-Z1-Rumination:通过强化学习提升长程推理能力,结合实时搜索、工具调用和深度分析 [24][26] 性能表现 - AutoGLM系列在AgentBench评测中取得SOTA成绩,Phone Use任务成功率提升超20%,Browser Use超越GPT-4o和Claude-3.5-Sonnet [10] - 自研模型GLM-PC(CogAgent)仅9B参数即超越GPT-4o + UGround等更大规模模型 [12] - GLM-Z1-Air在AIME 24/25、LiveCodeBench等基准测试展现强大数理推理能力 [17] 生态布局 - 战略聚焦Agentic GLM研发,推动智能体技术发展,搭建Agentic LLM平台助力生态合作伙伴 [31] - 已携手金融、教育、医疗、政务等领域合作伙伴推进Agentic LLM落地应用 [33][34] - 与多个城市达成合作,推动当地大模型应用生态建设 [34] - 推动中国AI解决方案出海,帮助"一带一路"国家构建自主大模型,发起"自主大模型国际共建联盟" [35]
世界怎么就「东升西落」了?聊聊二级市场与 DeepSeek+Manus 的热潮 | 42章经
42章经· 2025-03-30 14:25
东升西落叙事 - 美国市场从24年开始因AI领先和美元强势吸引全球投资,但Trump上台后政策调整引发宏观不确定性,导致股市剧烈震荡[2][3] - 中国市场24年股价开始回升,今年因DeepSeek发布彻底引爆,反映此前对科技行业预期过低的价值回归[5][6] - 中美AI发展路径差异显著:美国专注scaling law和AGI,中国聚焦应用落地和成本优化[8][9] 中美AI发展差异 - 美国AI发展路径依赖高成本投入(算力/数据),但模型能力提升不及预期[9] - DeepSeek通过工程优化大幅降低成本,实现更好性能输出,打破高成本叙事[9] - 中国AI应用注重覆盖更广泛用户群体,如Manus团队专注让未接触AI人群使用产品[10][11] 标志性产品分析 - DeepSeek开源模型使腾讯等公司跳过模型军备竞赛阶段,直接进入应用开发[26] - Manus采用脉冲式增长策略,通过Prosumer群体快速传播,但被误读为OpenAI对标对象[12][15] - Cursor等产品以极低市场成本实现高ARR收入,展示中国AI商业化路径优势[12] 二级市场表现 - 美国市场因前期AGI预期过高,当前面临预期调整;中国市场预期正从0开始填平[19][20] - 阿里云宣布增加AI Capex后股价上涨,反映市场对国内AI预期转向乐观[23] - 国内互联网公司从价值股重新获得成长股属性,AI推动估值逻辑变化[24] 产业趋势分析 - 推理芯片领域国内呈现"百卡齐放"局面,寒武纪等公司股价表现亮眼[28] - 专精特新企业通过技术突破和出海确立行业领先地位,如宁德时代[34] - AI推动产业趋势明确,但对中国资产重要性仍低于美国,需关注消费等宏观指标[35] 市场波动特征 - 板块轮动速度加快,信息传播和处理效率提升导致市场共识形成更快[37] - 高波动环境下企业经营策略可能转向蹭热点和讲故事[38] - 从业者对产业判断更精准,如云厂商CXO提前布局光模块投资[44] 投资机会展望 - 模型产业链价值、原生应用发展和垂直行业应用构成三大关注方向[43] - 生物医药、航空航天等非AI领域同样存在结构性机会[43] - 二级市场投资技巧可学习,但全职炒股可能导致认知密度下降[46]
具身智能并不万能,人类的护城河在哪里 | 周末读书
虎嗅APP· 2025-03-29 09:59
具身智能行业现状与趋势 - 金沙江创投朱啸虎近期批量退出人形机器人公司投资 与当前该领域投融资火爆现象形成逆向操作 引发市场对具身智能赛道前景的争议 [1] - 短期视角下具身智能面临商业化落地难题 需等待范式革命突破 长期视角则被普遍看好 可能引发社会全方位变革 [1] - 具身智能被认为是实现AGI(通用人工智能)的关键路径 其潜在影响力远超当前生成式AI 可能彻底重塑人类社会的生产模式和价值体系 [1][5] 技术发展路径与瓶颈 - 人工智能发展存在"离身智能"与"具身智能"两大范式 前者如ChatGPT缺乏物理身体 后者通过身体与环境互动实现进化 [4][5] - 具身智能的核心优势在于通过物理身体获取环境反馈 形成类似人类的感知与常识 当前AI系统因缺乏身体导致泛化能力不足 例如需海量数据训练特定任务 [5][6] - 技术瓶颈体现在意识形成机制 现有AI在情感 直觉和协调性方面甚至不及人类儿童 商业化应用仍面临巨大挑战 [8][9] 行业应用前景 - 制造业 医疗诊断 法律咨询和金融交易等领域将优先实现机器人替代 但情感伦理 创新探索等领域仍将保持人类优势 [9] - 美国农业机械化历史表明 技术替代可能创造新职业形态 而非单纯消灭工作岗位 未来劳动分配方案可能向按需分配演进 [8][9] - 当前人形机器人行业面临客户需求不明确的商业化困境 投资人开始重新评估短期回报预期 [8] 技术发展历史 - 人工智能思想源头可追溯至1950年图灵提出的"机器思考"命题 具身智能概念由其首次系统阐述 [4] - 从离身智能到具身智能的范式演进是AI发展主线 身体介入成为突破现有AI局限性的关键变量 [4][5] - 人类通过数百万年进化形成的身体互动机制 是当前AI难以快速复制的核心壁垒 [6]
与真格戴雨森聊 Agent:各行业都会遭遇 “李世石时刻”,Attention is not all you need
晚点LatePost· 2025-03-28 12:12
AI技术突破与行业影响 - OpenAI的o1系列模型通过强化学习大幅提升模型推理能力,o3在GPQA测试中达到70多分,超越人类博士生水平[5][6] - DeepSeek R1开源模型以极低成本实现推理能力突破,引发全民讨论,其技术报告揭示强化学习路径的有效性[5][6] - o4-mini推理时间达数小时级别,模型能力提升呈现指数增长趋势[6] 开源生态与竞争格局 - DeepSeek开源策略促使腾讯元宝、百度文心等大厂接入其模型,微信搜索接入后DAU实现两位数增长[27][28] - 开源模型降低行业门槛,Monica等创业公司基于开源模型开发Agent产品Manus[3][20] - 闭源与开源路线并存,Kimi选择闭源但专注技术前沿,DeepSeek通过开源中立性获得生态合作优势[29][30] Agent产品形态演进 - 推理能力突破解锁Agent产品形态,包括只读型(如Deep Research)和读写型(如Operator)[9][17] - Agent核心能力包括推理、编程和工具使用,o3在SWE-Bench测试中达到70-80分,可处理70%-80%人类编程任务[10][12] - Manus展示自主工具使用能力,如调用邮件客户端与政府机构交互[18] 算力需求与芯片格局 - Agent普及将推动推理算力需求增长100-1000倍,当前ChatGPT Pro月费200美元仍亏损[33] - 英伟达GPU仍占90%以上市场份额,但国产芯片(如华为昇腾)开始针对特定模型优化[33][34] - 专用芯片(ASIC)发展取决于模型架构稳定性,若架构固化则ASIC效率优势将显现[35] 行业变革与社会影响 - AI能力超越人类的"李世石时刻"密集出现,如编程能力已超越99%人类[37] - Agent推动"Attention is not all you need"范式,实现资金向生产力的Scaling Law[13] - 技术普惠阶段尚未到来,当前仍处于精英为精英开发工具的阶段[38] 公司战略与技术路线 - DeepSeek专注模型基础能力,未跟风多模态或C端产品,团队以本土人才为主[7] - Kimi通过长文本处理与搜索结合实现差异化,近期砍掉视频生成等非核心业务[30][31] - 多模态技术当前对智能提升有限,语言仍是最高效的智能载体[22][39] 成本与商业化进展 - GPT-4 API成本较发布下降超90%,2025年预计再降90%[28] - Devin定价6-8美元/小时,低于美国加州16美元最低时薪,企业服务付费习惯促进商业化[25] - DeepSeek通过技术突破获得自然流量,数千万DAU零广告投入[7] 技术发展前沿 - 下一阶段突破需解决记忆机制(Memory)和持续学习(Online Learning)问题[18][19] - 科学发现成为新焦点,AI需具备假设生成与实验验证能力[26] - 语言模型可能超越人类语言形式,进化出更高效沟通方式[39]
Physical Intelligence 创始人:人形机器人被高估了
海外独角兽· 2025-03-28 11:51
文章核心观点 - 通用机器人是AGI从数字世界走向物理世界的重要路径,robot foundation model旨在为机器人构建大脑以实现通用能力 [3] - Physical Intelligence(PI)被视为机器人领域的OpenAI,专注于开发通用机器人的foundation model,近期开源了通用模型π0并推出分层推理系统Hi Robot [3][10][26] - 实现机器人泛化的核心在于获取多样化数据而非仅追求数据质量,需扩大真实机器人数据规模并优化跨平台数据共享 [12][17][18] - 人形机器人形态当前被高估,未来机器人形态将呈现多样化"寒武纪大爆发",物理智能才是AGI核心 [4][22][36] Chelsea Finn机器研究的开端 - 研究始于10年前伯克利博士阶段,早期探索神经网络控制将图像像素直接映射到机器人扭矩,当时属非主流方向 [6] - 关键挑战在于让机器人在不同环境/物体间泛化任务能力,如拧瓶盖、挂衣架等基础操作 [6] - 研究路径涉及构建广泛数据集,结合强化学习、模仿学习等方法,曾在Google Brain工作并创立斯坦福实验室 [7] PI的研究进展和发展 - 目标构建可控制任何机器人执行任何任务的神经网络模型,突破传统单一任务优化局限 [10] - 采用跨平台数据整合策略(六轴/七轴/单双臂机器人),最大化数据复用价值以解决硬件迭代导致的数据废弃痛点 [10][12] - 2023年10月展示复杂任务能力(叠衣/清理/纸箱搭建),当前重点扩展语言交互与环境泛化能力 [13][15] - 技术架构依托Transformer和预训练Vision-Language Model,利用互联网知识迁移(如Taylor Swift案例) [15][16] 机器人实现AGI的路径 - 短期难预测具体应用场景,需探索人机协作模式降低容错要求,语言交互是重要突破方向 [21] - 运动控制蕴含进化级智能,基础操作(倒水/做麦片)实际具有极高复杂性 [23] - 关键里程碑研究:SayCan(语言模型规划)、RG2(网页数据集成)、RT-X(跨机器人形态训练)、Aloha(远程操作训练) [24] Hi Robot系统设计 - 分层推理架构:高层模型处理任务规划(如"拿起番茄"),低层模型转换为具体动作指令 [26] - 解决长周期任务执行与实时交互需求,已实现三明治制作/购物/清理等场景 [28] 传感器与硬件发展 - 当前依赖视觉(RGB摄像头)已取得显著进展,手腕摄像头可部分替代触觉传感器 [29] - 嗅觉/味觉等冗余传感器虽有益但非优先级,当前瓶颈在于数据处理与记忆功能开发 [30] - 未来硬件将趋向场景专用化(厨房/折叠衣物等),形成多形态共存的生态系统 [36][37] 自动驾驶与机器人领域对比 - 机器人操作空间维度更高(14维vs自动驾驶2D),精度要求更严但分布问题范围较小 [31] - 初创公司优势在于快速迭代部署,大公司受限于安全规范难以实现多样化数据收集 [34] 训练数据方法论 - 人类观察数据(如YouTube)价值有限,机器人需从自身物理经验中学习运动控制 [35] - 数据泛化能力取决于分布广度,通过建筑物/场景数量等指标粗略评估 [36] - 自动化经验与强化学习结合是提升数据价值的关键路径 [35]
Z Research|AI Agent会孕育下一代腾讯字节吗?(AI Agent 系列一)
Z Potentials· 2025-03-28 02:37
AI Agent 101 - AI Agent 是 AI 进程中的重要阶段,对应 L4 等级,从"成本中心"转向"价值引擎",但仍处于早期阶段,距离 AGI 尚有巨大工作量 [6] - AI 应用形态从 Chatbot 到 AI Copilot 再到 AI Agent,背后是 AI 能力的进化,实现更高任务难度和自动化程度,人机交互范式从"主从式"转向"伙伴式" [11] - AI 进程划分为 L1-L6,其中 Copilot 和 Agent 分别对应 L3-L4,反映 AI 应用从 GTM 阶段进入 PMF 阶段 [6] 入口之争 3.0 - 互联网入口演变史是技术满足需求的历史,从门户网站到搜索引擎再到超级 APP,每次入口革命都缩短意图与满足之间的路径 [22] - AI 时代入口形态依赖技术栈特点,LLM 的算力密集、人才密集、数据密集特性可能导向中心化,但 Deepseek 的出现带来悬念 [22] - 中美市场差异显著:美国市场硬件入口集中,AI Agent 与硬件强绑定胜率高;中国市场硬件入口分散,超级 APP 更可能掌握 AI Agent 话语权 [26] AI Agent 商业模式与挑战 - AI Agent 商业模式可能从已有 APP 盘子夺食,围绕数据权限引发剧烈反击,变现路径中平台分成和消费贷较为可行 [30] - AI Agent 面临高昂推理成本(单任务约 2$/次,能耗达纯 LLM 的 8 倍)、复杂环境适应能力不足、开放域任务失败率高达 30% 等技术卡点 [32] - 商业模型难以跑通,ROI 问题突出,当人类员工时薪低于 Agent 耗能成本时,效率革命故事将破灭 [32] AI Agent 市场竞争格局 - 大厂和大模型厂商在短期更具优势,资金、用户基础和数据积累提供巨大容错率;创业公司致胜之道在于抢先做出 Agent 领域 SOTA [3][39] - AI Agent 赛道可能被现有巨头主导,创业公司可通过聚焦细分领域实现高增长,如 Midjourney 在生图赛道的成功案例 [39] - 市场呈现三类玩家:大厂、大模型厂商和 Agent 创业公司,竞争烈度大于模型层,价格战和数据权限之争不可避免 [3] AI 时代创业新范式 - AI Copilot 阶段海外交出不错 PMF 答卷,代表性公司以小规模+高增长+易盈利为特征,如 AI 图像生成公司 2 年达到 2 亿美元 ARR [12] - AI 时代创业者需具备深厚学术或技术背景,强调 AI Native 特质,与移动互联网时代产品经理或商业背景为主的创业者画像不同 [13] - 创新聚焦底层技术突破与垂直场景深度整合,模式复制与场景渗透为主的移动互联网时代玩法不再适用 [14]