空间智能

搜索文档
苹果AI真的落后吗?宫斗、错判与挣扎
虎嗅· 2025-06-15 00:54
设计语言演进 - 苹果推出系统级"液态玻璃"设计语言 统一应用于iPhone iPad Mac Vision Pro等全系设备 通过半透明和光影效果营造物理世界深度感[1] - 毛玻璃设计对系统功耗要求较高 是"拉动内需"的体现 如今苹果算力足以支撑更精致的毛玻璃效果[2] - 设计语言变革包括2D图片向视觉3D转换 利用重力感应和端侧AI算力解读图片前后景深关系 营造立体感[3] 功能体验优化 - 操作界面简化 应用按钮改为呼出式设计 非常用功能被隐藏在呼出菜单后 核心功能更加突出[3] - 电话助手功能增强 系统可根据语音信箱留言内容自动标注来电优先级 通话保留助理可将语音实时转为文字[4] - 实时翻译功能覆盖短信 通话等更多场景 致力于消除跨语言沟通障碍[5] - AI优化电池管理 根据用户使用习惯自动管理低电量模式触发条件 以期达到更优续航表现[6] 操作系统更新 - watchOS新增Workout Buddy功能 在用户运动过程中提供实时语音互动与鼓励[7] - 从WWDC25开始 苹果全线操作系统编号将统一以年份命名 反映跨平台开发一致性进步[7] - 苹果反复强调端侧处理与隐私保护 多次提及功能在设备端完成 断网可用[7] AI功能交付情况 - Apple Intelligence部分核心功能跳票和延迟交付 个性化Siri核心能力功能多数未能完全交付[12] - 已交付功能包括Writing Tools写作工具 Emoji生成 Image Playground卡通图片生成 基础图片消除 邮件总结 通知总结 屏幕内容识别等[13] - WWDC24上演示的Siri根据家人航班信息 午餐安排自动规划接送路线功能至今仍未实现[12] 开发者工具与框架 - Foundation Models Framework允许开发者仅需三行代码即可在应用中调用设备本地AI模型[15] - 本地模型调用免费 端侧处理保护隐私 无需联网 对应用复杂度相对友好[17] - 快捷方式与聚焦搜索及App Intents深度整合 赋予用户调用苹果本地模型 私有云计算模型及第三方API能力[17] AI战略挑战 - Siri团队员工对WWDC24演示的AI功能实际可运行性表示惊讶 暗示部分演示可能非基于稳定可用版本[25] - 苹果内部AI技术路线经历调整 从"一大一小"模型架构改为构建全新单一大型模型 后又回归"一大一小"架构[26] - 为弥补AI能力不足 苹果宣布与Anthropic合作开发vibe-coding AI编程平台 将Claude Sonnet大语言模型集成到Xcode中[26] 领导层与团队管理 - 原AI主管John Giannandrea及其副手被解除对Siri管理职权 软件工程主管Craig Federighi将直接接管Siri项目[28] - Siri底层代码被称为"屎山代码" 新旧代码整合困难 新功能开发和迭代缓慢[30] - 苹果在苏黎世设立新人工智能办公室 试图构建新软件架构取代Siri混乱混合体[30] 中国市场表现 - 2025年第一季度苹果在中国智能手机市场份额跌至第五 同比显著下滑 是TOP5厂商中唯一下滑品牌[35] - iPhone 16系列采取多次官方降价措施刺激销量 大中华区营收同比减少 低于市场预期[35] - Apple Intelligence在中国面临模型合规挑战 引入外部大模型需经过严格备案和合规审批[35] 硬件产品规划 - 折叠屏iPhone预计2026年秋季推出 若大规模推广可能标志创新驱动模式转变[41] - iPhone 17将重新设计背部摄像头布局 2026年将移除灵动岛 采用圆形挖孔前置摄像头[41] - 最终目标到2027年实现真正"全面屏"iPhone Face ID和自拍相机都集成到显示屏下方[39] 开发者关系与监管 - 美区应用商店关于外部购买链接佣金政策引发争议 法官裁定苹果不得对应用外部购买收取佣金[37] - 裁决要求苹果不得限制外部购买链接样式 格式和位置 也不能干预用户离开App进行外部购买[37] - 仅此一项裁决就可能让苹果损失可观佣金收入[37]
通用 Agent 之外,Agentic Age 流量赛还有哪些「隐藏副本」?
机器之心· 2025-06-14 12:45
通用 Agent 之外,Agentic Age 流量赛的隐藏副本 - Agentic AI 时代正在重塑流量入口逻辑,与传统互联网时代有根本性差异 [2] - 多模态大模型和 Agent 技术进步推动行业讨论焦点从 LLM 转向 Agent,2025 年或形成新流量入口 [2] - AI 助手将打破界面边界,跨平台自主执行任务,颠覆传统注意力分发模式 [2] - 自然语言交互有望替代图形界面操作,重构各类场景的交互形式 [3] Agentic 时代的用户行为变化 - 用户可通过指令让 AI 处理任务,减少主动浏览网页和应用的需求 [3] - 大模型强化记忆和多模态能力,如 Google Gemini 可记忆用户偏好,Anthropic 等展示跨设备操作能力 [3] - 多模态智能体支持语音对话、场景式查询等更自然交互形式 [3] - 硬件厂商如微软、苹果通过专用按键优化 AI 调用入口,入口定义转向语音指令或一键唤醒 [4] 新型用户特征与需求 - Agentic Age 催生创造性用户,模糊用户与开发者界限,通过简单指令构建定制化智能应用 [5] - 新用户群体包括大量非技术背景普通用户,依赖自然语言编程等技术快速部署智能体 [5] 非主流 Agentic 路线探索 - 行业正探索三大非通用 Agent 路线以切入流量入口,具体路径未展开 [6] 技术发展动态 - 本期通讯涵盖 31 项 AI & Robotics 赛道要事,含技术 12 项、国内 8 项、国外 11 项 [1]
即将量产全球首款“空间记忆模组”!「留形科技」完成Pre-A轮融资
机器人大讲堂· 2025-06-14 04:27
融资与公司背景 - 留形科技完成数千万元Pre-A轮融资 投资方包括弘毅投资等 资金将用于核心零部件定制生产 产品规模化交付及市场拓展 [1] - 公司成立于2022年 专注智能三维感知与重建技术 应用于机器人导航 数字孪生 建筑测绘 工业巡检等领域 [1] - 核心团队硕博占比达60% 来自香港大学 卡耐基梅隆大学等顶尖高校 创始人徐威为香港大学MaRS Lab博士 技术战略顾问张富教授曾任职大疆创新顾问科学家 [1] 核心产品与技术 - 留形Odin1为全球首款融合空间感知与记忆功能的模组产品 赋予机器人类似人类"海马体"的空间记忆能力 [3] - 产品采用自研全固态 多传感器深度融合架构及高性能算法 实现多传感器数据高效同步与精准匹配 [3] - 探测距离最达70米 搭载MindCloud平台可对真实环境数据进行高保真3D仿真还原 支持机器人智能决策与算法优化 [5] 市场规划与合作 - 已与多家头部机器人厂商展开合作 计划2025年7月实现Odin1量产 [7] - 未来将拓展建筑测绘 工业巡检 机器人导航等领域的海内外市场 推动空间智能产品全球化布局 [7] - 此前已获真格基金 俊盛投资等机构融资支持 [8]
烧钱一年,李飞飞的「空间智能」愿景有变化吗?
机器之心· 2025-06-13 12:02
创业一年后 World Labs 的愿景 - World Labs 在成立一年内完成两轮融资累计募资2 3亿美元 估值突破10亿美元 成为AI领域独角兽企业 [5] - 公司已发布「世界生成」模型和Forge渲染器等技术成果 其中「世界生成」技术仅需单张图片即可生成可交互3D物理世界 [5][6] - 空间智能被定位为理解重建生成物理世界的核心能力 超越语言模型局限 目标构建可创造无限虚拟宇宙的AI系统 [5][6] - 技术路径依赖跨学科整合(AI+计算机图形学) 当前算力数据工程能力提升使「世界模型」攻关具备可行性 [7] 空间智能对AI完整性的意义 - 语言模型存在三维物理世界描述的天然缺陷 空间智能作为更古老的智能形式可弥补这一关键缺口 [6][8] - 公司技术路线选择与主流LLM分野 专注让AI理解3D物理世界运作方式 涉及机器人设计社交等多领域应用 [5][8] - 空间智能被视为智能的核心组件之一 其突破将推动AI从单一现实向多元宇宙演进 [5][6] 空间智能与多元宇宙愿景 - 「多元宇宙」指通过AI创造无限虚拟宇宙 需依赖3D物理世界的理解与生成能力 [4][6] - 技术反直觉发展体现在:早期忽视3D表征 现通过数据驱动方法实现空间智能突破 [4][7] - Forge渲染器支持Web端实时渲染AI生成3D场景 标志技术落地取得实质性进展 [7] 世界模型的发展现状 - 前置技术如算力提升数据积累工程优化为世界模型创造发展时机 [7] - 公司方法论借鉴LLM的数据驱动和神经网络经验 但强调需结合计算机图形学等跨学科知识 [7] - 下一步重点攻关方向包括3D物理世界的理解重建及生成技术的场景化应用 [4][7]
亿道信息分析师会议-20250612
洞见研报· 2025-06-12 14:57
调研基本情况 - 调研对象为亿道信息,接待时间是2025-06-12,上市公司接待人员有副总经理、董事会秘书乔敏洋和投资者关系专员谢蝶 [17] 详细调研机构 - 接待对象包括国泰海通(证券公司)、创金合信(基金管理公司)、光大永明(其它) [18] 主要内容资料 - 亿道信息是以产品定义、研发设计为核心的智能电子产品及解决方案提供商,业务分加固智能终端和消费类智能终端 [24] - 加固智能终端形态有加固笔记本电脑、加固平板、加固类手持终端及加固类工控产品,应用于智能制造、交通运输等场景,旗下有一站式加固计算机品牌“ONERugged”,未来聚焦工业自动化等领域,线上线下多元化布局全球市场 [24][26] - 消费类产品包括PC、平板、AIoT及XR/AI穿戴类产品,服务品牌及企业客户,旗下亿道数字专注人工智能等领域,吸纳培养复合型创新人才 [25] - 三防加固类产品具备防水、防尘、防摔特性,为应对恶劣环境和复杂工况设计,能在极端条件下稳定运行 [26]
亿道信息(001314) - 2025年6月12日投资者关系活动记录表
2025-06-12 10:40
公司概况 - 公司是智能电子产品及解决方案提供商,核心为产品定义和研发设计 [2] - 业务分为加固智能终端和消费类智能终端 [2] 业务详情 加固智能终端 - 形态有加固笔记本电脑、平板、手持终端及工控产品 [2][3] - 应用于智能制造、交通运输、能源勘探、公共事业等场景 [2][3] - 旗下“ONERugged”品牌提供创新、高效、可靠产品与服务 [3] 消费类智能终端 - 产品包括 PC、平板、AIoT 及 XR/AI 穿戴类产品 [2] - 服务品牌及企业客户,为全球区域性龙头品牌提供产品与解决方案 [2] - 可提供从方案设计到整机服务的全流程服务 [2] 研发投入 - 旗下亿道数字(亿道研究院)专注人工智能、感知技术、空间智能领域 [2] 产品特性与市场策略 - 三防加固类产品具备防水、防尘、防摔特性,适用于恶劣环境 [3] - 未来聚焦工业自动化等重点领域,多元化布局线上线下渠道,布局全球市场 [3] 活动相关 - 活动类别为线上交流,参与人员有国泰海通等 [2] - 活动时间为 2025 年 6 月 12 日,地点是线上会议 [2] - 上市公司接待人员有副总经理、董事会秘书乔敏洋和投资者关系专员谢蝶 [2] - 活动不涉及应披露重大信息,未使用演示文稿和提供文档附件 [3]
比李飞飞提出“空间智能”更早!杭州这家企业正在打通机器人产业化落地最后一公里
机器人大讲堂· 2025-06-11 10:31
人工智能新概念 - 智澄AI创始人胡鲁辉首次提出"物理智能"概念,强调通过实时感知物理世界动态并构建可交互的世界模型,解决传统机器人泛化能力弱等问题,实现跨任务自主决策 [1] - 斯坦福李飞飞团队提出"空间智能"概念,侧重空间关系理解与视觉任务应用,但"物理智能"在覆盖范围和应用深度上更具前瞻性 [1] 行业融资动态 - 2024年中国新增70+具身智能企业,头部企业智元机器人完成超6亿元融资,宇树科技获数亿美元B2轮融资 [2] - 智澄AI成立于2024年3月,专注大模型通用人工智能机器人研发,目标打造理解物理世界的计算平台 [4] 公司技术实力 - 创始人胡鲁辉拥有微软、亚马逊等科技巨头高管经历,持有30余项美国专利,团队来自国际顶尖企业及高校 [6] - 自研TR系列机器人已迭代至第四代,TR4具备生化实验精准滴液能力,TR5双足人形机器人即将发布 [6][7][8] 产品形态策略 - 反对盲目追求双足形态,主张根据场景需求设计机器人结构,如TR2双臂机器人在家务操作中效率媲美人形机器人 [9][10] - 已开发TR2双臂、TR4复合人形等多形态产品,核心聚焦物理世界认知能力而非单一形态 [10] 技术突破方向 - 通过本体材料优化(如TR4稳定结构)、算法融合(强化学习+模仿学习)及数据平台构建,提升机器人泛化能力 [13] - 建立真实场景数据采集体系,支持机器人快速掌握新技能 [13] 商业化优势 - 全栈自研能力+工程化经验使公司能快速实现技术转化,已获客户订单进入小批量交付阶段 [14][17] - 相比学术机构的基础研究,公司更擅长"从1到N"的产业化落地,资金储备保障研发自主性 [17] 行业政策展望 - 2025年为人形机器人产业化关键年,政策目标包括建立创新体系及批量生产 [18] - 物理智能被视为推动落地的核心要素,需突破空间认知与泛化作业能力 [19]
o3绞尽脑汁仅答对40%的题目,开源模型基本乱猜?MMSI-Bench:多图空间智能试金石
量子位· 2025-06-11 05:13
空间智能与大模型发展 - 空间智能是大模型实现具身智能的关键能力 涉及理解物体位置和运动等空间关系 对自动驾驶 机器人导航等应用至关重要[1][2] - 当前多模态大模型(MLLM)在空间智能方面存在显著短板 面对1000道多图推理题 开源模型准确率普遍低于30% 最强的OpenAI o3仅41% 远低于人类97 2%的水平[1][16] - MMSI-Bench是首个专注多图像空间推理的评估基准 由多家顶尖机构联合开发 包含1000个高质量问答对 覆盖10种基础任务和1种多步推理类别[1][7][12] MMSI-Bench基准设计特点 - 采用人工主导构建模式 6位专家投入超300小时 从12万张图像中精选素材 每个问题均需整合多图像信息解答 并配有干扰项和标准推理流程[8] - 数据来源覆盖ScanNet Matterport3D nuScenes等真实场景数据集 包含室内3D场景 自动驾驶 机器人操作等多样化场景[13][14] - 任务设计围绕相机/智能体 物体 区域三大空间元素 涵盖位置关系 属性 运动状态等维度 多步推理任务需整合基础类型进行复杂顺序推理[12][13] 模型评估关键发现 - 商业模型表现优于开源模型 OpenAI o3准确率41% 最佳开源模型Qwen2 5-VL-72B仅30 7% 参数增加带来的性能提升有限(Qwen2 5-VL-72B比32B版仅高3%)[16][17][19] - 多步推理和相机运动理解是最大难点 多数模型在MSR任务上表现低于单步任务平均水平 开源模型对相机运动理解尤其薄弱[18] - 提示工程效果微弱 Zero-Shot CoT等策略对性能提升有限 甚至产生负面影响 表明模型基础空间理解能力存在本质缺陷[20] 错误分析与改进方向 - 主要错误类型包括定位错误(35%) 重叠匹配与场景重建错误(28%) 情境转换推理错误(22%) 空间逻辑错误(15%) 其中场景重建错误最为普遍[21] - 自动化错误分析流程结合GPT-4o评估器 与人类专家判断匹配度达71 8% 可系统性诊断模型失败原因 为改进指明方向[20][22] - 高质量人类标注至关重要 提供标准答案时自动化分析准确率降至53 6% 凸显标注质量对可靠评估的关键作用[23] 行业应用与未来展望 - MMSI-Bench填补了多图像空间智能评估空白 其真实场景数据和高难度任务设计使其成为当前模型-人类差距最大的基准(56个百分点)[16][24] - 基准已评测34个主流MLLM 涵盖闭源和开源模型 结果将推动开发更具空间感知能力的多模态AI系统 加速AGI发展[15][23] - 项目资源全面开放 包括论文 数据集和代码库 将成为社区推动空间智能研究的重要基础设施[23]
大模型发展面临“虚实鸿沟” 空间智能驱动生产力变革
新华财经· 2025-06-08 01:20
大模型发展现状与挑战 - 千亿参数级大模型在文本生成、图像理解和多模态推理等领域取得突破性进展 [1] - 大模型面临"虚实鸿沟"挑战,即如何将数字世界能力转化为物理世界实际价值 [1] 空间智能技术的价值与前景 - 空间智能技术是实现通用人工智能的关键一环,正在重塑AI与物理世界的互动模式 [1] - 空间智能推动行业从"数字想象"迈向"物理实效"的新阶段 [1] - 多模态大模型突破数字世界限制,空间智能赋予机器感知物理世界能力 [1] 公司技术布局与产品发布 - 上海码极客/考拉悠然联合发布悠然无界大模型和MAGX空间智能体产品家族 [2] - 公司依托多模态大模型技术优势,联合产业链上下游打造"多模态世界模型+智能体硬件+行业应用"全栈技术体系 [2] - 公司目标是通过大模型实现数字世界与物理世界的融合,使智能体具备感知、理解、执行能力 [2] 行业生态建设方向 - 公司致力于建设开放、协作、共生的空间智能生态 [2]
李飞飞的世界模型,大厂在反向操作?
虎嗅APP· 2025-06-06 13:56
公司概况 - 李飞飞创办的World Labs专注于开发具备"空间智能"的下一代AI系统,探索AI对三维世界的理解与重建能力[2] - 公司在短短三个月内完成两轮融资,累计筹集资金约2.3亿美元,估值突破10亿美元,成为AI领域新晋独角兽[2] - 投资方包括a16z、Radical Ventures、NEA、英伟达NVentures、AMD Ventures和Intel Capital等科技与风投界重量级机构[2] 技术方向 - 公司致力于从语言模型向世界建模转变,认为真正的智能需要能理解和构建三维世界[5][8] - 核心技术包括NeRF(从二维图像到三维重建)、高斯平面表示法(快速描绘三维场景)、扩散模型(提升三维内容精细度)以及多视角数据融合技术[17][19][20][21] - 物理仿真与动态建模是另一关键技术方向,使AI能预测物体运动变化[23] - 这些技术组合旨在让AI获得类似人类的空间感知能力[24] 应用场景 - 游戏行业:AI可根据照片或视频自动生成逼真三维世界,替代传统手工建模[25] - 建筑行业:几分钟内生成完整空间立体结构,模拟不同光照效果[26] - 机器人领域:赋予机器人三维视觉,解决二维视觉下的空间判断问题[26] - 数字孪生:为工厂、建筑或城市建立虚拟世界进行预测测试[27] - 创意产业:辅助艺术家、设计师进行空间理解和创作[28][29] 行业挑战 - 数据问题:获取足够多包含深度信息、空间结构的真实场景数据成本高[31] - 算力限制:NeRF等技术计算资源需求大,难以大规模落地应用[32] - 泛化能力:现有模型在陌生场景中表现不佳,需要更强适应性[33] - 需要硬件、软件、数据、应用场景的全链路打通,非单一公司能完成[33] 团队优势 - 团队汇聚计算机视觉、图形学、扩散模型、物理仿真和机器人控制等多领域专家[34] - 采用多学科融合的研究范式,探索AI理解三维世界的新路径[35] - 团队背景多元,能从技术、人文、社会等多角度思考AI发展[37] 未来愿景 - AI终极目标是成为人类在物理世界中的智能延伸,而非替代人类[43] - 医疗、建筑、教育等领域将受益于AI的空间理解和操作能力[44] - 世界模型被视为实现通用人工智能(AGI)的第一步,需具备空间感知、动态推理等能力[46] - 代表AI从语言到世界、从二维到三维的演进方向,重新定义人机关系[47]