Workflow
空间超感知
icon
搜索文档
早报|下代iPhone Air将延期发布/闪迪价格暴涨50%/摩根大通CEO:未来发达国家每周只需上班三天半
搜狐财经· 2025-11-11 00:45
苹果公司产品动态 - 因iPhone Air销量表现不佳,苹果决定推迟下一代iPhone Air的发布,原计划与iPhone 18 Pro同步在2026年秋季推出的新款将不会如期亮相 [5] - iPhone Air自今年9月上市以来市场反馈持续低迷,导致供应链明显收缩,富士康已拆除大部分生产线预计本月底全面停产,立讯已在10月底停止生产 [5] - iPhone Air主打轻薄设计,机身厚度仅5.6mm,但电池容量和摄像头配置有所妥协,仅配备单镜头后摄,售价高达999美元(国行7999元),相比提供三摄和更长续航的iPhone 17 Pro性价比不足 [5] - 苹果正在研发第二代iPhone Air,计划提升电池容量、引入蒸汽室散热并进一步减轻重量,但在分阶段发布策略下,该机型可能推迟至2027年初与iPhone 18一同推出 [6] OpenAI与人工智能前沿 - OpenRouter平台上线隐名模型「Polaris Alpha」,被业内普遍认为是GPT 5.1的测试版本,该模型最大context容量为256K,单次最大输出可达128K [9][10] - 该模型在文本生成、文案创意和编程任务中表现稳定,具备自我纠错能力,并显示出与Sam Altman提及的年底NSFW(成人模式)功能相关的迹象 [11] - 前英特尔首席技术与人工智能官萨钦・卡蒂已确认离职并加入OpenAI,将负责构建支持通用人工智能(AGI)的计算基础设施 [19] - 谢赛宁、李飞飞与Yann LeCun联合发布「空间超感知」AI框架Cambrian-S,旨在突破现有大语言模型在感官建模上的局限,其空间推理性能较基座模型提升最高达30% [39][40] 半导体与硬件市场 - 闪迪已通知客户11月NAND闪存合约价上调50%,主要因供应紧张,同时Transcend自11月7日起暂停报价与出货 [21] - 群联CEO潘建成表示,当前由AI推理推动的存储行情相当罕有,为其生涯前所未见,NAND闪存市场的供不应求局面预计至少延续至2026年底 [22] - 台积电10月营收同比仅增长16.9%,为自2024年2月以来的最低水平,这一趋势被视为人工智能相关需求逐渐降温的信号 [26] - 全球智能手机面板2025年第三季出货量达5.86亿片,环比增长8.1%、同比增长5.3%,为近年高峰,京东方以逾1.45亿片的出货量稳居全球第一 [29][35] 企业AI应用与影响 - 麦肯锡报告显示全球88%的受访企业已在至少一个业务环节使用AI,但仅有39%的组织表示AI带来了息税前利润(EBIT)增长 [45] - AI Agent热度持续攀升,62%的企业已在试验相关应用,但真正实现规模化落地的比例不足一成 [45] - 埃森哲CEO朱莉·斯威特表示公司正在加速推动AI应用,并将清退无法掌握AI技能的员工,公司已为约70%的77.9万名员工提供生成式AI基础培训 [52] - 摩根大通CEO杰米·戴蒙表示随着AI发展,未来20至40年内发达国家的工作周可能缩短至三天半,摩根大通目前约有2000名员工专职开发AI系统,约15万名员工每周使用大语言模型 [59][60] 消费电子与智能设备 - 三星确认旗舰手机Galaxy S26将于2026年2月登场,Ultra机型因零部件成本上涨与关税影响价格上调几乎不可避免 [81] - 小米首款NAS产品「小米智能存储」曝光,采用金属外壳与双盘位设计,预计12月上市,定位家庭用户并与米家生态深度联动 [83] - 小岛工作室与外骨骼制造商DNSYS合作推出限量版外骨骼,基于DNSYS Z1型号,腿部动力提升50%,徒步续航延长约24.9公里 [62][64][67] - 百度旗下「小度AI眼镜 Pro」正式开售,首发售价2299元,主打拍摄、音频、翻译与场景化AI功能 [69][70] 品牌战略与投资 - CPE源峰与餐饮品牌国际集团(RBI)达成战略合作,将成立合资企业「汉堡王中国」,CPE源峰注入3.5亿美元初始资金用于支持门店扩张等 [14] - 交易完成后CPE源峰将持有约83%股权,RBI保留约17%,汉堡王在中国市场的门店规模计划从目前约1250家拓展至2035年超过4000家 [14] - 法国奢侈品牌爱马仕宣布收购意大利奢侈纺织厂Lanificio Colombo 15%股份,以强化其供应链布局,该厂是爱马仕的长期供应商 [93] - 爱马仕最新财报显示其上季度营业额达39亿欧元,同比增长5%,整体销售额增长10% [93]
腾讯研究院AI速递 20251111
腾讯研究院· 2025-11-10 16:30
生成式AI模型进展 - OpenRouter平台上线隐名模型Polaris Alpha,其知识库截止2024年10月,最大上下文容量256K,单次最大输出128K,目前可通过API免费调用 [1] - 纽约大学谢赛宁等发布Cambrian-S多模态新范式,提出"空间超感知"概念,在空间认知任务上中小型模型超越Gemini [2] - 阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX,该模型约3B参数,情感与风格控制准确率优于MiniMax、Doubao等闭源模型 [5] AI编程工具发展 - 美团推出AI IDE编程工具CatPaw,背后核心引擎为自研LongCat大模型,在内部研发人员周活占比超80%,每周新增代码中AI生成占比约50% [3] - 芸思智能推出AI IDE Vinsoo,通过算法突破实现极限有效上下文达千万量级,支持最多8个智能体同步运行开发 [4] - 行业观点认为AI工具无法替代创始人的销售能力,AI SDR仅在已有运转良好销售流程时有效,技术挑战和开源策略是护城河而非障碍 [9] 多模态AI硬件与应用 - 百度小度AI眼镜Pro正式开售,融合多模态AI大模型,支持中英文实时翻译3秒内出字幕等功能 [6] - 银河通用推出灵巧手神经动力学模型DexNDM,首次实现通用灵巧手对多类物体的稳定、多姿态、多轴向旋转操作,能完成拧螺丝等工具使用 [7][8]
谢赛宁、李飞飞、LeCun联手提出多模态LLM新范式,「空间超感知」登场
机器之心· 2025-11-10 03:53
文章核心观点 - 谢赛宁团队发布名为“Cambrian-S”的研究成果,旨在探索视频空间的“超感知”能力,这是对“Cambrian-1”项目的延续 [1][2] - 研究团队认为,在构建“超级智能”之前,必须先构建“超感知”,即数字生命体真正体验世界、吸收无尽输入流并持续学习的能力 [4][5] - 当前多模态大模型范式在实现空间超感知方面存在根本性局限,需要向预测性世界建模的新范式转变 [10][40][42] 多模态智能发展路径 - 团队划分了多模态智能从现代到未来的四个发展阶段:0) 仅语言理解、1) 语义感知、2) 流式事件认知、3) 隐式3D空间认知、4) 预测性世界建模 [9] - 视频被认为是研究超感知的终极媒介,因为它是人类体验世界的方式和真实生活经验的直接投影 [6] - 当前多模态模型在隐式3D空间认知和预测性世界建模方面仍然极其有限 [9] 现有基准测试局限性 - 分析显示,现有视频MLLM基准绝大多数侧重于语言理解和语义感知,忽视了超感知所需的高级空间和时间推理 [14] - 在多个基准测试中,使用文本字幕代替视觉输入可使准确率超过随机水平20%以上,表明这些基准更依赖语言理解而非视觉感知 [22] - 现有基准如VideoMMMU、EgoSchema等被归类为更以语言为中心,对精细视觉感知的需求较低 [24] VSI-SUPER新基准 - 为解决现有基准的差距,研究团队引入了VSI-SUPER基准,专门用于评估空间超感知能力 [15][28] - VSI-SUPER包含两个组成部分:VSR(长时程空间观察与回忆)和VSC(变化视角和场景下的持续计数) [29][33] - Gemini-2.5-Flash在VSI-SUPER上表现不佳,即使在60分钟视频上,VSR和VSC的性能分别只有41.5和10.9,显示当前模型的局限性 [35][36] 预测性感知新范式 - 团队提出预测性感知作为新范式,通过潜在帧预测头训练模型预测下一帧,并利用预测误差作为“惊讶度”测量 [42][46][48] - 惊讶度驱动两种关键能力:surprise-driven的记忆管理(压缩不令人惊讶的帧)和surprise-driven的事件分割(检测事件边界) [8][49] - 在VSC任务中,采用惊讶度分割的Cambrian-S在所有视频长度上都取得了比Gemini-2.5-Flash更高、更稳定的性能 [53][55] 技术实现细节 - Cambrian-S采用潜在帧预测头,这是一个与语言头并行运行的两层MLP,用于预测后续视频帧的潜在表征 [44][46] - 在推理过程中,模型以1 FPS的速率预测下一帧特征,并通过余弦距离测量预测与实际特征之间的差异作为惊讶度分数 [47][48] - 该方法在空间认知任务上看到了令人鼓舞的提升,中小型模型在新提出的VSI-Super基准上超越了Gemini [8]