Workflow
机器之心
icon
搜索文档
测完Nano Banana Pro的时空重现,我人傻了……
机器之心· 2025-11-26 01:36
核心观点 - Nano Banana Pro展现出革命性的“时空重现”能力,能够基于坐标和时间生成拟真影像,实现了从“推理”到“创造”的跃升[1][7] - 该技术在历史事件重建和虚实结合场景中展现出巨大潜力,但存在显著的不稳定性和“时代错乱”等严重幻觉问题[9][17][21] 技术能力分析 - 基于坐标和时间直接重构特定时空的光影与现实,完成从画面推导坐标到逆向创造的进化[7] - 能够理解时代影像特征,如生成黑白图片并添加照片瑕疵和做旧效果增强真实感[24] - 支持虚实结合玩法,可将现实坐标与虚拟世界背景设定叠加生成拟真照片[27] 应用场景探索 - 历史事件现场重建,如911事件、泰坦尼克号幸存经历、秦始皇泰山封禅等场景模拟[1][3][12] - 创意内容生成,包括动漫人物真实化映射、迷因图处理和视频内容自动生成[31][33][34] - 实用功能开发,如人物年龄分析等潜在应用方向[29] 性能表现评估 - 在诺曼底登陆场景中表现出色,正确识别坐标并生成符合时代特征的影像[22][24] - 存在严重的地理位置偏差和时代错乱问题,如北京奥运会开幕式场地错误、崇祯帝场景出现清末龙旗等明显幻觉[10][21] - 对生成结果表现出迷之自信,即使通过提示词要求修改也难以纠正错误[17]
华为Mate 80系列发布:麒麟9030 Pro加持,性能提升42%
机器之心· 2025-11-25 10:56
核心产品发布 - 华为正式发布年度旗舰手机Mate 80系列 [2] 芯片性能 - 新机搭载全新麒麟芯片:Mate 80为麒麟9020,Mate 80 Pro 12G版为麒麟9030,16G版与Pro Max为麒麟9030 Pro [4] - 相较于前一代,Mate 80与Mate 80 Pro整机性能提升超过35% [4] - Mate 80 Pro Max通过改进热管理,综合性能提升可达42%以上 [4] - 支持3DGS渲染加速,对比Mate 70系列提升33%,光线追踪硬加速每秒可渲染2000万条光线 [5] 设计与耐用性 - 后置影像模组回归经典「星环」设计,采用全金属双环机身 [6] - 正面搭载第二代昆仑玻璃,结合玄武机身,耐摔能力提升20倍、抗弯折能力提升20%、耐刮能力提升2倍 [7] - 全系支持6米IP68级防尘防水及IP69级抗高温高压喷水 [8] - 提供两种屏幕尺寸:6.75寸和6.9寸 [8] 显示技术 - Mate 80 Pro Max业界首发双层OLED架构屏幕,成为业界最亮手机屏,最高峰值亮度达8000nits [10] 影像系统 - 全系搭载第二代红枫影像技术,色彩准确度相比上代提升43% [12] - 进光量提升96%(2.45um超大像素尺寸),超高动态范围提升300%,超精细光谱感知提升25% [12] - 支持「一次拍摄多重效果」创新玩法 [12] - Pro Max型号提供17.5EV超高动态主摄及双长焦配置,共五个摄像头 [14] 操作系统与AI体验 - 首发搭载鸿蒙HarmonyOS 6操作系统,提升系统流畅度及App适配 [16] - 鸿蒙AI提供系统级智能体验,覆盖效率、交互、影像、安全等场景,展示小艺AI智能体及多种新AI能力 [17] 通信能力 - 业界首发700MHz无网通信能力,可在断网险情下搭建生命通道,信号可穿透3层楼深度,覆盖超过13公里通信距离 [19] - 还支持WiFi 7+、天通卫星通信、北斗卫星消息、2.4GHz畅连无网通信等多种通信模式 [19] - Mate 80 Pro Max的全金属架构增强天线使信号比iPhone 17 Pro Max好一倍 [21] 市场与销售 - 标准版价格相比上代稍有降低 [22] - 目前已开启预定,预计发货时间已排到明年,呈现一机难求态势 [25]
从推荐算法优化到AI4S、Pico和大模型,杨震原长文揭秘字节跳动的技术探索
机器之心· 2025-11-25 09:37
公司技术发展历程 - 2014年公司开始构建大规模机器学习推荐系统,第一版即计划做到万亿级别特征规模 [7] - 2020年左右公司开始探索AI在科学计算领域的应用,认为求解薛定谔方程可模拟世界绝大部分现象 [13] - 2021年公司收购Pico团队进入XR领域,初期有两条产品路线,2023年决定更坚定投入基础技术研发 [27] - 2022年公司开始在大模型方向投入,火山引擎大模型服务已成为中国MaaS市场第一名 [39] 推荐系统技术突破 - 2014年工业界主流大规模机器学习系统用于搜索广告,公司将其原理应用于推荐系统面临工程与算法挑战 [7] - 公司优化器准备两套方案,SGD-FTRL项目数月上线成功实现稀疏化万亿特征目标,框架灵活 [10] - 2014年底公司引入FM类算法并演化成更通用的深度学习体系,上线第一天即为流式训练系统 [11] 科学计算AI应用 - 公司从2020年开始持续投入AI for Science,在神经网络量子蒙特卡洛方法领域已做到业界前沿 [16][19] - 公司发现科学计算问题与大模型一样存在Scaling Law,使用更多参数可提升仿真精度 [19] - 在分子动力学领域,公司开发GPU4PySCF实现GPU加速DFT计算业界SOTA,1GPU算力相当于500-1000CPU核心 [24] - 公司开发的Bamboo-MLFF和ByteFF力场模型在无实验数据zeroshot预测电解液性质上实现业界SOTA精度 [24] - 公司与比亚迪成立联合实验室,将高通量自动化实验与科学计算算法结合,探索AI在电池材料领域工业应用 [25] XR技术研发进展 - 公司为解决XR设备清晰度问题,2022年启动MicroOLED定制,目标达到近4000 PPI,约为iPhone 17 ProMax的九倍 [29][32] - 通过导入微透镜提升亮度并结合光学设计优化,最终成品平均PPD达40,中心区域超过45,处于行业领先水平 [33] - 为应对MR技术挑战,公司自研头显专用消费电子芯片,2024年回片并进入量产,系统延迟可做到12毫秒左右 [34][35] - 公司建设了专业高精度测试系统、3D重建机制与高精度手势数据采集系统,以提升交互体验 [36] - 预计2026年将有新产品发布 [36] 大模型战略与成果 - 火山引擎大模型服务根据IDC报告是中国MaaS市场第一名 [39] - 公司在Infra方面积累深厚,大规模训练系统MegaScale的MFU超过55%,是当时主流开源框架1.3倍以上 [39] - 通过模型结构、自研服务器等探索实现大模型低调用成本,在保证不错毛利前提下打破业界价格下限 [40] - GenMedia模型、VLM、语音模型表现长期处于国际一流水平 [40] - 公司对未来大模型发展提出思考,关注模型持续学习能力、与世界的交互能力等基础问题 [43]
哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA
机器之心· 2025-11-25 09:37
全模态大模型行业演进 - 人工智能正从“专才”走向“通才”,从“工具”走向“伙伴”,全模态大模型是实现更丰富理解与深度交互的关键 [2] - 当前行业共同挑战在于如何在一个模型中兼顾强大的多模态理解与高质量生成,并构建高效统一的模型架构与训练方案 [2] 哈工大深圳计算与智能研究院发布Uni-MoE-2.0-Omni - 公司在2023年“立知”大语言模型基础上,基于2024年5月提出的原创Uni-MoE架构,正式发布第二代全模态大模型Uni-MoE-2.0-Omni [2] - 该模型以大语言模型为核心,通过渐进式架构演进与训练优化,将稠密大语言模型拓展为混合专家架构驱动的全模态大模型 [3] - 模型实现了从“语言理解”到“多模态理解”,再到“理解与生成兼备”的跨越式升级 [3] 模型核心架构与技术 - 模型架构由统一模态编码、动态混合专家以及全模态生成器三大核心组件构成 [7] - **统一模态编码**:采用统一Token化策略,借助SigLIP编码器处理图像与视频,基于Whisper-Large-v3将30秒音频压缩为仅200个Token,并引入Omni-Modality 3D RoPE机制构建统一坐标系 [7] - **动态混合专家**:核心架构升级为新型Dynamic-Capacity MoE,支持根据Token难易程度动态分配算力,并引入路由专家、共享专家和空专家三类角色,配合路由梯度估计技术提升稳定性 [8] - **全模态生成器**:通过特殊控制Token将所有任务统一纳入语言模型语义空间,实现理解即生成;其Uni-MoE-TTS可实现两分钟以上语音回复,支持中英三种音色;引入任务感知的扩散模型驱动图像生成与编辑 [8] 训练策略与数据效率 - 团队设计了渐进式训练策略,依次推进跨模态对齐、专家预热、MoE微调与强化学习、生成式训练 [11] - 该策略能够以较少的数据量(75B Tokens),将稠密大语言模型高效扩展为全模态大模型 [11] - 提出以语言生成任务为锚点的多模态理解与生成联合训练方式,打破理解与生成之间的界限 [11] 模型性能评估 - 模型在85项基准测试上进行了评估,在76项可对比评测中,Uni-MoE-2.0-Omni超越Qwen2.5-Omni逾50项任务 [3] - 在35个任务上达到最佳性能,在50个评估任务上全面超越了使用1.2T Tokens训练的Qwen2.5-Omni [13] - 在8个视频评估基准和4个全模态理解基准上,较Qwen2.5-Omni提升7% [13] - 在关键基准测试中,Uni-MoE-2.0-Omni在WorldSense、StreamingBench (Omni)、OmniVideoBench、OmniBench上的平均得分达43.7,表现领先 [14] - 在全模态理解任务中,其平均得分达50.6,在多项子任务中超越对比模型 [14] - 在可控图像生成与低层级图像复原任务中,模型在多项指标上表现优异,例如在Canny-to-Image任务中FID为20.23,CLIP-S为28.58 [15] - 在多模态语音交互问答任务中,平均得分达64.27,超越对比模型 [16] 模型功能展示 - 具备视觉数学推理能力,可基于图表OCR结果进行推理 [18] - 具备图像推理生成能力,能根据季节等指令生成符合逻辑的图像 [20] - 具备人像图片修饰能力,可根据指令修改图片并保持主体不变 [25] - 具备图像质量修复能力,可处理雨、雾、雪、暗等低质量图片 [28] - 可作为多轮对话伙伴,连续响应用户意图 [30] 行业影响与开源 - Uni-MoE-2.0-Omni是一个架构先进、完全开源的全模态大模型,为社区提供了强有力的全模态基座 [33] - 该系列模型验证了将稠密大语言模型扩展为全模态模型的路径,实现了从“多模态理解”向“理解生成一体化”的跨越 [33] - 其代码、模型权重及数据清单的开源,将进一步推动通用多模态人工智能的研究与应用发展 [33]
吴恩达发布论文自动审阅器,ICLR上达到接近人类水平
机器之心· 2025-11-25 04:09
学术评审现状与挑战 - 全球顶级AI会议对AI辅助审稿的规定不一,ICLR要求披露大模型使用,而CVPR则完全禁止其在审稿意见撰写中的应用[2] - 尽管有严格管控,在ICLR 2026会议上,估计仍有高达20%(五分之一)的审稿意见是由大模型生成[2] - 论文审稿周期普遍冗长,有案例显示一篇论文在三年内被拒六次,每次均需等待约六个月才能获得审稿结果[3][5] AI辅助评审工具的发展 - 行业推出了名为“Agentic Reviewer”的智能体审稿人项目,旨在构建高效的论文预审反馈工作流[6][7] - 该系统在ICLR 2025的审稿数据上进行训练,其与人工审稿人的相关性达到0.42,已略高于两位人工审稿人之间的相关性0.41[7][9] - 该工具现阶段通过检索arXiv数据生成反馈,在主要研究成果公开发表于arXiv的领域(如人工智能)表现最佳[7] 行业影响与未来展望 - 该智能审稿工具被视为潜在的研究辅助工具,用户期望其能针对特定会议或期刊场景进行评审甚至给出预估分数[11] - 行业存在担忧,认为研究者普遍使用AI进行预审可能导致学术多样性的下降[13] - AI辅助工具正推动学术研究成果评审体系的潜在变革,但其长远影响尚不明确[14]
AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?
机器之心· 2025-11-25 04:09
行业痛点与现有挑战 - 推荐系统利用图像和文本等多模态信息辅助决策已成为标配,但该需求与要求“数据不出本地”的联邦学习范式结合时情况变得复杂[2] - 现有联邦推荐方法面临两难:为保护隐私而放弃繁重多模态处理仅使用ID特征,或采用“一刀切”的粗暴融合策略假设所有用户图文偏好一致[2] - 用户对图文信息的“融合偏好”具有极大异质性,例如购买服装更依赖视觉冲击,挑选数码产品则更关注参数文本,这种差异在联邦环境下极难捕捉[2] - 联邦学习中存在“信息不对称”问题,服务器看不见用户行为数据,无法得知个体用户对图片或文字的偏好程度[5] - 端侧设备算力有限,难以运行庞大的视觉-语言模型(如CLIP),构成计算瓶颈[5] 核心技术框架:FedVLR - FedVLR核心洞见在于重构多模态融合决策流,将重计算的特征预处理留给服务器,而将决定“怎么看”的融合决策权通过轻量级路由机制下放给用户端侧[3] - 该框架创新性地提出双层融合机制,巧妙解耦特征提取与偏好融合[8] - 第一层为服务器端的“多视图预融合”,利用强大预训练模型将物品图像、文本和ID信息通过多种预设融合算子加工成一组“候选融合视图集”,解决算力焦虑[9] - 第二层为客户端的“个性化精炼”,引入极轻量的本地混合专家模块,利用本地私有交互历史动态计算个性化权重,实现千人千面[11] - 融合过程完全在本地发生,确保用户偏好数据从未离开设备,严格遵循隐私保护原则[12] 技术优势与工程价值 - FedVLR被设计为可插拔的通用增强方案,具有极高工程落地价值[15] - 具备模型无关性,可无缝挂载到FedAvg、FedNCF等任何主流基于ID的联邦推荐框架上[16] - 实现零通信增量,通信过程中传输的依然是梯度或小模型参数,未增加额外带宽负担[16] - 隐私无损且低端侧开销,复杂CLIP编码在云端完成,端侧仅需运行轻量级MLP路由网络[16] - 在电商、多媒体等多个领域公开数据集上的测试表明,无论基线模型如何,挂载FedVLR后NDCG和HR等核心推荐指标均实现显著且稳定提升[17][26] 应用前景与行业影响 - FedVLR为联邦基础模型落地提供了极具启发性的范式,展示了“云端大模型编码+端侧微调适配”的高效协同路径[19] - 该方案无需在每个终端部署庞大模型,通过精巧架构设计将云端通用内容理解能力与端侧私有偏好解耦[19] - 极大降低了联邦学习的通信与计算门槛,为未来将更复杂视觉-语言模型甚至生成式AI引入隐私敏感场景铺平道路[19] - 在数据稀疏场景下性能提升尤为显著,证明通过个性化融合策略能更有效利用有限本地数据理解物品内容[26] - 是构建下一代“既懂内容、又懂用户、且严守隐私边界”的智能系统的关键一步[19]
Gemini 3,是谢尔盖・布林「骂」出来的?
机器之心· 2025-11-25 04:09
谷歌在AI领域的竞争态势与内部变革 - ChatGPT在2022年底横空出世,使整个科技行业措手不及,而谷歌虽深耕AI十余年却未第一时间推出匹配产品[2][3] - 谷歌被贴上反应慢、优势不再标签,匆忙推出的Bard因回答失准、体验不稳引发新一轮质疑[4][5] - 面对OpenAI持续推出爆款产品的竞争压力,谷歌创始人谢尔盖·布林以创始人模式回归并亲自写代码,公司内部将Google Brain与DeepMind合并为Google DeepMind[6] 谷歌内部管理问题与布林的干预 - 布林在公司内部因Gemini被列入禁止写代码工具清单而发生争执,认为理由莫名其妙且充满官僚主义[9][10][11][12] - 经过激烈争吵和官僚主义流程后,布林在CEO桑达尔·皮查伊支持下解决了该问题,凸显公司流程变厚、规则变多等现状[13][14][15][16] - 若布林未回归,Gemini可能仍被限制为聊天工具,而非现在用户广泛用于写代码的出彩产品[17][18] 布林回归的契机与动力 - 布林在2019年已隐退,但OpenAI员工Dan在聚会上质疑其缺席计算机科学史上最具变革性时刻,激发布林重返一线[18][19] - 布林表示AI发展令人兴奋,每月都有新突破,作为计算机科学家不愿错过这个时代,因此重新投入技术工作[20][21] - 谷歌从落后到领先的原因还包括长期布局如2013年开始打造TPU,但最关键的是OpenAI的竞争唤醒了这个沉睡巨兽[21][22] 谷歌最新进展与行业影响 - 随着Gemini 3、Nano、Banana Pro连续登场,谷歌在AI领域的王座基本坐稳[24] - OpenAI CEO Sam Altman在备忘录中承认谷歌Gemini 3进展给OpenAI带来短期压力,动摇其不可战胜地位[25][26] - Anthropic Claude在编码模型的影响力已让OpenAI头疼,谷歌Gemini 3又在关键领域超越OpenAI,冲击其技术领导者地位[26] OpenAI面临的挑战与应对策略 - OpenAI面临巨额计算成本预期,估值5000亿美元但营收仅130亿美元,预计到2028年亏损70亿美元,并狂掷数千亿美元于基础设施[27] - 谷歌年收入超3000亿美元,拥有多元化收入来源和成熟生态,在AI布局上有底气进行烧钱试验而无需考虑短期盈利[27] - OpenAI计划开发代号Shallotpeat的新模型改进预训练缺陷,并聚焦AI研究自动化以缩短开发周期,改变竞争格局[28] 行业竞争格局分析 - Sam Altman强调OpenAI需同时成为最好研究实验室、基础设施公司和产品公司,但网友指出这正是谷歌过去20年的商业模式[30] - 谷歌拥有雄厚资金、专有硬件和数十年数据处理经验,这些优势对OpenAI等初创公司难以复制[27][30]
与Banana Pro过过招,国产Libcom图像合成工作台开启Labubu漫游记
机器之心· 2025-11-25 04:09
行业背景与市场定位 - 2025年AIGC热度再冲新高,AI生成内容已全面渗透日常创作,从社交头像、电商海报到影视分镜[1] - 通用图像编辑大模型(如Nano Banana、Qwen Edit)功能强大,覆盖广泛图像编辑场景,但在细分领域表现不足且用于简单任务性价比不高[1] - 图像合成(融图)是图像编辑领域的常用操作,基础用法是将前景物体插入背景图片,但简单剪切粘贴会导致边缘锯齿、光照不和谐、缺失阴影等问题[1] 公司技术与产品核心 - 上海交通大学牛力团队自2018年底投身图像合成研究,至2025年已构建10+数据集、开发30+原创模型、发表25+高质量学术论文[2] - 团队于2023年底推出Libcom工具箱,无需训练微调即可对任意图片实现开箱即用的图像合成功能,并于2025年升级为Libcom图像合成工作台[2] - Libcom工作台专注于图像合成细分领域,提供生成、检测、评估共计12项功能,与通用图像编辑大模型形成差异化竞争[2][5] 产品功能详解 - 工作台12项功能分为6组:基础合成(alpha混合、泊松融合)、图像和谐化(颜色迁移、图像和谐化、艺术图像和谐化)、背景效果生成(阴影生成、倒影生成)[5] - 分析工具包括不和谐区域检测、物体放置合理性热力图,打分工具提供和谐度分数和物体放置合理性分数[5] - 高级合成功能集成了FLUX-Kontext和InsertAnything两个模型[5] 竞品性能对比 - 在将Labubu融入水中的场景中,Libcom实现无缝融合,而Nano Banana Pro表现不稳定,需调节提示词才能得到接近结果[7] - 在光照和谐化任务中,Libcom使前景与背景更加和谐,而Banana Pro结果背景色调变化且前景和谐化过度[20] - 在阴影生成任务中,Banana Pro生成的影子复刻了前景形状但方向不对;在倒影生成任务中,Banana Pro生成的倒影过大过清晰[26][27] - 在艺术风格调整任务中,Libcom结果更疯狂融入画作,而Banana Pro结果相对保守[23]
新型AI芯片能耗重大突破,已登Nature子刊
机器之心· 2025-11-25 00:02
存算一体技术的瓶颈与挑战 - AI算力需求激增导致传统冯・诺依曼架构出现严重能耗问题,数据在CPU和内存间搬运的能耗可达计算本身的200倍[3][9] - 存算一体技术通过直接在内存中执行计算来消除数据搬运瓶颈,被视为提升能效的终极方案之一[4] - 然而存算一体系统中的模数转换器成为新的能效瓶颈,在先进系统中ADC可能消耗高达87%的总能量和75%的芯片面积[6][7] 传统ADC的技术缺陷 - 传统ADC采用均匀量化方式,使用固定的等距量化边界处理所有信号,与神经网络各层输出信号千差万别的分布特征严重不匹配[12] - 这种不匹配导致在信号密集区域分辨率不足,在信号稀疏区域又浪费量化资源,造成精度严重损失[12] - 为弥补精度损失而使用更高精度ADC会导致硬件开销呈指数级暴涨,形成恶性循环[13] 基于忆阻器的自适应ADC创新方案 - 研究团队利用忆阻器的可编程电阻特性,设计了一种全新的量化单元,实现了硬件层面可编程的自适应量化边界[15][16][18] - 该方法先通过算法分析AI模型每层输出的数据分布,寻找最优的非均匀量化边界,然后通过忆阻器将定制边界写入硬件[19] - 在VGG8网络和CIFAR-10数据集上,4-bit精度下自适应ADC将准确率从传统均匀量化的52.3%提升至88.9%,5-bit精度下达到89.55%[21] 系统级能效与面积优化成果 - 忆阻器ADC本身在5-bit精度下实现了15.1倍的能效提升和12.9倍的面积缩减[25] - 集成到存算一体系统后,在VGG8网络中ADC模块的系统能耗占比从79.8%降至22.5%,系统总能耗降低57.2%[26] - 系统面积优化同样显著,ADC面积占比从47.6%降至16.9%,系统总面积降低30.7%[26] - 在ResNet18网络上实现了56.9%的能耗节省和25.1%的面积节省[28]
刚刚,智能体&编程新王Claude Opus 4.5震撼登场,定价大降2/3
机器之心· 2025-11-24 23:49
模型发布与核心能力 - Anthropic正式发布最新模型Claude Opus 4.5,该模型在编程、智能体以及计算机操作方面表现卓越,是当今世界最优秀的模型[1][2] - 模型在深度研究、处理幻灯片与电子表格等日常任务上有显著提升,标志着AI系统化能力的进一步跃升[2] - 在真实世界软件工程测试中达到行业SOTA水平,超越了GPT-5.1-Codex-Max、Gemini 3 Pro以及自家Sonnet 4.5[2] 定价与平台更新 - Claude Opus 4.5的最新定价为每百万Token 5/25美元(输入/输出),与上代Opus 4.1相比,API定价降低了2/3[5] - 模型可通过Claude app、API及三大主流云平台访问,开发者使用`claude-opus-4-5-20251101`即可调用[5] - 同步更新了Claude开发者平台、Claude Code及消费者应用,推出了适用于更长时长运行的智能体新工具,长对话不再轻易遇到限制[6] - Claude Code现已登陆桌面应用,支持并行运行多个会话,Plan Mode获得升级,可自主开展工作[7] - Max、Team和Enterprise用户可直接在Excel中使用最新模型[8] 性能基准测试表现 - 在一项极其困难的居家测试中,Claude Opus 4.5的得分超过了所有参加过该测试的人类候选人[11] - 在智能体编程(SWE-bench Verified)基准测试中达到80.9%,优于Sonnet 4.5的77.2%和Opus 4.1的74.5%[12] - 在智能体终端编程(Terminal-bench 2.0)基准测试中达到59.3%,优于Sonnet 4.5的50.0%和Opus 4.1的46.5%[12] - 在解决新型问题(ARC-AGI-2)基准测试中达到37.6%,显著优于Sonnet 4.5的13.6%[12] - 在Aider Polyglot基准上相比Sonnet 4.5实现了10.6%的提升[14] - 在Vending-Bench基准中相较于Sonnet 4.5实现了29%的提升,长程任务稳定性更强[20] - 在SWE-bench Multilingual基准中,于8种编程语言中的7种上表现领先[12] 智能体与效率提升 - 模型具备创造性解决问题能力,如在τ²-bench测试中通过先升级舱位再修改航班的合法方式解决旅客改签请求,超出基准预设范围[26][28] - 通过新增的effort参数,开发者可自行决定最小化时间成本或最大化模型能力[30] - 在中等effort设定下,输出token使用量相比前代减少76%;在最高effort设定下,表现比Sonnet 4.5高出4.3个百分点,输出token使用量仍减少48%[30] - 结合上下文管理与记忆能力,在一项深度研究评估中的表现提升了近15个百分点[34] - 模型能够管理由多个子智能体组成的团队,支持构建复杂且协调良好的多智能体系统[34] 安全性与对齐 - Claude Opus 4.5是Anthropic迄今发布的在对齐方面最为稳健的模型,也可能是目前各家前沿模型中对齐度最高的之一[36] - 在抵御提示注入攻击方面取得实质性进展,是目前行业中最不容易被提示注入欺骗的前沿模型之一[39]