机器之心

搜索文档
刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
机器之心· 2025-09-03 08:33
文章核心观点 - 谷歌Nano Banana模型通过优化提示词设计显著提升图像生成能力 官方发布六类文本转图像提示模板以最大化模型潜力[8][11] - 用户通过创意提示词实现多样化应用场景 包括产品摄影、风格化插画、文字渲染、商业摄影、极简设计及连续性艺术创作[3][6][16] - 模型在图像编辑一致性和稳定性方面存在技术局限 部分场景下表现不及Qwen和Kontext Pro等竞品[39] 提示词模板分类总结 照片级写实场景 - 需包含机位角度、镜头类型、光线及细节描写 例如使用85mm肖像镜头生成带有景深效果的垂直人像[13][15] - 模板结构包含拍摄类型、主体动作、环境光照及画幅比例 强调纹理细节以实现逼真效果[14] 风格化插画与贴纸 - 需明确艺术风格、关键特征及色板 白色背景需在提示词中特别声明[18] - 案例如卡哇伊风格的小熊猫贴纸 采用粗轮廓线和简单赛璐珞着色[19] 文字渲染应用 - 擅长生成含清晰文字的图像 需指定文字内容、字体风格及整体设计[22] - 模板包含图像类型、品牌概念及色彩方案 案例为黑白极简咖啡店logo[23] 产品模型与商业摄影 - 适用于电商及广告场景 强调高分辨率影棚灯光与特定角度[26] - 模板包含产品描述、背景表面及三点柔光箱设置 案例为混凝土台面上的陶瓷咖啡杯特写[27][28] 极简与留白设计 - 适用于网页及营销素材背景 主体位于画框特定位置并保留大量负空间[30] - 案例为右下角红枫叶与灰白背景的组合 采用顶部柔光照明[32] 连续性艺术创作 - 适用于漫画分镜及视觉叙事 需清晰描述场景角色及对话文本[35] - 模板包含艺术风格、前后景细节及情绪光照 案例为黑白 noir 风格侦探场景[36][37]
Anthropic承认模型降智后仍放任其偷懒?Claude Code用户信任崩塌中
机器之心· 2025-09-03 08:33
大模型降智现象 - 用户和媒体频繁报告大模型能力下降现象 包括OpenAI GPT-5测试中表现不及预期以及Anthropic Claude Opus系列的质量问题 [1][3] - Anthropic罕见公开承认Claude Opus 4.1在2025年8月25日17:30 UTC至8月28日02:00 UTC期间出现质量退化 影响部分请求 表现为智能水平降低 回答格式错误和工具调用异常 [5][6] - 问题源于推理堆栈更新 公司已对Claude Opus 4.1回滚更新 同时发现Claude Opus 4.0也受相同问题影响 正在回滚处理 [6] 用户反馈与市场影响 - 尽管Anthropic声称事件已解决 但截至9月1日用户对Claude Code的负面反馈持续增加 许多用户报告模型持续"偷懒"和性能低下 [7][10][12] - 用户转向GPT-5现象显著 开发者私下更偏好使用GPT-5编写代码 认为其性价比高 每月20美元费用物有所值 [8][9][13] - 具体性能投诉包括:Sonnet 4此前能直接构建项目 而Opus 4.1连简单脚本都无法生成 性能表现与使用时间相关 凌晨顺畅而白天高峰期限流后糟糕 [12][13] 行业技术动态 - 大模型供应商首次正面承认降智问题 打破此前从未公开承认的行业惯例 [3] - 研究者推测性能问题可能源于Anthropic正在研发新模型 或与推理系统更新有关 [9][13] - Cursor Agent CLI与GPT-5组合表现受到开发者认可 尤其在精心设计的提示词下效果显著 [9]
其实,扩散语言模型在最终解码之前很久,就已确定最终答案
机器之心· 2025-09-03 04:33
扩散语言模型加速技术 - 扩散语言模型(DLM)成为自回归模型的有力替代方案,具备高效并行解码和灵活生成顺序等优势 [1] - DLM在实际应用中推理速度仍慢于自回归模型,主要由于缺乏KV-cache机制以及快速并行解码导致的性能下降 [2] - 研究发现早期答案收敛现象:在GSMK和MMLU数据集中,仅需半数优化步骤即可分别实现97%和99%样本正确解码 [3] Prophet解码方法 - Prophet是一种无需训练的快速解码策略,通过监控top-2答案候选间的置信度差距自适应判断是否提前解码剩余token [3][6] - 采用早期提交解码机制,在模型预测稳定时一次性提交所有剩余token,与固定步数解码形成鲜明对比 [6][9] - 该方法将终止解码决策建模为最优停止问题,权衡计算成本与错误风险 [9] 性能表现 - 在LLaDA-8B模型上,Prophet在MMLU达到54.0%(加速2.34倍),ARC-C达到83.5%(加速1.88倍) [10][13] - 在Dream-7B模型上,MMLU准确率66.1%(较完整模型67.6%仅下降1.5%),速度提升2.47倍 [10][13] - 数学推理任务中,GSM8K准确率76.8%(与完整基线77.1%基本相当),速度提升1.69倍 [10][13] - 规划任务中Sudoku性能从35.0%提升至38.0%,同时实现3.40倍加速 [13] 技术优势 - 早期提交解码可避免后续噪声精炼步骤破坏已正确预测,在HellaSwag任务中表现70.9%超越完整基线的68.7% [10][11] - 提供稳健且模型无关的解决方案,显著提升DLM在实际应用中的可行性 [12] - 与静态截断方法相比,能有效避免过早终止解码导致的准确率下降风险 [11]
从复刻魔术开始,RoboMirage打开了机器人仿真的新世界
机器之心· 2025-09-03 04:33
具身智能数据挑战与仿真平台价值 - 具身智能发展依赖海量高质量交互数据 但现实数据采集成本极高 单台机械臂硬件投入需数万元且难以规模化[1] - 仿真环境成为重要解决方案 能以更低成本、更高效率实现无限次试错 快速积累大规模交互经验[1] - 行业对仿真数据提出更高要求:更高物理精度、更丰富交互类型(覆盖刚体/软体/流体)、更强扩展性与稳定性[1] RoboMirage平台核心特性 - 全物体类型兼容的可扩展接触建模框架:支持刚体/1D/2D/3D可形变体/多关节结构 具备强耦合仿真能力并允许用户自定义扩展[4] - 高精度多体动力学仿真能力:支持刚体/软体及复杂接触的强耦合模拟 可捕捉动静摩擦等微观动力学细节 精度远超传统模拟器[5] - 工业级稳定算法保障:依托隐式积分和凸优化方法 确保仿真稳定性与时间一致性 彻底解决穿模问题[6] - Pythonic设计:接口友好易于上手 方便开发者快速集成与定制[7] - GPU驱动异构加速技术:利用GPU大规模并行计算 实现工业级精度下的高性能快速仿真[8] 高精度仿真在魔术场景的应用 - 明日环魔术仿真:模拟金属环与柔性绳索间复杂接触缠绕 稳定处理动态接触避免穿模[10] - 橡皮筋穿越魔术仿真:精准模拟弹性体缠绕/拉伸/形变 包括粘滞阻尼/张力变化/自碰撞特性[12] - 抽桌布魔术仿真:高精度捕捉布料瞬时滑动及物体摩擦惯性 兼顾非平衡动态与稳定性[14] - 洗扑克牌仿真:模拟多张纸牌极小时间步交错插入时的接触力与摩擦细节 维持接触连续性[15] 多源数据生态与Sim-to-Real体系 - 数据生态包含三部分:仿真生成训练验证样本、互联网语料/技术文档/说明书等文本数据、少量真机实验多模态传感数据[17] - 多源数据为仿真结果提供验证依据 帮助微调感知与策略模型并增加语义约束[17] - 高精度仿真基座与多源数据体系协同 有效缩小Sim-to-Real Gap 加速算法向现实环境迁移[17] 家具拼装复杂任务突破 - 完成迄今最复杂/精度最高/步骤最多的具身操作任务:家具拼装[19] - 模型能深度理解零件结构逻辑 实现多部件检测/感知/插拔/旋转配合 并自主分解多步骤任务[20] - 通过自适应插接路径规划和接触力调控 实现高精度高稳定性拼装 并能根据实时反馈力动态调整策略[20] - 支持标准化物理接触分析 无需为每种对象或机器人单独开发算法[22] 技术路线与未来展望 - 通过高精度仿真与多源数据协同 在高复杂度具身操作任务中实现前所未有的稳定性与精确度[24] - 将持续突破仿真精度/泛化能力与真实交互的一体化边界[25] - 技术路线将加速具身智能从实验室到现实世界的跨越 催生新的人机协作模式[25]
宇树科技官宣:年内提交IPO,或将冲刺科创板
机器之心· 2025-09-03 04:33
上市计划 - 公司预计2025年第四季度向证券交易所提交IPO申请文件[1][3] - 上市辅导机构为中信证券 控股股东王兴兴合计控制公司34.763%股权[9] - 公司估值超过100亿元人民币 最近C轮融资由中国移动旗下基金、腾讯、锦秋、阿里、蚂蚁、吉利资本共同领投[10] 财务与经营数据 - 2024年公司营收结构:四足机器人占65% 人形机器人占30% 零部件产品占5%[4] - 年度营收已超10亿元人民币 公司规模约1000人[11] - 自2020年以来财务报表每年保持盈利状态[10] 产品与市场地位 - 四足机器狗全球市场占有率超过60% 人形机器人出货量位居全球前列[10] - 四足机器人80%用于科研、教育和消费领域 20%用于工业检测和消防[5] - 人形机器人全部应用于科研、教育和消费领域 业务范围覆盖全球50%以上国家和地区[5][10] 技术发展与行业展望 - 公司预测全球人形机器人行业出货量未来几年可达到每年翻一番水平[12] - 在技术突破情形下 未来2-3年人形机器人年出货量可达几十万台[12] - 公司近期在世界人形机器人运动会中获得1500米、400米、100米障碍赛及4×100米赛事金牌[12] 安全措施 - 针对已停产的Go1机器狗系列安全漏洞 公司于2025年3月24日更换第三方云端隧道服务管理密钥[18][19] - 2025年3月29日彻底关闭相关隧道服务 后续机器人系列采用更安全升级版本[18][19] - 机器人默认不联网 需用户主动设置才可联网[18]
语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
机器之心· 2025-09-03 04:33
语音分离技术综述 - 清华大学、青海大学、南京大学、南方科技大学、中国科学院大学、字节跳动的研究者全面调研了语音分离领域 对200余篇代表性论文进行了系统归纳和分析 涵盖深度学习方法、模型架构、研究主题、评测指标、数据集、工具平台、模型效果比较和未来挑战等多个维度[2] 问题定义 - 语音分离任务根据混合说话人数量是否已知分为已知人数分离和未知人数分离两类 已知人数分离可通过深度聚类或排列不变训练等策略解决输出顺序不确定的排列歧义问题 未知人数分离需要模型动态决定输出通道数并判断终止时机 面临说话人排列组合随人数增加呈指数扩展的挑战[6] 学习范式 - 有监督学习利用配对的混合音频及纯净源音频进行训练 采用深度聚类方法将时频单元映射到高维嵌入空间再聚类生成声源掩膜 或使用排列不变训练方法对输出标签进行动态匹配只保留误差最小的排列来更新模型[10] - 无监督学习不依赖配对的干净源参考 探索利用未标注的混合语音直接训练分离模型 MixIT方法通过将两段混合语音再混合作为输入 让模型输出更多分量并设计仅依赖输入混合物的损失函数[12] 模型架构 - 典型架构包含编码器、分离网络和解码器 基于RNN的模型利用循环神经网络捕获语音信号中的长时依赖关系 Dual-Path RNN通过划分长序列为短块并在块内和块间双路径循环处理高效建模长序列[17] - 基于CNN的模型利用卷积神经网络强大的局部特征提取能力 Conv-TasNet等时域卷积模型通过空洞卷积技术兼顾短时细节和长程依赖 基于自注意力的模型引入全局序列建模能力 SepFormer等Transformer架构进一步刷新了分离性能[17] - 音频重构策略包括掩膜估计和直接映射两类 掩膜方法输出每个源的时间频率掩膜乘以混合后重建源信号 直接映射方法直接输出各源的波形或特征表示避免误差传播[18] 评测指标 - 主观评价指标包括MOS(评分范围1-5) 直观贴近人耳体验但难以大规模获取[20] - 客观评价指标包括SDR(单位dB)、SIR(单位dB)、SAR(单位dB)、SISDR(单位dB)、PESQ(窄带和宽带范围-0.5~4.5)、STOI(范围0~1)、ESTOI(范围0~1)、DNSMOS(范围1~5)和SIGMOS(范围1~5)等 各自侧重不同方面需要结合使用[20] 数据集 - 单通道数据集包括WSJ0-2mix(2016年)、WSJ0-3mix(2016年)、WHAM!(2019年)、WHAMR!(2020年)、LibriMix(2020年)、DNS Challenge(2021年)、REAL-M(2022年)、Lombard-GRID(2024年)、LibriheavyMix(2024年)、LRS2-2Mix(2024年)和SonicSet(2024年)等[23] - 多通道数据集包括SMS-WSJ(2019年)、LibriCSS(2020年)、Kinect-WSJ(2021年)和AISHELL-4(2021年)等[23] 模型性能 - 在WSJ0-2mix数据集上 早期模型如DPCL和uPIT-BLSTM达到约10 dB的SDR Conv-TasNet等端到端模型将性能推升到12 dB以上 最近两三年SepFormer、DPRNN系列和双路Transformer等先进架构将SDR提升到20 dB左右[24] - 在含噪声混响的WHAM!和WHAMR!数据集上 模型性能相对无噪条件下降明显 说明噪声鲁棒性仍是挑战[25] 工具平台 - 开源工具包括nussl(2018年 Python语言 PyTorch后端 MIT许可证)、ONSSEN(2019年 Python语言 PyTorch后端 GPL-3.0许可证)、ESPNet-SE(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、Asteroid(2020年 Python语言 PyTorch后端 MIT许可证)、SpeechBrain(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、ClearerVoice-Studio(2024年 Python语言 PyTorch后端 Apache-2.0许可证)和WeSep(2024年 Python/C++语言 PyTorch后端 Apache-2.0许可证)等[29] 未来挑战 - 长时段音频处理需要在保证分离连续性的同时控制模型复杂度和内存开销 移动端和嵌入式应用要求模型具备较小参数量和计算量[32] - 因果语音分离要求算法只能利用当前及过去帧的信息不能窥视未来 对模型延时和缓存机制提出严格要求[32] - 生成式方法包括生成对抗网络和扩散模型开始用于语音分离 在弱监督或无监督场景下展示出潜力[32] - 预训练技术如大规模自监督预训练wav2vec 2.0等可提供强大通用特征 在低资源分离任务上显著提升性能[32] - 目标说话人提取利用已知的目标说话人特征从混合中提取该说话人语音 需要高效利用说话人嵌入并与分离网络融合[33] - 语音分离正日益与语音识别、说话人识别/分离、语音增强等任务结合 形成端到端的联合优化框架[33]
IROS 2025 | 机器人衣物折叠新范式,NUS邵林团队用MetaFold解耦轨迹与动作
机器之心· 2025-09-03 00:44
本文的共同第一作者为新加坡国立大学博士生陈浩楠,南京大学研究助理 / 本科生李骏骁和北京大学博士吴睿海。合作者为刘益伟、侯懿文、徐志轩、郭京翔、高 崇凯、卫振宇、许申思、黄嘉祺。通讯作者为新加坡国立大学计算机学院助理教授邵林,研究方向为机器人和人工智能。 机器人对可形变物体的操作(Deformable Object Manipulation, DOM),是衡量通用机器人智能水平的关键指标之一。与刚体操作不同,衣物、绳索、食物等物体 的形态不固定,其状态空间维度极高,且物理交互过程呈现出复杂的非线性动力学特性,为感知、规划和控制带来了巨大挑战。 传统的服装折叠方法往往依赖于预定义的关键点或演示数据 [1, 2],这严重限制了它们在不同服装类别间的泛化能力。现有研究大多采用基于规则的启发式方法或 依赖人工演示的学习方式,这些方法在面对多样化的服装类型和用户指令时表现出明显的局限性。 近年来,随着基础模型在计算机视觉和自然语言处理领域的巨大成功,研究者们开始探索将这些先进技术应用于机器人操作任务 [3]。视觉和语言引导的机器人操 作已成为当前研究的热点,它能够让机器人理解自然语言指令并执行相应的操作任务。然而,在可 ...
刚刚,Anthropic在质疑声中获130亿美元融资,估值达1830亿
机器之心· 2025-09-03 00:44
融资与估值 - 公司完成130亿美元新一轮融资 投后估值达1830亿美元 约为3月份上次融资时的三倍 [1] - 本轮融资为F轮 由Iconiq、富达管理研究公司和光速创投领投 Altimeter、General Catalyst和Coatue等其他多方投资者参与 [4] - 融资规模为科技行业第二大私募融资 仅次于OpenAI的400亿美元融资 [4] 财务表现 - 运行收入从2025年初约10亿美元增长至8月的年度化营收超过50亿美元 八个月内增长400% [5] - Claude Code产品自2025年5月全面发布后创造超过5亿美元运营收入 使用量在三个月内增长10倍以上 [5] - 服务超过30万家企业客户 大型客户(单客户运营收入超10万美元)数量过去一年增长近7倍 [6] 产品与市场 - Claude Code成为开发者首选工具 企业可通过API和行业特定产品轻松集成AI功能 [5] - 面临OpenAI竞品Codex Cli的明显增长竞争 [5] - 与OpenAI形成激烈竞争格局 OpenAI估值达5000亿美元并收购产品分析创业公司Statsig [10] 运营策略 - 新资本将用于深化安全研究 满足企业需求扩张 支持国际业务拓展 [7] - 默认收集用户数据用于训练 允许训练数据最长留存5年 覆盖多数消费端产品 [9] - 面向重度用户推出按周用量上限 官方称仅影响少于5%订阅者 [9] 技术发展 - 招聘聚焦大模型、机器学习基础理论、多模态、强化学习、AI for Science等算法方向 [14] - 研发类岗位涉及大规模分布式训练框架、高性能计算、AI系统架构等关键技术领域 [14] - 提供超大规模算力集群和数据支持 鼓励具备规模化潜力及长期价值的研究 [19] 组织动态 - 由前OpenAI研究高管创立 包括CEO Dario Amodei [10] - 开展2025年校招计划 涵盖算法、研发、产品等六类岗位 8月20日启动网申 [15][14] - 设置6场集中笔试 采用3-4轮极速面试流程 面试结束后陆续发放Offer [16]
苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?
机器之心· 2025-09-02 09:33
苹果与高校合作AI研究突破 - 苹果与牛津大学和香港城市大学合作提出BED-LLM新方法 使AI解决问题能力提升6.5倍 成功率从14%暴增至91% 无需微调或重新训练[1] - 核心突破在于让AI学会提出完美问题 通过自适应信息收集实现智能交互[2][5] BED-LLM技术原理 - 基于序贯贝叶斯实验设计框架 通过迭代过程最大化预期信息增益(EIG)[7][9] - 采用三重智慧设计:追求真实信息增益而非表面不确定性 强制逻辑自洽纠正遗忘症 条件生成策略实现针对性提问[14][16][18] - 通过先采样后过滤策略确保答案逻辑一致性 使用逻辑过滤器剔除矛盾选项[17] 性能验证结果 - 在20个问题猜谜游戏中 Mistral-Large模型预测名人成功率从14%提升至91%[20] - 在动物数据集上 Qwen2.5-72B模型成功率从45%提升至94% Mistral-Large从33%提升至95%[20] - 电影推荐任务中表现显著改进 模型跨服测试显示即使在模型失配情况下性能优势依然稳固[21][24] 技术应用前景 - 将LLM从被动知识库转变为主动信息收集者 实现真正意义上的智慧对话[26] - 适用于多轮猜谜游戏 任务澄清 IT任务自动化和迭代式外部工具使用等场景[4]
开学&教师节双重豪礼,英博云算力低至8毛8/卡时,赶紧薅起来
机器之心· 2025-09-02 09:33
活动概述 - 公司启动"金秋算力感恩回馈"专项活动 包括开学季和教师节双重福利 活动时间为9月1日至9月30日[1][6][9] - 活动提供算力代金券和限时特惠价格 旨在降低用户算力使用成本[6][8][9] 开学季活动详情 - 新用户注册并完成实名认证可免费领取50元算力代金券[8] - 首充返利:实名认证7日内首次单笔充值满100元返100元算力代金券[8] - 分享返利:首充后再次单笔充值满100元并在朋友圈分享宣传内容可再领100元算力代金券[8] - 活动期间4090显卡算力价格低至0.88元/卡时[6][8] 教师节活动详情 - A800卡时原价6.39元 活动价低至4.92元 降幅达23%[9] - H800卡时原价13.99元 活动价低至10.76元 降幅达23%[9] - 大额充值返利:单次充值满1000元返100元 满3000元返400元 满5000元返900元 满8000元返2400元 超过8000元返充值金额30%算力代金券[13] 平台技术特性 - 采用云原生架构 支持容器实例秒级启停和精细化计费[11] - 支持GPU+CPU混合集群 InfiniBand高速网络和企业级并行存储[11] - 提供SSH与kubectl多通道管理 Pod级直连公网IP[11] - 自研Container Server和丰富数据镜像资源帮助快速复用环境[11] 平台服务模式 - 提供专属Booking分区支持提前预约算力[11] - 调度系统支持On-Demand Reserved Spot等多种资源分配模式[11] - 团队模式支持统一管理算力资源 分配资金额度 实时查看运行记录[11] - 学生端可直接使用预置镜像 模型和数据集快速上手Notebook环境[11] 业务发展现状 - 公司正持续助力多家高校与科研机构开展AI科研项目[12] - 正在拓展2025年秋季AI课程教学合作[12] - 邀请高校加入"AI课程合作伙伴计划" 需提供学校名称 主讲教师 课程名称和联系方式[12]