机器之心
搜索文档
不卖「工具」卖「生产力」,百融云创如何用「硅基员工」打破AI落地僵局?
机器之心· 2025-12-18 10:15
行业背景与核心矛盾 - 2025年被业界视为大模型落地应用元年和AI Agent元年,相关探索已从概念验证走向初步部署,在客服、代码生成、文档处理等标准化场景得到验证 [1] - 然而,AI Agent的大规模落地仍面临挑战,许多应用仅停留在Demo阶段或无法进入企业核心业务流程,未能实现从1到100的规模化 [1] - 根本矛盾在于AI解决方案提供商与企业客户之间存在“激励不相容”:AI厂商主要售卖Token、订阅或账号等工具,而企业客户的核心诉求是为业务结果和生产力提升付费,双方目标不一致导致AI落地多停留在表面或边缘场景 [2] 破局之道:新商业模式 - 破局关键在于重塑商业契约,推动AI厂商从“卖工具”转向“卖成果”,即交付可执行任务的“硅基员工”,企业则直接为可衡量的业务成果付费 [3] - 这种新模式被概括为RaaS,即“结果即服务”,当AI厂商的收入与“硅基员工”创造的业务成效直接挂钩时,双方形成“激励相容”的价值共同体 [3][5] - 红杉资本指出,AI行业正在从“卖软件”进化为“卖成果” [4] 公司战略与产品发布 - 百融云创于12月18日正式发布企业级AI Agent战略,明确提出RaaS商业模式,并推出Results Cloud与面向多业务岗位的企业级Agent产品体系 [5] - 公司宣布与产业伙伴共建“硅基生产力生态”,旨在加速“硅基员工”在营销、客服、人力、法务等高价值岗位的规模化应用 [7] - 公司创始人强调,企业级AI的下一站是交付可执行、可衡量、可审计的业务结果,而不仅仅是功能 [7] 技术能力与支撑 - 公司成立于2014年,长期致力于将AI技术应用于解决具体行业问题,经历了从决策式AI、自研语音交互栈到多模态基础模型的技术演进 [9] - 公司认为大模型具备拟人沟通、处理非结构化数据、执行复杂工作流三大特质,使其能够胜任“员工”角色,独立完成端到端任务 [10] - 新商业模式要求技术具备高度的“确定性”与“成熟度”,公司自信源于三大关键技术突破 [8][13] - 突破一:实现从“被动问答”到“主动引导”的范式升级,自主研发的面向金融行业的主动大模型能围绕业务目标主动推进任务并引导用户 [14] - 突破二:通过“决策优选”范式消除AI幻觉,将回复机制从生成转变为从高质量合规话术库中选择,实现回答100%可控 [14][15] - 突破三:通过模型蒸馏等技术将大模型压缩,结合自研技术实现200毫秒以内的实时语音交互响应,达到“真人级”体验 [15] 落地应用与成效 - “硅基员工”已在金融、运营商、零售、政务、招聘等多个行业落地应用并产生实际价值 [16] - 在金融领域,为某头部民营银行进行存款产品智能营销,项目月均新增活跃客户超3000人,累计带来4.6亿资产管理规模,其中70%的产能由“硅基员工”创造 [17][18] - 在运营商领域,为某运营商提供营销服务,使营销活动策略生成与内容适配效率提升近300%,并能实现千万级用户的实时需求分析,综合营销成本下降约25%—35% [18][19] - 在政务领域,为西部某市就业服务中心部署一站式AI智慧就业服务系统,“硅基员工”日均处理回访数据达700条,累计成功完成就业情况回访1069条,实际接通率78.67%,远超传统人工水平 [19] - 在招聘领域,与某招聘企业合作,“硅基员工”负责海量企业的初步需求筛选、岗位匹配外呼与意向确认,优化了业务流程,实现了人机协同 [19] 行业影响与未来展望 - “硅基员工”及其“按效果收费”的模式改变了AI厂商与企业客户的关系,减少了传统采购中的漫长博弈,使双方立场一致 [21] - 新模式对AI厂商提出持续挑战,要求其形成技术与业务双向强化的飞轮效应,以持续证明价值 [21] - 公司未来工作重心包括:研发Training-Free方案以实现Agent在线自主进化;探索处理20到30分钟长程任务的能力,以解决更复杂的企业问题 [22] - “硅基员工”正在重塑企业劳动力结构,当前主要承担标准化、重复性的“外包”角色,未来将逐渐成为劳动力结构的重要组成部分,并向决策参与者跃迁 [22][24]
与Physical Intelligence同日发声:深度机智亮出「情境数采」杀手锏,具身智能的通用性天花板要被捅破了?
机器之心· 2025-12-18 10:15
行业核心挑战:具身智能的通用性难题 - 具身智能通往通用性的征途正被“数据荒漠”所阻隔 模型在模拟器中表现出色但在现实复杂场景中频频失败[1] - 行业通用性突破受限于物理世界交互数据的极度稀缺 合成数据与离线遥操作存在采集效率低、场景单一化、任务真实性弱等瓶颈 导致模型易陷入过拟合 仅学会特定轨迹而非操作逻辑[3] 公司解决方案:情境数据采集范式 - 深度机智倡导以“第一视角人类经验”为核心的情境数采模式 主张数据应是带有丰富环境语境与因果关系的逻辑流 而非孤立的动作切片[3] - 公司与北京高校联合成立“具身智能数据采集示范中心” 旨在通过人类第一视角为主、多视角辅助的真实情境多模态数据采集 筑牢数据根基[3] - 该模式强调动作发生的“前因后果” 是合作最核心的技术增量[4] 技术实现路径与数据引擎 - 示范中心依托自研的DeepAct数据引擎 在实验教学、工程实践等真实场景搭建标准化采集体系[5] - 技术逻辑是“全面向人类看齐” 核心在于高质量、多样化数据的规模化供给 以让模型习得人类与物理世界交互的高效逻辑[7] - 通过多维感知融合 以佩戴式第一视角设备协同多角度观测位同步采集多模态信息[8] - 通过“情境标签”为每一帧数据植入场景记忆 记录环境背景与交互逻辑 使模型能理解动作背后的物理约束 实现真实物理世界的World Context as Prompt[8] 数据价值与实验验证 - 公司内部实验表明 用大规模精细标注的第一视角人类经验数据增强基座模型的物理智能 可实现向机器人异构执行器的高效迁移[7] - 此结论与Physical Intelligence同日公布的最新研究发现不谋而合 共同验证了“人类经验数据驱动通用智能”的可行性[7] 公司背景与业务进展 - 深度机智是北京中关村学院和中关村人工智能研究院孵化的第一家高科技企业[10] - 公司自去年底筹办伊始就在支持下深入开展以人类第一视角数据为核心的物理智能增强研究 目前已基本趟通人类数据驱动通用智能的技术全链路[10] - 公司正通过其自研的DeepAct数据引擎 在全国十多个城市、数百个场景大范围采集真实情境人类数据 持续扩大数据规模[10] 行业展望 - 当带着场景记忆的第一视角多模态数据持续积累 并通过全链路处理和模型创新最大化数据价值时 具身智能的通用性突破将不再遥远[12] - 行业有望使机器人从“机械模仿”中解脱 在“情境数采”赋能下实现真正的技能涌现 走向能举一反三的通用物理智能新时代[12]
SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人
机器之心· 2025-12-18 10:15
行业技术地位与团队里程碑 - 公司团队的研究成果首次登录国际顶级计算机图形学会议SIGGRAPH Asia,这代表了学术与工业界的最高研究水平与最前沿技术趋势 [2][5] - 团队在3D、XR、3D真人数字人和三维重建等方向拥有深厚技术积累,此前已在CVPR 2025会议上作为Highlight Paper发表了TaoAvatar,并在淘宝未来旗舰店实现了业内首个3D真人导购体验 [4] 核心技术方案:HRM²Avatar - 系统目标是通过手机单目视频生成高保真且可实时驱动的3D数字人,旨在解决普通人使用门槛高的问题 [6][10] - 核心采用两阶段采集方式、显式衣物网格表示与基于高斯的动态细节建模,并结合面向移动端的高效渲染优化策略 [12] - 系统采用显式服装网格与高斯表示相结合的建模方式:网格提供稳定结构与可控性,高斯用于呈现褶皱、材质和光照变化等细节 [6] - 基于轻量化推理设计与移动端渲染优化策略,生成的数字人可在手机、头显等移动设备上流畅运行 [6] 系统流程与关键技术模块 - **采集与预处理**:采用双序列拍摄方式,包括静态扫描(用于获取全身结构和局部纹理)和动态扫描(用于捕捉衣物褶皱和光照响应),无需额外硬件 [18] - **服饰网格提取**:流程包括几何重建、服装区域提取、重拓扑与蒙皮绑定、绑定对齐,最终生成可绑定动画的穿衣人体网格作为几何基底 [31][32][33][34][35] - **实时可驱动的数字人重建**:着重从混合表示、几何生成、动态光照建模、训练流程、轻量网络蒸馏五个方面进行设计 [37] - **混合表示**:在穿衣人体网格的每个三角形上附着高斯点,构建混合数字人表征,为姿态相关的形变与光照建模提供可控参数空间 [40][43] - **几何生成**:最终几何基于带服饰的模板网格,并通过静态偏移、姿态相关偏移和逐帧残差三类偏移量组合得到 [46][47][51] - **动态光照建模**:引入轻量化的单通道姿态相关光照项,对高斯的外观属性进行调制,使数字人在不同姿态下保持自然的光照一致性 [53][54] - **训练流程**:同时使用近景与全身图像监督,优化策略包括颜色一致性监督、语义掩码约束、身体与服饰碰撞约束等 [57][67] - **轻量网络蒸馏**:训练一个轻量级预测网络,学习从姿态到几何形变与光照变化的映射,以支持移动端实时驱动,无需逐帧重建数据 [60] 移动端高性能实时渲染优化 - 对渲染阶段进行了系统性优化,包括层级裁剪、高效投影、量化排序和基于显卡硬件的加速渲染 [62] - **层级裁剪**:采用网格级视锥裁剪、三角片级背面裁剪、高斯级视锥裁剪三级策略,显著减少需渲染的高斯数量 [64][68] - **投影**:采用按需解码存储块的精简投影流程,有效降低解码带宽开销 [65][69] - **排序**:采用量化排序,将连续深度映射至紧凑区间,使用16Bit或12Bit深度存储,结合GPU并行Radix Sort加速,大幅减少排序负担和显存带宽使用 [70][73] - **渲染**:使用GPU硬件栅格化,并采用自适应面元缩放、基于透明度修剪、反向透明度估计等策略提升性能与视觉质量 [70][73] - 优化使系统采用紧凑、高度可并行、缓存友好的绘制方式,达成移动端实时表现 [71] 实验结果与性能表现 - **与现有方法对比**:在自构数据集上,HRM²Avatar在PSNR(26.70)、SSIM(0.963)、LPIPS(0.040)所有指标上均优于对比方法GaussianAvatar和ExAvatar [77] - 在Neuman数据集上评估泛化表现,模型在快速动作或大姿态变化下能保持稳定的外观呈现和服饰细节 [80][81] - **消融实验**:验证了显式服装网格、姿态相关的外表建模、两阶段扫描协议均为系统的必要设计模块,移除后会导致质量下降 [82][84] - **移动端性能**:在iPhone 15 Pro Max上,单个数字人(约53万高斯点)能以2K分辨率、120 FPS稳定运行;同时渲染三个数字人时可达到2K @30 FPS;在Apple Vision Pro上可实现2K@90 FPS实时渲染 [87] - 各渲染优化策略带来显著性能提升:分级裁剪提速1.83倍,按需解压缩提速1.93倍,深度量化排序提速1.99倍(基于iPhone 15 Pro Max测试数据) [88] 总结与展望 - HRM²Avatar是一项让普通人也能通过手机创建高质量数字人的前沿探索,为移动端数字人应用提供了可行技术路径 [91] - 当前技术对结构复杂或非固定拓扑的服饰重建精度,以及在极端光照或动态遮挡场景下的效果,仍有进一步优化空间 [91] - 该成果被视为推动数字人从专业设备走向普通用户、从实验室走向真实应用场景的一个重要里程碑 [91]
告别抽卡!一手实测字节刚放出的视频模型Seedance 1.5 pro
机器之心· 2025-12-18 09:08
产品发布与核心升级 - 火山引擎在2025年冬季FORCE原动力大会上正式发布了新一代豆包视频生成模型「Seedance 1.5 pro」[2] - 该模型最大更新在于实现了原生音画高精同步,覆盖环境音、动作音、合成音、乐器音、背景音乐及人声等全场景,音画同步率全球领先[5] - 模型能够更好地遵循复杂指令,支持更多外国语言与中文方言的自然对白,更精准地捕捉运动细节,叙事理解与连贯性更强,人物情绪与表情呈现也更加细腻[5] 技术性能与评估 - 在视频能力评估中,Seedance 1.5 pro在文本生成视频的对齐度指标上取得领先,并在其他多项指标上位居前列[6] - 在音频能力评估中,Seedance 1.5 pro在生成质量、同步性、对齐度、表现力等多项指标上全方位超越谷歌Veo 3.1和昆仑万维Kling 2.6[6] - 相较于前代Seedance 1.0 pro,新版本完成了从视频生成模型到原生音视频联合生成基础模型的跃迁[54] 核心功能与实测表现 - 模型支持中文、英文、小语种及16种中文方言,包括陕西话、四川话、东北话、台湾腔、闽南语、粤语等[13][14] - 能够生成多人多语言对白视频,实现口型毫秒级精准对齐,对话语气、气口和语调自然[13][25] - 在影视级叙事张力上表现突出,能根据单张图像生成细腻的多种人物情绪表情,如开怀大笑、愤怒、悲伤、疲惫等[31][32][33] - 擅长处理复杂动态场景,如赛车疾驰、战争场面、第一人称追逐戏,运动幅度大且流畅,能精准捕捉多层次运动元素和环境音效[35][37][38] - 具备商业广告制作潜力,能严格遵循长而复杂的提示词,处理复杂空间变化,精准还原极简风格、科技感等抽象概念和品牌调性[40][41] 技术架构与创新 - Seedance 1.5 Pro在架构层面原生支持音视频联合生成,包括文本到音视频生成和基于图像引导的音视频生成[47] - 关键技术融合了统一的多模态联合生成架构、全面的音视频数据框架、精细化的后训练优化策略和高效的推理加速方案[49] - 在框架层面,提出基于MMDiT架构的统一建模框架,支持跨模态深度交互,确保视听信号时间精准同步与语义高度一致[50] - 在数据层面,构建了以实现音画一致、运动表现力为核心目标的高质量音视频数据框架[51] - 在后训练阶段,引入了为音视频场景定制的基于人类反馈的强化学习算法,使训练速度提升近三倍[52] - 在推理阶段,通过优化蒸馏框架和基础设施,在保持性能前提下实现了10倍以上的端到端推理加速[52] 产品可用性与稳定性 - Seedance 1.5 pro已上线火山方舟体验中心,预计12月23日通过火山引擎为企业用户提供API,个人用户可通过即梦网页版和豆包App使用[8] - 模型表现出极高的指令遵循度,基本不需要用户反复“抽卡”式生成,首次生成的视频效果往往最佳[43] - 对于日常内容创作、轻量级商业广告以及AI短剧制作,Seedance 1.5 Pro被认为完全够用[44] 行业意义与发展阶段 - Seedance 1.5 pro的发布是自2024年初Sora亮相以来,视频生成领域快速演进的一个缩影[58] - 行业技术已从“人类直觉可接受”阶段,开始真正迈向“创作级、生产级”阶段,使小团队能完成过去需影视工作室完成的内容[59] - 新版本在补全模型能力的同时,加快了体系化竞争的步伐,持续缩小模型输出与真实视频制作需求之间的差距[59] - 业界对视频生成领域有更高期待,例如马斯克希望其模型Grok能在2026年底前产出至少能看的电影[60] - 预计未来,视频生成大模型将以更成熟的方式参与从创意生成到内容制作的全过程,使用比重和承担角色将继续提升[61]
北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵
机器之心· 2025-12-18 09:08
研究背景与挑战 - 当前视觉-语言-动作模型在机器人场景理解与操作上展现出通用性,但在需要明确目标终态的长时序任务中,难以兼顾高层规划与精细操控 [2] - 长周期任务面临两大核心难题:一是需要执行精确操作以严格对齐预定义最终状态;二是需要将长周期规划与细粒度控制有效集成,同时保持对多样化现实环境的泛化能力 [9] - 现有依赖人工制作说明书或人类演示视频的分层方法,在泛化到未见过的最终目标状态方面存在局限,难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA 方法概述 - 该模型由北京大学、香港中文大学与至简动力团队提出,旨在解决长时序任务中规划与执行的割裂问题 [3] - 核心创新是构建了全新的「生成–理解–动作」一体化模型,让模型学会自己生成多模态操作说明书,再按说明书去执行动作 [5][12] - 模型摒弃了将高层次规划与动作生成拆分的传统分层方案,构建了全新的通用基础模型 Mixture-of-Transformers 架构,在同一模型中统一多专家模块,实现多模态生成与动作执行的紧密协同 [5] 核心技术:架构与思维链机制 - 模型基于 MoT 架构,集成了「规划专家」和「动作专家」两个模块,实现了多模态手册生成和动作执行之间的连贯协作 [14] - 引入了「说明书思维链」推理机制,该机制通过显式与隐式两条路径影响动作生成 [15] - 显式路径将规划专家预测的目标位置以视觉提示形式叠加在当前图像上,构成带有明显操作区域提示的「提示图」,直接指导动作专家 [19] - 隐式路径将手册生成时产生的内部特征通过专门设计的注意力掩码传递给动作专家,在潜在空间中提供持续的隐式引导 [19] - 消融实验表明,去掉显式或隐式路径中的任一路径都会显著降低长任务中的成功率,说明两者结合才能兼顾精度与稳健性 [19] 三阶段训练策略 - **第一阶段**:基于互联网机器人数据集,筛选与装配和重排相关的轨迹,构建超过 40 万条示例的预训练集,只更新动作专家,学习抓取、搬运和放置技能 [20] - **第二阶段**:利用基于三维高斯表示的数字孪生工具,对乐高板、积木和常见物体进行三维重建,在虚拟空间中合成上万帧带有精确标注的手册数据,用于训练规划专家 [20][23] - **第三阶段**:在真实双臂平台上通过遥操作采集专家示范轨迹,对规划与动作两个专家进行联合微调,使模型在真实环境中的规划–执行闭环更贴合物理世界 [21] 实验性能:真机与仿真 - **真机实验**:在 Franka 双臂平台上测试了 2D 乐高组装、3D 乐高组装和物体重新排列三个长周期任务 [24] - **手册生成质量**:规划专家在 300 个未见过的测试样本上生成了高质量的中间图像,例如 2D 乐高组装的 PSNR 达 29.01,物体重新排列的 FID 分数为 24.46,2D 乐高组装的 MAE 分数为 3.23,证明了生成图像的真实性、保真度和位置预测的精确性 [24][27] - **动作生成成功率**:在所有三个真实世界长周期任务中均取得了最高成功率,相比最强的分层基线,最终任务完成率提高了 15% 到 30%,平均成功率高出 32% [7][28] - **仿真实验**:在 RLBench 的 10 个仿真任务上取得了 70% 的平均成功率,超越了 SOTA 方法 π0 的 63% [31][32] 消融与泛化能力 - 消融实验证明,说明书中所有模态信息和隐式思维链推理对于解决长周期、目标明确的操作任务是不可或缺的,两者结合才能达到最佳性能 [33] - 模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力,例如在背景变化下任务成功率为 0.65,仅下降 23%,优于基线模型的下降 25% [37]
刚刚,让谷歌翻身的Gemini 3,上线Flash版
机器之心· 2025-12-18 00:03
谷歌发布Gemini 3 Flash模型 - 谷歌发布高速、低成本模型Gemini 3 Flash,作为其大模型领域收官之作,并已将其设为Gemini应用和搜索AI模式中的默认模型 [2][3] - 该模型距离前代Gemini 2.5 Flash发布仅六个月,但在性能上实现了显著跃升,并在部分指标上达到了Gemini 3 Pro和GPT-5.2等前沿模型的水平 [3] - 新模型在全球范围内向数以百万计的用户开放,覆盖Gemini应用、搜索AI模式、Google AI Studio、Vertex AI和Gemini Enterprise等渠道 [7][12][33] 模型性能与基准测试 - 在Humanity's Last Exam基准测试中,Gemini 3 Flash在不使用工具的情况下得分为33.7%,接近Gemini 3 Pro的37.5%和GPT-5.2的34.5%,远高于前代Gemini 2.5 Flash的11% [6][10] - 在GPQA Diamond科学知识基准测试中,Gemini 3 Flash取得90.4%的高分,接近Gemini 3 Pro的91.9%和GPT-5.2的92.4% [10][13] - 在多模态推理基准MMMU Pro上,Gemini 3 Flash以81.2%的分数达到当前最先进水平,与Gemini 3 Pro的81.0%不相上下 [11][13] - 在代码智能体能力基准测试SWE-bench Verified上,Gemini 3 Flash取得78.0%的成绩,超越了Gemini 3 Pro的76.2% [13][20] - 在视觉推理基准ARC-AGI-2上,Gemini 3 Flash以33.6%的成绩超过了Gemini 3 Pro的31.1% [13][14] - 精简后的模型体积缩小了3-4倍,但性能已超越6个月前的前沿模型 [14] 模型效率、速度与成本 - Gemini 3 Flash被定位为全球性价比最高的模型,在智能与成本上具有优势 [4] - 模型具备极致的原生速度,响应时间基本在1秒以内,与搜索引擎一样快 [7] - 在最高思考等级下,模型能动态调节思考深度,平均使用的token数量比Gemini 2.5 Pro减少约30% [14] - 根据基准测试,Gemini 3 Flash在性能超越Gemini 2.5 Pro的同时,速度提升达到3倍,而成本仅为其一小部分 [16] - 在定价方面,Gemini 3 Flash的输入费用为每100万token收费0.50美元,输出费用为每100万token收费3.00美元 [13][23] - 该价格显著低于Gemini 3 Pro的输入2.00美元/百万token和输出12.00美元/百万token,也低于GPT-5.2 Extra high的输入1.75美元/百万token和输出14.00美元/百万token [13] 应用场景与开发者工具 - 模型专为高频迭代开发打造,提供低延迟和Gemini 3 Pro级别的代码能力,适合高并发、快节奏的工作流 [19] - 其推理、工具使用及多模态能力非常适合复杂的视频分析、数据抽取和视觉问答,能支撑游戏内助手或A/B测试等需要快速响应和深度推理的应用场景 [21] - 企业客户如JetBrains、Bridgewater Associates和Figma已开始使用该模型推动业务转型,认可其推理速度、效率及媲美更大规模模型的能力 [25] - 开发者可通过Google AI Studio中的Gemini API、Gemini CLI以及全新的智能体开发平台Google Antigravity访问该模型 [12][33] 消费者应用与市场影响 - Gemini 3 Flash已成为Gemini应用的默认免费模型,取代了2.5 Flash,大幅提升全球用户日常任务处理效率 [28] - 用户可利用其多模态能力快速理解视频和图像,并在几秒钟内将其转化为实用计划,或通过语音指令在几分钟内从零开始构建功能完善的应用程序 [28][30] - 模型正逐步推广,旨在成为谷歌搜索功能中AI模式的默认模型,以搜索的速度提供全面、结合实时网络信息的回复与分析 [32] - 行业观察认为,新模型预示着AI模型新时代的到来,并可能被谷歌用来增强或替代搜索引擎,或逐渐移植到移动端侧 [8]
比LoRA更快更强,全新框架LoFA上线,秒级适配大模型
机器之心· 2025-12-18 00:03
行业痛点与现有技术局限 - 通用视觉基础模型在满足用户细粒度、个性化生成需求时表现不佳,难以生成完全符合期望的结果[6] - 当前主流的个性化方法,如以LoRA为代表的参数高效微调技术,需要为每个任务单独优化适配器,依赖特定任务数据且优化过程耗时耗力,难以满足实际应用对快速响应的要求[2][6] - 现有尝试直接预测LoRA权重以实现快速适配的研究面临根本挑战:需学习从低维用户指令到高维复杂LoRA参数分布的复杂映射关系,目前仅在图像生成的身份个性化等受限场景中得到验证,且可能因权重压缩至低维空间而造成信息损失[7] LoFA框架核心创新 - 提出全新框架LoFA,能够根据用户指令在数秒内前馈式直接生成对应的LoRA参数,使大模型快速适配个性化任务,无需漫长优化,效果媲美甚至超越传统LoRA[2] - 核心思路是在超网络设计中嵌入新型引导机制,直接从用户指令中预测完整且未经压缩的LoRA权重,无需依赖有损压缩技术[9] - 关键发现是LoRA权重与原始模型参数间的相对变化会形成独特的结构化模式,即“响应图谱”,能有效捕捉用户指令的核心影响[9] - 设计全新两阶段学习架构:网络首先预测维度更低、结构更简单的响应图谱,随后运用习得的响应知识引导最终的LoRA权重预测,从而简化学习过程并提升稳定性[11][12] 实验验证与性能表现 - 在视频生成任务中,以WAN2.1-1.3B为基础模型,评估了基于文本或运动姿态的个性化人体动作视频生成,以及以风格图像为参考的文本到视频风格化[14] - 在图像生成任务中,以Stable Diffusion XL为基础模型,评估了ID个性化图像生成[15] - 实验表明,LoFA在性能上显著超越基线方案,并达到了与独立优化的LoRA模型相媲美甚至更优的效果,证明了快速模型适配在实际应用中的可行性[15] - LoFA将模型适配时间从数小时缩短至秒级,在保持高质量生成结果的同时,彻底消除了冗长的优化过程[24] 技术意义与未来展望 - 该进展为高效模型适配确立了新的范式,有望推动各类实时个性化应用的发展[24] - 当前LoFA仍需针对不同领域的特定指令分别训练独立网络,理想的未来解决方案是构建具备强大零样本能力的统一超网络,通过扩大训练数据的规模与多样性来实现[24]
分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音
机器之心· 2025-12-17 09:42
核心观点 - Meta发布并开源了名为SAM Audio的统一多模态提示音频分割模型,该模型能够通过文本、视觉或时间片段提示,从复杂音频混合中分离出任意声音,彻底改变音频处理方式 [1] - 该模型在多项音频分离任务上实现了业界领先的性能,运行速度快于实时处理,并首次支持多种交互方式,为用户提供了更精确、直观的控制能力 [9][35][40] - Meta同时发布了支撑SAM Audio的核心引擎PE-AV、首个真实环境音频分离基准SAM Audio-Bench以及首个用于音频分离的自动评测模型SAM Audio Judge,旨在推动音频AI领域的发展 [10][26][33] 模型与技术架构 - **SAM Audio模型**:采用基于流匹配扩散Transformer的生成式建模框架,接收混合音频及多模态提示,生成目标音轨与剩余音轨 [12] - **核心技术引擎PE-AV**:基于Meta此前开源的Perception Encoder模型构建,通过将视频帧与音频在精确时间点上对齐,提供稳健且语义丰富的特征表示,是支撑SAM Audio效果的核心 [2][20][22] - **数据引擎与训练**:构建了一套完整的数据引擎,融合先进的音频混合技术、自动化多模态提示生成及伪标签流程,生成贴近真实场景的训练数据 [14] - **训练数据规模**:模型基于多样化的数据集训练,内容横跨语音、音乐及各类通用声音事件;PE-AV基于超过1亿条视频进行训练 [15][25] 功能与应用场景 - **三种分割方式**: - 文本提示:输入如“狗叫声”等描述以提取特定声音 [16] - 视觉提示:在视频中点击发声的人或物体以分离对应音频 [16] - 时间跨度提示:业内首创,允许用户标记目标声音出现的时间片段以实现更精确分割 [4][16] - **应用场景**:包括音频清理、背景噪声移除、从乐队演出录像中分离特定乐器声、滤除视频中的交通噪声、去除播客中的持续噪音等,旨在构建下一代创意媒体工具 [4][5] 性能与评估 - **性能表现**:在通用音频分离及语音、音乐、通用声音等所有音频类别上,性能均显著领先于以往工作,并达到了最佳领域专用模型的水平 [35][36] - **处理速度**:运行速度快于实时处理,实时因子约为0.7,在5亿到30亿参数规模下都能高效进行大规模音频处理 [40] - **多模态提示优势**:混合模态提示(如文本结合时间提示)的效果优于单一模态方法 [39] - **评估体系**: - **SAM Audio Judge**:首个用于音频分离的自动评测模型,提供无需参考音频的客观评测方式,从9个感知维度(如召回率、精确度、整体质量)评估分割质量 [10][26] - **SAM Audio-Bench**:首个全面的真实环境音频分离基准,覆盖语音、音乐、通用音效及所有提示类型,并率先引入无参考评估方式 [10][30][33] 发布与生态建设 - **开源与平台**:公司向社区开源了SAM Audio和PE-AV模型,发布了相关研究论文和代码,并将所有成果整合进全新的“Segment Anything Playground”平台供公众体验 [5][7][17][23] - **行业合作**:宣布与美国最大助听器制造商Starkey以及创业加速器2gether-International建立合作,探索模型在推动无障碍技术方面的应用 [43] - **行业意义**:此次发布被视为迈向更易用、更具创造力、更加包容的AI的一步,为理解复杂声学环境和响应多模态自然提示提供了新的可能性 [43] 当前局限性 - 目前不支持以音频本身作为提示 [44] - 无法在没有任何提示的情况下进行完整的音频分离 [44] - 在高度相似的音频事件(如从合唱中分离单一歌手或从交响乐中分离单一乐器)之间进行分离仍具挑战性 [44]
官宣!姚顺雨出任腾讯首席AI科学家,带队大语言模型、AI Infra
机器之心· 2025-12-17 09:42
腾讯大模型研发架构升级 - 公司升级大模型研发架构,新成立AI Infra部、AI Data部、数据计算平台部,以全面强化其大模型研发体系与核心能力 [2] - AI Infra部将负责大模型训练和推理平台技术能力建设,聚焦分布式训练、高性能推理服务等核心技术,构建AI Infra核心竞争力 [3] - AI Data部将负责大模型数据及评测体系建设 [4] - 数据计算平台部将负责大数据和机器学习的数据智能融合平台建设工作 [4] 关键人事任命与汇报关系 - 姚顺雨(Vinces Yao)出任腾讯“CEO/总裁办公室”首席AI科学家,向总裁刘炽平汇报;同时兼任AI Infra部、大语言模型部负责人,向技术工程事业群总裁卢山汇报 [2] - 王迪继续担任大语言模型部副总经理,向姚顺雨汇报 [5] - 刘煜宏担任AI Data部负责人,陈鹏担任数据计算平台部负责人,均向公司副总裁蒋杰汇报 [5] 新任首席AI科学家的背景 - 姚顺雨是人工智能领域,特别是“智能体(Agent)”方向备受瞩目的青年研究者 [6] - 在加入OpenAI之前,他已在语言智能体领域做出了一系列开创性工作,并参与构建了著名软件工程基准SWE-Bench和模拟电子商务网站环境WebShop [7] - 其论文总引用量已超过1.9万次 [7] - 其研究工作包括使AI通过多路径推理解决复杂问题的ToT(思维树)、让AI在推理中动态行动的ReAct,以及为AI智能体提供模块化认知架构的CoALA [11]
硬刚Sora2,万相2.6轻松定制角色、控制分镜,普通人也能当导演
机器之心· 2025-12-17 05:28
行业年度回顾与趋势 - 2025年视频生成领域发展突飞猛进,视频内容创作范式正在发生改变 [1] - 行业在B端和C端商业化落地速度惊人:B端大量AI短剧、漫剧上线,制作成本大幅降低;C端社交平台出现爆款特效,大量博主开始常态化使用AI制作剧情短片 [1] - 顶尖模型生成的画面在光影质感与物理规律上已臻化境,但用户体验门槛依然存在,如高不可攀的内测资格或不菲的订阅费用 [1] 公司产品发布与定位 - 阿里于12月16日正式发布新一代万相2.6系列模型,涵盖文生视频、图生视频、参考生视频、图像生成和文生图共5款模型,是目前全球功能覆盖最全面的视频生成模型家族之一 [2][3] - 万相2.6是**国内首个**具备声画一致性角色定制能力的模型,能通过角色参考固定IP形象,并参考输入视频中的音色,实现从画面到声音的完美复刻 [3] - 该版本进一步提升了画质、音效和指令遵循能力,单次视频生成时长实现了**国内最高的15秒**(参考生视频为10秒) [3] - 模型已同步上线阿里云百炼和万相官网,企业用户可直接调用API,千问APP也将于近期上线 [3] 核心技术能力突破 - 万相2.6具备“参考生视频”能力,成为**全球唯二、国内首个**拥有此能力的模型,允许将任意人或物设定为主角,在多镜头切换中保持核心主体、场景和环境氛围的统一 [7] - 模型在结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,提取主体的时序情绪、姿态、视觉特征及音色、语速等声学特征,实现从视觉到听觉的全感官一致性迁移 [9] - 模型具备“分镜控制”功能,通过高层语义理解将简单提示词转换为多分镜脚本,生成包含多个镜头的连贯叙事视频,确保内容、节奏和氛围的高一致性 [3][9] 产品功能实测与效果 - 实测中,万相2.6能精准提取参考素材中主体的形象特征、声音声线及惯用神态,并可通过提示词将其置入全新剧情 [11] - 在多角色声画同步测试中,模型对科技人物(如奥特曼、哈萨比斯、黄仁勋)的眉眼微表情、肢体语言及习惯性动作还原度极高,英文版能完美复刻其原本的声线与语调 [13][14] - 在细节把控测试中,模型能生成电影级高保真度的特写镜头,完美呈现如眼镜片因热气起雾、皮肤细微纹理和毛孔“呼吸感”等复杂细节,打破了AI生成人物常见的“塑料感” [17][18] - 在长叙事能力测试中,模型展现出了类似专业导演的运镜意识,能通过推拉摇移和景深变化掌控叙事节奏,并高度还原设定的视觉风格与人物情绪 [24] 图像生成能力升级 - 万相2.6在静态图像生成领域完成了版本迭代,在“高美学”与“强可控”上同时迈进 [26][27] - 在文生图方面,新模型实现了对艺术风格的“灵魂捕捉”,对肌理、色彩、笔触等细节刻画更为到位,并能进行平滑自然的风格融合 [27] - 针对人物写实照片,2.6版本综合优化了构图与光影,削弱了“AI塑料感”,人物神态更自然,肤质真实感大幅提升 [29] - 新版本改善了在图片中生成中英文文本的能力,并新增了“图文混排输出”和“多图融合生成”等功能,能依据逻辑创作具有叙事性的绘本或复杂商品组合场景 [31] - 模型提供了商用级的一致性保持能力,以及更精确的镜头远近视角和光影效果控制选项 [33] 应用场景与市场影响 - 万相2.6面向广告设计、短剧制作等专业场景展现出惊人潜力,通过连续提示词能生成完整叙事的短片 [16] - 万相模型家族已支持文生图、图像编辑、文生视频等10多种视觉创作能力,已广泛应用于AI漫剧、广告设计和短视频创作等领域 [35] - 万相2.6的发布标志着AI视频生成告别“抽卡”时代,迈向了精准可控的电影级创作新阶段,将昂贵的影视工业特权折叠进了手机和云端 [36]