量子位

搜索文档
一周六连发!昆仑万维将多模态AI卷到了新高度
量子位· 2025-08-17 09:00
技术发布概览 - 一周内连续发布六款多模态AI模型,覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源,包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强",与腾讯、阿里等并列 [5] 核心模型与技术突破 视频生成领域 - **SkyReels-A3**:支持音频驱动人像视频生成,预设8种运镜参数,可生成60秒单分镜视频,唇形同步指标Sync-C达8.66,超越OmniHuman(8.15)和Hydra(7.70) [8][10][12][14] - 技术原理:基于DiT视频扩散模型+插帧延展+强化学习动作优化,支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**:国内首个对标谷歌Genie 3的开源模型,支持25 FPS实时生成分钟级交互视频,数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**:单图像生成全景视频并还原三维空间,对标李飞飞World Labs,适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**:2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext,联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略:采用渐进式双任务强化策略优化SD3.5-Medium架构,降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**:多模态深度调研智能体整合图片检索与生成,自动插入图文混合文档;浏览器智能体支持社媒多模态分析(如小红书、Instagram) [37][38][44] - 技术手段:端到端强化学习(GRPO算法)、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**:中文音乐生成模型在音色、情感表现上超越Suno v4.5,优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**:基于MoE的语音合成框架,通过自然语言描述精准控制声音特征,域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**:2023年确立"All in AGI与AIGC"战略,2024年研发费用15.4亿元(同比+59.5%),研发团队占比73.41% [66][67][73] - **垂直领域聚焦**:CEO方汉强调垂直Agent与高频应用场景的价值,如数字人直播(国内市场规模近十万亿)、游戏引擎、具身智能等 [70][76] - **开源生态**:通过开源建立技术话语权,推动"技术-社区-应用"正向循环,强化行业地位 [78]
小扎天价薪酬难动FAIR朱泽园!清华学霸放话:死守基础研究,捍卫大模型开源
量子位· 2025-08-17 03:43
Meta内部AI组织架构调整 - Meta近期进行AI战略调整 正式成立MSL超级智能实验室作为新核心部门 专门负责打造下一代Llama系列模型[12][17][25] - MSL由Scale AI前CEO Alexandr Wang掌舵 目标提升模型在推理 自治和多模态理解能力[13][17][23] - FAIR与MSL形成平行但定位完全不同的架构:FAIR专注基础科学研究与理论突破 MSL侧重产品落地与AGI实现[17][20] 人才争夺与组织文化差异 - Meta为MSL团队提供高达1亿美元薪酬包疯狂挖角AI人才 包括OpenAI等竞争对手的工程师[24][36][39] - 行业出现"雇佣兵与传教士"文化论战:Meta被指吸引唯利是图者 而OpenAI等公司吸引真正AI信徒[49][50][51] - 尽管提供天价薪酬 Meta仍面临严重人才流失 过去几年大量优秀研究人员流向OpenAI等竞争对手[41][42][43] 研究员朱泽园的个案分析 - Meta FAIR研究员朱泽园拒绝内部转岗至MSL 明确表示从未在GenAI部门工作[6][7][11] - 朱泽园具备顶尖学术背景:两枚IOI金牌 ACM-ICPC金牌 清华本科 MIT博士 普林斯顿博士后[8][9] - 其研究聚焦大模型物理学原理 提出的逆转训练方法在Llama-2等开源模型取得实际效果[16][18][32] - 选择坚守FAIR因看重学术自由与研究氛围 认为FAIR与GenAI/MSL在基础设施上完全独立[30][31][33] AI行业竞争态势 - OpenAI采取保护性措施 在直播中禁止提及研究人员具体姓名以防止挖角[37] - Anthropic首席执行官明确表态不会因Meta天价offer而重新定薪 批评薪酬分配不合理[45][46] - 行业观点认为Meta现有AI人才水平参差不齐 需花费数十亿美元补位流失的高端人才[43][44][47]
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
量子位· 2025-08-17 03:43
百度AICA项目概况 - 百度举办第九期首席AI架构师培养计划(AICA),吸引茅台、奔驰、麦当劳、国网、中石化、中石油等头部企业技术高管参与[2][3] - 项目依托百度自研飞桨深度学习平台和文心大模型,培养兼具技术开发与项目落地能力的复合型AI架构师[5] - 本期96名学员从500多名报名者中筛选,61%来自国央企/上市公司/T1服务商,80%具备"管理+专业+技术"复合背景,覆盖能源、重工业、医疗等18个领域[42][44] 大模型技术发展趋势 - 大模型相关课题占比达51%,首次涉及多智能体协同等前沿技术应用[6][7] - AI技术进入软件3.0时代:1.0为传统编码,2.0为深度学习模型,3.0通过大模型提示词实现多功能任务[35] - 百度内部AI代码生成占比从2022年5%提升至50%,采纳率从15%增至80%,可处理复杂编程任务[28] - 大模型参数规模达十亿级,核心进步在于Transformer架构、注意力机制及专家MoE结构的优化[36][37][38] 产业落地关键方向 - AI竞争重点转向制造、医疗、金融等场景落地,需解决产品同质化、与核心业务挂钩等挑战[13][20] - 企业应用AI的三大价值:工作效率提升(OpenAI研究)、服务模式重构(赛迪研究院补充)、资源均衡分配[16][17] - 国内AI发展呈现技术比拼(智能水平替代参数规模)、商业应用(场景实践替代概念验证)、产业格局(头部企业主导)三大趋势[18] AI架构师能力要求 - 需掌握提示词工程(任务拆解/指令优化)、模型调优(微调/对齐)、全栈系统设计(开发至部署)、场景洞察四大核心能力[32][33] - 重点提升大模型输出质量与效率,包括结果优化、速度提升及Agent工作流整合[30][33] - 百度通过AICA提供文心大模型实战案例,已培养489名架构师覆盖工业、能源、金融等数十行业[47] 行业应用案例 - 麦当劳团队申报《麦麦巡警数字员工》课题,探索大模型优化与Agent工程化设计[45] - 百度文心大模型4.5 Turbo应用于罗永浩数字人直播,展现深度分析与持续输出能力[26]
大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷
量子位· 2025-08-17 03:43
大语言模型作为裁判的评估能力 - 大语言模型(LLM)正从工具进化为"裁判"(LLM-as-a-judge),开始大规模评判AI生成内容,但其可靠性与人类判断的一致性尚未深入验证 [1] - 核心问题在于AI裁判能否准确识别对话中谁在说话,这是评估角色扮演的基础 [2] - 即便表现最好的模型Gemini-2.5-pro准确率仅为68.8%,远低于人类实验组的90.8% [4][15] PersonaEval基准测试 - 上海交通大学课题组提出PersonaEval基准,测试模型从候选角色中选出真正说话者的能力 [2] - 基准特点包括:源于人类创作数据、精心设计语义接近的干扰项、专注于高难度案例 [13] - 包含三个测试集:文学小说、中文剧本、专家对话场景,覆盖不同方向 [19] 模型与人类判断的差异 - 顶尖模型在简单案例中也会失误,如混淆"罗辑"和"史强",因过度关注语言风格而非对话意图 [8][9][12] - 差异源于智能模式不同:LLM依赖语言模式匹配,人类基于意图和认知使用语言 [10] - 微调角色知识反而降低性能,而增强推理能力的模型表现更优 [20][22] 行业影响与未来方向 - 研究揭示了当前LLM-as-a-judge范式在基础维度上的缺陷,需重新思考与人类价值观对齐的方式 [23][24] - 提升方向应聚焦强化模型的上下文感知和推理能力,而非灌输角色知识 [22] - 该领域商业潜力巨大,涉及虚拟伴侣、内容创作等应用场景 [6] 研究团队与成果 - 论文由上海交通大学王德泉课题组完成,第一作者周凌枫 [26][28] - 论文将发表于2025年COLM会议,项目代码和论文已开源 [5][29]
标准化3D生成质量榜单来了!首创层次化评价体系,告别“谁的demo更吸睛”主观评估
量子位· 2025-08-16 03:58
文章核心观点 - AI 3D生成技术在2025年相比2024年质量显著进化 成为继AI视频后最被看好的AIGC应用领域 [1] - 上海人工智能实验室联合多所高校发布Hi3DEval评测体系 通过三层评测协议实现从整体到细节的多粒度分析 解决传统3D生成评测粗糙的问题 [3][5] - 首期榜单涵盖30个主流模型 腾讯混元Hunyuan3D 2.5以16.561分位居Image-to-3D任务榜首 微软TRELLIS(15.1989分)和Stability AI SPAR3D(15.0014分)分列二三位 [6][7] 评测体系创新 - 对象级评估涵盖几何合理性(结构完整性/保真性) 几何精细度(边缘锐利度/部件完整性) 纹理质量(清晰度/细节保真度) 几何-纹理一致性(纹理与几何对齐) Prompt-3D一致性(生成结果与输入匹配度)五个维度 [9][10][11][12][13][14] - 部件级评测聚焦椅子腿/扶手等细分部位 诊断局部几何问题 评估维度包括局部几何合理性(符合物理与设计逻辑)和局部几何精细度(细节清晰度与丰富度) [15][16] - 材质主题评估采用光照反射信息 从细节与复杂性(视觉丰富度) 色彩与饱和度(颜色自然度) 一致性与伪影(跨视角一致性) 材质合理性(反射率/粗糙度等物理特性)四个维度分析 [17] 技术实现突破 - 采用多视角环绕视频+原生网格的混合3D表征 视频表征检测跨视角结构稳定性与纹理漂移 原生3D表征支持部件级几何评估 [26] - 在人类偏好一致性上超越主流指标:Text-to-3D任务中DC指标达0.767(CLIP Score仅0.647) CA指标达0.733(CLIP Score仅0.543) Image-to-3D任务中C2指标达0.771(CLIP Score仅0.678) [27] 行业影响 - 标准化评测设置统一输入提示/渲染视角/光照条件 消除实验环境偏差 保障评分公正性 [21] - 提供可追踪/可复现的对标基准 推动3D生成技术向高质量与高透明度发展 改变过去依赖主观demo评价的行业现状 [7][28]
宇树机器人“撞人逃逸”火到国外,王兴兴回应:下次不遥控了
量子位· 2025-08-16 03:58
事件概述 - 宇树机器人H1在人形机器人运动会1500米比赛中以6分34秒夺冠,创造世界纪录[8] - 比赛过程中出现"撞人逃逸"事件引发全球热议,视频在油管、Reddit、X等平台疯传[1][11] - 后续分析显示事故主因是两名人类控制员交接遥控器时未及时发出避让指令[12][13] 技术分析 - 当前人形机器人跑步需遥控主因:动态平衡问题(传感器/算法/执行器反应速度不足)[18][19] - 环境感知存在延迟(深度相机和激光雷达数据在快速移动时精度不足)[21] - 对比案例:比赛亚军天工Ultra机器人实现无遥控自主奔跑[22] - 宇树H1实际具备3.3米/秒移动速度(最高可达5米/秒),比赛平均速度3.8米/秒[27][28] 产品参数 - 宇树H1身高1.8米,重47公斤,配备M107电机(扭矩360牛·米)[27] - 单腿5自由度/单臂4自由度,感知系统含3D激光雷达+深度相机[27] - 该机型为宇树首款通用人形机器人,2023年8月发布[25][26] 行业动态 - 不同比赛项目采用不同控制策略:自由搏击项目采用人工操控测试硬件抗冲击能力[30][32] - 足球项目完全自主运行以测试算法协作能力[35][38] - 公司CEO王兴兴确认2025年将参加北京人形机器人半程马拉松并实现全自主奔跑[47] 公司表态 - 宇树承认遥控策略存在操作员体力透支问题(需接力跟跑)[46] - 强调遥控仅为追求速度的临时方案,技术上已具备自主运动能力[45] - 指出公众对机器人事故关注度显著高于正常表现的现象[50] - 预告2024下半年至2025年将有更多技术突破[45][47]
让AI创作不千篇一律,提示词随机插词汇就行
量子位· 2025-08-16 03:58
研究背景与核心观点 - AI写作同质化问题并非源于模型固有缺陷,而是启动条件不足导致[2][3] - 通过人类提供开头或插入随机词汇可显著提升AI写作多样性[2][37] - 研究通过三类同质化指标系统评估文本多样性[12][17] 实验设计与数据构建 - 数据来源于Reddit子版块r/shortstories和r/WritingPrompts[13] - 从r/WritingPrompts提取100个提示及其最多10条人类续写回复[13] - 从r/shortstories收集100篇独立叙事文本用于风格对比[14] - 筛选500-2000字长度的故事并保留投票数最高的前10篇保证质量[15] - 模型续写采用固定温度0.8和top-p为1的参数设置[16] 同质化评估指标体系 - 文体风格指标:Unique-N衡量重复短语比例,计算文体特征方差[20] - 语义指标:通过多层级嵌入向量分析语义多样性[21] - 情感指标:采用VADER工具进行情感分布分析[22] - 情感评分范围[-1,1],s>0.05为正面,s<-0.05为负面,[-0.05,0.05]为中性[31] 人类与模型表现对比 - 在Short Stories数据集中人类文体特征方差最低(风格最统一),模型反而更多样[5] - 人类作品约30%呈现负面情感,情感表现更丰富[32] - LLM生成情感明显偏向正面,多样性不足[34] - 人类在Writing Prompts数据集中多样性得分高于模型[23] - 模型内部语义相似度普遍高于人类,存在同质化倾向[24][27] 上下文长度影响测试 - 提供不同长度人类创作内容作为提示[35] - GPT-4o的Unique-1指标提升0.0427至0.2734,文体方差增加1.07783至3.2672[36] - 上下文长度对文体和语义多样性均无显著影响[36] 随机词汇注入效果 - 使用google-10000-english词表保留名词/形容词/副词/动词[38] - 每次生成随机抽取5个单词附加到提示中[39] - GPT-4o的Unique-1提升0.0165至0.3245,Unique-2提升0.0394至0.7716[40] - GPT-35-turbo的Unique-3提升0.0448至0.9124,文体方差增加0.0416至0.3795[40] - 所有模型多样性指标均提升但仍低于人类水平[40] 技术局限与未来方向 - MiniLM嵌入模型最大输入256token可能导致长文本信息截断[25] - 使用BGE和E5(512token)嵌入模型后相似度数值显著升高[26][27] - 高维嵌入与真实语义相似度的关系需进一步研究[30] - 需探索提示中包含何种上下文能使模型达到人类级多样性[41]
小扎又开源了:7B实现自监督学习SOTA
量子位· 2025-08-16 02:00
核心观点 - Meta发布全新开源视觉模型DINOv3,首次证明自监督学习模型在广泛任务中超越弱监督学习模型 [1] - DINOv3采用无标注方法,数据规模扩展至17亿张图像,模型规模扩展至70亿参数 [1] - 该模型在缺乏标注或跨领域场景中表现绝对领先,并在计算机视觉三大核心任务(分类、检测、分割)上实现SOTA [3] 技术突破 - 采用创新的自监督学习方法,专注于生成高质量高分辨率视觉特征 [6] - 首次实现单一冻结视觉骨干网络在多项密集预测任务中超越专门化解决方案的性能 [6] - 引入"Gram anchoring"新方法解决训练中密集特征图退化问题,显著提升局部特征质量 [8][15] 训练方法 - 构建包含17亿张图片的预训练数据集,主要来自Instagram公开图片和少量ImageNet图片 [10][11] - 采用判别式自监督方法,通过Sinkhorn-Knopp算法和Koleo正则稳定特征分布 [11] - 模型参数从11亿扩展至70亿,增强骨干网络表示能力 [11] - 引入RoPE-box jittering使模型对分辨率、尺度和长宽比变化更具鲁棒性 [13] 性能表现 - 在ADE-20k分割任务中达到55.9,相比DINO的31.8和DINOV2的49.5有显著提升 [4] - 在NYU深度估计任务中达到0.309,优于DINO的0.537和DINOV2的0.372 [4] - 在DAVIS视频跟踪任务中达到83.3,相比DINO的68.7和DINOV2的76.6有明显进步 [4] - 在ImageNet ReaL分类任务中达到90.4,接近SIGLIP 2的90.5 [4] 应用场景 - 消除研究人员为特定任务对模型进行微调的必要 [23] - 通过蒸馏构建开发环境友好的模型矩阵,包括ViT和ConvNeXt架构 [23] - 在卫星影像分析中,将肯尼亚某地区树冠高度测量的平均误差从4.1米降低至1.2米 [28] - 在多个遥感任务中取得SOTA,包括语义地理空间任务和高分辨率语义任务 [29] 发展历程 - 从DINO初步研究使用100万张图像训练8000万参数模型 [38] - 到DINOv2基于1.42亿张图像训练1B参数模型 [38] - 再到DINOv3的70亿参数和17亿张图片 [38] - 标志着视觉模型大规模自监督训练的持续进步 [30]
北大提出首个复数大模型,2比特量化,推理仅加法,可手机部署!
量子位· 2025-08-16 02:00
模型压缩技术突破 - 北大团队提出iFairy方案,首次将大模型权重量化至复数集合{+1, -1, +i, -i},仅需2比特存储 [3][6] - 相比FP16模型,体积压缩至原1/8,大幅降低存储需求 [6][14] - 量化后权重分布均匀,模型充分学会利用新编码系统 [31] 计算效率革新 - 复数权重与激活值相乘无需实际乘法运算,仅需加减或数据交换操作 [7][19] - 核心矩阵乘法(GEMM)中的浮点乘法被硬件成本近乎零的操作替代 [21] - PhaseQuant算法将权重映射到复平面四个单位根,实现无乘法计算 [16][19] 架构创新 - 整个Transformer架构被复数化改造,包括复数注意力机制和复数旋转位置编码 [8][22][24][25] - 注意力计算使用Hermitian内积实部作为相似度分数,自然得到实数分数用于Softmax [24] - 复数域位置编码通过简单复数乘法实现旋转操作 [25] 性能表现提升 - 700M参数iFairy模型在Wiki2和C4数据集平均困惑度(PPL)为10.08,比FP16 LLaMA的12.33降低18% [9][28] - 1.3B参数iFairy模型平均PPL为9.34,比FP16 LLaMA的11.25降低17% [9][28] - 在下游任务评测中,iFairy在多个任务评分反超全精度LLaMA基座模型 [29][30] - 700M iFairy在ARC-c任务得分24.06,高于FP16 LLaMA的23.00 [30] - 1.3B iFairy在ARC-c任务得分25.77,高于FP16 LLaMA的23.50 [30] 行业影响 - 该技术为大模型在手机、汽车等边缘设备部署扫清存储障碍 [8][14] - 实现数量级推理加速可能,使GPT-5级别模型在手机上运行成为可能 [8][21] - 相关论文及代码全面开源,提供从训练到评测的完整可复现流程 [10][33][34]
模仿人类推理修正过程,阶跃星辰提出形式化证明新范式 | 开源
量子位· 2025-08-15 10:05
形式化定理证明新范式发布 - 阶跃星辰正式发布并开源形式化定理证明大模型StepFun-Prover-Preview-7B和StepFun-Prover-Preview-32B [1] - 模型采用基于环境反馈的强化学习训练流程,模拟人类推理过程中的实时交互与修正 [2] - 模型在基准测试集miniF2F-test上表现优异,32B版本pass@1通过率达70%,领先已知模型4%以上 [9][10] 技术架构与训练方法 两阶段监督微调 - 分阶段微调策略使模型获得工具使用基础能力 [4] - 第一阶段利用开源Lean 4数据建立代码补全能力 [5] - 第二阶段通过高质量冷启动数据训练模型理解数学题求解与Lean验证的交互 [5] 工具集成强化学习 - 采用GRPO算法进行强化学习训练,赋予模型自然语言解题能力 [5] - 模型可主动插入<sketch>标签生成Lean 4代码并执行,通过<REPL>反馈实现调试式修正 [5][6] - 奖励函数设计为REPL验证通过得1分,失败得0分 [7] 迭代优化机制 - 采用"RL-SFT-RL"循环优化方法,逐步提升模型推理能力 [8] - 筛选强化学习中成功的高难度样本重新用于监督微调,增强推理鲁棒性 [12] 性能表现与案例 - StepFun-Prover-Preview-7B以66% pass@1准确率超越DeepSeek-Prover-V2-671B(61.9%)和Kimina-Prover-72B(63.9%) [10] - 案例显示模型能主动去除冗余证明步骤、根据超时反馈调整结构、基于环境反馈有效改错 [10][13][15] 资源与后续计划 - 模型已开源在GitHub和Huggingface平台,技术报告发布于arXiv [17] - 团队将持续探索形式化推理模型方向 [16]