Workflow
量子位
icon
搜索文档
观众抢位中!锁定MEET2026,让我们畅聊AI|最新嘉宾阵容
量子位· 2025-11-27 04:34
大会核心信息 - 大会主题为“共生无界,智启未来”,关注AI等智能科技如何穿透产业、学科与场景边界,成为社会演进核心动能[2] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题[3] - 内容涵盖学术前沿与商业落地碰撞,以及来自Infra、模型、产品产业的领先技术成果[4] - 大会将权威发布人工智能年度榜单与年度AI趋势报告[5][93] 嘉宾阵容与研究方向 - 张亚勤:数字视频和AI领域世界级科学家,曾任百度总裁,发明多项图像视频压缩传输技术被国际标准采用[11][12] - 孙茂松:主持国家973项目、国家社科基金重大项目等20余项科研项目[15] - 王仲远:发表国际顶级学术会议及期刊论文100余篇,获得ICDE 2015最佳论文奖,研究兴趣包括大模型、多模态等[19] - 王颖:现任百度集团副总裁,负责百度文库、百度网盘等重点业务的产品创新和落地[23][24] - 何晓冬:发表论文200余篇,被引用6万余次,带领团队打造京东JoyAI大模型并应用于零售、物流、金融、健康等行业[28][29] - 韩旭:文远知行创始人,带领公司在全球11国超30城开展自动驾驶研发测试运营,并于2024年登陆纳斯达克[33][34] - Daniel Povey:小米集团首席语音科学家,著名开源语音识别工具Kaldi提出者,谷歌学术引用近52000次[38] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一[42][43][46] - 尤洋:潞晨科技创始人,曾获ACM-IEEE CS George Michael Memorial HPC Fellowship,曾任职谷歌、微软、英伟达等公司[48] - 杨帆:商汤科技大装置战略业务负责人,主导推动身份验证、娱乐、安防等核心业务规模化商业落地[51][52] - 万卫星:高通公司AI产品技术中国区负责人,负责高通智能终端侧人工智能引擎软硬件规划及生态系统建设[54][55] - 陈晓建:亚马逊云科技大中华区产品部总经理,负责云服务在大中华区落地、产品管理及业务拓展[58][59] - 朱宁:研究涵盖行为金融学、中国宏观经济等领域,所著《刚性泡沫》等畅销书被译为多国语言[62][63] - 赵俊博:首创数据库大模型TableGPT,参与过PyTorch早期研发,师从图灵奖得主Yann LeCun[66] - 喻友平:提出“平台+应用+服务”大模型落地三级引擎战略,带领公司入选2025《财富》中国科技50强[69][70] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型,首倡“群体智能”理念推动AGI发展[73][74] - 乔梁:太初元碁联合创始人,曾主导计算生物、流体力学等AI4S前沿领域国产应用研发及成果转化[78][79] - 王潜:自变量机器人创始人,致力于研发由端到端大模型驱动的通用机器人[81][82] - 杜知恒:小宿科技联合创始人,曾在红杉中国对冲基金、高瓴资本、百度等企业从事投资、战略岗位[86][87] - 徐达峰:蚂蚁集团平台体验技术部负责人,致力于通过AI驱动的前端研发范式革新实现企业级研发效能突破[90][91] 大会发布内容 - 将发布2025人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[94] - 将发布2025年度AI十大趋势报告,结合技术成熟、落地现状、潜在价值等因素提名十大AI趋势并进行深入分析[95] 大会影响力 - 每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[98] - 已成为智能科技行业年度风向标,汇聚技术、产业、投资领域代表性企业和人物[98]
视频大模型新基元:用Object Tokens重塑细节感知与指代理解
量子位· 2025-11-27 04:34
文章核心观点 - 北大和UCSD团队提出VideoOrion视频理解框架,通过将前景物体的时空动态显式编码为Object Tokens,并与Context Tokens并行输入大语言模型,解决了现有Video-LLM因下采样或特征聚合导致的细节丢失和语义纠缠问题[2][3] - 该方法在多个主流视频理解基准测试中性能全面领先,并自然演化出视频指代问答能力,为细粒度视频理解和需要锁定实例的任务提供了天然接口[4][6][17] 核心方法 - 采用双分支并行编码架构:Context Tokens承载背景/场景等泛化信息;Object Tokens通过检测-分割-跟踪流水线提炼对象随时间的演化特征,形成紧凑且语义解耦的Token[9][10] - 对象动态Token化使大语言模型能沿对象维度整合细节,提升细粒度问答能力,例如能清晰描述“红色三轮滑板车+拖地组件”的细节或“黑色泳装+跳板后空翻”的动作要素[6][7] - 针对视频中前景物体进出画面和场景突变,提出自适应切片策略以稳健检测与关联对象,避免均匀切段带来的跨段错配,最佳组合为RAM++分段 + GroundingDINO提案 + XMem跟踪[14] 性能表现 - 在7B LLM设置下,VideoOrion在MVBench、EgoSchema、Perception-Test、VideoMME、ActivityNet-QA上的准确率分别达到63.5%、65.1%、65.2%、54.6–55.3%、57.7%,相对同骨干网络的VideoLLaMA2/2.1等模型,相对涨幅分别为+10.1%、+14.6%、+15.6%、+8.7%、+7.8%[16][17] - VideoOrion+(使用SigLIP编码器和16帧)性能进一步提升,在上述基准上达到67.4%、65.0%、65.9%、58.9–61.5%、60.3%的准确率[17] - 得益于显式Object Token,模型在VideoRef45K指代理解基准上零样本即有效,经小规模微调后,多项指标(BLEU@4、METEOR、ROUGE_L、CIDEr、SPICE)全面领先Artemis、Merlin等方法[17][18] 消融分析与技术洞察 - 消融实验证实对象分支的必要性:在等数据量下,去掉对象分支的基础模型在各基准上均落后;对象分支预训练整体更优[19][20] - Object Token数量存在适度原则:模型在最多64个Object Token时表现最稳定,过少信息不足,过多分散注意力[21] - 双分支结构优势明显:仅用Object Token会损失背景信息,仅用视频分支缺乏细节,双分支协同在保证全局线索的同时抓取关键对象信息[22][25] - 不同流水线组件组合均显著优于仅视频分支,验证了方法鲁棒性,最佳组合为RAM++分段 + GroundingDINO提案 + XMem跟踪[14][23]
NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文,何恺明Faster R-CNN获时间检验奖
量子位· 2025-11-27 03:00
最佳论文奖核心观点 - NeurIPS 2025最佳论文奖共评选出4篇获奖论文,其中3篇为华人一作,涵盖大语言模型多样性、注意力机制优化、强化学习深度扩展等前沿方向[1] - 另有3篇论文获得Runner-up奖项,研究领域包括扩散模型理论、自监督强化学习、在线学习理论等突破性进展[2] - 阿里Qwen团队提出的门控注意力机制论文获奖,该技术已应用于Qwen3-Next模型[24] 人工蜂群思维论文 - 提出"人工蜂群思维"概念,揭示大语言模型存在显著模型内重复和模型间同质性问题[7][8] - 实验显示超60%的模型响应相似度超过0.8,即使采用min-p等解码策略仍无法有效提升多样性[8] - 构建INFINITY-CHAT数据集,包含26K真实世界开放式查询和31250条人类标注,形成首个系统评估开放式查询的资源[12] - 研究发现现有大模型评估系统与人类评分校准度较低,难以捕捉人类多元偏好[14] 门控注意力机制论文 - 阿里Qwen团队提出在缩放点积注意力后应用头特定sigmoid门控能持续提升模型性能[18] - 门控机制将基线模型中平均46.7%指向首个token的注意力占比降至4.8%,显著缓解注意力沉陷问题[20] - 在RULER基准上实现超10分的增益,支持更大学习率和批次大小的稳定训练[20][24] - 实验证实元素级门控最优,头特定门控比头共享更有效,sigmoid激活函数表现最佳[21] 深度强化学习论文 - 将网络深度提升至1024层,相比传统2-5层浅层架构实现2-50倍性能提升[28][29] - 在10个任务中的8个超越SAC、TD3+HER等主流基线算法,半数环境实现超20倍性能飞跃[29] - 深度扩展触发质的行为变化,达到临界深度时智能体习得翻墙、坐姿移动等全新技能[31] - 深度扩展比宽度扩展更具计算效率,参数与计算量增长更平缓[34] 扩散模型理论论文 - 识别出泛化时间和记忆化时间两个关键训练时间尺度,泛化时间与训练集大小无关[40] - 记忆化时间随训练集大小呈线性增长,形成随训练集规模扩大而拓宽的泛化窗口[40] - 实验显示不同训练集大小下泛化时间基本稳定,模型容量影响两个时间尺度出现早晚[44] - 理论分析表明过参数化场景下会出现分离的特征值区间,分别对应泛化和记忆化阶段[45] 时间检验奖论文 - Faster R-CNN通过区域提议网络实现端到端接近实时的目标检测,帧率达到5fps[4][53] - 核心创新是引入区域提议网络,仅需300个提议区域即可优于传统Selective Search的2000个提议性能[52][53] - 提议计算耗时仅10ms,在PASCAL VOC和MS COCO等数据集上取得当时最先进检测精度[53] - 该框架的共享特征和锚点机制深刻影响了后续3D目标检测、实例分割等计算机视觉领域发展[55]
没有身体就没有AGI!Hillbot苏昊对谈千寻高阳:具身智能泡沫很大但进展真实
量子位· 2025-11-27 03:00
文章核心观点 - 具身智能是通往通用人工智能的必经之路,其本质与大语言模型无异,核心在于数据规模的扩展[2][3][4] - 行业正处于“全民做科研”的泡沫与真实进展并存阶段,技术突破是连续过程,机器人具身模型的GPT-3.5时刻预计在2-3年内到来[31][33][38][41] - 中国在具身智能领域具备硬件与软件协同设计、供应链效率和现实世界数据采集的显著结构性优势[25][26][27][30] 具身智能的战略重要性 - 具身智能是实现通用物理智能和通用智能的关键出口,缺乏身体则无法验证认知和改变世界[2][16][19] - 无论是虚拟智能体还是物理机器人,与环境的交互和经验学习是获得通用能力的必不可少环节[21][23] - 科学发现和拓展人类生存空间等宏大目标,均需具身智能实现感知与交互的配合[19] 技术路径与突破预期 - 技术路径借鉴大语言模型的成功经验,核心是解决预训练问题,让模型具备先验知识[39][40] - 世界模型是技术框架的重要组成部分,旨在建立对物理世界常识的表征,视觉-语言-动作架构需要其支撑[34][36] - 下一个突破是模型听话程度和完成多样化物理行为能力的连续提升,最终能串联复杂任务[40][41] - 机器人具身模型的GPT-3.5时刻预计还需2-3年,GPT-4时刻则需更长时间[41] 中美竞争与中国优势 - 中美在顶尖技术层面差距不大,美国在人才绝对数量和资本对“世界第一”量级的投入上具有优势[24][25] - 中国的核心优势在于硬件和软件的协同设计能力、供应链效率以及现实世界数据采集的迭代速度[25][26][27] - 硬件迭代周期在中国可比美国快3-10倍,配件获取速度以天为单位,而美国需周以上[25][26] - 中国全社会对具身智能的投入度和决心更强,且在该领域“没有退路”,必须持续支持[30] 行业现状与挑战 - 当前AI行业处于“全民做科研”状态,因问题宏大,资本和研究力量过早介入导致泡沫与真实进展并存[31][33] - 具身智能发展的最短板是数据,其瓶颈与大语言模型的电力瓶颈不同[27] - 芯片供应,特别是端上芯片,是中国面临的一个明确挑战[30]
爆发力超越波士顿动力液压机器人,PHYBOT M1实现全球首次全尺寸重型电驱人形机器人完美拟人态后空翻
量子位· 2025-11-26 09:33
核心观点 - 动易科技推出的全尺寸人形机器人PHYBOT M1,是全球首个实现完美拟人态后空翻的全尺寸重型电驱机器人,其技术突破标志着电驱系统在动态性能上已全面超越传统液压方案 [4][5][16] 产品性能与技术突破 - PHYBOT M1身高近1.8米,体重近70公斤,在成人尺寸平台上实现了后空翻这一高难度动态动作 [2][4] - 机器人最新一代关节峰值扭矩超过800N·m,整机峰值功率输出超过10000W,整机扭矩密度突破10 N·m/kg [16] - 后空翻动作系统性验证了机器人极致的动态平衡、瞬间的万瓦级爆发力以及全身在极端工况下的精准协同能力 [7] 行业背景与挑战 - 行业内能够展示高动态运动能力的人形机器人多数采用小尺寸/中尺寸机体设计,以降低惯量和控制难度 [9] - 全尺寸人形机器人面临体惯量大、关节扭矩不足、步态控制带宽有限等技术挑战,强运动能力与全尺寸难以兼顾 [9][11][12] - 行业尚未真正解决全尺寸人形机器人在“动力—结构—控制”三者之间的平衡 [10] 核心算法创新 - 基于加速度约束的轨迹重映射算法,对不符合物理实际的轨迹进行缩放,提升强化学习对轨迹的跟踪效果 [19] - 基于参数辨识的域随机化方法,在参数辨识基础上进行域随机化,提升策略从仿真到实物的转移成功率 [20] - 采用双阶段训练法,先完成大致动作训练,再进行微调优化,保证机器人在性能极限下的安全与表现 [21] 商业化前景与应用 - 电驱系统在爆发力与响应速度上媲美甚至超越液压方案,并在能量效率、可控性、静音运行与维护成本上实现全面领先 [16] - 机器人平台展示了在生产制造、物流搬运、特种应急等真实、复杂、高强度的生产环境中替代乃至超越人类作业的潜力 [7][16][24] - 动易科技致力于将人形机器人从实验室平台转变为各行各业可信赖的“生产力担当” [24]
观众抢位中!锁定MEET2026,让我们畅聊AI|最新嘉宾阵容
量子位· 2025-11-26 09:33
大会概况 - 大会主题为"共生无界,智启未来",关注AI技术穿透产业、学科与场景边界[2] - 聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术话题[3] - 涵盖学术前沿与商业落地的最新碰撞,包括Infra、模型、产品产业的技术成果[4] - 预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[98] 嘉宾阵容 - 张亚勤院士为数字视频和AI领域世界级科学家,曾任百度总裁,拥有多项国际标准技术专利[11][12] - 孙茂松担任清华大学人工智能研究院常务副院长,主持国家973项目、国家社科基金重大项目等20余项科研项目[15] - 王仲远博士为北京智源人工智能研究院院长,发表论文100余篇,获得ICDE 2015最佳论文奖,专注大模型、多模态研究[19] - 何晓冬博士为IEEE Fellow,京东集团高级副总裁,发表论文200余篇被引用6万余次,主导打造JoyAI大模型[28][29] - 韩旭创立文远知行,带领公司在全球11国超30城开展自动驾驶运营,2024年登陆纳斯达克成为"全球Robotaxi第一股"[33][34] - Daniel Povey为小米首席语音科学家,开发开源语音识别工具Kaldi,谷歌学术引用近52000次[38] - 方汉拥有31年互联网经验,为中文Linux奠基人之一,参与创立昆仑万维[42][43] - 尤洋为潞晨科技创始人,高性能计算领域谷歌学术引用最高博士毕业生,曾任职谷歌、英伟达等企业[48] - 杨帆主导商汤科技大装置战略业务规划,推动AI专用计算中心建设,担任工信部人工智能专家库专家[51][52] - 赵俊博首创数据库大模型TableGPT,参与PyTorch早期研发,师从图灵奖得主Yann LeCun[66] 行业趋势与成果发布 - 大会将发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[94] - 发布年度AI十大趋势报告,深入分析技术成熟度、落地现状和潜在价值[95] - 报告将提名代表机构和最佳案例,聚焦释放巨大潜力的AI趋势[95]
全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密
量子位· 2025-11-26 09:33
产品发布与定位 - 腾讯混元大模型团队正式发布并开源轻量级视频生成模型HunyuanVideo 1.5 [1] - 该模型基于Diffusion Transformer架构,参数量为8.3B,支持生成5-10秒的高清视频 [2] - 模型定位为“开源小钢炮”,以8.3B的极轻量尺寸实现开源最佳效果,显著降低使用门槛,可在14G显存的消费级显卡上运行 [6] 核心能力与性能 - 模型支持中英文输入的文生视频与图生视频,具备强指令理解与遵循能力,能精准实现运镜、流畅运动、写实人物和情绪表情等多种指令 [5][7] - 支持写实、动画、积木等多种风格,并可在视频中生成中英文文字 [5] - 可原生生成5–10秒时长的480p和720p高清视频,并通过超分模型提升至1080p电影级画质 [6] - 在10秒视频生成效率上,较FlashAttention3提速1.87倍 [15] 技术架构与创新 - 采用两阶段框架:第一阶段为8.3B参数的DiT模型,第二阶段通过视频超分模型提升视觉质量 [11][12] - 创新提出SSTA稀疏注意力机制,显著降低视频长序列生成的计算开销 [15][17] - 采用多模态大模型作为文本编码器,并引入byT5对文本OCR进行独立编码,增强视频文本元素的生成准确性 [20] - 采用多阶段渐进式训练策略,结合Muon优化器加速模型收敛,优化运动连贯性、美学质量及人类偏好对齐 [20] 质量优化与增强 - 为图生视频和文生视频任务分别定制了不同的RLHF策略,以修正伪影并提升运动质量 [23] - 视频超分系统采用8.3B主模型作为骨干网络,设计潜空间特征上采样模块,并应用基于MeanFlow的蒸馏算法缩短推理时间 [21][22] - 集成模型蒸馏、Cache优化等关键技术,大幅提升推理效率,降低资源消耗 [28] 应用与生态 - 腾讯元宝最新版已上线该模型能力,用户可在元宝中通过文字和图片生成视频 [3] - 模型已在项目主页、Github、Hugging Face等平台开源,并提供技术报告 [31]
开源模型叫板Nano Banana Pro!Stable Diffusion原班人马杀回来了
量子位· 2025-11-26 09:33
模型发布与定位 - Flux 2由黑森林实验室推出,是Flux 1的升级版,定位为生产力工具[1][2] - 模型发布即开源,获得Hugging Face联创支持[1] - 对标谷歌Nano Banana系列,主打性价比优势,质量接近但价格更低[42] 技术能力与性能 - 具备多参考图像处理能力,可同时参考多达10张图像[3][16] - 支持精细控制,如根据参考人物和指定姿势草图生成图像[5][7] - 图像编辑支持高达4MP分辨率(2560x1440像素)[44] - 在指令遵循、图像细节和照片真实感方面有显著增强[63] 产品版本与定价 - 提供四个版本:pro版(生产工作流,生成速度<10秒,文生图起价$0.03)、flex版(可调参数,最高质量,文生图起价$0.06)、dev版(32B开放权重,非商业免费)、klein版(即将推出)[16][17] - pro版生图质量媲美顶尖闭源模型Nano Banana,但成本更低[16] - 普通用户可通过Flux Playground在线试玩,开发者可通过Hugging Face获取权重或调用第三方API[17] 实测表现 - 在食谱图解生成测试中,pro版一分钟内生成4张图,拼写和内容准确[18][19][21] - 图像编辑功能能准确理解指令,如给马斯克添加黄色头盔且保持背景不变[31][33] - 支持多人物融合生成,能实现马斯克、李飞飞等多人同框效果[35][37] - 目前对中文支持较弱,但可用中文提示词要求生成英文内容[29] 市场对比与优势 - 网友实测显示在老照片修复、真实感增强方面表现优于Nano Banana系列[46][48] - 相比Nano Banana Pro的有限免费次数,Flux 2具有价格优势[42] - 团队背景雄厚,由Stable Diffusion原班人马创建,Flux 1曾获AI大神卡帕西站台[55][57][59]
国内最大AI“学术-产业-人才”盛会来了!20位院士+50位院长+300位专家集结北京海淀
量子位· 2025-11-26 06:37
大会概况 - 2025中国人工智能大会暨全国人工智能学院院长(系主任)年会将于2025年1月29-30日在北京海淀召开[2][5] - 大会主题为“智启新元 海创未来”,旨在打造国内规模最大的AI领域“学术—产业—人才”高端联动平台[347] - 预计将有20余位中外院士、50余位学院院长(系主任)以及300余位产学研专家学者与人工智能领域领军企业代表参与[347] 核心议题与前沿方向 - 大会设立23场专题会议,覆盖安全可信大模型、具身智能、6G+AI、空间智能、智能芯片、模式识别等核心前沿领域[347] - 重点关注AI技术突破,包括为AI注入“可控灵魂”、实现从虚拟认知到物理行动的跨越、编织空天地海一体化智能网络、重构数字与现实的融合边界等[347][348] - 探索AI在千行万业的应用,如幸福康养重新定义全生命周期健康服务、人机协同引领传播范式新变革、智慧水利构筑数字孪生新基建、林草生态谱写绿色发展新篇章[349][350] 产业生态与人才培养 - 着力加强“学术前沿”与“教育之本”的深度对话,探索“创新链、产业链、人才链”的深度耦合[347] - 专题包括学科交叉人才培养、产教融合构建自主创新体系、通识教育提升全民数字素养、青年科学家创新等[351] - 旨在构建支撑AI可持续发展的沃土,让创新血液持续奔涌,为推动“十五五”人工智能发展注入全新动能[351][352] 权威发布与产业影响 - 大会将权威发布《北京人工智能产业白皮书(2025)》、《打造全球人工智能产业高地行动方案(2025年-2027年)》,系统勾勒技术演进与产业生态全景[352] - 发布“2026人工智能领域十大问题”,为我国下一阶段AI科研攻关与产业创新锚定战略方向,提供关键决策参考[352] - 通过互动体验展览与同期特色活动,构筑“学术-产业”双融平台,推动人工智能迈向新纪元[352][353]
量子位编辑作者招聘
量子位· 2025-11-26 06:37
公司平台影响力 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 截至2025年,公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量超200万[12] - 在新榜和清博等第三方数据平台,公司是AI及前沿科技行业TOP1新媒体[12] 招聘岗位方向 - AI产业方向:关注基建层创新,包括芯片、AI Infra、云计算领域[5][6] - AI财经方向:关注AI领域创投和财报,跟踪产业链资本动向[6] - AI产品方向:关注AI在应用和硬件终端方向的进展[6] - 社招岗位覆盖编辑、主笔、主编各个层级,校招面向应届毕业生[4][6] 岗位职责要求 - AI产业方向岗位需跟进芯片、GPU、NPU、服务器等领域新进展,并对前沿论文、技术大会做大众化解读[6] - AI财经方向岗位需产出创投融资、财报解析、公司战略分析等稿件,并访谈投资人及创业者[9][11] - AI产品方向岗位需撰写AI应用深度评测,跟踪手机、PC、XR等终端新品发布,并访谈产品专家[10][11] - 各岗位均要求具备将复杂技术内容结构化表达的能力[6][9][10][11] 员工职业发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[3][6] - 通过撰写独家原创内容,员工有机会建立个人知名度,成为AI领域意见领袖[3][6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[3][6] - 应届新人将由主编级编辑提供一对一指导,帮助快速成长[3][6]