Workflow
量子位
icon
搜索文档
首个故事可视化综合评估框架来了!80个故事单元53种类别,20种技术方案全面对比
量子位· 2025-08-22 05:51
故事可视化技术发展现状 - AIGC技术进步推动连环画与故事绘本生成成为电影生成叙事性的基础[1] - 故事可视化技术旨在用文字或照片生成连续图片序列[2] - 技术核心挑战在于确保角色形象一致性和构建复杂叙事场景[4] ViStoryBench评估框架设计 - 框架由阶跃星辰携手上科大、西湖大学联合提出[3] - 解决现有评估体系指标单一、维度局限的问题[4] - 特别关注题材多样性和视觉风格谱系等缺失维度[5] - 重视艺术表达与叙事逻辑的有机统一[8] 数据集构建特征 - 包含80个故事单元和53种故事类别[14] - 涵盖344个独立角色和509张参考图像[14][19] - 同时包含中文和英文内容[13] - 每个故事涉及2至10个角色[14] - 采用人工筛选与AI辅助相结合的内容采集方式[16] 评估指标体系 - 包含角色相似性、风格相似性、提示对齐度等多维度指标[22] - 角色相似性从跨相似性和自相似性两个维度评估[25] - 风格相似性基于CSD风格特征解耦能力[29] - 采用登场角色数量匹配度(OCCM)统计角色数量准确性[31] - 使用Aesthetic Predictor V2.5和Inception V3双模型评估美学质量[33] 实验设计与方法覆盖 - 评测超过20种技术方案包含18种主要方法及其变体[33] - 覆盖开源方法、商业产品和多模态大语言模型三大类别[33] - 测试GPT-4o和Gemini-2.0等先进多模态模型[38] - 评估白日梦、豆包、讯飞绘影等商业软件平台[42] - 所有商业产品测试在2025年5月1日至7日期间完成[44] 自动化测试结果分析 - Copy-Paste Baseline在IS分数和美学评分上表现优异但提示一致性显著偏低[55] - 商业模型展现差异化特征:Doubao和GPT-4o在提示一致性和角色数量匹配指标突出[59] - 豆包在角色一致性上获得3.63分(满分4分)的高分[59] - GPT-4o在主观美学上以3.28分夺冠[59] - 自动化指标与人工评价呈现高度相关性相关系数最高达0.7956[60] 技术局限性与发展方向 - 当前专注于多图像的帧间一致性而非同步音视频电影生成[62] - 现有开源方法不支持背景参考图像[62] - 部分方法使用非标准次生参考图像可能影响评估准确性[62] - 评估策略需要权衡专家模型和视觉语言模型的各自局限[62] - 数据集存在版权风险和数据偏好问题[62]
波士顿动力机器人终于有脑子了!人类故意使绊子也不怕
量子位· 2025-08-22 02:30
技术升级 - Atlas机器人升级为Atlas MTS版本,具备自然语言理解、自主动作规划和意外处理能力[1][8][21] - 采用4.5亿参数扩散Transformer模型,结合流匹配目标,处理30Hz图像、人体感觉和语言指令输入[17] - 通过模型预测控制器与VR界面结合,覆盖从精细操作到全身移动的全任务范围[19] 性能演示 - 成功处理箱盖意外关闭、箱子位置移动和遗漏装置等突发情况[2][4][6] - 学习能力覆盖系绳子、折叠椅子和翻轮胎等人类可演示动作[23] - 官方演示视频在YouTube获得超过10万观看量和1万点赞[9] 技术架构 - 端到端语言条件策略实现四步构建:数据收集、处理标注、网络训练和任务评估[14][15] - 电驱系统替代液压系统,提升响应精度、降低能耗并更好适配AI框架[29][30] - 具备3D空间感知和实时物体追踪能力,支持复杂工业任务自主执行[36] 行业对比 - 宇树科技电驱产品线包含H1(65万元)、G1(9.9万元)和R1(3.99万元)三款人形机器人[41] - H1型号实现3.3m/s移动速度,峰值负载21kg,支持模仿学习和强化学习[41] - 电驱技术趋势推动机器人向轻量化(25kg)、低成本化和AI集成化发展[40][44]
OpenAI头号叛徒,竟然是自学的AI???
量子位· 2025-08-22 02:30
公司发展历程 - Anthropic由前OpenAI核心团队成员创立 专注于AI安全和规模化计算[45] - 公司最初仅有7位联合创始人和100多名员工 资金实力远不如OpenAI[45] - 通过Claude 3.5 Sonnet实现技术突破 市场份额从追赶者跃升至32%[17] 技术突破与产品特性 - Claude 3.5 Sonnet在多项基准测试中超越竞品:GPQA钻石级推理59.4%(0-shot CoT)[15]、MMLU 88.3%(0-shot CoT)[15]、代码HumanEval 92.0%(0-shot)[15] - 采用"快乐教育"开发理念 注重内部基准测试和dogfooding实践[7] - 将模型视为用户而非工具 鼓励开发者参与训练过程[10] - 上下文窗口扩展至100万tokens 超越行业标准[25] 市场竞争格局 - OpenAI市场份额从50%下降25% 而Anthropic占据32%市场份额[17] - 在编程细分领域 Anthropic市场份额超过OpenAI两倍以上[17] - 获得Cursor等关键客户支持 其编程默认模型从GPT切换至Claude[20] - 主动切断Windsurf等竞争对手的API访问权限[21] 人才发展路径 - 核心技术人员通过6个月自学完成AI领域转型[2][36] - 学习路径包括Coursera机器学习课程、Kaggle项目和实践项目开发[38] - 关键突破来自规模化计算和Scaling Laws的应用[41] - 主导GPT-3开发 将模型参数从15亿扩展至1700亿[41] 行业技术演进 - Transformer架构持续优化 引入局部稀疏注意力和预正则化技术[41] - 模型展现卓越的少样本学习能力 实现多任务自然语言处理[41] - 计算资源分配和GPU管理成为模型训练的关键要素[46] - 模型在代理式编程和复杂任务执行方面出现意外突破[14]
清北浙领跑两院新院士候选!最年轻被提名人39岁
量子位· 2025-08-22 02:30
院士增选总体情况 - 中国科学院公布2025年院士增选有效候选人639人,中国工程院公布660人[2][3] - 两院新增院士各不超过100名,预计11月公布结果[4] - 中国科学院候选人数量较2023年增长约9.6%,中国工程院增长约0.8%[7][8] 学科分布情况 - 中国科学院院士增选学科人数分布:数学物理学部98人、化学部105人、生命科学和医学学部125人、地学部96人、信息技术科学部61人、技术科学部104人、特别领域50人[8] - 中国工程院院士增选学科人数分布:机械与运载工程学部68人、信息与电子工程学部68人、化工冶金与材料工程学部71人、能源与矿业工程学部72人、土木水利与建筑工程学部91人、环境与轻纺工程学部73人、农业学部83人、医药卫生学部91人、特别通道43人[10] 院校候选人分布 - 清华大学以58名候选人位居榜首,北京大学55名位列第二,浙江大学39名排名第三[10] - 候选人数量前七院校:上海交通大学31人、复旦大学25人、南京大学25人、中国科学技术大学22人[10] - 最年轻候选人来自苏州大学,年仅39岁[12] 人工智能领域地位提升 - 人工智能在中国科学院增选指南中首次成为独立学科,单独分配1个名额[15] - 中国工程院将机器人技术新增为优先支持学科,与人工智能、自动化系统技术并列[19] - 信息三组(含人工智能、机器人技术)获得4个增选名额,体现政策倾斜[19] 人工智能领域候选人 - 信息与电子工程学部候选人包含多位人工智能领域学者,如北京航空航天大学曹先彬(1969年出生)、华中科技大学冯丹(1970年出生)[23] - 知名人工智能学者入选名单:科大讯飞胡国平(1977年出生)、清华大学唐杰(1977年出生)、北京大学朱松纯(1969年出生)[23][24] - 上海交通大学在信息与电子工程学部有4位候选人,清华大学、中国科学技术大学、北京大学各有3位[22] 推荐人情况 - 中国工程院院士王坚推荐清华大学史元春教授[27] - 郑南宁院士推荐北京通用人工智能研究院朱松纯教授[27] - 吕建院士推荐南京大学周志华教授[27]
小扎“亿元俱乐部”车门焊死!被曝冻结招聘,禁止内部人员流动
量子位· 2025-08-22 00:59
公司战略调整 - Meta超级智能实验室冻结招聘并禁止跨团队调动 公司发言人证实此为基本组织规划 旨在为超级智能工作创建坚实结构[1] - 公司首席AI官Alexandr Wang澄清称对超级智能实验室的投资将持续增加 否认冻结招聘的负面报道[1] - 招聘冻结政策要求任何例外需经首席AI官Alexandr Wang批准[6] 人才招聘动态 - 截至8月中旬 Meta从OpenAI招聘20多名研究人员和工程师 其中13名来自谷歌 3名来自苹果 3名来自xAI 2名来自Anthropic 总计50多名新员工[4] - 新招聘高管团队包括Nat Friedman(前GitHub CEO)任超级智能实验室副总裁 Daniel Gross任产品副总裁 Yann Le Cun继续担任首席AI科学家[5] - 新聘研究人员主要来自DeepMind、OpenAI和谷歌等机构 涵盖视觉变换器、扩散模型、多模态对齐等前沿领域[5] 内部管理挑战 - 新老员工因薪酬待遇悬殊产生摩擦 部分研究人员威胁辞职[7] - 高薪新员工与现有员工的文化冲突削弱工作动力和忠诚度[8] - 公司面临整合新旧团队与化解内部矛盾的运营挑战[9] 组织架构重组 - AI部门在六个月内进行第四次重组 新成立"Meta超级智能实验室"拆分为四个独立小组[10][11] - TBD实验室由Alexandr Wang负责 专注高风险创新技术及Llama大语言模型开发[12][15] - 产品与应用研究组由Nat Friedman领导 推动技术产品化落地[12][15] - 基础设施组由Aparna Ramani负责 支持AI研发所需的硬件和平台[12][15] - 基础人工智能研究组由Robert Fergus领导 专注长期基础科学研究[12][15] - 此前为推进Llama模型成立的"AGI Foundations"团队被解散 成员分配至新团队[12] 行业环境与财务表现 - MIT报告显示95%的公司在AI投资上零回报[14] - OpenAI CEO Sam Altman将当前AI热潮比作互联网泡沫[17] - Meta2025年第二季度营收达475.2亿美元 同比增长22% 净利润183.4亿美元 同比增长36%[19][20] - AI驱动的广告推荐系统使Instagram广告转化率提升5% Facebook提升3% 用户停留时间分别增加6%和5%[18] - 2025年资本支出预测为660亿-720亿美元 2026年费用增长率将超过2025年[20] - 摩根士丹利警告薪酬激增可能在没有明确创新收益的情况下稀释股东价值[20] 战略展望 - 招聘冻结未给出明确时间表[21] - 公司在AI竞赛中需调整节奏并评估战略 为下一阶段冲刺做准备[22]
稚晖君新大招:机器人二次开发0门槛了!
量子位· 2025-08-22 00:59
核心观点 - 智元机器人推出灵创平台 旨在降低机器人二次开发门槛 通过AI模块化工具实现动作自由编排和表达定制 被称为杀手级应用[1][5][6] - 平台采用无代码开发模式 用户可通过拖拽 视频上传和文本输入等方式生成机器人动作 训练时间从几十秒到几十小时不等[18][20][21] - 平台已适配灵犀X2人形机器人 计划10月推出beta版 并展示新款轮足式机器人灵犀X2-W原型[13][14][27] 平台功能与特性 - 提供动作库包含上百个标准化动作 支持实时预览和参数调整 用户可录制真人视频自动生成机器人动作[16][20][22] - 支持音频语义分析 根据语调自动生成匹配动作 如悲伤音频对应低头和耷肩动作[24][25] - 支持文本转语音并绑定动作 实现机器人按指令表演 用户生成内容可复用和共享[10][26] 技术底层与定位 - 平台由自研AI模型驱动 将强化学习和模仿学习过程模块化 降低专业调试需求[3][7][11] - 定位为AI加持的创作平台 目标让机器人实现人类式表达 创作者可像导演一样自由编排[7][9] - 当前适配灵犀X2 未来将扩展至更多硬件设备[13]
多人有声视频一体化生成!用百度最新AI生成营销视频,现在1.4元/5秒
量子位· 2025-08-21 11:10
百度蒸汽机2.0视频生成大模型升级 - 百度蒸汽机(MuseSteamer)视频生成大模型升级至2.0版本,主打多人有声音视频一体化生成[1] - 蒸汽机2.0擅长复杂运镜,镜头叙事能力更强,画质进一步提升[2] - 能够一体化生成人物表演、情绪、声音,细节精致如美人鱼鱼鳞和妆容[3] - 支持多种创意玩法,如古代武士打麻将、踩缝纫机绣花等[3] - 可将图片转换成不同风格的视频[3] 产品版本与特性 - 提供四个版本:Turbo版、Lite版、Pro版和有声版[6] - Turbo版:720p画质,应用广泛,生成5秒视频[6] - Lite版:720p画质,极致性价比,生成5秒视频[6] - Pro版:1080p超高画质[6] - 有声版:720p画质,一体化有声,生成5秒/10秒视频[6] - 全系模型已登陆百度智能云,企业用户可通过百度千帆大模型平台使用API服务[7] - 价格低至行业70%,Turbo有声版2.5元/秒,限时优惠1.4元/5秒[8] 技术优势 - 行业首次实现多人有声音视频一体化生成,语音与唇形、表情、动作毫秒级精准对齐[17] - 首创多模态潜在空间规划技术(Latent Multi-Modal Planner),自主协调多角色身份、情感与互动逻辑[17] - 深度适配中文场景,超98%还原度精准呈现中文语音细节与情感表达[18] - 端到端电影级画质生成,精准主体动态刻画,打造真实细腻人物表现力[19] - 大师级运镜控制,内置数十种专业镜头语言,精准响应文本指令[20] 应用场景与案例 - 研发由应用驱动,满足搜索、内容生态、信息流分发、垂类及商业业务需求[21] - 已在百度移动生态广泛使用,强化搜索、内容、商业等多模态体验[22] - 一汽大众揽境七夕营销案例:行业首支汽车类AIGC创意视频《揽境天阶·七夕重逢》[24] - 伊利倍畅成人羊奶粉营销案例:首支AIGC品牌宣传片《漂"羊"过海来看你》[25] - 好莱坞级大片镜头不再需要百万预算,专业影视视效指导姚骐用其制作科幻短片《归途》[14][12] 用户体验与展示 - 用户可通过百度搜索"百度蒸汽机"或登录"绘想"平台体验[5] - 展示效果包括自然音效的海边场景、科幻大片、穿越时空的趣味场景等[11] - 支持生成卡通视频,覆盖各种风格[12]
vivo率先发布国产版Vision Pro,重量是苹果2/3,售价预计苹果1/3
量子位· 2025-08-21 11:10
产品发布与定位 - 公司发布首款国产手机厂商制造的MR头显vivo Vision探索版 [1] - 产品定位为连接物理世界与数字世界的桥梁 长期目标是为家庭机器人提供感知与决策能力 [51] - 产品目前未面向消费级市场开放 但已在12个城市开设线下体验店 [9][53] 产品设计与重量优化 - 产品重量仅398g 约为苹果Vision Pro(600g)的2/3 接近头戴耳机重量 [3][12] - 采用中框风扇一体化设计减轻重量并加强散热 [18] - 通过自研空间计算算法优化摄像头布局 进一步实现轻量化 [20] - 机身高度83mm、厚度40mm 可放入小手提包携带 [4][21] 显示与视觉性能 - 采用Micro-OLED双目8K臻彩屏 分辨率达3840*3552*2 [27] - 覆盖94% DCI-P3色域 ΔE<2专业级色彩校准 支持双目亮色度一致性校准 [28] - 支持180度超广视野 可并列放置4个虚拟窗口 [30] - 在等效100米距离下虚拟屏幕达120英寸 [32] - 全彩透视时延低至13ms 接近裸眼交互体验 [35][36] 交互与功能特性 - 为首款支持眼手交互的国产MR头显 [41] - 眼动追踪精度达1.5度 支持个性化眼球差异校正 [41] - 手势交互支持26自由度识别 垂直范围175度 [43] - 支持100-1000度磁吸近视镜片 覆盖多数近视人群需求 [6][39] - 支持与vivo手机、PC无缝连接 并具备空间相册等跨设备功能 [7][48] 用户体验与市场定位 - 基于人体面部黄金舒适区设计 显著减轻佩戴压痕 [22][24] - 提供多种遮光罩和泡棉组合满足个性化需求 [26] - 市场调研显示女性用户占比高 产品注重美观性与便携性 [21] - 目标价格定于万元内 显著低于苹果Vision Pro的29999元 [10] - 发布后引发高热度讨论 登上热搜榜单 [11] 技术战略与行业意义 - 公司认为MR是攻克家庭非结构化场景感知-决策难题的关键步骤 [51] - 手机厂商具备终端计算理解、消费级硬件经验及生态打通优势 [52] - MR头显在重量、舒适度及价格上较AR方案更具挑战性 [53]
上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!
量子位· 2025-08-21 07:15
技术框架与核心创新 - 香港大学和快手可灵研究团队提出全新框架"上下文即记忆"(Context-as-Memory),通过将完整历史上下文帧作为记忆并利用记忆检索机制优化长视频生成的场景一致性 [8][10] - 框架核心思想包括:依赖长期历史记忆保持场景一致性、通过记忆检索模块智能筛选有用历史信息、将筛选后的上下文帧拼接至输入中指导新帧生成 [15][17][19] - 采用基于摄像机轨迹搜索的帧选取方法,通过计算视场重叠度选择高重叠上下文帧,在保证计算效率的同时维持一致性 [20][22] 实验设计与性能表现 - 在相同基础模型和训练配置下,Context-as-Memory方法在PSNR(20.22)、LPIPS(0.3003)、FID(107.18)和FVD(821.37)指标上均优于基线方法,显示其显著优越的记忆能力和生成质量 [25] - 对比方法包括:单帧上下文(PSNR 15.72)、多帧随机上下文(PSNR 17.70)、DFoT(PSNR 17.63)及FramePack(PSNR 17.20) [25][29] - 使用Unreal Engine 5构建包含100个视频、12种场景风格的数据集,每个视频由7601帧组成并附带摄像机位姿标注,简化位姿处理至二维平面移动和旋转 [22][23] 应用案例与泛化能力 - 方法成功应用于《塞尔达传说》绿色田野、《黑神话悟空》废弃寺庙及《原神》云堇角色模型等游戏场景,在镜头晃动时保持场景元素完全稳定 [1][3][5][7] - 在开放域测试中,使用互联网不同风格图像作为首帧并采用"旋转远离再返回"轨迹,验证了方法在开放场景中的强大记忆泛化能力 [26][27] 研究背景与团队构成 - 论文由香港大学、浙江大学和快手可灵团队联合完成,第一作者为香港大学博士生余济闻,师从刘希慧教授并在快手可灵担任研究实习生 [28][32] - 研究是作者在交互式视频生成、世界模型和具身人工智能方向的延续,其前期成果GameFactory曾入选ICCV 2025 Highlight [33]
“半路截胡”张益唐,北大出身的中山大学校长这样做
量子位· 2025-08-21 07:15
张益唐学术背景与成就 - 张益唐为美国加州大学圣塔芭芭拉分校数学系终身教授,因实质性推进解决数论难题"孪生素数猜想"而享誉世界 [3] - 2013年发表论文《质数间的有界间隔》,发现存在无穷多差小于7000万的素数对(公式:limn→∞(pn+1-pn)<7×10^7)[10][11] - 该研究突破数学界公认"不可能解决"的难题,并在朗道-西格尔零点猜想上取得革命性进展 [12][13][14] - 获得Frank Nelson Cole数论奖(数论界最高奖)、麦克阿瑟天才奖(美国跨领域最高奖项)等荣誉 [19] 加盟中山大学过程 - 2023年6月正式加盟中山大学香港高等研究院任首席科学家,举家定居粤港澳大湾区 [2] - 中山大学在张益唐已基本确定其他学校的情况下"半路插进"促成合作 [4] - 加盟过程中校方采取谨慎安排:待其飞离美国国境后才公布消息,并在广州机场安排海关工作人员专程接机 [7] 个人经历与学术渊源 - 10岁独立证明勾股定理,23岁考入北大数学系,师从数论专家潘承彪教授 [18][22] - 博士毕业后因苏联解体导致美国学术岗位紧缩,曾经历七年未获教职的困难期 [28][30] - 1999-2016年在新罕布什尔大学数学系任讲师,期间保持数论研究 [33] - 与中山大学校长高松有学术渊源:十年前共同参加北大毕业典礼,高松曾引用其言论勉励学生 [5] 学术理念与回国动机 - 强调"做数学不需要受年龄限制",认为科学研究周期延长更需坚持 [17] - 选择回国源于国际环境变化及华人学者回归趋势,且国内对其重视程度令人感动 [3][7] - 公开表示"不看重物质名利",追求继续在数学领域"做点事"的学术理想 [34][35]