Workflow
量子位
icon
搜索文档
AI视频进入“加速度”时代:30%加速+细节随手P,等等党和抽卡党都有救了!
量子位· 2025-11-18 06:00
产品核心升级 - 拍我AI(PixVerse)上线V5 Fast模型,视频生成速度提升超30%,5秒高清视频生成时间从1-2分钟缩短至1分钟以内[7][49] - 同步推出Modify精修功能,支持端到端视频编辑,实现视频生成后的在线修改,解决了AI视频“一次生成定生死”的行业痛点[7][9] - 新功能组合使AI视频创作首次具备“快+可控”的完整体验[7] 技术能力与创新 - Modify精修功能实现跨帧推理、统一风格和主体稳态,其底层架构的精修方式在业内极为稀缺,属于公司的独特能力[9][10] - 元素替换能力覆盖物品、人物、背景,能在移动背景中自动补足每帧场景一致性,实现实物级别的可控编辑[12][14][20][22] - 支持对非实体细节进行修改,包括风格、材质、光线、色调等,并能保持动作一致性,例如将实拍视频转换为美式漫画风格或将车身材质从亮面替换为哑光[23][26][30][33] - 人物编辑功能支持通过提示词直接调整年龄、服装、气质、皮肤状态等,例如使人物眼睛放大、皮肤磨皮,或将老奶奶形象年轻三十岁[35][36][38][40][42][44] - V5 Fast模型通过轻量化推理结构和缩短帧间计算依赖实现提速,高分辨率视频生成不再是瓶颈环节[49] 市场定位与行业影响 - AI视频正从创作者工具转变为商业化生产力,广泛应用于品牌活动、自媒体内容、商家素材及大众化生活记录场景[8] - 可修改性成为当前AI视频市场最真实且迫切的需求,公司产品通过Modify功能让视频创作工作流真正闭环,降低了专业门槛[8][9][10][11] - 公司完成1亿元人民币B+轮融资,两年内完成五次模型迭代和八个版本更新,在DiT架构、准实时生成等关键技术上实现突破[50] - 旗下产品拍我AI(PixVerse)全球累计服务超一亿用户,月活突破1600万,自启动商业化以来收入增长超10倍[51] 性能表现 - 拍我AI V5 Fast生成1080P的5秒视频仅需约40秒,360P和720P格式生成速度更快,仅需数秒[50] - 公司在去年12月V3.5模型突破10秒生成大关,今年1月V4模型进入5秒准实时生成时代,成为全球已具规模的视频生成平台中速度最快的之一[50]
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
量子位· 2025-11-18 05:02
文章核心观点 - 微博发布的自研开源大模型VibeThinker以15亿参数的小规模,在关键性能测试中击败了参数量大数百倍的巨型模型,实现了技术突破 [1][7] - 该模型的单次后训练成本仅为7800美元,成本效益比达到30到60倍,有望重塑行业成本结构并推动AI技术普惠化 [2][9][13] - 此次突破标志着行业可能从“参数竞赛”转向“效率革命”,为AI产业发展开辟了新路径 [3][7] 技术突破与性能表现 - VibeThinker模型参数量为15亿,通过优化模型结构和训练范式,创新性地采用“频谱到信号原理”(SSP)方法进行训练 [7] - 在AIME24、AIME25、HMMT25等高难度数学测试集上,其表现超越了参数量达6710亿的DeepSeek-R1模型,并与4560亿参数的MiniMax-M1效果接近或相当 [7] - 在LiveCodeBench v6编程算法题测试集中,VibeThinker成功追平参数量超其数十倍的模型,如Minstral.AI的Magistral-Medium-2506版本 [8] - 该模型目前专注于数学和代码等高智能应用场景,其研发重点集中于强化小模型的复杂推理能力,尚未对日常聊天能力进行优化 [8] 成本效益与行业影响 - 行业主流大模型单次后训练成本普遍在数十万美元级别,例如MiniMax M1模型成本约53.5万美元,DeepSeek R1后训练成本为29.4万美元 [10] - VibeThinker整个后训练过程仅消耗3900个GPU小时,总计算成本为7800美元,成本效益比达到惊人的30到60倍 [10][11][13] - 极低的成本门槛使强大的AI推理能力不再是大公司的专利,有望让更多中小型公司、研究机构和大学参与前沿AI创新,促进技术普惠化 [13] 微博AI战略与应用前景 - 微博已构建基于自研“知微”大模型的AI应用生态,并推出了微博智搜(月活跃用户突破5000万)和评论罗伯特(全网粉丝近200万)两大顶流AI产品 [15][16][21] - 公司计划深度融合其在心理等垂直领域积累的独特数据资产,旨在打造更洞悉公众情绪、服务社会化需求的专属模型 [17][18] - VibeThinker的技术突破有望大幅降低微博AI应用成本,优化智能搜索和实时互动场景的算力损耗,进一步释放生态创新能力 [19][20]
教育行业首个AI Agent落地!斑马口语「超人类外教」诞生
量子位· 2025-11-18 05:02
产品核心特点 - 专为儿童打造的AI外教产品,具备超人类教学能力,能够实现个性化互动教学[1][2][3] - AI外教在25分钟学习单元中可引导孩子完成100多次完整英语表达,互动频率极高[32] - 产品具备高度"人"味,能够根据孩子回答灵活调整话题走向,实现开放式RPG闯关学习体验[6][7][10] 技术能力优势 - 响应速度极快,即时反馈压缩至1.5秒,复杂问题也能在2.5秒内给出答案[14] - 语音识别准确度高,能识别连用户自身都未注意到的单词发音问题[15] - 内置超大话题知识库,能轻松接住动画、电视剧、游戏等各类儿童兴趣话题[29] - 具备记忆功能,在学习中进行上千次数据分析,形成短期、长期、终身三级记忆体系[69][70] 教学差异化特色 - 能够理解孩子说出的中文并顺势引导英文表达,解决语言障碍问题[31] - 具备共情能力,能察觉孩子情绪变化并给予情感支持,如赠送虚拟礼物安抚情绪[12][13] - 教学能力标准化,不受时间、心情等随机因素影响,保证稳定的教学质量[33][34] - 实现千人千面教学,根据学习记录、兴趣偏好和英语水平动态调整内容[37][38] 商业模式与性价比 - 价格优势明显,25分钟课程仅需37.5元,比收费160元的北美真人外教便宜77%[41] - 无需排课、请假、交通奔波,随时随地可通过手机进行学习,便捷性高[44] - 将高水平教学从"奢侈品"转变为人人触手可及的"基础设施"[97] 行业影响与前景 - 语言学习成为教育行业首个真正实现AI Agent落地的场景[86] - 推动优质口语教育普及化,改变教育资源的生产方式和分配逻辑[88][96][97] - 有望实现孔子"有教无类"与"因材施教"的教育理念,重塑教育生态[99][100]
聊AI,当然得来量子位MEET大会!
量子位· 2025-11-18 05:02
大会概况 - 大会主题为“共生无界,智启未来”,关注AI技术穿透产业、学科与场景边界,成为社会演进核心动能 [3] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展 [4] - 内容涵盖学术前沿与商业落地碰撞,以及来自Infra、模型、产品产业的领先技术成果 [5] - 预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [64] 核心发布 - 大会将权威发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项 [6][60] - 将重磅发布年度AI趋势报告,提名释放巨大潜力的十大AI趋势并进行深入分析 [61] 嘉宾阵容(部分) - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁 [12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,曾主持国家973项目等20余项国家级项目 [17] - 王仲远:北京智源人工智能研究院院长,曾任职于快手、美团、Facebook,发表顶级学术论文100余篇,获得ICDE 2015最佳论文奖 [21][22][23] - 赵俊博:浙江大学百人计划研究员、蚂蚁集团资深技术专家,聚焦大模型与合成数据技术,首创数据库大模型TableGPT [27] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,中文Linux奠基人之一 [30] - 尤洋:潞晨科技创始人、新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲)等荣誉 [35][36] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者 [40] - 朱宁:上海交通大学上海高级金融学院金融学教授,研究涵盖行为金融学、中国宏观经济等领域 [44][45] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型,首倡“群体智能”理念 [48][49] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出“平台+应用+服务”大模型落地三级引擎战略 [53][54] - 乔梁:太初元碁联合创始人兼首席运营官,清华大学计算机系博士,长期从事高性能计算技术研究 [57][58]
32个随机数字,1分钟推演地球未来15天丨谷歌DeepMind
量子位· 2025-11-18 05:02
产品核心能力 - 谷歌DeepMind发布WeatherNext 2,实现天气预报的小时级、实时化更新[1][2] - 模型运行速度比上一代快8倍,在1个TPU上生成一次15天的全球预报仅需不到1分钟[6][21] - 模型分辨率达到小时级,可提供如“明天2-3点有小雨”的精细化预测[2] - 能够从相同输入生成几十至上百个可能的天气演化情景,提供概率化预测[4] - 99.9%的预测变量和时效性能超过上一代WeatherNext[7] 技术创新与性能 - 核心技术为新提出的功能生成网络(FGN),通过输入32维随机向量生成全球一致的天气变化模式[13][15][16] - FGN将低维噪声扩散成高维空间相关性,用32个数字生成高达8700万维的全球天气变化[18][19] - 模型整体表现全面超越之前最强的GenCast,预测误差更低、概率表现更好、空间结构更自然[19] - 在极端天气预测上能力显著,例如台风路径预测能比GenCast提前约24小时达到相同精度[19] 行业应用价值 - 精细化天气预报对能源系统协调负荷、城市管理安排人力、农业制定节奏至关重要[8][9] - 物流和航班等行业每天依赖天气预报进行决策,小时级预测提升决策效率与准确性[9] - 将大气系统视为混沌机器,微小扰动会影响未来天气,高精度模型有助于更早洞察极端天气影响范围[10][7]
金山与华科发布多模态模型MonkeyOCR v1.5:文档解析能力超越PaddleOCR-VL,复杂表格解析首次突破90%
量子位· 2025-11-18 05:02
行业背景与需求 - 多模态文档解析领域在2025年6月以来迎来新一轮研究热潮,成为多模态理解及大模型数据来源的重要前沿课题[2] - 文档智能解析技术是信息抽取、检索增强生成和自动化文档分析的核心基石,但现实世界中的复杂文档(布局复杂、表格嵌套、内含图片公式、跨页分布)对现有OCR系统构成挑战[2] - 传统OCR系统采用串联式流水线容易导致错误累积,而端到端模型则因文档图像高分辨率面临巨大计算瓶颈[5] 技术核心突破 - MonkeyOCR v1.5采用高效的两阶段解析管道:第一阶段进行布局分析与阅读顺序预测,第二阶段进行区域级内容识别,实现全局结构理解与细粒度内容识别的解耦[7][8][9] - 针对复杂表格推出三大创新方案:基于视觉一致性的强化学习方案通过奖励模型自我优化提升解析保真性;图像解耦表格解析通过先遮住图片再解析结构完美解决图片干扰问题;类型引导的表格合并采用规则匹配+BERT语义判别混合决策流程精准合并跨页表格[11][13][14][16] - 新框架在嵌入式图像恢复、跨页表格重建以及多列表格合并等关键功能上展现出更强应用潜力[5] 性能表现数据 - 在OmniDocBench v1.5基准测试中以93.01%的整体得分登顶榜首,超越前最佳模型PPOCR-VL(92.86%)和MinerU 2.5(90.7%)[18] - 在专门测试复杂表格的OCRFlux-complex数据集上取得90.9%的得分,领先PPOCR-VL(81.7%)达9.2个百分点[19] - 在OCRFlux-Total数据集上取得91.8%的得分,显著高于Nanonets-OCR(82.8%)、OCRFlux(86.1%)和PaddleOCR-VL(86.3%)[20] 应用场景优势 - 布局分析能准确识别所有图像和表格区域,大幅避免将表格误判为孤立文本和图片的错误[21] - 嵌入图像恢复功能能完美还原表格结构和其中所有嵌入图像,解决其他模型常见的图像丢失、表头丢失或结构错乱问题[25] - 跨页表格合并功能能完整重建跨页表格,消除因页眉/页脚造成的结构中断,而其他方法易被中途"截断"[27]
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
量子位· 2025-11-18 05:02
技术突破与核心优势 - 采用单一视觉Transformer架构实现从单张图像、多视角照片到视频的任意视图3D重建,极大简化了模型设计[1][2][7] - 模型核心预测目标仅聚焦于深度和光线两个关键参数,通过双任务头输出深度图和光线参数[7][10] - 在全新视觉几何基准测试中,相机定位精度平均提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2[3] 模型架构与工作流程 - 输入处理环节将多视角图像转化为特征块,相机参数通过编码器或可学习token处理,最终与图像特征融合[9] - 核心Transformer基于预训练的DINO,通过单视角自注意力和跨视角自注意力机制适应不同输入形式[9] - 除了深度和光线预测,模型还能从特征中提取相机姿态信息,确保相机运动轨迹精准[11] 训练策略与性能表现 - 采用师生蒸馏训练策略,利用教师模型从海量数据生成高质量伪标签,降低对精确标注数据的依赖[13][14] - 在整合了5个室内外数据集的基准上,模型能生成密度更高、噪声更低的3D点云,质量明显优于传统方法[14][16][17] - 支持从少量场景图片进行视角补全,生成未拍摄角度的图像,在虚拟漫游和数字孪生领域应用潜力巨大[19] 团队背景与行业影响 - 项目由字节跳动研究科学家康炳易带队,其领导的Depth Anything系列此前已被苹果CoreML库收录[20][25] - 核心研究人员拥有加州伯克利和新加坡国立大学人工智能专业背景,并与谢赛宁等业内专家有过合作[23][24]
马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
量子位· 2025-11-18 00:59
大模型竞技场排名表现 - Grok 4.1思考模式以1483的Elo分数位居大模型竞技场榜首,领先非xAI模型最高分31分[2] - Grok 4.1非思考模式以1465分排名第二,超越公开排行榜上所有其他模型的完整推理模式[3] - 相比之前Grok 4仅排第33位,xAI在不到半年时间实现巨大飞跃[4] - 在大模型竞技场新推出的专家榜上,Grok 4.1思考模式以1510分排名第一[5][6] - 在职业榜八个细分领域中,Grok 4.1在文学榜输给Gemini 2.5,数学榜输给Claude 4.5和o3,其他六个榜单均拿下第一[6] 技术性能提升 - 在EQ-Bench情商测试中,Grok 4.1表现超过刚发布不久的Kimi K2(非Thinking版本)[9] - 从11月1日起新版模型逐步推送用户,盲测对比评估显示64.78%的用户更喜欢新版[13] - 关闭推理功能后,输出标记数从约2300个减少到850个,实现快速回复模式特别加强[23] - 在后训练阶段专注于减少信息检索提示中的事实性幻觉,幻觉发生率显著降低[25] - 在包含500个个人传记问题的FActScore测试中,非推理模式成绩比前一代有明显改善[26] 功能特性改进 - 在创造性、情感性和协作性互动方面带来显著改进,模型更善于捕捉细微意图,对话更有吸引力[18] - 响应情感问题时表现出更强同理心,回答更加细腻和人性化[18] - 创意写作能力明显提升,回答更具文学性和思想深度[18] - 可以输出图文并茂的回答,展示多模态能力[26] - 团队使用大规模强化学习基础设施,将RLHF推向前所未有的高度,RL规模扩大一个数量级[19][20][22] 市场推广情况 - Grok 4.1已在grok.com、X平台以及iOS和Android应用上向所有用户开放[27] - 模型默认以自动模式推出,用户也可在模型选择器中明确选择Grok 4.1[27] - 由于模型刚发布,投票数还很少,等"Preliminary"标记消失后的成绩更有参考价值[8]
61岁贝佐斯创业物理AI!亲任CEO,首轮获投62亿美元融资
量子位· 2025-11-18 00:59
公司创立与领导层 - 杰夫·贝佐斯创立新公司Project Prometheus并亲自担任联席CEO [1][2][6] - 公司已获得62亿美元(约合人民币440亿元)的雄厚资金支持 [3][8] - 联合首席执行官为物理学家兼化学家Vik Bajaj,其拥有宾夕法尼亚大学生物化学学士/硕士、MIT物理化学博士及UC伯克利博士后背景 [12][14] 公司战略与研究方向 - 研究重点是将人工智能应用于机器人、药物设计和科学发现等物理任务 [9] - 技术方向聚焦于开发能够从物理世界学习的、比现有聊天机器人(如ChatGPT)学习方式更复杂的AI模型 [11] - 明确将技术应用于计算机、汽车、航空航天等高科技领域,并与贝佐斯对人类太空探索(如蓝色起源)的兴趣相吻合 [9][10] 团队与资源 - 员工规模已达上百人,其中包括从OpenAI、DeepMind等顶级人工智能公司招募的研究人员 [9] - 联合CEO Vik Bajaj具备丰富的跨界研发与创业经验,曾与谷歌联合创始人谢尔盖·布林在谷歌X合作,并参与创立Verily及Foresite Labs [14][15][16] 行业竞争格局 - 物理AI领域已有OpenAI、谷歌和Meta等科技巨头在研究相关技术,旨在加速物理科学领域的突破 [18] - 来自Meta、OpenAI和谷歌DeepMind的离职研究人员共同创立了Periodic Labs公司,并获得3亿美元支持,目标是构建“AI科学家”和自主实验室 [19] - 资本与顶尖人才正加速汇流,大型科技公司与初创企业在该领域展开激烈角逐 [21]
小红书提出社交大模型RedOne 2.0:兼听、敏行
量子位· 2025-11-18 00:59
文章核心观点 - 小红书NLP团队推出RedOne 2 0大模型 该模型面向社交网络服务场景 以强化学习为核心并结合轻量级监督微调 旨在解决传统方法在领域适配与通用能力平衡上的困境[1] - RedOne 2 0在显著压缩数据需求的前提下 实现了小模型对下游任务的快速适配 并同步保障模型的通用能力 提供高性价比、强泛化的LLM部署基座[7] - 模型在社交领域评测SNS-Bench上保持领先 同时在通用能力评测General-Bench上也有提升 尤其在指令跟随、科学推理、多语言等维度表现突出[1][2] 模型训练框架与技术创新 - 采用以RL主导的三阶段渐进式训练方法 包括主动探索、靶向微调和持续优化 从根本上缓解SFT训练导致的性能失衡问题[6][8] - 主动探索阶段利用RL的探索特性 让模型在SNS任务空间中自主学习并暴露能力短板 实现初步的领域迁移适配[10][11] - 靶向微调阶段基于识别到的困难样本构建靶向训练数据 并通过混合通用任务数据进行SFT 对能力缺口进行精确校准[13][14] - 持续优化阶段再次启用RL进行全局优化 深化模型与平台安全、用户体验等高级目标的对齐 得到行为更稳定、泛化能力更强的模型[16][17] 模型性能表现 - RedOne 2 0-4B模型在SNS-Bench上以67 57的平均分远超同量级开源模型 如Qwen3-4B的51 81分 并在General-Bench上从69 80提升至70 80[20][21] - RedOne 2 0 30B-A3B模型以极小的激活参数 在通用任务上的表现接近百亿参数模型 其General-Bench得分为75 17 接近部分超大模型[20] - 在SNS-TransBench翻译能力评测中 RedOne 2 0系列达到同尺寸模型顶尖水平 例如4B模型得分为47 67 显著高于Qwen3-4B的38 22[20][21] - 消融实验证明 相比不同尺寸的基座模型 RedOne 2 0训练框架在社交领域和社交翻译任务上均带来显著的能力增强[20] 实际应用效果与商业价值 - 在线实验显示 基于RedOne 2 0的笔记标题个性化重写使核心业务指标广告主价值提升了0 43%[27][28] - 内容质量得到全面优化 模糊标题比例减少11 9% 而实用性、真实性和互动性标题比例分别提升7 1%、12 9%与25 8%[27][28] - 实例研究表明 RedOne 2 0生成的标题更具感染力和互动性 例如使用生动描述增强情感共鸣 有效激发用户好奇心和点击意愿[32][33][34] 未来发展方向 - 团队计划进一步拓展RedOne 2 0在SNS中的多模态与多语言能力 探索其在图文交错内容、视频内容理解、跨文化沟通等复杂场景的应用潜力[35] - 旨在将这一以强化学习为主的渐进式训练框架推广至金融、医疗、教育等更多垂直领域 解决专业场景中领域适应与通用能力平衡的挑战[35] - 将持续优化训练效率 推动轻量化模型在边缘设备上的部署 为实现更普惠、可信、高效的人工智能服务提供技术基础[36]