机器之心
搜索文档
别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
机器之心· 2025-11-21 04:50
文章核心观点 - 清华大学与稳准智能联合发布的LimiX系列模型是首个真正通用的结构化数据大模型,标志着该领域从专用模型时代进入通用大模型时代,是通往AGI的关键路径之一 [3][6][12] - LimiX模型在分类、回归、缺失值填补等10类任务上均实现领先性能,且无需针对新任务重新训练,解决了传统AI模型低效的痛点 [3][12] - 该模型不仅在基准测试中表现优异,在实际工业应用中也展现出强大能力,已在食品生产、电力市场预测等多个场景成功落地 [21][22] 结构化数据处理的重要性与行业痛点 - 工业化社会的便利背后高度依赖结构化数据的处理,这些数据以精确的行列格式组织,是维持世界运转的基础 [1][2] - 当前LLM大模型擅长文本处理但难以精确理解电子表格等结构化数据,导致行业仍依赖XGBoost、CatBoost等存在十几年的专用模型,每遇新任务需重新训练,效率低下 [3][8] LimiX模型的突破性意义 - LimiX-16M是LDM系列首款模型,首次在结构化数据领域实现真正的通用性,一个模型即可处理分类、回归、缺失值填补等10类任务,无需二次训练 [6][9][12] - 该模型通过海量数据学习自主发现变量关系,拥有类似GPT的通吃能力,性能碾压传统专用模型及TabPFN等基础模型 [9][12][16] 模型性能表现 - 在分类任务中,LimiX-16M在58.6%的数据集上取得最优结果,其轻量版LimiX-2M加入后,家族胜率达68.9% [13] - 回归任务中,两个版本模型包揽前两名,合计胜率达62% [15] - 缺失值填补任务上,LimiX以绝对优势拿下SOTA,如在Analcatdata数据集上的RMSE低至0.194,显著优于MissForest的0.203 [18][19] 实际工业应用案例 - 在食品生产烘干环节,LimiX精准建模工艺参数与含水量关系,预测值与真实值平均偏差小于9%,可解释92%的结果变化 [21] - 电力现货市场预测中,将企业内部最优模型误差从46.93% MAPE大幅降低至25.27% MAPE [21] - 变压器运行状态诊断错误率较XGBoost降低93.5% [21] LimiX-2M轻量级版本优势 - 虽仅2M参数,但性能力压TabPFN-v2和TabICL,超越AutoGluon,仅次于LimiX-16M [24][25] - 可在智能戒指等边缘设备运行,处理958条、60维特征数据时,在树莓派配置下总耗时359秒,比TabPFN-2.5快5倍;在RTX 5090上总耗时仅197毫秒 [26][27] - 支持家用显卡低成本微调,量子化学性质预测拟合优度最高达0.711,微调后提升至0.815,大幅降低实验成本 [27][28] 行业影响与未来展望 - LimiX技术报告揭示了LDM的缩放定律,表明该领域进入规模化驱动新范式,性能随参数规模提升而增强 [31][34] - 将AI与工业场景结合在中国具有突出必要性,工业数据规模、质量及政策支持领先全球,新技术范式落地深度和产业带动力将非常显著 [34][35] - 模型开源使中国在非结构化数据建模领域站到世界前沿,成果力压Amazon AWS、INRIA等顶尖机构 [35][36]
超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025
机器之心· 2025-11-21 03:56
文章核心观点 - 快手音视频技术团队提出名为BRHVC的全新双向智能视频编码方法,该方法在压缩性能上显著超越业内最先进的端到端智能视频编码方案和最新标准的VTM-RA编码[2] - BRHVC通过双向运动聚合和双向上下文融合两大创新模块,解决了双向智能视频编码中的长跨度帧运动处理难题和参考贡献不平衡问题[13] - 实验结果表明,BRHVC在HEVC数据集上相比传统编码器VTM-RA实现1.1%的码率节省,成功在编码效率上实现超越[25] 视频编码技术背景与价值 - 视频编码的核心价值在于解决海量视频数据与有限传输、存储资源之间的矛盾,未压缩的高清视频码率高达1-3 Gbps,1分钟4K视频占用近20 GB空间[4] - 视频编码通过消除时空冗余将视频码率压缩至1/100~1/1000,使短视频、直播等应用成为可能,每年为行业节省数万亿带宽成本[4] 双向编码模式的技术挑战 - 双向模式(RA)采用双向分层B帧编码,利用时域上的双向信息,在相同画质下可比低延迟模式节省20+%码率,是点播、存储等高画质场景首选[7] - RA模式面临两大核心挑战:长跨度帧的运动处理困难,以及两个参考帧的信息价值存在显著差异的不平衡参考贡献问题[7][9] - 在帧跨度较大(32和16)时,不平衡的参考贡献问题非常严重,极大影响后续帧的编码效率[11] BRHVC技术框架与创新 - BRHVC框架包含双向运动聚合(BMC)和双向上下文融合(BCF)两个核心模块[13] - BMC模块将光流网络生成的多尺度光流收敛至单一隐变量进行联合压缩,突破过往光流压缩局限,显著提升大位移场景下的运动补偿精度[16] - BCF模块通过计算当前帧与双向运动补偿结果的相似度差异,生成空间自适应权重图,实现参考特征按重要性重新加权融合[20] 实验效果与性能数据 - 在HEVC数据集上,BRHVC相比传统编码器VTM-LDB平均实现32.0%的码率节省,在Class D序列上增益高达44.7%[24][25] - 消融实验表明,BMC和BCF模块能获得相对基准模型约12.3%的显著码率节省,具有较高的解码收益性价比[27] - BRHVC在编码效率上成功超越最新传统标准VTM-RA编码器,取得双向智能视频压缩领域的重要突破[29]
Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
机器之心· 2025-11-21 03:56
文章核心观点 - 提出一种名为类专家Soup(SoCE)的系统化模型融合方法,该方法通过非均匀加权平均来最大化大语言模型的整体性能,相比传统的均匀平均方法效果更优 [1][2] - SoCE方法基于不同基准类别间模型性能呈现弱相关性的关键观察,通过为每个弱相关类别簇挑选专家模型并进行优化加权融合,以结合模型的互补能力 [2][5][8] - 实验结果表明,SoCE方法在多个基准测试中显著提升了模型效果与稳健性,并取得了新的SOTA成绩 [2][14][16] 方法介绍 - SoCE方法的核心洞见是基准测试中不同类别的模型表现呈现高度异质的相关结构,例如在Berkeley Function Calling Leaderboard中,多轮任务间相关性极高(0.96到0.98),而其他类别间相关性可低至0.07 [5][8] - 方法流程包含四个关键步骤:相关性分析以识别弱相关类别对、专家模型选择根据性能排名为每个类别挑选最佳模型、权重优化寻找最大化整体性能的加权方案、加权模型融合得到最终模型 [9][11] - 权重优化阶段在一组统一的权重范围内进行搜索,对每个模型的权重从0.1到0.9以0.1为步长遍历所有可能的权重组合 [9] 实验 - 在70B参数模型上,SoCE在BFCL基准取得80.68%的准确率,相比此前最佳单模型xLAM-2-70b-fc-r(78.56%)提升2.7%,最优权重配置为xLAM-2-70b-fc-r(0.5)、CoALM-70B(0.2)和watt-tool-70B(0.3) [14][15] - 在8B参数模型上,SoCE达到76.50%的准确率,超越此前8B模型xLAM-2-8b-fc-r,相对提升达5.7%,最优权重配置为xLAM-2-8b-fc-r(0.7)、ToolACE-2-8B(0.2)和watt-tool-8B(0.1) [16][18] - 在MGSM基准上,SoCE取得51.7%的准确率,优于所有候选模型及均匀平均方法(47.8%),在其他基准如o Bench上也达到28.0%的准确率,优于均匀平均的27.44% [16][19] - 系统性评估表明,模型Souping后类别间线性相关性显著提升,且在37项实验中的35项里,Soup后模型在36个类别中有超过20个类别的指标得分更高,所有类别净性能增益均为正 [22][23][25]
两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
机器之心· 2025-11-21 02:04
2025年两院院士增选总体情况 - 中国科学院选举产生院士73人,中国工程院选举产生院士71人[2] - 增选后中国科学院院士总数达908人,中国工程院院士总数达1002人[3] - 新当选中国科学院院士平均年龄57.2岁,最小年龄44岁,60岁(含)以下占67.1%[2] 人工智能与信息技术领域院士 - 清华大学刘云浩教授当选中国科学院院士,研究方向为计算机系统结构、物联网与工业互联网,发表论文400余篇,谷歌学术引用48000余次[8][10] - 南京大学周志华教授当选中国科学院院士,研究方向为机器学习理论与方法,在人工智能领域发表论文200余篇,被引用六万余次[12][15] - 信息技术科学部共选举11人,涵盖星载合成孔径雷达、卫星通信、脑认知模式识别、机器学习等多个前沿方向[16] 工程院信息与电子工程领域院士 - 信息与电子工程学部选举9人,来自北京邮电大学、中国移动、中国科学技术大学等机构[27] - 当选者包括中国移动通信集团有限公司王晓云、中国科学技术大学吴枫等产业界和学术界专家[27] - 国家计算机网络与信息安全管理中心云晓春当选,反映国家对网络安全的重视[27] 企业界院士代表 - 比亚迪股份有限公司廉玉波当选工程院机械与运载工程学部院士[26] - 宁德时代新能源科技股份有限公司吴凯当选工程院能源与矿业工程学部院士[29] - 金发科技股份有限公司黄险波当选工程院化工、冶金与材料工程学部院士[28] 外籍院士中的科技领军人物 - 中国科学院新增外籍院士27人,包括美国迈克尔·乔丹(信息技术科学)、以色列阿迪·沙米尔(数学)等国际知名学者[22] - 中国工程院新增外籍院士24人,包括英国郭毅可(数据科学、人工智能)、美国申作军(人工智能与供应链优化)等[37] - 外籍院士覆盖人工智能、数据科学、控制科学等关键领域,体现中国科技开放的国际化视野[22][37]
无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
机器之心· 2025-11-21 02:04
文章核心观点 - 提出一种名为DTS(Decoding Tree Sketching)的新型即插即用模型推理框架,旨在解决大型推理模型存在的“越长越错”和“无尽重复”问题 [2] - 该方法通过高不确定度分支推理和最先完成路径早停两大策略,以近似找到最短且正确的推理路径,无需额外训练即可提升模型性能 [2][8] - 在AIME2024/2025基准测试中,DTS显著提升了模型准确率,同时降低了平均推理长度和无尽重复率 [4][9] 技术背景与问题 - 背景是推理大模型存在的“过度思考”问题:CoT/多步推理虽提升能力,但易导致推理链越长越偏离正确答案或陷入自我重复,正确率反而下降 [7][8] - 现有解决方案多依赖成本高昂的额外训练或激进的剪枝策略,落地成本高或稳定性不佳 [8] DTS方法原理 - 核心洞见基于实证:推理链长度与正确率呈显著负相关,多次解码中最短的推理链往往最正确 [9][11] - 将推理过程视为解码树,目标是在稀疏化的树上搜索从根节点到最浅层叶子节点的路径,避免指数级复杂度 [12][13] - 关键技术一:高熵处产生分支,仅在模型不确定时(下一个token分布的熵H(v) ≥ τ)取Top-K候选并行解码,确定时则单分支前进 [16][18] - 关键技术二:最先完成即早停,任何分支一旦生成终止符(<e>)立即返回,将“短即优”的统计规律写入停止准则 [17][18] 实验结果 - 在AIME2024/2025上,DTS使DeepSeek-R1-Distill-Qwen-7B/1.5B模型的准确率平均提升6%,平均推理长度下降约23%,无尽重复率平均减少10% [4] - 具体到AIME24,选择最短推理链的准确率达76.67%,而选择最长链的准确率仅为10.00%,总体平均准确率为51.03% [13] - 有效抑制模型“无尽复读”,将陷入循环的比例平均降低5%至20% [9][21] 核心贡献与影响 - 提出全新推理优化范式,将推理质量问题转化为解码搜索问题,无需训练,即插即用 [26][30] - 揭示了推理链长度与准确率的可量化统计规律,为未来推理模型优化指明方向 [27][30] - 展示了一种轻量化的推理优化路线,未来有望与多步推理、不确定性估计等方向结合,为高效可靠推理开辟新路径 [27]
AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
机器之心· 2025-11-20 15:13
文章核心观点 - 火山引擎多媒体实验室与北京大学合作的论文《VQ-Insight》被人工智能顶级会议AAAI 2026录用为口头汇报文章,该会议投稿23,680篇,最终录用4,167篇,录取率为17.6% [2] - VQ-Insight是一项针对AIGC视频画质理解的创新技术,通过渐进式视觉质量强化学习框架,解决了激发大模型时序感知能力及建立评估模型与生成模型反馈互动的挑战 [4][6] - 该方法在AIGC视频偏好比较、多维度打分和自然视频打分任务中均表现出卓越性能,并能直接应用于视频生成模型的优化,实现生成模型与评估模型的“共同进化” [10][12][15][17][19] 技术背景与挑战 - 视频生成模型技术加速演进,如何在后期训练阶段提升生成质量变得关键,可靠的质量评估与偏好选择是重要驱动力 [4] - 将图像画质理解方案Q-Insight扩展到AIGC视频评估面临新挑战:如何有效激发大模型的时序感知与多维度画质理解能力,以及如何建立评估模型与生成模型的反馈互动 [4] 技术方案:VQ-Insight - VQ-Insight采用渐进式视觉质量强化学习框架,包括图像打分预热、任务驱动的通用时序学习及与视频生成模型的联合微调三个阶段 [6] - 该方法引入时序建模奖励函数和长度控制奖励函数,鼓励模型探索视频帧间的相关性和连贯性,仅使用少量数据即可学会多项任务 [6] - 提出生成模型与质量评估模型“共同进化”的联合训练方式,通过闭环协同优化,使两者在迭代中不断变强,实现持续提升效果 [7] 实验结果:AIGC视频偏好比较 - 在GenAI数据集上,VQ-Insight的tau值为50.80,diff值为75.71,优于对比方法如UnifiedReward(tau: 49.67, diff: 74.42)和VOAScore(tau: 46.96, diff: 69.14) [11] - 在MonetBench数据集上,VQ-Insight的tau值为61.20,diff值为74.51,优于对比方法如VisionReward(tau: 59.40, diff: 72.44)和Qwen-SFT(tau: 59.20, diff: 72.07) [11] 实验结果:AIGC多维度打分 - 在空间质量维度,VQ-Insight的SRCC为0.823,KRCC为0.640,PLCC为0.844,显著优于Qwen-SFT(SRCC: 0.687, KRCC: 0.520, PLCC: 0.735)和UGVQ(SRCC: 0.764, KRCC: 0.571, PLCC: 0.793) [15] - 在时序质量维度,VQ-Insight的SRCC为0.911,KRCC为0.744,PLCC为0.927,显著优于FastVQA(SRCC: 0.849, KRCC: 0.672, PLCC: 0.878)和UGVQ(SRCC: 0.894, KRCC: 0.703, PLCC: 0.910) [15] - 在文本-视频对齐维度,VQ-Insight的SRCC为0.825,KRCC为0.652,PLCC为0.836,显著优于CLIPScore(SRCC: 0.446, KRCC: 0.301, PLCC: 0.453)和UnifiedReward(SRCC: 0.589, KRCC: 0.433, PLCC: 0.589) [15] 实验结果:自然视频打分 - 在LSVQ-Test数据集上,VQ-Insight的PLCC为0.876,SRCC为0.875,与领先方法如Q-Align(PLCC: 0.882, SRCC: 0.883)和Minimalist-VQA(PLCC: 0.872, SRCC: 0.880)表现相当 [16] - 在KonViD-1k数据集上,VQ-Insight的PLCC为0.884,SRCC为0.875,优于对比方法如Q-Align(PLCC: 0.876, SRCC: 0.865)和Minimalist-VQA(PLCC: 0.861, SRCC: 0.859) [16] 应用与影响 - VQ-Insight强大的AIGC视频偏好比较能力可直接应用于视频生成模型的直接偏好优化,有效缓解错误生成问题,并提升色彩鲜艳度和动态效果 [17] - 该技术已成为生成视频训练的可插拔奖励与偏好模块,将精准评估转化为优质生成,为下一代AIGC视频生成技术的发展奠定关键基础 [19]
谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
机器之心· 2025-11-20 15:13
产品发布核心观点 - 谷歌正式发布其专业级图像生成模型Nano Banana Pro(Gemini 3 Pro Image),该模型结合了Gemini 3 Pro的强大推理能力和世界知识,在图像生成的控制力、文字渲染和知识整合方面实现显著飞跃 [3][4][6] 技术能力升级 - 模型支持生成2K和4K高分辨率图像,图像像素量显著提升,同时在细节刻画、画面精度、生成稳定性及可控性上全面升级 [8] - 支持广泛的图像长宽比,解决了基础款模型难以控制图像比例的问题,作品可直接用于从社交媒体到印刷物料等多种平台 [9][11] - 视觉一致性控制能力增强,最多可使用14张参考图像,并保持多达5个人物的一致性与相似度 [13][23] - 具备强大的文本生成能力,能够生成包含准确、清晰可读、多语言文本的视觉内容,是生成图像内可读文本的最佳模型 [34][40] - 凭借与Gemini 3大模型的深度融合,模型能将庞大知识库融入生成过程,产出更具事实准确性的视觉内容,并可结合Google搜索检索基座连接到实时网页内容 [43][44][45] - 新增根据内容自动生成PPT页面的能力,实现从文字到展示的流程自动化与智能化 [49][50] 创意与控制功能 - 用户可对画面进行近乎分子级的操控,包括自由选取并重塑图像任意局部区域、切换摄像机角度、调整焦点位置、应用电影工业级调色以及重塑场景光照 [25][32] - 这些能力使模型从简单的图像生成工具跃升为支持创作者进行分镜级、视觉导演级创作的图像引擎,并可结合Veo 3模型生成电影风格视频 [26][29] 内容验证与透明度 - Gemini应用中加入新功能,用户可直接验证某张图像是否由Google AI生成或编辑,这一能力由SynthID数字水印技术实现 [54][56] - 自2023年推出以来,已有超过200亿份AI生成内容通过SynthID加上水印,通过Gemini API、Vertex AI等生成的Nano Banana Pro图像将嵌入C2PA元数据以提升透明度 [57] 产品部署与可用性 - 模型在多个Google产品中上线,面向消费者与学生的Gemini App在选择“Create images”并使用“Thinking”模型时将在全球陆续上线,免费用户获得有限免费额度,订阅用户获得更高额度 [59][61] - 面向专业人士,Google Ads将升级图像生成功能至Nano Banana Pro,广告主可在Asset Studio中使用最前沿的生成与编辑能力 [60] - 面向开发者与企业,模型可通过Gemini API、Google AI Studio和Vertex AI以付费预览形式使用,企业可立即在Vertex AI中开始大规模内容创作支持 [65][66] - 建议使用Nano Banana(Gemini 2.5 Flash Image)获取更快、更低成本的图像生成/编辑,使用Nano Banana Pro处理更复杂、要求更高的任务,但成本与延迟也更高 [70]
DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
机器之心· 2025-11-20 15:13
项目概述 - DeepSeek在GitHub上开源了一个名为LPLB的新代码库,该项目全称为基于线性规划的负载均衡器 [1][2][5] - 该项目旨在利用线性规划算法优化混合专家模型中的专家并行工作负载分配,以解决训练过程中的动态负载不均衡问题 [5][9] - 尽管项目在GitHub上的star数量尚未超过200,且关注度不高,但有观点认为这表明公司正在为解决模型正确性和吞吐量瓶颈做准备 [1] 技术原理与流程 - LPLB通过三个核心步骤实现动态负载均衡:动态重排序、构建副本以及针对每个批次的数据求解最优的Token分配方案 [5] - 其专家重排序过程由EPLB协助完成,实时工作负载统计信息可通过用户提供、torch.distributed收集或直接从Deep-EP缓冲区获取 [6] - 求解器使用了内置的线性规划求解器,实现了单流式多处理器内点法,并利用NVIDIA的cuSolverDx和cuBLASDx库进行高效线性代数运算 [6] - 该方案将负载均衡的抽象提升到了pipeline层级,其求解过程非常轻量化,不会占用过多计算资源 [6] 性能与优化 - LPLB通过求解线性规划问题,在遵守边容量限制的前提下,沿冗余专家形成的连接边重新分配Token,以最小化专家并行组内的负载不均衡 [11] - 通信优化方面,实时工作负载的同步使用NVLINK和NVSHMEM进行优化,替代了传统的torch.distributed.allreduce,从而大幅降低通信开销 [11] - 求解器在节点内优化大约需要100微秒,对于非常小的批次大小,此延迟可能不可忽略 [11] 拓扑结构 - LPLB允许通过修改r2o矩阵来定义专家副本的分布方式,支持几种典型拓扑结构,包括立方体、超立方体和环面 [14][17] - 立方体拓扑要求在GPU子集上复制专家,形成带有对角边的立方体图,且每个GPU至少需要2个专家,适合在8 GPU的EP子组内进行平衡 [17] - 超立方体拓扑类似于立方体但不包含对角边,需要16个GPU,适合跨16个GPU的专家并行 [17] - 环面拓扑在同一节点内的邻居GPU上复制一个专家,在邻节点的GPU上复制另一个专家,形成环面图,对全局平衡有效但效率通常低于立方体 [17] 项目阶段与意义 - 该项目目前处于早期研究阶段,性能改进情况仍在评估中,尚未被用于生产流程 [8] - 该库的创新点在于引入线性规划这一数学工具来实时计算最优分配,并利用底层的NVSHMEM技术来打破通信瓶颈 [15] - 该项目本质上是试图解决大模型训练中的“木桶效应”问题,即训练速度往往取决于负载最重的那个GPU,对于研究MoE架构训练加速的开发者而言是一个有价值的参考实现 [15]
最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
机器之心· 2025-11-20 09:35
本地AI部署趋势兴起 - 全球知名游戏博主PewDiePie投入2万美元组装包含10块英伟达GPU的本地AI系统,支持700亿至2450亿参数的大模型运行,全程无需依赖云计算[4] - 该视频浏览量超过300万,引发全网对本地部署AI大模型的广泛讨论[1][6] - PewDiePie作为Youtube粉丝超1.1亿的顶流博主,其下场部署本地AI具有重要行业影响力[5] 本地AI系统的核心价值 - 本地AI提供隐私保护、性能全掌控和模型可组合性三大黄金价值[12] - 用户完全掌控模型、数据与AI记忆,避免敏感数据上传第三方[18][26] - 本地推理减少复杂外在环境的不可控性,避免网络错误问题[18] - 支持自由选用开源模型,几乎每周都有新模型推出,选择范围广泛[18] Parallax技术特性 - Parallax是全球首个全自主AI操作系统,支持在Mac、Windows等异构设备上跨平台部署大模型[24][26] - 系统内置网络感知分片与动态任务路由机制,可根据推理负载实现智能调度[26] - 支持单机、本地多设备和广域集群三种部署模式,实现无缝扩容[28][29] - 已兼容Qwen3、Kimi K2、DeepSeek R1等40余种开源大模型[26] Parallax性能表现 - 在M3 Ultra + RTX 4080组合下,推理Llama-3.8B相对llama.cpp速度提升40%以上[31] - LAN集群场景中相对Exo减少一半的time-to-first-token[31] - GPU池任务调度相对HexGen总Throughput提升3.2倍[31] - 支持在GPU和Apple Silicon上无缝运行40+模型,兼容三大操作系统[31] 行业发展动态 - Parallax在Product Hunt冲上日榜第一,AI产品周榜第四,获得行业广泛关注[23] - 阿里千问、Kimi、智谱Z.ai、MiniMax等业内公司均对该项目表示支持[16] - 项目团队持续更新,近期支持了Kimi K2 Thinking等热门大模型[36] - 类似Linux挑战Windows的格局,Parallax正在挑战"AI必须上云"的传统逻辑[25]
并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
机器之心· 2025-11-20 09:35
公司技术与产品突破 - 推出Model 2.0视频生成系统,可生成长达五分钟的富有表现力、可媲美专业水准、以人为中心的视频,破解了行业“视频时长”难题[1] - 突破性进展在于采用并行扩散架构,通过同时运行多个较小的扩散算法并用双向约束连接,避免瑕疵累积,从而生成长视频[5][6] - 模型训练数据除互联网抓取外,还聘请专业工作室使用高帧率摄像系统拍摄演员,获取高质量自有素材以避免运动模糊[6] - Model 2.0是“视频到视频”转换模型,以图像和行车视频为输入,利用人物动作生成输出视频,并能保留人物身份、情感和细微差别[7] - 系统可在约15分钟内生成30秒低分辨率视频,具备先进的唇形同步和手势对齐算法,确保嘴部动作和肢体语言与音轨同步[7] 市场竞争定位与优势 - 公司产品被视为OpenAI的Sora和Google的Veo的强有力竞争者,因其视频时长远超当前行业佼佼者(如Sora 2上限仅为25秒)[1][5] - 不同于大多数视频生成企业聚焦消费者创意工具,公司瞄准ToB市场,专注于为企业(尤其是软件公司)制作培训、营销和发布视频[9] - 公司视频帧率更高,解决了行业中的“8秒AI视频难题”,可能彻底改变公司处理培训、营销和故事讲述的方式[8] 创始人背景与公司战略 - 公司由全球最广泛使用的计算机视觉库OpenCV的创建者Victor Erukhimov创立,其曾联合创立并领导Itseez,后于2016年被英特尔收购[3] - 公司近期完成一轮200万美元融资,创始人并不认同“巨额资金是成功的先决条件”,强调高质量数据比大量计算预算更重要[9] - 公司下一个重大发展方向是开发“文本转视频”模型,允许用户直接从脚本生成长篇内容,并正在开发对移动镜头场景的支持[9] 潜在商业价值与行业影响 - 长视频生成能力可为难以扩大视频制作规模的企业(用于培训、营销和客户教育)带来巨大商业价值[3] - 网友评价认为,公司利用并行传播和专有数据打造长篇AI视频是明智之举,突显了深厚计算机视觉技术可克服计算预算限制,满足企业对时长至关重要的持续内容的关键需求[7]