多模态理解
搜索文档
在拉斯维加斯,我看到了体育的未来
搜狐财经· 2025-12-09 11:33
文章核心观点 - 亚马逊云科技正通过其云基础设施与人工智能技术,深度重塑体育行业,推动竞技数据分析、运动员训练、内容生产及观赛体验的全面革新,并将体育领域作为其尖端AI技术的“终极试炼场”,以证明技术在复杂物理世界中的鲁棒性,其价值未来可溢出至医疗、汽车等更广泛的产业 [2][5][21][22] 亚马逊云科技与NBA的战略合作及数据革命 - 2025年10月2日,NBA宣布与亚马逊云科技达成战略合作,标志着篮球数据分析从传统的“统计结果”迈向基于AI的“理解过程” [6] - 技术核心是通过计算机视觉和机器学习,以每秒60次的高频率实时捕捉并分析球员身上29个骨骼点的移动轨迹,实现多模态理解 [6][7] - 基于此,NBA在2025-26赛季推出三项全新高阶数据:1) **防守数据统计**,首次为防守贡献提供客观数据标尺;2) **投篮难度指数**,通过分析身体平衡、防守干扰等因素计算每次出手的“难度分”;3) **引力指标**,通过三角函数运算量化无球球员对防守的牵制力与为队友创造的空间价值 [9] - 在场下训练方面,如多伦多猛龙队的“数字投篮实验室”,利用摄像机网络与AI实时分析投篮的生物力学数据,可精确指出1度的姿态偏差,充当AI助教 [12] 亚马逊云科技在更广泛职业体育中的应用 - 在**F1赛车**领域,协助法拉利车队利用SageMaker开发进站分析系统,将单次进站分析时间从数小时压缩至60-90秒,并通过AI视觉识别换胎工动作细节以提升效率 [14] - 在车辆设计上,利用高性能计算进行千万次流体力学模拟,替代昂贵的物理风洞测试,使赛车设计迭代速度提升70% [14] - 在**NFL**领域,协助创建“数字运动员”平台,为球员构建云端“数字双胞胎”,通过运行数百万次比赛场景模拟(相当于10000个赛季的数据)来预测受伤风险,并基于模拟数据辅助联盟修改开球规则 [14] AI技术对体育内容生产与观赛体验的改造 - 亚马逊云科技发布的新一代自研模型(如Nova2系列,包括多模态模型Omni)正改变体育内容生态 [15] - **德甲联赛**利用Nova模型改造工作流,实现“自动化战报”、“德甲故事”生成,通过翻译和转录实现视频本地化,并推出“AI球迷助手”,在编辑人手不变的情况下几倍增加生成内容 [16][17] - AI为观众提供深度数据洞察,如德甲的“比赛事实”功能实时计算“预期进球概率”,以及“技能角色卡”功能自动分析球员的战术定位(如“终结者”、“策动者”) [16] - 生成式AI改变观赛互动逻辑,如NBA的“战术探索”功能允许球迷用自然语言(如“帮我找东契奇所有的后撤步三分”)搜索历史视频片段,AI结合语义理解与球员骨骼轨迹分析进行精准匹配 [17] - **VR观赛体验**得到升级,如NBA VR体验区允许用户以裁判或球员视角自由观看比赛,并实时展示投篮难度、防守统计等高端数据分析 [5][17] 体育作为AI技术的试炼场与溢出效应 - 体育场景因对毫秒级低延迟、物理世界极端复杂性及不可预测动作的极端要求,正成为AI的“终极试炼场” [21] - 在NBA总决赛、F1高速竞速、NFL激烈对抗等“魔鬼级”场景中验证的AI技术,证明了其在物理世界中极强的鲁棒性 [21] - 技术溢出效应前景可观:例如,用于保护NFL球员膝盖的算法未来可能应用于老人康复医疗;用于分析F1赛车流体力学的算力可能用于设计更高效的新能源汽车 [21] - 科技巨头在体育领域的投入不仅是商业行为,更是AI技术向物理世界和人体奥秘深度渗透的预演 [20][22]
国产AI进展探讨
2025-11-28 01:42
行业与公司 * 纪要主要探讨中国人工智能(AI)行业,特别是大模型、多模态AI、AI智能体(Agent)的发展现状、商业化路径及竞争格局[1] * 核心涉及的公司包括字节跳动、阿里巴巴、腾讯、百度(提及较少)、谷歌(Google)、Meta(OpenAI)等国内外科技巨头[2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22][23][24][25][26][27][28][29][30][31][32][33] 字节跳动的AI布局与进展 * 智能体平台“扣子平台”在国内智能体量和开发者数量上领先竞争对手[3] * 基于豆包2.0大模型的“豆豆包工坊”可生成小软件或应用,类似阿里的灵光[2][3] * 文生视频产品“即梦”日活跃用户数达300万,为国内第一,但全年平均收入仅约3,000万至4,000万[2][3] * B端业务火山云和maMAAS占据全国一半市场份额,但因优惠力度大收入不高,未来将通过增加营销、广告功能提升回报[3][4] * 豆包2.0大模型参数量提升至1T以上,增强抖音自媒体文案生成、电商营销方案等特定功能,并提升多轮交互和调用原生工具能力[2][5] * Token调用量分布:内部使用占1/3(其中80%用于搜广推和内容理解),豆包C端应用消耗14~15万亿Tokens,公有云对外输出约5~6万亿Tokens[31];即梦(原文为吉梦)日消耗Tokens从去年基本为零增长至1万亿,是今年增长最快的方向[31][32] 阿里巴巴的AI策略与优势 * 阿里“灵光”APP不再依赖通识模型操作软件,而是根据用户需求现场生成程序,旨在逐步取代部分软件功能[2][7] * 通过“千问”整合高德地图、饿了么等服务,实现流量引导,提升服务使用率,并通过会员体系(如八八会员)提供免费使用权以增强用户粘性[2][8][9][11] * 阿里在多模态能力上综合实力领先字节跳动,通常比字节早2~3个月发布相似功能,2025年下半年起差距扩大至3~6个月,在视频生成、语音模型等细分领域已超越字节[27][28] * 文生视频模型“万象2.5”能够同步生成带声音的视频,与谷歌VIO 3系列对标,在美感上不相上下甚至略有优势[30] * 阿里云服务器监控、算账及打车业务离线分析等B端场景适合Agent应用;百炼平台客户留存率和付费意愿更高[10] 腾讯的AI生态挑战 * 腾讯在AI生态上前期缺乏投入,导致基础日活用户不足,AI助手和对话功能未能有效吸引用户留存[26] * “元宝”作为对话型AI助手,难以长期留住国内用户,在生态系统方面不如千问,若不能迅速积累足够日活,其发展将受限[14][33] * 腾讯在2025年第三季度放缓了相关投入[33] 多模态AI的进展与影响(以Gemini 3为例) * Gemini 3模型在多模态理解(视频与文本高度融合)方面取得突破,能够处理复杂任务(如生成PPT),可能替代传统Office套件,标志着多模态市场进入新阶段[15][16] * 该技术将极大拓展市场需求空间,例如可实现更高级别的视频内容理解和精准推荐,提升广告投放精准度,带来巨大的B端API新增需求[21] * 谷歌凭借技术壁垒、TPU生态系统及强大的商业化版图(硬件、安卓、Google Cloud、搜索引擎),其他公司难以迅速追赶[19] * Meta需要跟进多模态技术以优化广告业务,但进展不顺利,其投入主要围绕自身业务进行低成本自用[20][24] AI商业化模式与竞争格局 * 国内公司商业化节奏更快,字节跳动早在两年前就开始试水各种模式[9];阿里策略是通过整合自身生态系统服务,不直接收费而是流量变现[9] * C端用户需要的是具体功能(如拍题解题、智能体对话、学习和工作场景),而非多轮对话的AI聊天,因此提供专业化服务和场景功能对提高用户留存至关重要[11][12] * 拥有强大生态系统(如阿里的地图、生活服务)的公司,在提供高价值实际服务、增强用户粘性和变现能力方面更具优势[11][12] * 未来竞争格局中,千问若经营顺利市场份额有较大增长空间;腾讯的“元气平台”类似低代码智能体平台,可通过小程序实现智能体调取,但需先提升日活[13][14] 技术细节与市场观察 * 文生视频领域分为导演系(注重画面精细度、美感,转场慢)和生活类/自媒体类(强调快节奏、逼真度),国内主流模型如阿里万象2.5属导演系[29] * 国内在多模态功能(如图片修改、文字处理)上与谷歌存在差距,主要由于谷歌先进的Token处理架构[30] * 生成式大模型(参数量约0.5B到3B)在广告搜索推荐中效果显著提升,同时算力消耗与上一代模型无异,使用新硬件可大幅降低成本[25] * 谷歌Chrome AI功能月活已达1亿,广告转化效果显著,每月约有80多亿次点击[22][23];Meta计划2026年投入1,000亿美元用于相关领域[22][24]
全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密
量子位· 2025-11-26 09:33
产品发布与定位 - 腾讯混元大模型团队正式发布并开源轻量级视频生成模型HunyuanVideo 1.5 [1] - 该模型基于Diffusion Transformer架构,参数量为8.3B,支持生成5-10秒的高清视频 [2] - 模型定位为“开源小钢炮”,以8.3B的极轻量尺寸实现开源最佳效果,显著降低使用门槛,可在14G显存的消费级显卡上运行 [6] 核心能力与性能 - 模型支持中英文输入的文生视频与图生视频,具备强指令理解与遵循能力,能精准实现运镜、流畅运动、写实人物和情绪表情等多种指令 [5][7] - 支持写实、动画、积木等多种风格,并可在视频中生成中英文文字 [5] - 可原生生成5–10秒时长的480p和720p高清视频,并通过超分模型提升至1080p电影级画质 [6] - 在10秒视频生成效率上,较FlashAttention3提速1.87倍 [15] 技术架构与创新 - 采用两阶段框架:第一阶段为8.3B参数的DiT模型,第二阶段通过视频超分模型提升视觉质量 [11][12] - 创新提出SSTA稀疏注意力机制,显著降低视频长序列生成的计算开销 [15][17] - 采用多模态大模型作为文本编码器,并引入byT5对文本OCR进行独立编码,增强视频文本元素的生成准确性 [20] - 采用多阶段渐进式训练策略,结合Muon优化器加速模型收敛,优化运动连贯性、美学质量及人类偏好对齐 [20] 质量优化与增强 - 为图生视频和文生视频任务分别定制了不同的RLHF策略,以修正伪影并提升运动质量 [23] - 视频超分系统采用8.3B主模型作为骨干网络,设计潜空间特征上采样模块,并应用基于MeanFlow的蒸馏算法缩短推理时间 [21][22] - 集成模型蒸馏、Cache优化等关键技术,大幅提升推理效率,降低资源消耗 [28] 应用与生态 - 腾讯元宝最新版已上线该模型能力,用户可在元宝中通过文字和图片生成视频 [3] - 模型已在项目主页、Github、Hugging Face等平台开源,并提供技术报告 [31]
谷歌Gemini 3夜袭全球,暴击GPT-5.1,奥特曼罕见祝贺
36氪· 2025-11-19 00:07
产品发布核心 - 谷歌正式发布新一代旗舰人工智能模型Gemini 3 Pro,该模型被定位为“史上最强推理+多模态+氛围编程”三合一的AI模型 [1] - 此次发布标志着公司在通往AGI的道路上迈出重要一步,被视为开启了AI的下一个时代 [3][9] - 发布获得了行业高度关注,包括OpenAI CEO在内的业界人士表达了祝贺 [1] 核心性能优势 - 在多项关键基准测试中,Gemini 3 Pro性能相较于前代Gemini 2.5 Pro实现全方位跃升,并在多项测试中超越竞争对手包括GPT-5.1和Claude Sonnet 4.5 [3][4][18] - 模型在LMArena排行榜上以1501 Elo分数名列榜首,在WebDev Arena排行榜上以1487 Elo分数登顶,展示了顶尖的推理和编码能力 [5][6][31] - 其核心优势体现在博士级推理能力,在Humanity‘s Last Exam测试中取得37.5%(无工具)和45.8%(使用搜索和代码执行)的成绩,在GPQA Diamond测试中取得91.9%的成绩 [4][17] 多模态与复杂任务处理能力 - 模型具备世界领先的多模态理解力,能处理文本、图像、视频、音频、代码等多种信息形态,在MMMU-Pro测试中获81.0%高分,在Video-MMMU测试中获87.6%高分 [4][19][28] - 在长程规划和智能体任务方面表现卓越,在Vending-Bench 2测试中以平均净值$5,478.16的成绩大幅领先于其他模型,展示了出色的长期规划能力 [4][38][40] - 模型具备100万token的上下文长度,能够帮助用户以个性化方式进行学习,例如破译手写食谱、分析教学视频并生成训练计划等 [28][30] 编程与开发能力 - Gemini 3在“氛围编程”和智能体编码方面实现突破,能够根据简单提示生成美观灵动的应用和复杂的Web UI [14][31][34] - 在编码基准测试中表现强劲,在LiveCodeBench Pro测试中获得2,439 Elo评分,在SWE-Bench Verified测试中取得76.2%的成绩 [4][32] - 公司同步推出革命性智能体开发平台Google Antigravity,该平台与Gemini 3紧密集成,允许开发者以任务为维度与智能体协同,实现端到端的软件任务开发 [42][45][47] 市场应用与生态整合 - 即日起,Gemini 3 Pro预览版全面上线,而更高级的Deep Think模式将稍后向Google AI Ultra订阅用户开放 [11][41] - 模型的API定价针对不同上下文长度设定,对于不超过20万token的请求,输入价格为每百万tokens $2.00,输出价格为每百万tokens $12.00 [24] - 模型已接入Google AI Studio、Vertex AI等多个开发平台,并与Cursor、GitHub、JetBrains等第三方平台集成,供全球开发者使用 [36] 技术实现与行业影响 - Gemini 3完全在谷歌自研的TPU上完成训练,这被视为公司重要的技术护城河 [54] - 早期实测演示显示模型能力强大,可一次性生成复杂的3D乐高编辑器、重现经典iOS游戏甚至构建Game Boy模拟器,展示了其在游戏开发和复杂应用构建上的潜力 [48][49][52] - 模型的发布在行业内引发广泛关注和讨论,一系列实测Demo展示了其在实际应用中的卓越表现 [48][52]
百度文心5.0大模型发布,支持多模态理解
新浪科技· 2025-11-13 03:44
公司产品发布 - 百度创始人李彦宏在2025百度世界大会上宣布文心5 0大模型正式发布 [1] - 文心5 0大模型支持多模态理解、创意写作及智能体规划等能力 [1] - 百度CTO王海峰介绍文心5 0是一款原生全模态大模型,具有原生全模态建模、理解与生成一体化等特点 [1] 行业技术地位 - 文心5 0大模型在多项国际测评中均取得了领先成绩 [1]
攻克长文档与多模态挑战,Paper2Video实现学术视频的自动化生产
机器之心· 2025-10-23 02:22
研究背景与挑战 - 学术展示视频制作高度依赖人工,通常需要数小时才能产出几分钟的视频,效率低下且成本高昂[4] - 学术展示视频生成面临三大独特挑战:来源于完整学术论文的长文档与高密度输入、需要同时生成并对齐多个模态通道、缺乏专门针对知识传递和学术可用性的评价标准[4] - 现有自然视频生成模型和简单的幻灯片加语音拼接方法难以胜任学术视频生成任务[4] Paper2Video评价基准 - 基准收集了来自近三年顶会的101篇论文及其作者录制的展示视频,涵盖机器学习、计算机视觉与自然语言处理领域[10] - 每个样例包含论文LaTeX工程、幻灯片、展示视频、讲者肖像与语音样本,论文平均13.3K字、44.7幅图表,展示视频平均16页幻灯片、时长6分钟[10] - 基准提出了四个评价指标:Meta Similarity衡量类人相似度,PresentArena评估类人一致性,PresentQuiz测试信息传递性,IP Memory反映学术影响力[7][13][16] PaperTalker多智能体框架 - PaperTalker是首个支持学术展示视频生成的多智能体框架,以研究论文、讲者图像与语音样本为输入,自动生成包含幻灯片、字幕、语音、光标轨迹和讲者视频的完整展示视频[17] - 框架由四个关键模块组成:Slide Builder基于论文内容生成LaTeX Beamer幻灯片,Subtitle Builder生成逐句字幕,Cursor Builder实现光标时空对齐,Talker Builder合成个性化讲者视频[18][23] - 框架通过模块化的多智能体协作,实现了可控、个性化、学术风格化的展示视频生成[18] 技术创新与优化 - 提出Tree Search Visual Choice布局优化机制,将低效的多轮参数搜索转化为高效的单轮视觉判别,实现图像尺寸与布局的自动优化[21][24] - 引入UI-Grounding和WhisperX模型实现光标在时间和空间上的精准对齐,通过提供显式空间线索帮助观众定位关键信息[23][25] - 采用并行化的talking-head生成机制,将讲者生成过程划分为独立的幻灯片片段并行执行,实验证明实现了超过6倍的加速[26] 性能评估结果 - 在Meta Similarity指标上,PaperTalker在幻灯片、字幕和语音的相似度上均取得最高分,与人类作品最为接近[29][31] - 在PresentArena观感质量对比中,PaperTalker获得最高胜率,完整版本比去掉讲者和光标的变体更受偏好[31] - 在PresentQuiz知识传递测试中,PaperTalker的问答准确率达到17.0%,显著优于其他基线方法[29][31] - 在IP Memory学术记忆度方面,PaperTalker达到50.0%的表现,引入讲者视频显著提升了记忆效果[29][31][41] 效率与成本优势 - PaperTalker在生成成本上最低,仅为0.001美元,总耗时48.1分钟,相比非并行版本实现6倍加速[34][35] - 效率优势主要来自三个方面:基于Beamer的幻灯片生成减少token消耗、轻量化的tree search visual choice后处理、并行的talking-head生成机制[35] - PaperTalker仅消耗62K token,显著低于PresentAgent的241K token,同时时间成本也大幅降低[34]
国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键
量子位· 2025-10-11 09:01
文章核心观点 - 国产开源模型在垂类领域取得突破,逗逗AI的游戏理解模型LynkSoul VLM v1在东京电玩展上表现超越GPT-4o等顶尖闭源模型 [1][2] - 公司认为AI陪伴的终极目标是让虚拟形象融入生活,多模态理解技术是产品持续突破的关键 [9] - 公司通过用户参与和数据积累构建核心壁垒,并已实现显著的用户增长和全球化初步布局 [5][43] 技术优势与性能表现 - 专为游戏训练的视觉语言模型LynkSoul VLM v1,在《英雄联盟》测试场景的识别准确率、建议实用性及语言表达自然度上显著超越通用模型 [7][10] - 官方测试数据显示,该模型在视觉理解准确度(3.44 vs 1.95)、游戏情境掌握度(3.29 vs 1.95)和语言表达自然度(2.91 vs 1.37)上均优于OpenAI-4o-Latest [11] - 在泛化能力测试中,模型在未参与训练的游戏上同样表现稳健,三项核心指标(4.06/3.67/4.18)超越对比模型 [12] - 模型推理延迟具有优势,首包延迟为2.179秒,总延迟为3.981秒,优于对比模型 [14] 用户增长与市场反响 - 新产品上线约一个月,新增200多万用户,总用户数突破1000万 [5] - 海外版Hakko AI已积累几十万用户,在英语和日语市场反响良好,用户留存时长甚至超过国内 [43] - 用户使用场景超出预期,有超过一半的时间发生在游戏外,如陪同看剧、逛电商平台乃至作为直播课助手 [35] 产品理念与战略方向 - 公司认为Chatbot交互形态不友好,理想形态是基于多模态的、能理解环境信息的深度陪伴,类似Cursor基于代码上下文的交互范式 [29][31] - 公司定位为软件优先,目标是打造一个可跨设备(电脑、手机、硬件等)使用的7x24小时陪伴账号,未来再与硬件结合 [37] - 公司从第一天就定位全球化,预计长期用户比例国内与海外为6:4,收入各占一半 [43][45] 核心竞争力构建 - 超越顶级模型的关键在于前期积累的800多万游戏玩家提供的画面及互动数据,通过精调使模型能精准理解场景 [18] - 采用主题索引结合向量检索的技术方案实现长期记忆,使AI能根据用户偏好提供个性化互动 [23][24] - 当前技术攻关重点在于多模态理解,特别是对游戏连续帧而非法单帧的理解 [27]
24岁退学博士生,赢得2.5亿美元薪酬合同
虎嗅· 2025-08-25 01:52
核心事件 - 24岁AI研究员Matt Deitke与Meta签署四年总价值2.5亿美元薪酬合同 包括基础工资、签约奖金和股票 首年收入可能达1亿美元[1][4][6] - 初始Meta报价四年1.25亿美元遭拒 后由CEO扎克伯格亲自介入谈判并将合同价值翻倍[5][6][25] - 该薪酬水平经通胀调整后为原子弹项目负责人奥本海默收入的327倍[1] 人才背景与技术贡献 - Deitke曾就读华盛顿大学博士项目 中途退学 18岁加入艾伦人工智能研究所担任研究科学家[13] - 主导开发ProcTHOR框架 获NeurIPS 2022杰出论文奖 可自动化生成大规模可交互3D虚拟环境 使用1万个生成房屋训练AI智能体实现零样本泛化能力[15] - 创建Objaverse开源3D数据集 规模从80万扩展至超1000万个模型 比此前所有公开3D数据集总和大100倍[15] - 开发Phone2Proc系统 用iPhone扫描真实房间10分钟即可生成大量虚拟训练环境 使机器人真实导航成功率从34.7%提升至70.7%[16] - 领导Molmo项目构建PixMo数据集 采用人类语音标注替代文字 其72B参数模型性能超越Claude 3.5 Sonnet和Gemini 1.5 Pro 仅次于GPT-4o[18][20] 行业竞争态势 - Meta从苹果挖走AI团队负责人庞若鸣 薪酬包价值约2亿美元 其两名关键同事Mark Lee和Tom Gunter随后加入Meta[27] - Meta超级智能团队中40%成员来自OpenAI 20%来自Google DeepMind 包括Pei Sun、Michael Zhang、Hongyu Ren等研究人员[28] - 扎克伯格亲自参与名为"招聘派对"的高管群聊 讨论招募策略和接触方式[30] 人才流动趋势 - 2020年计算机科学博士毕业生进入工业界比例达70% 较2016年57%显著上升 远高于20年前的20%[32] - AI创业公司成为巨头收购目标 如Windsurf创始团队被谷歌收购后仅留空壳公司[34] - OpenAI CEO形容巨头挖角行为为"黑手党式" 风险投资需重新评估团队瓦解风险[35] 行业影响与结构变化 - 顶尖AI人才向少数科技巨头集中 形成算力、数据和人才的"三位一体"护城河[38] - 非技术AI岗位年增长率超30% 包括AI内容创作者、培训师和合规经理等新职业[40] - 美国计算机科学和计算机工程本科毕业生失业率分别达6.1%和7.5% 企业更倾向招聘能立即产生高价值的资深人才[42]
突破SAM局限!中山大学X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 10:37
核心观点 - X-SAM是由中山大学、鹏城实验室和美团团队提出的突破性框架,将分割范式从"分割任何事物"推向"任何分割",实现了多任务、多模态的统一分割能力 [3][4] - X-SAM在超过20个分割数据集、7大核心任务上全面超越现有模型,包括文本指令驱动的分割任务和跨图像场景的精准分割 [4] - X-SAM通过三大支柱创新(统一输入格式、双编码器架构、多阶段训练)解决了SAM的局限性,如任务单一性、模态割裂和多任务壁垒 [12][6] 技术架构 统一输入格式 - 设计统一输入规则,用`<p>`和`</p>`标记文本查询,`<region>`标签代表视觉提示(点、框、涂鸦等),使不同任务能被模型统一处理 [13][15] 双编码器架构 - 图像编码器(SigLIP2-so400m)提取全局特征,分割编码器(SAM-L)捕捉像素级细节,双投影器将视觉特征转换为与语言模型匹配的维度 [19] - 分割连接器通过补丁合并和扩展操作生成1/8、1/16、1/32三种尺度特征,支持不同大小物体的分割 [19][17] - 分割解码器基于Mask2Former架构,能一次性输出多个分割掩码,并通过LLM生成的`<SEG>`标签关联类别或描述 [20] 多阶段训练 - 分割器微调:在COCO全景分割数据集上训练分割编码器和解码器,使用分类损失、掩码损失和dice损失 [27] - 对齐预训练:在LLaVA-558K数据集上训练双投影器,使视觉特征与语言模型词嵌入空间对齐 [27] - 混合微调:混合多种任务数据集训练,采用数据集平衡重采样策略(参数t=0.1)解决数据集大小差异问题 [24][27] 性能表现 基准测试 - 在COCO全景分割中PQ达54.7,接近Mask2Former(57.8);在A150-OV数据集上AP达16.2,远超ODISE(14.4)和PSALM(9.0) [31] - Referring分割任务中,RefCOCO/+/g的cIoU分别达85.1/78.0/83.8,超越PSALM(83.6/72.9/73.8)和Sa2VA(81.6/76.2/78.7) [32] - 推理分割任务gIoU达56.6,超过LISA-7B(52.9);GCG分割mIoU达69.4,远超GLaMM(65.8) [32][33] 新任务VGD分割 - 在COCO-VGD数据集上,点/涂鸦/框/掩码提示的AP分别达47.9/48.7/49.5/49.7,远超PSALM(2.0-3.7) [26][35] - 支持跨图像VGD分割,用一张图的视觉提示在另一张图中分割同类对象 [26] 消融实验 - 混合微调使开放词汇分割AP从16.4提升至22.4,推理分割gIoU从48.2跃升至57.1 [37] - 双编码器组合使GCG分割mIoU达69.4,远超单编码器方案(Swin编码器为62.5) [38] - 多阶段训练中,跳过分割器微调会使COCO全景分割PQ降至45.2,完整训练提升至54.7 [39] - Mask2Former解码器比SAM原生解码器PQ提升9.2,加入多尺度特征后PQ再提升1.3 [41] 未来方向 - 计划与SAM2结合拓展至视频分割,将VGD分割延伸到视频领域实现"跨时空视觉定位" [43] - 需解决任务平衡难题(部分分割任务因对话数据干扰性能下降)和性能不均问题(某些细分任务略逊于专门优化模型) [46]
还在纠结是否入门大模型?别人已经发了第一篇顶会!
自动驾驶之心· 2025-07-14 06:20
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需要关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调大模型等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受到行业重点关注 [1] 大模型优化课程介绍 - 课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键技术 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式 [2] 课程解决的问题 - 帮助学员系统掌握大模型相关理论知识,形成清晰的体系 [3] - 解决动手能力差、无法复现论文的问题,协助开发设计新模型 [3] - 解决论文写作和投稿难题,积累写作方法论并获得投稿建议 [3] 课程收获 - 掌握大模型优化的核心算法,包括结构化剪枝、低比特量化、动态检索等关键技术 [9] - 获得Coding能力增强,在baseline代码和可用数据集上高效展开研究 [9] - 撰写出论文初稿,可能产出一篇不错的论文 [9] 课程大纲 - 大模型剪枝与稀疏化算法优化:详解让大模型体积更小、运行更快的方法 [19] - 大模型量化加速全景:从数据位宽到编译来优化大模型的加速 [19] - 参数高效微调(PEFT)革命:介绍用少量计算资源让大模型适应垂类任务的高效微调算法 [19] - 基于RAG的大模型知识动态扩展范式:解决大模型的事实性错误和知识更新滞后问题 [19] - Chain-of-Thought推理进阶:针对让大模型分步骤思考解决复杂问题的算法进行深入剖析 [19] 课程资源 - 提供Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目 [16] - 必读基础论文包括GPTQ、Sheared LLaMA、TVM等 [18] - 数据集来自于公开数据集,根据具体任务选用 [13] 招生要求 - 具备深度学习/机器学习基础,熟悉Python和PyTorch [6] - 最好具备4张4090显卡或以上设备性能的机器,最低不少于2张4090显卡 [15] - 掌握基本的编程语言,熟练使用PyTorch等深度学习框架 [15]