Workflow
基础模型
icon
搜索文档
宇信科技韩冬:AI技术发展的突然加速,DeepSeek的发布让他“没过好年”
新浪财经· 2025-12-09 08:19
专题:2025中国企业竞争力年会 "2025中国企业竞争力年会"于12月9日至10日在北京举行。宇信科技副总裁韩冬在演讲中表示,2024年 和2025年 AI 技术发展的突然加速,2025 年春节期间 DeepSeek 的发布,让他年没过好,"身为上市公司 数字化转型负责人,董秘在春节期间便持续追问相关信息、推进布局规划"他说。 结合技术成熟度曲线的规律,韩冬分析了 2024 至 2025 年人工智能领域的三大关键变化。 "2025中国企业竞争力年会"于12月9日至10日在北京举行。宇信科技副总裁韩冬在演讲中表示,2024年 和2025年 AI 技术发展的突然加速,2025 年春节期间 DeepSeek 的发布,让他年没过好,"身为上市公司 数字化转型负责人,董秘在春节期间便持续追问相关信息、推进布局规划"他说。 结合技术成熟度曲线的规律,韩冬分析了 2024 至 2025 年人工智能领域的三大关键变化。 一,生成式 AI 与基础模型正经历触底过程,进入曲线中间的低谷期。他强调,这种沉默并非技术终 结,而是新技术生命周期中的必然阶段,恰恰为企业提供了精准布局的战略机遇,符合技术发展的客观 规律。 二,市场心态 ...
博世最新一篇长达41页的自动驾驶轨迹规划综述
自动驾驶之心· 2025-12-05 00:03
文章核心观点 - 博世发布了一篇关于基础模型在自动驾驶轨迹规划中应用的重量级综述,系统梳理了37种近期方法,提出了统一分类法,并批判性评估了其设计、优势与局限,旨在为该快速发展的领域建立结构化基础并指明未来方向 [2][11] 背景回顾 - 基础模型是利用海量数据学习表征并可适配多种下游任务的大规模模型,如大型语言模型和视觉语言模型 [4] - 研究表明,未经自动驾驶专门训练的现成基础模型已能令人惊讶地良好理解复杂驾驶场景,这使其成为构建自动驾驶专用方案的潜力基础,也是当前行业范式转变的关键驱动力 [5] - 轨迹规划是驾驶过程最核心的任务,其他能力均为其提供辅助,因此综述重点聚焦于基础模型如何助力轨迹规划模型 [8] 分层分类体系 - 利用基础模型的轨迹规划方法可分为两大主类别:为轨迹规划定制的基础模型、指导轨迹规划的基础模型 [16] - **为轨迹规划定制的基础模型**:通过微调现有预训练基础模型,直接用于自动驾驶场景,共22种方法,可进一步分为仅专注于轨迹规划的模型和具备额外能力的模型 [19][20] - **指导轨迹规划的基础模型**:不构建专用模型,而是将现成基础模型的知识转移到现有自动驾驶模型中,共15种方法,可根据知识转移发生在训练阶段或推理阶段进一步划分 [20][21][22] 为轨迹规划定制的基础模型 - **微调核心要素**:包括数据整理、模型设计和训练策略 [23] - **数据整理**:取决于模型用例,仅用于轨迹规划的数据集核心是“观测-轨迹”数据对;若需语言或动作交互能力,则需补充相应的问答对或指令-轨迹对数据 [24][28] - **模型设计**:主流思路包括直接使用现成视觉语言模型,或组合视觉编码器与大型语言模型并通过视觉适配器连接 [27][29] - **轨迹表征**:常见方式包括将轨迹作为文本生成、作为离散化的动作token、或作为数值集合通过附加的规划头单次生成 [31] - **模型训练**:通常通过单阶段或多阶段完成,例如先训练视觉适配器,再微调全部或部分参数 [29] - **仅专注于轨迹规划的模型**:根据是否使用思维链及使用方式,可细分为无思维链、文本输出作为思维链、初始轨迹预测作为思维链三类 [25][32] - **具备额外能力的模型**:除轨迹规划外,还具备语言交互和/或动作交互能力 [38] - **语言交互能力**:需要视觉问答数据对进行训练,评估采用自然语言处理领域的经典指标 [38][39][40] - **动作交互能力**:可根据用户指令规划轨迹,目前方法均在CARLA模拟器的合成数据集上训练,需具备规避误导性指令的机制 [43] 指导轨迹规划的基础模型 - **仅在训练阶段进行知识蒸馏的模型**:推理阶段无需调用基础模型,能保持效率,方法包括将CLIP表征对齐到端到端模型中,或利用GPT-4o输出元动作进行蒸馏等 [48][49][51] - **在推理阶段进行知识转移的模型**:训练和推理阶段都调用基础模型,计算成本更高,根据转移知识类型可分为转移场景描述、转移规划决策、或同时转移两者 [48][53] - **知识转移类型**:包括场景描述、元动作、轨迹等,通过不同编码方式融入到自动驾驶模型的各个层级 [53][54][55] 现有方法的数据集与代码开放性 - 开放性是推动研究进展和实际部署的关键,但无任何一种方法的所有资产均支持研究与商业双用途 [57][59] - 仅有5种方法公开了所有资产,但部分仍限制商业使用,其中4种属于“为轨迹规划定制的基础模型”,1种属于“指导模块化自动驾驶模型轨迹规划的基础模型” [59] - “指导端到端自动驾驶模型轨迹规划的基础模型”类别尚无开源实现,训练代码与模型权重是限制最严格的资产 [59] 开放问题与挑战 - **高推理成本导致部署困难**:基础模型参数庞大且自回归生成,导致推理延迟高,难以满足实际部署所需的10-30帧/秒帧率要求,例如Orion模型在A800 GPU上推理帧率仅为0.8帧/秒 [63] - **微调后的能力下降**:微调可能导致视觉语言模型丧失对轨迹规划潜在有用的能力,出现“概念遗忘”现象 [64][66] - **动作交互能力局限**:现有模型仅能处理短时域内可执行的指令,无法拆解和执行人类化的复杂多步指令 [68] - **仿真到现实的差距**:所有具备动作交互能力的模型均在合成场景中训练测试,存在域转移问题,阻碍实际部署 [69] - **性能影响因素不明**:不同方法在架构、数据、训练上差异巨大,难以厘清导致性能差异的核心因素 [70] - **缺乏推理能力评估基准**:需要建立标准基准来评估模型在复杂语言-视觉场景下的推理能力 [71]
IJRR北邮首篇,联合三星中国研究院、清华大学等共同探讨“机器人操作大模型”
机器人大讲堂· 2025-11-24 08:31
通用机器人操作面临的挑战 - 在非结构化场景中实现通用操作存在挑战,包括与人类非自然交互、数据稀缺、感知和决策能力有限、处理不准确、策略不够鲁棒以及环境转移性差 [1] 基础模型为解决挑战带来的机遇 - 大型语言模型能直接生成策略代码或动作序列,促进机器人与环境的自然交互 [4] - 视觉基础模型增强机器人在开放环境下的感知能力 [4] - 视觉语言模型作为多模态信息理解的核心,促进视觉与语言的对齐 [4] - 大型多模态模型扩展模态范围至3D点云、触觉等更多感知维度 [4] - 视觉生成模型可根据文本或图像生成2D图像或3D网格,辅助仿真环境场景生成或环境转移 [4] - 机器人基础模型作为端到端策略模型,能基于输入观测直接输出动作 [4] 当前通用操作的发展路径与框架 - 在有限条件下利用单一基础模型实现通用操作不足,当前机器人基础模型端到端训练方法保证99%以上成功率仍是挑战 [6] - 参考自动驾驶发展路径,初期通用操作需要一个框架,并将L0级别通用操作限定在提升旧技能、操作刚性物体、静态环境、短程任务及低力/位精度要求 [6] - 通过提升各模块性能可实现从L0级别到最终统一操作 [6] 基础模型在交互模块的应用 - 基础模型相比传统固定模板方法,在处理含糊和纠正指令时具备自然语言交流、多模态感知检测歧义及强大先验知识理解用户意图的优势 [8] 基础模型在前后置条件检测模块的应用 - 基础模型在物体可供性检测和识别中具备开放集零样本识别、加速学习过程及帮助选择更精确操作姿态的优势 [10] 基础模型在技能层级模块的应用 - 基础模型能辅助处理自然语言输入,并通过世界知识和常识推理提升感知与推理水平,增强技能层次任务可扩展性和泛化能力 [12] 基础模型在状态感知模块的应用 - 基础模型可辅助生成带语义信息的场景重建,利用强大二维特征提升三维特征质量,并使开放集姿态估计成为可能 [14] 基础模型在策略模块的应用 - 策略分为基于物体/动作方法和端到端方法,基础模型推动策略发展为通用目标策略,分类为视觉-语言-动作-代码、视觉-语言-动作-关键位姿和视觉-语言-动作-密集位姿 [16] - 基础模型助力强化学习应对奖励函数设计、任务分层及探索效率等挑战 [17] 基础模型在操作数据生成模块的应用 - 操作数据分为真机、仿真和互联网数据,基础模型能实现仿真场景布置和3D资产自动化生成及逼真数据增强 [21] - 真机数据采集趋向低成本遥操作设备发展,例如Human Plus成本仅30美元(一个RGB相机),而Open-Tele Vision成本达3499美元 [21]
中外专家共探AI技术前沿与产业赋能
新浪财经· 2025-11-21 07:23
论坛概况 - 第五届智能计算创新论坛在浙江杭州举行,由浙江之江实验室与《科学》/美国科学促进会共同举办 [1] - 论坛主题为“计算依靠智能、计算为了智能”,旨在搭建智能计算领域国际学术交流平台 [1] - 论坛吸引中外专家探讨人工智能技术前沿发展及其在天文、地学、生命科学、材料等领域的赋能作用 [1] 科学基础模型发展 - 科学基础模型构建的关键是将不同类型科学数据token化并置于同一空间进行训练与推理,以应对跨学科复杂问题 [2] - 基础模型的学习范式经历模仿学习、强化学习和自主学习三个阶段,目前已从模仿学习过渡到强化学习 [2] - 基础模型的应用正从对话转向任务处理,模型推理效率成为大规模部署AI应用程序的关键因素 [2] 模型效率与产业协同 - 基础模型能力提升所消耗的token数量呈指数增长,token消耗量可能成为AI时代衡量经济运行的新指标 [3] - 提升模型推理效率需通过产业上下游联合优化、协同设计模型芯片,并推动系统与架构联合创新 [3] - 模型推理效率越高,产生token的成本越低 [3] 智能系统应用与协作 - 在动态、不可预测环境中,能够有效响应变化的机器人变得愈发重要 [4] - 中国在智能制造等领域展现出领先实力,为观察智能体协作及新技术应用提供了绝佳试验场 [4] - 各国科学家应建立合作网络,携手合作以创造更多可能 [4]
刘德兵说上限,刘知远讲拐点:中国AI十年剧本被他们提前揭开了
36氪· 2025-11-20 09:57
基础模型竞争格局 - 开源成为主流,模型能力差距被迅速放大,一线开源模型达到90分水平后,85分模型即缺乏竞争力[6] - 基础模型公司投入成本高,行业正从“百模大战”逐步收敛,基础模型决定了整个AI产业发展的上限[6] - 公司研发了五十多款模型,其中四十多款已开源,开源带来了大量商业收益,如用户转化和生态合作[5] 未来十年AI发展趋势 - 未来关键变量来自开源生态成熟、行业场景深度落地以及AI成为“全民能力”带来的广泛参与[2] - 行业落地是未来十年关键点,应用将更加成熟,与智能制造、能源等方向进行深度融合[7][8] - AI将进入与人协同共生的阶段,目标是基础技术“摸高”和行业落地“做實”[13] 中国AI发展现状与机遇 - 中国AI正从“跟跑”走向“并跑”,具体体现为GLM-4.6模型在国际评测集Code Arena榜单与Claude、GPT-5并列第一[10] - 应用落地扎实,通过MaaS平台提供服务,GLM-4.6发布后在OpenRouter上增长非常快[11] - 实现“领跑”的机会在于AGI是长跑,下一阶段关键是模型自学习能力,需产业链上下游协同努力[11][12] 智能体技术演进 - 智能体的关键不是堆叠知识,而是让模型具备“在指定工作岗位上自主学习的成长能力”,像大学毕业生通过实践成长为专家[3][18] - 大模型已具备通识能力,但需通过自主确定学习内容、在实践中接受反馈来成为领域专家,否则将限制应用广度与深度[18][19] - 2025年是“AI+编程”的显著拐点,该能力正成为软件生产力的重要支撑,代码大模型研发出现大跃迁[3][17] 产业生态与协作 - 开源可促进产业发展,吸引更多人贡献智慧,解决技术难点与空白,使商业合作更顺畅[4][5] - AI是全民事业,需进行全民教育让人参与发展,未来十年不会使用AI的人效率将明显偏低[8] - 公司发展需与合作伙伴协同推动产业,布局自学习等新技术以争取领跑机会[12][14]
中泰证券:Gemini 3 Pro能力全方位跃升 开创Agent平台新格局
智通财经· 2025-11-20 08:01
文章核心观点 - 基础模型能力持续超预期提升,行业增长逻辑未变,维持“增持”评级 [1] - 模型能力的突破性进展将提升应用场景渗透率,同时重塑价值链格局并侵蚀应用层公司边界 [1] - 投资建议关注确定性强的算力层、模型层公司及深度嵌入业务流程的B端应用厂商 [1] Gemini 3模型性能表现 - Gemini 3 Pro在Humanity's Last Exam中得分37.5%,大幅超越GPT-5.1的26.5%和ClaudeSonnet 4.5的13.7% [2] - 在数学能力测试MathArena Apex中得分23.4%,大幅超越GPT-5.1的1.0%和ClaudeSonnet 4.5的1.6% [2] - 在MMLU-Pro、Video-MMMU等多模态评测中均取得SOTA成绩 [3] Gemini 3的技术与生态创新 - 推出生成式用户界面方案,能自动生成完全定制的交互式响应,实现定制化交互体验 [3] - 推出智能体开发平台Google Antigravity,支持开发者免费使用Gemini 3 Pro等模型编排多个AI Agent并行工作 [3] - 搜索场景推出Search AI Mode,其AI Overview月度用户量已达20亿量级,查询扇出技术获重大升级 [4] 行业趋势与价值链格局 - 基础模型大厂呈现全栈布局趋势,在基础层自研芯片和搭建算力集群 [5] - 应用层厂商正从模型提供商迈向平台,并进一步走向通用工作流或类应用 [5] - 在通用知识工作、办公与代码开发等横向场景中,独立SaaS产品正被整合为基础模型的模块、Agent或App接口 [5]
OmniDexGrasp 揭秘:基础模型 + 力反馈,让机器人 “看懂指令、灵活抓握” 的通用方案
具身智能之心· 2025-10-31 00:04
技术方案核心创新 - 提出“基础模型生成人类抓握图像 + 动作迁移 + 力反馈控制”的三段式框架,以解决灵巧抓取领域“泛化性”与“物理可行性”难以兼顾的瓶颈 [1] - 核心设计是不直接生成机器人动作,而是以人类抓握作为通用中间表示,串联泛化生成、动作迁移和力控执行,既保留基础模型的泛化能力,又通过精准转化解决物理落地问题 [4] - 该方案在模拟与真实场景中实现了跨指令、跨机器人、跨任务的全能灵巧抓取 [1] 方案模块详解 - **模块1:基础模型生成人类抓握图像**:输入支持全场景指令,包括自然语言、视觉提示或单张演示图,通过正负提示模板优化生成图像质量,确保符合指令且具备物理合理性 [6] - **模块2:人类图像到机器人动作迁移**:通过手-物三维重建、灵巧重定向和可执行动作转换三步策略,将人类抓握意图转化为适配不同机器人手型且符合真实场景物体位姿的关节动作 [9] - **模块3:力感知自适应抓取**:采用双阶段位姿设计和力约束位置控制策略,通过力传感器实时监测接触力,使脆弱物体抓取成功率从56%提升至88%且无损坏风险 [12][13] 性能评估与对比 - 在6类真实世界灵巧抓取任务测试中,平均成功率达到87.9%,其中Human-Robot Handover任务成功率高达100% [15] - 与传统方法相比优势显著,例如在语义抓取任务中,“液体容器”抓取成功率从25%升至80%,“手柄”从20%升至60%,“脆弱物体”从55.6%升至91.7% [16][17] - 在模拟场景的33类物体测试中,面对“新类别”物体,传统方法性能暴跌,而该方案凭借基础模型泛化能力保持稳定,是唯一能应对完全陌生物体的方案 [18][19] 技术通用性与扩展性 - 方案能适配多种灵巧手,包括Inspire Hand、Leap Hand、RoboSense Hand和Shadow Hand [20] - 技术可自然扩展到操控任务,通过生成抓取后物体运动轨迹,实现“抓取-移动-放置”的完整操控,为通用机器人操控提供延伸可能 [20] - 模型适配性强,兼容闭源与开源基础模型,开源模型经任务微调后性能可大幅提升,如Wan2.2微调后稳定性得分从2.52升至3.49 [8] 行业影响与未来方向 - 该方案为灵巧抓取技术产业化提供了兼顾泛化性与实用性的参考范本,尤其适用于追求快速落地的工业场景或家庭服务机器人 [23] - 未来方向包括多模态观测融合以提升复杂场景抓取精度,以及深化操控任务以实现端到端的通用操控 [22] - 关键启示在于“人类抓握”是绝佳的中间表示,有效衔接了基础模型的泛化能力与不同机器人的适配需求 [21]
实锤了:GPU越多,论文接收率越高、引用越多
机器之心· 2025-10-17 08:12
基础模型研究资源与产出的关系 - 基础模型研究的进步高度依赖大规模数据、算力和人力资源,资源获取能力与研究成果影响力(如论文发表和引用量)直接相关 [2][3] - GPU是衡量研究成本的关键指标,因其供应有限且受严格控制,研究将GPU数量和TFLOPs与34,828篇顶级会议论文关联分析 [4] - 研究发现GPU获取能力越强,在八个顶级AI会议中的论文接收率和引用量也越高,共识别出5,889篇基础模型相关论文 [5] 研究方法与数据收集 - 研究覆盖2022年至2024年NeurIPS、ICLR、ICML等八个顶级机器学习会议的34,828篇论文,使用关键词搜索和GPT-4o mini分类识别出5,889篇基础模型论文 [8] - 通过系统API和GPT-4o mini提取论文结构化信息,并对229位基础模型论文一作(涉及312篇论文)进行问卷调查以收集计算资源使用数据 [11] - 人工校验与GPT提取数据对比显示,GPU数量、类型和时长信息的自动提取缺失率分别为59.7%、48.3%和88.6%,突显资源披露规范缺失 [16][17] 基础模型研究增长趋势 - 基础模型论文在顶级AI会议中的占比从2022年的2.07%飙升至2024年的34.64%,呈现爆炸式增长 [18][19][26] - 在NLP领域专业会议(如COLM、EMNLP、ACL)中,基础模型论文比例超过综合性机器学习会议,推理相关论文增长最快 [22][23] - 尽管论文数量激增,单个项目使用的GPU数量保持稳定,1到4个GPU的配置最为常见,约占一半比例 [25] 学术界与工业界研究格局 - 学术界611个机构共发表4,851篇论文,工业界163个机构发表1,425篇论文,谷歌和微软是论文产出最多的单一实体 [29][32] - 工业界研究者人均发表8.72篇论文,学术界人均发表7.93篇,研究效率相当,显示研究高度集中在能提供强大算力的顶级机构中 [31] - 美国和中国在基础模型研究产出方面处于领先地位,与两国在高等教育和AI领域的长期投入相关 [31] 模型选择与资源分布 - 开源模型(如LLaMA系列)是研究中使用最频繁的,因其灵活性和可访问性优于闭源模型(如GPT系列) [35][37] - NVIDIA A100是基础模型研究中使用最广泛的GPU,排名前十的GPU均来自NVIDIA家族 [38] - 专注于预训练的研究其GPU使用数量显著高于后训练或推理研究,但不同机构、领域或方法间的GPU使用量无显著差异 [41] 计算资源对研究产出与影响力的作用 - 一篇被接收的论文通常有5名作者,使用4个GPU,项目平均持续约5个月,TFLOPs衡量的总计算能力比GPU数量更能预测论文产出和引用量 [44][45] - 拥有更强算力支持的机构其研究成果往往获得更多引用,但算力并非决定性因素,许多高引用论文来自计算资源有限的机构 [45][46] - 对ICLR会议数据分析发现,被拒稿的论文比被接收的论文使用略少的GPU和TFLOPs,但差距微乎其微,审稿更关注新颖性而非资源多寡 [47] 研究资助来源 - 政府是基础模型研究的最大资助方,在披露资助信息的论文中,85.5%(848篇)获得政府资助,企业资助占29.3%,基金会资助占10.3% [41][42] - 一个国家的人均GDP与其资助的论文数量无必然联系,机构的支持力度和政策比单纯的国家经济实力更能影响研究产出 [41]
2025云栖大会在杭州开幕 数千科技产品集中亮相
中国新闻网· 2025-09-25 01:17
经过仔细审阅,所提供的文档内容存在大量乱码、不完整信息以及非连贯文本,无法从中提取出关于特定公司或行业的实质性、可验证的关键信息。文档中出现的“2025云栖大会”、“通义”、“基础模型”等碎片化词汇暗示内容可能涉及科技行业会议及人工智能技术,但由于信息严重缺失且缺乏上下文,无法进行有意义的总结。 基于当前文档质量,无法完成所要求的任务。建议提供完整的、可读的新闻文本以便进行专业分析。
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-16 23:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]