大语言模型
搜索文档
DeepSeek的终极野心:把大语言模型的基本语言都改造成图像
36氪· 2025-10-21 12:52
核心观点 - DeepSeek开源了名为DeepSeek-OCR的模型,该模型在权威基准上取得了业界顶尖的成绩 [1] - 该研究的核心是解决大语言模型面临的长上下文处理算力瓶颈,通过将文本信息渲染成图像进行高效压缩,从而减少所需的视觉token数量 [4] - 这一方法可能改变未来大语言模型的输入范式,实现用图像作为更高效的输入媒介 [6][37] 技术原理与创新 - 当前大语言模型对更长上下文的追求受限于Transformer注意力机制的计算复杂度,其随序列长度呈二次方增长 [7] - DeepSeek-OCR提出通过光学压缩来减少token数量本身,而非优化注意力计算 [7] - 视觉token是视觉模型处理图像的基本信息单元,一张1024*1024的图像可被划分为4096个视觉token [8] - 大小为其一半的图像能容纳约10000个文本token,表明视觉模态是文本信息的高效压缩媒介 [9] - DeepSeek-OCR实现了10倍压缩几乎无损,20倍压缩基本可用的效果 [10] - 团队设计了名为DeepEncoder的创新视觉编码器,这是一个约3.8亿参数的串联三级架构,完美解决了高分辨率处理和低计算成本之间的矛盾 [11][12][14][16] 性能表现与效率 - 在10倍压缩率下(用64个视觉token解码600-700个文本token),OCR精度高达96.5% [17] - 在20倍压缩率下(用64个token解码1200+token),模型精度保持在约60%的可用水平 [17] - 在OmniDocBench基准测试中,DeepSeek-OCR(Small模式)仅用100个视觉token,性能就超过了使用256个token的GOT-OCR2.0 [19] - DeepSeek-OCR(Gundam模式)使用不到800个视觉token,性能全面超越了需要近7000个token的MinerU2.0 [19] - 单颗英伟达A100 GPU即可每日处理超过20万页文档 [20] - 配备20台服务器(每台搭载8颗A100 GPU)时,系统日处理能力可提升至约3300万页 [20] - 模型支持约100种语言,能识别处理纯文本、图表、化学式与几何图形等多种文档类型 [20] 行业影响与未来愿景 - 该方法不需要额外的基础设施成本,因为在现有的多模态系统上即可实现 [22] - 该方法模拟人类的遗忘机制,通过多分辨率设计实现分层记忆管理,为理论上无限上下文提供了可能路径 [25][27][28][29][31][32] - 当前压缩是无选择性的均匀压缩,未来的方向是让压缩变得有选择性,更符合人类记忆机制 [33][34][35] - 该方法可能实现输入上的统一,因为图像模态更合乎人类认知,所有给LLM的输入都可能被先渲染成图像 [37] - 这被视为一条模拟人类认知和遗忘、通向AGI记忆和输入系统的新路径 [38]
从大脑解码 AI,对话神经网络先驱谢诺夫斯基
晚点LatePost· 2025-10-21 03:09
AI行业发展历程与驱动力 - 神经网络研究从边缘走向主流,特伦斯·谢诺夫斯基与杰弗里·辛顿等学者在AI研究低谷期坚持探索,其提出的玻尔兹曼机为深度学习奠定基础 [3] - ChatGPT的诞生证明神经网络研究的价值,改变世界对人工智能的预期,杰弗里·辛顿因AI研究在2024年获得诺贝尔物理学奖 [4] - 计算神经科学领域的开创为AI发展打下基础,多层神经网络、语音识别里的独立分量分析、强化学习等算法均源自对大脑运作机制的研究 [5] - AI的崛起并非基于符号逻辑规则,而是借鉴大脑结构——大量简单处理单元但高度互联的模型,实现跨学科融合的“神经AI”领域正在形成 [15][16] - 科学进步需要挑战权威,年轻研究者常被资深人士压制,但新一代人正在开辟无法想象的新方向,这是行业发展的自然法则 [38][39] 大语言模型的技术特性与应用 - ChatGPT的出现令人震惊,被比喻为高度发达的魔法,其能力取决于使用者,在创意写作中其“幻觉”特性反而是不可或缺的优势 [7] - 大语言模型与用户的互动存在“镜像效应”,它会构建用户模型并预判思维方式,提供与用户对话层次相匹配的答案 [11][12] - ChatGPT已通过图灵测试,其句法结构完美无缺,某种程度上是在通过“镜像效应”测试提问者的水平,相当于逆向的图灵测试 [12] - 利用ChatGPT辅助写作可大幅提升效率,谢诺夫斯基撰写《大语言模型》耗时仅一年,ChatGPT在总结、简化、通俗化呈现专业概念方面表现卓越 [9] - 大语言模型目前处于类似莱特兄弟首次飞行的早期阶段,面临类似飞机发展初期的“监管”困境,技术需要漫长的渐进式发展才能达到高效安全 [13][14] 神经科学对AI技术进步的启示 - 大语言模型模拟了大脑皮层的极小部分,存在类似健忘症的长期记忆问题,而人类大脑在长期记忆上表现卓越 [13] - 技术突破使得如今能同时监测数万个神经元,覆盖大脑数十个区域,获得大脑整体活动模式的全局图景,但对大脑运作机制的理解仍远未完善 [14][15] - 大脑采用分布式控制方式,将实际控制权分散到多个区域,AI的崛起正是借鉴了这种大量简单处理单元但高度互联的模型结构 [15] - 神经科学家开发的神经形态芯片能耗远低于传统数字芯片,功耗降低千倍,仅需毫伏级微弱电流,但技术转型需要庞大基础设施支撑 [18][19] - 大脑仅占人类体重约2%,但消耗全身能量的20%,其采用模拟处理方式,能耗仅20瓦,远低于当前数据中心的数百瓦功耗 [19][22] AI技术未来发展方向与挑战 - 当前大语言模型只会说话没有身体,机器人发展面临巨大挑战,控制机器人需要身体多处部位同步协调,目前连简单动作都难以完成 [20][21] - 语言复杂性低于身体能力,人类语言历史仅数十万年,而哺乳动物耗费数亿年发展出身体能力,语言必须融入现有的神经回路才能发展 [22] - AI发展需要基础数学在高维空间的进步,大脑有1000亿维,高维数学将催生全新的数学体系,这是当前正在探索的领域 [28][29] - 下载大脑目前属于科幻范畴,但人类行为模式可以被复制,99%的行为都是习惯使然,研究这些习性背后的机制是可行的科学课题 [24][25] - 通过分析人类神经影像数据,在计算机中复现行为模式,某种意义上是将大脑功能下载至计算机,使计算机执行类似行为 [26] 行业竞争格局与商业模式演变 - 小模型可以替代大模型,在许多商业应用场景或特定领域,基于企业自身数据的专用小型语言模型比通晓万物的大模型更具优势 [35] - 数据质量至关重要,小型语言模型有能力筛选全部数据,未来将出现偏见更少、误判概率更低的小型模型 [35] - DeepSeek的成功证明即便资源远不及巨头企业,小型团队通过架构优化提升效率也能取得重大突破,困境催生创新 [36][37] - 全球有10万家AI初创企业,人员都非常年轻,正在积极推动变革,小公司完全有可能超越OpenAI、微软等大公司 [37] - 企业需要基于自身保密数据的专用小型语言模型,这场变革正在发生,未来需要大批懂得如何运用AI而不仅是创造新AI的人才 [35][36] 行业认知与监管环境 - 媒体存在夸大和误导倾向,常渲染“AI将让你失业”等论调,但绝大多数使用者工作效率更高、工作表现更优 [30] - 超级智能消灭人类的“生存威胁”论调被过度炒作,虽然需要保持警惕,但当前技术已带来巨大福祉,需权衡利弊 [30] - 自我监管是起点,专家群体应审视现有成果并加以约束,类似1970年代重组DNA技术诞生后的科学家自我监管模式 [33] - 政府干预过于粗暴且缺乏专业知识,科学家群体完全有能力自我监管,当前已有相关努力正在推进 [34] - 需要厘清AI的风险与收益,认清为获取AI效益必须承担的风险和代价,建立避免无法逆转错误决策的机制 [30][34]
字节Seed架构再调整 朱文佳转向吴永辉汇报
犀牛财经· 2025-10-21 02:22
管理层人事变动 - 字节大模型团队Seed负责人朱文佳的汇报对象由CEO梁汝波变更为现任Seed负责人吴永辉 [2] - 今年初字节从谷歌DeepMind挖来研究副总裁吴永辉担任大模型团队Seed基础研究负责人 [2] - 多名原向朱文佳汇报的算法和技术负责人转向吴永辉汇报 朱文佳一度转向负责模型应用 [2] 团队架构调整 - 字节Seed团队发生多次调整 大语言模型负责人乔木因出轨HRBP被辞退 [2] - 视觉大模型负责人杨建朝官宣休息 AiLab主任李航退休后又返聘 [2] - 字节Flow部门进行一轮组织架构重大调整 赵祺转岗至Spring产品部门 直接向朱俊Alex汇报 [2] - 豆包原有的PC和Mobile负责人改为向赵祺汇报 策略产品线的Thomas和陆游同样纳入其管理半径 [2]
中国总会计师协会财务管理专业委员会2025年秋季论坛成功举办
新京报· 2025-10-21 02:08
论坛概况 - 论坛主题为“大语言模型(DeepSeek)与穿透式财务管控”,探讨人工智能时代下财务管理的变革 [1] - 论坛由中国总会计师协会财务管理专业委员会主办,宁波银行北京分行承办,汇聚了国央企、院校、金融机构及科技公司的专家与业界领袖 [1] 财务管理转型趋势 - 财务管理职能正经历深刻重塑,从传统的核算监督向价值创造和风险前瞻管控转型 [1] - 大模型技术推动财务职能从“事后核算”跃升为企业的“价值导航系统”和“风险预警雷达” [2] - 财务部门应借助大模型技术,从传统的成本中心转变为驱动业务决策和价值创造的战略伙伴 [3] 宁波银行的战略与实践 - 公司战略为“专业化、数字化、综合化、国际化”,并取得稳健业绩 [2] - 数智化金融实践包括设立总行级“大模型项目部”,推动AI技术在业务场景中落地 [2] - 焕新升级“鲲鹏司库2.0”,为企业提供全球范围的全流程穿透式资金管控,实现“一点接入、全球响应”的智能财资管理 [2][3] - 围绕“五篇大文章”,在科技金融、绿色金融、数字金融等领域持续赋能实体经济 [2] 企业实践案例分享 - 中国通号利用技术手段构建风险管控防线,实现从被动合规向主动风控的升级 [3] - 中国物流结合行业资金流、物流、信息流三流合一的特点,通过穿透式管理提升供应链的财务透明度与运营效率 [3] - 长安汽车分享了在集团层面推进财务数字化转型的路径与成效 [4] - 中国中铁在复杂工程项目管理中应用智能工具,实现财务精准管控和资金高效配置 [4] - 中石油利用大模型技术处理海量数据,实现对遍布全球业务的深度洞察和集中管控 [4] 技术应用与挑战 - DeepSeek大模型在智能对账、风险预警、现金流预测等具体财务场景中有实战应用 [3] - AI在财务管控中的重点在于场景落地和价值证明,难点在于数据质量、模型可信度以及复合型人才的短缺 [6] - 以合同为单位管理现金流对于提升集团整体资金效率有基础性作用 [6] - 大型国有银行在金融科技领域的创新成果可赋能企业财务管理 [6]
刚刚,DeepSeek重要突破,大模型上下文紧箍咒打破
36氪· 2025-10-20 23:22
核心技术路径 - 首次提出“上下文光学压缩”概念,通过将文本转换为图像实现信息高效压缩[1] - 在10倍压缩比下解码精度达97%,20倍压缩比下精度仍保持约60%[3] - 将文本token转化为视觉token后能用更少token表达相近内容,为降低长文本处理算力开销提供新思路[6] 模型性能表现 - 在OmniDocBench上仅使用100个视觉token即超越GOT-OCR2.0(每页256个token)[6] - 使用少于800个视觉tokens情况下性能超过MinerU2.0(平均每页近7000个token)[6] - 生产环境中每天在单个A100-40G GPU上可生成20万页以上训练数据[8] 模型架构设计 - DeepEncoder视觉编码器采用SAM+CLIP双结构设计,支持从Tiny(64 token)到Gundam(795 token)多种分辨率模式[14] - 输入1024×1024文档图片时能将传统模型的4096个token压缩至256个[14] - DeepSeek3B-MoE解码器推理时仅激活6个专家模块,总激活参数量约5.7亿[18] 应用场景能力 - 具备深度解析能力,可识别图表、几何图形、化学结构式及自然图像等[24] - 在金融报告中能自动提取图表结构化信息[24] - 支持处理近百种语言,包括阿拉伯语与僧伽罗语等小语种[34][36] - 保留通用视觉理解能力,包括图像描述、物体检测和目标定位等任务[36] 数据训练体系 - 训练数据包含OCR 1.0数据(3000万页多语言文档)、OCR 2.0数据(图表公式解析)、通用视觉数据和纯文本数据四大类型[19][25] - 训练流程分为DeepEncoder独立训练和完整模型训练两个阶段[20] - 通过600万条采样数据微调获得Gundam-master超高分辨率模式[20] 行业影响意义 - 验证了视觉模态在文本压缩中的有效性,为大模型处理超长上下文提供新路径[39] - 展示通过优化信息表达方式提高模型效率的可能路径[39] - 为VLM视觉token优化、上下文压缩机制等研究方向提供有价值参考[39]
斑马智行拟港股上市 中国证监会要求补充说明股权变动等事项
智通财经· 2025-10-20 07:09
公司上市备案进展 - 中国证监会于10月18日公布境外发行上市备案补充材料要求 涉及斑马智行需补充说明公司股权变动和业务经营等事项[1] - 港交所于8月20日披露斑马智行向港交所主板提交上市申请书 联席保荐人为德意志银行、中金公司及国泰君安国际[1] 股权变动合规性 - 证监会要求公司说明历次增资及股权转让的定价依据、公允性、实缴出资情况 并确认是否存在出资瑕疵[1] - 需说明2025年8月定向减资和增资的工商变更登记进展、减资程序合规性、税费缴纳及减资对价款支付情况[1] - 需说明公司是否存在应办理但尚未完成国有股东标识的情况[1] 业务经营与资质 - 需说明公司及下属公司经营范围包含增值电信业务、市场调查、测绘服务、广告等业务的实际开展情况 是否取得必要资质许可[2] - 需明确相关业务是否涉及《外商投资准入特别管理措施(负面清单)(2024年版)》的限制或禁止领域 以及发行上市后是否符合外商投资准入要求[2] - 需说明子公司斑智云图《试点增值电信业务经营许可证》的办理进展及拟从事业务内容[2] 业务模式与技术 - 要求以通俗易懂的语言详述业务模式 并说明涉及大语言模型的具体情况以及是否完成相关大模型备案[2] - 公司是智能座舱解决方案供应商 致力于通过自研汽车操作系统与全栈元神AI架构 将汽车转变为能感知互动的智慧伙伴[3] - 公司协助主机厂打造智能汽车 使车主可通过自然语音控制实现个性化车舱体验并升级车内服务[3] 规范运作与数据安全 - 需说明公司及下属公司是否开发运营网站、小程序、APP、公众号等产品 是否向第三方提供信息内容及内容类型 并阐述信息内容安全保护措施[2] - 需说明收集及储存的用户信息规模、数据收集使用情况 以及上市前后个人信息保护和数据安全的安排或措施[2] - 需说明公司及下属公司未完结诉讼及仲裁案件的最新进展 并判断是否构成本次境外发行上市的实质性障碍[2] 发行上市具体细节 - 需严格对照《境内企业境外发行证券和上市管理试行办法》第八条 说明公司及境内子公司是否存在境外发行上市禁止性情形[3] - 需说明全额行使超额配售权后的预计募集资金量[3] - 需说明本次拟参与"全流通"股东所持股份是否存在被质押、冻结或其他权利瑕疵的情形[3] - 需说明本次分拆上市所履行的上市地监管程序情况[3]
斑马智行3年1期经调整净亏损共24.8亿 "里程碑"数据降
中国经济网· 2025-10-20 06:42
公司上市监管审查要点 - 证监会要求斑马智行就股权变动、国有股东身份、业务经营、规范运作、上市合规性、发行上市细节及分拆上市程序等七大方面进行补充说明 [1][2][3][4] - 具体核查要求包括历次股权转让定价公允性、2025年8月定向减资和增资的合规进展、是否涉及国有股东标识等 [1] - 业务方面需说明增值电信等业务的资质许可、合作方情况、是否符合外商投资准入要求,以及大语言模型业务的具体模式和备案情况 [2] 公司股权结构与财务表现 - 阿里巴巴通过多个实体合计拥有公司约41.67%的股本及控制37.09%的投票权,上汽集团合计拥有约32.90%的股本及控制35.48%的投票权,共同构成公司的一组控股股东 [5] - 公司2022年、2023年、2024年及2025年一季度收入分别为8.05亿元、8.72亿元、8.24亿元、1.36亿元 [6][7] - 同期年度亏损分别为8.78亿元、8.76亿元、8.47亿元、15.82亿元,近三年一期累计亏损达41.84亿元 [6][7] - 同期经调整净亏损分别为7.26亿元、7.92亿元、7.57亿元、2.01亿元,累计达24.76亿元 [6][7] - 公司经营活动现金流持续为负,2022至2024年度及2025年一季度净流出额分别为5.85亿元、4.17亿元、4.87亿元、1.99亿元 [7] 公司业务运营与市场动态 - 斑马智行是智能座舱解决方案供应商,其港股IPO联席保荐人为德意志证券亚洲有限公司、中金公司及国泰君安国际 [6] - 2025年一季度公司定点数量从上年同期的37个下降至30个,主要原因是部分主要主机厂客户的内部审批及合同签署流程延迟 [8] - 定点数量被视为预示公司未来业务增长和营收潜力的重要运营指标 [8]
淘天 AI 的终极目标:大象无形
晚点LatePost· 2025-10-20 03:51
AI电商战略理念 - 淘宝AI的核心指导思想是将AI功能无缝融入用户现有购物动线中,解决具体问题,目标是让用户感受不到AI的存在,即"大象无形"的理想状态[7][10] - 电商用户"多快好省"的基本需求并未因AI改变,关键在于利用新技术以不同方式满足这些经典需求,而非彻底改变用户习惯[8] - 公司选择将AI产品融入现有用户动线的思路类似Google,而非OpenAI的Chatbot模式,因电商动线长、用户痛点众多[9] 底层数据重构 - 2025年最重要的工作是利用大语言模型系统性优化搜索、推荐和广告环节,核心是解决商品底层数据陈旧问题[11] - 构建AI智能体自动消化行业知识、分析用户行为,为每个品类筛选关键属性,指导商家填写,以解决商品信息匮乏和不规范的历史难题[12] - 启动"SKU引擎"项目,利用AI深入理解每个SKU的完整信息,数据量将从几十亿爆炸性增长到数百亿,挑战在于识别"绝对同款"和"相似款"[13] 技术实施与效果 - 策略是让新老方法协同工作:大模型负责语义理解商品信息,深度学习模型仍负责预测用户点击或购买行为[14] - 在复杂语义下的商品搜索相关性通过AB测试验证可提高20个百分点,对成熟系统是罕见改进[16] - 淘宝是业界唯一在所有搜索请求中都应用大模型的平台,每天处理高达3亿次页面访问量[16] 商家工具应用 - AI美工每月帮助商家自动生成2亿张图片,AI客服每天为商家节省成本约2000万元人民币[18] - 公司不指望通过商家工具直接盈利,而是通过帮助商家降本增效来促进其销售额增长,从而让平台间接受益[17] - 商家工具的关键规模指标是使用人数以及商家利用这些工具完成的工作量[17] 用户侧产品创新 - 推出系列AI导购产品:AI万能搜解析模糊需求、AI帮我挑提供选购建议、AI试穿模拟上身效果、AI清单管理购物、拍立淘优化图片搜索[15][18] - 表达需求是高门槛行为,AI产品难点在于用户不知如何描述,因此策略是让用户输入宽泛词后由系统帮助精确化,而非要求用户输入100个词[10] - 评价AI导购产品的指标与传统产品一致,关注日活跃用户和用户留存[18] 组织与创新管理 - AI产品负责人必须是既懂产品又有算法背景的多面手,形成以产品为单位的高效创业体,避免过时的职能分工生产方式[7] - 公司通过更小、更灵活的团队负责AI方向,以适应AI时代"一步慢步步慢"的竞争节奏[7] - 团队日常讨论超越电商业务范畴,涉及互联网未来、Agent普及等宏观话题,组织氛围更像创新工坊而非作战指挥部[19]
凯文·凯利:AI技术在中国语境下的落地与实践
新浪财经· 2025-10-20 01:33
会议背景 - 2025可持续全球领导者大会于10月16日-18日在上海市黄浦区世博园区召开 [1] - 上海交通大学上海高级金融学院副院长朱宁与凯文·凯利共同探讨AI技术在中国语境下的落地与实践 [1] AI在教育领域的应用 - AI在教育方面的应用可实现教育资源的均衡化以及效率最大化,让学习过程更加加速 [3] - AI能让每个孩子以自己的方式和速度学习进展,释放学生按照自己学习速度进行学习 [3] - AI可以培训人更好地提问,因为在接下来的世界中,想要答案可以问机器,想提问问题可以问一个人 [3] AI对人类能力的影响 - AI使得人的能力更加强大,类似于计算器让算术变得更加快,AI会加速学习能力的上升以及学习速度的增加 [4] - AI可以扩充学生知识学习的范围以及能力的提升 [4] AI技术的发展与投资 - AI在思维能力培养和语言翻译方面的发展是最大的惊喜,推动了空间智能被AI赋能的场景 [5] - 中国在短时间内打造了非常高的AI应用水平 [5] - 目前有成千上万的公司研究大语言模型并吸引了很多资金,但在一些非大语言模型的AI领域投资并不多 [5] AI的思维方式与优势 - AI大语言模型的思考形式不是人类的思考形式,它们以不同于人类思维方式来解决同一个问题 [6] - AI能解决一些商业、科学、治理问题,这些问题是用人类自己的思维模式无法解决的 [6] - 通过AI可以发明另外一种思维模式,正因为AI与人类想得不一样,它才更有魅力 [6] AI伦理与道德发展 - 需要进行人工智能的培训和对标,让AI有伦理道德的概念,尤其是在自动驾驶等需要AI做决策的领域 [6] - 培训AI伦理的难点不在于编程,而在于如何达成道德上的共识 [7] - AI逼迫人类回答关于道德和伦理的问题,需要哲学家和道德家更广泛的讨论 [7] AI的全球发展与文化特征 - 未来AI是否会具有中国特色的特征,或者出现AI聚合的情况,目前尚不确定 [8] - 目前包括DeepSeek在内的中美大语言模型在某些观点上非常相似,思维是同理的,但未来可能随时间变化 [8] AI与可持续发展 - AI能够帮助加速绿色文化的发展,通过技术手段解决一些人类自己解决不了的问题 [9] - AI可以加速建模和生物自然系统等领域的进展,其本身的技术也在向节能方向发展 [9] - AI可以加速实现平等、包容等可持续发展目标 [9] ESG平台服务 - 新浪财经ESG评级中心提供包括资讯、报告、培训、咨询等在内的14项ESG服务,助力上市公司传播ESG理念 [1][10] - 新浪财经发布多只ESG创新指数,为关注企业ESG表现的投资者提供更多选择 [10] - 新浪财经成立中国ESG领导者组织论坛,推动建立适合中国时代特征的ESG评价标准体系 [10]
今日开课!清华团队带队梳理自动驾驶VLA学习路线:算法+实践
自动驾驶之心· 2025-10-19 23:32
自动驾驶行业技术趋势 - 行业技术焦点已从传统的BEV感知、车道线、Occupancy等相对成熟的方向转向自动驾驶VLA [4] - VLA被视为提供类人思考能力、通过思维链形式展现车辆决策过程的关键技术,旨在实现更可靠安全的自动驾驶 [1] - 自动驾驶VLA目前主要分为模块化VLA、一体化VLA和推理增强VLA三个子领域 [1] 自动驾驶VLA核心技术要素 - 核心技术涵盖视觉感知、大语言模型、Action建模、大模型部署及数据集制作等 [7] - 涉及的最前沿算法包括CoT、MoE、RAG以及强化学习 [7] - 行业主流企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA课程核心内容 - 课程系统讲解自动驾驶VLA三个子领域的前沿算法,并配备两个实战及一个课程大作业 [8] - 课程大纲包含VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及综合大作业 [13][15][16][17][18][21] - 课程设计从原理到实战,包含对开源BenchMark、评测指标及数据集制作专题的详细讲解 [14][15] 自动驾驶VLA算法发展路径 - VLA发展路径显示,Language从被动的场景描述演变为模块化架构中的主动规划组件 [17] - 模块化VLA强调多阶段pipeline,而一体化VLA实现感知到控制的端到端映射 [17] - 推理增强VLA的趋势是向长思维链推理、记忆和交互发展,将VLM/LLM置于控制中心 [18] 行业实践与前沿算法案例 - 课程实战部分选取了华科与小米最新提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等算法进行代码学习 [17][20] - 重点讲解的算法案例包括DriveGPT4、TS-VLM、ORION、DriveMoE、DiffVLA、S4-Driver等业界前沿工作 [16][18][19][24] - 算法训练涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式 [17]