Workflow
大语言模型
icon
搜索文档
今日开课!清华团队带队梳理自动驾驶VLA学习路线:算法+实践
自动驾驶之心· 2025-10-19 23:32
自动驾驶行业技术趋势 - 行业技术焦点已从传统的BEV感知、车道线、Occupancy等相对成熟的方向转向自动驾驶VLA [4] - VLA被视为提供类人思考能力、通过思维链形式展现车辆决策过程的关键技术,旨在实现更可靠安全的自动驾驶 [1] - 自动驾驶VLA目前主要分为模块化VLA、一体化VLA和推理增强VLA三个子领域 [1] 自动驾驶VLA核心技术要素 - 核心技术涵盖视觉感知、大语言模型、Action建模、大模型部署及数据集制作等 [7] - 涉及的最前沿算法包括CoT、MoE、RAG以及强化学习 [7] - 行业主流企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA课程核心内容 - 课程系统讲解自动驾驶VLA三个子领域的前沿算法,并配备两个实战及一个课程大作业 [8] - 课程大纲包含VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及综合大作业 [13][15][16][17][18][21] - 课程设计从原理到实战,包含对开源BenchMark、评测指标及数据集制作专题的详细讲解 [14][15] 自动驾驶VLA算法发展路径 - VLA发展路径显示,Language从被动的场景描述演变为模块化架构中的主动规划组件 [17] - 模块化VLA强调多阶段pipeline,而一体化VLA实现感知到控制的端到端映射 [17] - 推理增强VLA的趋势是向长思维链推理、记忆和交互发展,将VLM/LLM置于控制中心 [18] 行业实践与前沿算法案例 - 课程实战部分选取了华科与小米最新提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等算法进行代码学习 [17][20] - 重点讲解的算法案例包括DriveGPT4、TS-VLM、ORION、DriveMoE、DiffVLA、S4-Driver等业界前沿工作 [16][18][19][24] - 算法训练涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式 [17]
新股消息 | 斑马智行拟港股上市 中国证监会要求补充说明股权变动等事项
智通财经网· 2025-10-19 22:48
公司上市备案进展 - 中国证监会于10月18日公布境外发行上市备案补充材料要求 涉及斑马智行 [1] - 证监会要求公司就股权变动 业务经营等事项进行补充说明 并由律师核查出具法律意见 [1] - 斑马智行已于2025年8月20日向港交所主板提交上市申请书 [1] 股权结构与合规性 - 证监会要求说明历次增资及股权转让的定价依据 公允性 实缴出资情况以及是否存在出资瑕疵 [1] - 需说明2025年8月定向减资和增资的工商变更登记进展 减资程序合规性 税费缴纳及对价款支付情况 [1] - 需说明公司是否存在应办理但未完成国有股东标识的情况 [1] - 公司需严格对照《境内企业境外发行证券和上市管理试行办法》第八条 说明是否存在境外发行上市禁止性情形 [3] 业务经营与资质 - 需说明公司及下属公司经营范围包含增值电信业务 市场调查 测绘服务 广告等业务的具体情况 是否实际开展 是否取得必要资质 [2] - 需说明相关业务是否涉及《外商投资准入特别管理措施(负面清单)(2024年版)》限制或禁止领域 以及发行上市后是否符合外商投资准入要求 [2] - 需说明子公司斑智云图《试点增值电信业务经营许可证》的办理进展及拟从事业务内容 [2] - 要求以通俗语言详述业务模式及涉及大语言模型的具体情况 并说明是否完成相关大模型备案 [2] 规范运作与数据安全 - 需说明公司及下属公司是否开发运营网站 小程序 APP 公众号等产品 是否向第三方提供信息内容及内容类型和安全措施 [2] - 需说明收集及储存的用户信息规模 数据收集使用情况 以及上市前后个人信息保护和数据安全的安排 [2] - 需说明公司及下属公司未完结诉讼及仲裁案件的最新进展 是否构成本次上市的实质性障碍 [2] 本次发行上市具体安排 - 需说明全额行使超额配售权后的预计募集资金量 [3] - 需说明本次拟参与"全流通"股东所持股份是否存在被质押 冻结或其他权利瑕疵的情形 [3] - 需说明本次分拆上市所履行上市地监管程序情况 [4] 公司核心业务定位 - 斑马智行是一家智能座舱解决方案供应商 致力于将汽车转变为能感知互动的智慧伙伴 [4] - 公司聚焦于智能座舱这一人车互动主要入口 [4] - 公司凭借自研的汽车操作系统与全栈元神AI架构 协助主机厂打造智能汽车 实现自然语音控制和个性化车舱体验 [4]
微博加码扶持中长视频:从注重播放量到以观看时长为分发主导
南方都市报· 2025-10-19 05:05
公司运营与用户数据 - 截至今年6月,微博平台月活跃用户(MAU)达到5.88亿,日活跃用户(DAU)2.61亿 [1] - 全平台日均发博量1.05亿、日均评论量0.63亿、点赞数1.97亿 [1] - 活跃用户中30岁以下人群占比70.7%,四线及以下人群占比达到31.5%,31-40岁中青年月活跃用户占比22.9% [1] - 截至今年9月,平台"金橙V"创作者总量达12.5万,其中"金V"作者1.8万,"橙V"作者大幅提升至10.7万,同比增长57% [1] 产品战略与视频生态改革 - 公司今年围绕关系流、推荐流、热点三大核心场景以及视频消费共四部分展开升级改造,以强化产品差异化优势 [2] - 自今年6月起,微博视频分发政策由原来以播放量主导转变为以观看时长为主导 [1][2] - 平台持续加大对1分钟以上中长视频的现金激励与流量倾斜,推动视频内容质量与消费时长增长 [2] - 今年第三季度,"金橙V"生产的时长超30秒且"质量分"超3分的"优质视频"生产量同比提升51%,全站视频观看时长同比增长12% [2] 技术赋能与内容分发机制 - 近两年,公司在传统机器学习基础上重点引入大语言模型,利用AI能力提升内容理解和用户体验水平 [3] - 平台推荐内容分发机制依赖三大引擎:兴趣、社交和热点,通过兴趣探索帮助用户发现新领域,通过热点提供新话题 [3] - 社交推荐被定位为依托社交深入理解人与人之间的关系,让推荐更有"温度",平台投入挖掘直接"关注"关系、间接关系及复杂协同关系 [4] - 公司利用神经网络算法对用户社交关系做扩展,寻找好友、同好及所属社群,并进行跨圈层推荐 [4]
我国生成式人工智能用户规模超5亿;苹果公司CEO库克:Apple Intelligence正在努力进入中国市场丨AIGC日报
创业邦· 2025-10-19 01:05
AI音乐生成行业动态 - AI音乐生成公司Suno正洽谈以超过20亿美元估值融资逾1亿美元,该估值较此前翻了四倍 [2] - 公司年经常性收入已超过1亿美元 [2] - 公司近期正与主流唱片公司协商解决法律纠纷 [2] 中国生成式AI市场概况 - 截至2025年6月,中国生成式人工智能用户规模达5.15亿人,较2024年12月增长2.66亿人 [2] - 用户规模半年翻番,普及率达到36.5% [2] 跨国科技公司中国市场进展 - 苹果公司CEO库克透露,Apple Intelligence(苹果智能)目前正在努力进入中国市场 [2] - 库克表示人工智能可以做了不起的事情,改变了人们的生活,包括救人性命 [2] AI创业与投融资趋势 - 智谱AI前COO张帆已创业,新项目专注于特定任务大语言模型的研发,推动AI技术在企业场景的深度落地 [2] - 创业公司已完成天使轮融资,投资方为蓝驰创投 [2] - 天使轮融资估值未出现过多溢价,股东光源创业者基金在项目推进中表现积极 [2]
明日开课!自动驾驶VLA三大体系学习路线图:算法+实践
自动驾驶之心· 2025-10-18 16:03
自动驾驶VLA行业趋势 - 端到端技术之后,学术界和工业界聚焦方向是VLA(Vision-Language-Action),其提供类人思考能力,通过思维链形式展现车辆决策过程,从而提升自动驾驶可靠性和安全性[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,都在发力自动驾驶VLA自研[4] 课程核心内容 - 课程涵盖自动驾驶VLA三大子领域前沿算法细致讲解,配备两个实战及一个课程大作业[6] - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等[6] - 最前沿算法包括CoT(思维链)、MoE(混合专家模型)、RAG(检索增强生成)、强化学习等[6] - 第一章概述VLA算法概念及发展历史,介绍开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,包括Vision、Language、Action三个模块基础知识,以及大模型与自动驾驶VLA结合方式[14] - 第三章讲解VLM作为自动驾驶解释器的经典和最新算法,如DriveGPT4、TS-VLM、DynRsl-VLM、SENNA[15] - 第四章聚焦模块化和一体化VLA,讲解语言模型从被动场景描述演变为主动规划组件的过程,配套ReCogDrive实战代码[16] - 第五章聚焦推理增强VLA,讲解长思维链推理、记忆和交互技术,配套Impromptu VLA实战代码[17][19] - 第六章为大作业,基于ms-swift框架进行网络构建、自定义数据集和模型加载,开启训练任务并进行微调[20] 行业技术发展 - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释[17] - 课程涉及多家机构最新研究成果,包括华科&小米ICCV2025中稿的ORION、慕尼黑工大OpenDriveVLA、上海交通大学DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo的S4-Driver等[17][18][23]
为什么说AI智能体最大的价值,是悄悄嵌入工作流里?
36氪· 2025-10-18 00:06
AI智能体行业现状与核心认知 - AI智能体领域正经历快速迭代,新模型、新技术和新架构层出不穷,但行业多数从业者对进展仍不敏感 [1] - 行业将AI智能体定义为大语言模型(LLM)与推理、工具、记忆的结合体,可简化为LLM加工具和记忆 [1] - AI智能体并非独立产品,而是业务流程的催化剂和赋能者,其真正价值在于嵌入工作流程后在后台运行 [1][12] AI智能体开发框架与技术实践 - 开发框架(如crewai、dspy、langgraph、autogen等)并非关键限制因素,应用的核心流程更为重要 [3] - DSPy框架被视为未来发展方向,其签名、适配器、训练集、优化器等概念设计自然,编译体验良好 [10] - AI智能体开发本质更接近软件工程而非人工智能/机器学习,需要扎实的软件工程基础 [4] AI智能体性能与能力边界 - 智能体的能力上限高度依赖所提供上下文的质量,包括提示、工具、记忆及环境 [5] - 结构良好的上下文价值可能超过使用更大的语言模型 [5] - 缺乏工具的独立智能体实用性有限,赋予其执行操作能力(如调用API、访问数据库)后价值显著提升 [6][7] AI智能体设计原则与评估体系 - 最高效的智能体设计遵循简洁原则:清晰提示、少量定义明确的工具、单一职责,复杂性易导致系统脆弱 [8] - 评估体系作用被低估,建立测试和真实世界反馈循环是区分玩具项目与可靠生产系统的关键 [9] - 智能体应为精确场景而生并出色完成任务,而非追求通用性 [8] 行业应用与商业化前景 - AI智能体发展仍处早期阶段,正从研究玩物转向基础设施级系统 [12] - 未来每个产品背后都可能运行智能体,负责协调任务、提供个性化体验及处理复杂问题 [12] - 技术仅是成功因素之一,鼓励实验的文化、迭代速度及清晰愿景更为重要 [11]
理想自动驾驶团队GitHuB仓库与论文合集
理想TOP2· 2025-10-17 13:44
自动驾驶技术战略布局 - 公司自动驾驶团队致力于通过前沿技术引领交通运输领域变革,核心使命是提升出行安全性、效率和可持续性 [1] - 技术布局涵盖自动驾驶大语言模型、世界模型、3D几何场景理解以及端到端神经网络模型等多个前沿领域 [1] 大语言模型 (LLM) 应用 - 利用大语言模型解读复杂驾驶场景,旨在实现更智能、响应更迅速的自动驾驶车辆 [2] 自动驾驶模拟与测试 - 世界模型项目专注于模拟真实驾驶环境,用于在各种条件下测试和改进自动驾驶算法 [3] - DrivingSphere框架结合4D世界建模和视频生成技术,构建生成式闭环仿真系统,可生成无限大的城市规模静态背景 [8] - DriveDreamer4D使用视频生成模型作为数据机器,生成车辆执行复杂新轨迹时的视频数据,以补充真实数据不足 [8] 3D场景感知与重建 - 3D几何场景项目专注于创建精细城市环境3D地图,以增强车辆感知系统,实现更优导航和决策 [4] - StreetGaussians方法高效创建逼真、动态的城市街道模型 [7] - 3DRealCar是真实世界3D汽车数据集,包含2500辆经过3D扫描仪的汽车,每辆车平均有200个密集的RGB-D视图 [8] - Hierarchy UGP使用统一高斯基元的四维空间表示方法构建分层树状结构,用于大规模动态城市场景的高保真三维重建 [8] 端到端神经网络模型 - 研发全面的端到端神经网络模型,简化从感知到执行的整个自动驾驶系统处理流程 [5] - STR2运动规划器使用视觉Transformer作为编码器,采用单阶段自监督学习方式训练,旨在提升泛化能力 [8] - GaussianAD使用稀疏而全面的3D高斯函数表示场景信息,解决传统方法在信息完整性和计算效率间的权衡问题 [8] 视频生成与场景合成 - DiVE模型基于Diffusion Transformer架构,生成与鸟瞰图布局精确匹配的时间、多视角一致视频 [8] - GeoDrive利用3D几何信息生成高度逼真、时空一致的驾驶场景视频,实现实时场景编辑 [10] - StreetCrafter是专为街景合成设计的视频扩散模型,利用激光雷达数据实现摄像机位置的精确控制 [8] 视觉语言模型优化 - LightVLA是自适应视觉token pruning框架,同时提升机器人VLA模型任务成功率和运行效率 [10] 数据集与算法创新 - TOP3Cap是用自然语言描述自动驾驶街景的数据集,包含850个户外场景,超过64300个物体,230万条文字描述 [7] - ReconDreamer采用渐进式策略,将世界模型知识融合到场景重建中 [8] - DriveVLM采用端到端与视觉语言模型结合的双系统架构 [7]
新模型组团出道,多项机器人技术开源,近期AI新鲜事还有这些……
红杉汇· 2025-10-17 00:04
AI科研发现自动化 - 西湖大学开发的AI科学家系统DeepScientist在AI文本检测任务中,仅用两周时间就取得了相当于人类科学家三年的研究进展,并在多个领域刷新纪录 [6] - 该系统实现了除目标设定外无需人工干预的科研闭环,成为首个被大规模实证研究证明能在前沿科学任务上渐进式超越人类最先进水平的AI系统 [6] OpenAI开发者大会与平台生态 - OpenAI开发者大会现场有约1500名开发者参与,线上观众突破数万,平台已聚集400万开发者,ChatGPT周活跃用户达8亿,API每分钟处理近60亿token [8] - 大会发布多款开发工具,包括Apps SDK、全能工具集AgentKit和正式版Codex,同时开放Sora 2的API,其生成内容在物理规律呈现和提示一致性上显著提升,并新增同步对话、音效及现实元素注入功能 [8] 多模态图像生成模型竞争 - 腾讯的混元图像3.0在LMArena榜单登顶,得分1167,超越Google Gemini 2.5 Flash Image Preview(1151分)和字节跳动Seedream-4-2k(1144分)等26个全球模型 [11][12] - 该模型是业界首个开源工业级原生多模态生图模型,参数量达800亿,拥有64个专家网络,具备世界知识推理和极致美学表现等核心能力 [12] 机器人关键技术开源与生态 - 英伟达在机器人学习大会上开源物理引擎Newton、推理模型Isaac GR00T N1.6和世界模型Cosmos,旨在解决机器人研发中的仿真、推理和训练难题 [14] - 这一系列工具的开源有望显著缩短机器人开发周期,其中世界模型Cosmos通过文本、图像和视频提示生成多样化训练数据,减少对昂贵真实世界数据采集的依赖 [14][15] 大语言模型性能升级 - 智谱GLM-4.6总参数量达355B,激活参数为32B,上下文窗口从128K扩展至200K token,token效率提升超过30%,平均token消耗比GLM-4.5节省30%以上 [17] - 模型代码能力较GLM-4.5提升27%,在公开基准与真实编程任务中已对齐Claude Sonnet 4,整体性能超过DeepSeek-V3.2-Exp [17] 代码模型能力突破 - Anthropic发布的Claude Sonnet 4.5在权威编程基准SWE-bench Verified上取得82.0%的准确率,超过其前代Opus 4.1(79.4%)、GPT-5(72.8%)和Gemini 2.5 Pro(67.2%) [22] - 模型在复杂多步骤任务中可保持超过30小时的专注执行,正常请求拒绝率从Sonnet 4时的0.15%下降至0.02%,并同步发布了Claude Agent SDK [20][22] 视频模型零样本学习能力 - DeepMind的Veo 3视频模型展现出“无师自通”的零样本学习能力,能够处理一系列未经过专门训练的视觉任务,如边缘检测、物体分割、超分辨率等 [24][27] - 模型展现出对朴素物理规律(如刚体、软体、光的折射)和三维世界的理解能力,并能通过“帧链”能力解决复杂的视觉推理任务,有望发展为视觉基础模型 [27][28]
谷歌开源全栈平台Coral NPU,能让大模型在手表上全天候运行
36氪· 2025-10-16 07:44
文章核心观点 - 谷歌发布名为Coral NPU的全栈开源AI平台,旨在解决边缘AI设备在性能、碎片化和隐私方面的核心挑战,为下一代低功耗、始终在线的边缘AI应用构建基础 [4][5][26] 产品定位与目标 - Coral NPU定位为全栈开源平台,专注于解决低功耗边缘设备和可穿戴设备上应用强大AI技术时面临的性能差距、碎片化成本和用户信任缺失三大挑战 [4] - 该平台目标是在智能手表等设备上实现本地持续运行的AI,让智能直接嵌入用户个人环境,同时最大限度减少电池消耗 [4][5][22] 技术架构与性能 - Coral NPU采用NPU架构,基于符合RISC-V指令集架构的IP模块,专为最低功耗设计,是始终在线环境感知的理想选择 [8] - 基础设计在仅消耗几毫瓦功率的情况下,可提供512 GOPS级别的性能,为边缘设备、耳戴式设备、AR眼镜和智能手表带来强大端侧AI能力 [8] - 架构包含三个组件:一个用于管理数据流的轻量级RISC-V标量核心、一个强大的单指令多数据向量执行单元,以及一个专为加速神经网络运算的矩阵执行单元(仍在开发中) [10][11] 开发者体验与工具链 - Coral NPU提供统一开发者体验,是一个可用C语言编程的目标平台,可与IREE和TFLM等现代编译器无缝集成,支持TensorFlow、JAX和PyTorch等机器学习框架 [15] - 平台包含全面软件工具链,如TFLM编译器、通用的MLIR编译器、C编译器、自定义内核和模拟器,为开发者提供灵活路径以简化机器学习模型编程 [15][17] - 行业标准工具有助于在各种硬件目标上提供一致体验,工具链展示了从模型创建、优化、编译到设备端部署的完整流程 [17][20] 目标应用与合作伙伴 - Coral NPU旨在支持超低功耗、始终在线的边缘AI应用,尤其侧重环境感知系统,潜在用例包括情境感知、音频处理、图像处理和用户交互 [22][25] - 平台通过与Gemma团队合作优化以支持小型Transformer模型,确保加速器架构能够支持下一代边缘生成式AI [24] - 谷歌宣布与Synaptics建立战略芯片合作伙伴关系,其新的Astra SL2610系列AI原生物联网处理器采用了业界首个Coral NPU架构的量产实现 [22][23]
国金证券:AI+电商服务进入提效阶段 关注后续业绩兑现
智通财经网· 2025-10-16 02:40
AI应用发展阶段 - AI应用从早期小范围试水进入规模化价值兑现阶段 [2] - 多模态大模型技术成熟度提升且调用成本大幅下降 例如国内通义千问模型推理成本相较于2023年平均降低80% [2] - AI工具与电商全链路运营深度融合 成为驱动电商及线上服务行业公司业绩增长的重要引擎 [2] 电商与线上服务行业优势 - 电商行业算力需求呈现间歇波动特征 企业可采取公私算力混合方式优化使用成本 [3] - 电商数据中台覆盖用户行为、交易数据、内容数据等12类异构数据源 为AI提供充足燃料并提升模型精度 [3] - 2025年电商行业模型架构呈现通用大模型加垂直精调的混合模式 国内大模型输入价格平均比国外低92.6% 输出价格平均比国外低160.3% [3] AI应用效果与业绩兑现 - AI应用带来收入曲线抬头与成本曲线下降的双向拐点 [4] - 降本端通过AI流程自动化优化人力结构 例如丽人丽妆借助虚拟人直播覆盖40%直播时长且单场GMV峰值达500万元 [4] - 增效增收端潜力巨大 在获客阶段通过生成式AI提升点击率 在用户激活阶段通过3D建模和虚拟试穿增强体验 在变现阶段通过需求预测优化库存 在自传播阶段通过流程自动化降低退换货率 [4] 行业竞争与投资关注点 - AI+跨境电商行业竞争从渠道扩张转向效率竞争 建议关注聚焦技术驱动外贸效率革命的头部平台 [1] - AI+电商代运营行业分化加剧 具备AI技术储备的头部企业优势有望扩大 建议关注全链路AI落地且利润率改善的服务商 [1] - AI+教育/人服通过NLP技术解析岗位需求与简历 结合人才发展预测模型显著提升招聘效率 建议关注政策支持且效率显著提升的细分标的 [1]