自动驾驶之心

搜索文档
千万美元奖金!2077AI启动Project EVA,邀全球超人挑战AI认知极限
自动驾驶之心· 2025-09-18 11:00
你的智慧,AI的终极试炼 我们正在寻找这样的"超人": -顶尖的AI研究者、算法工程师 -深耕于 哲学、语言学、逻辑学、艺术等领域的跨界专家 -任何对AI能力边界怀有深刻好奇心与洞察力的 探索者 1024万美元奖金池!2077AI开源基金会启动Project EVA,邀全球"超人"挑战AI认知极限 2077AI开源基金会发起的全球性AI评测挑战赛——"EVA计划:超人试炼" (Project EVA) 已正式 启动,并向全球开放预注册通道。该项目设立了高达1024万美元的总奖金池,旨在召集全球最顶 尖、最富创造力的头脑,共同探索当前大型语言模型(LLM)的真实能力边界。 从"基准测试"到"认知极限测试" 随着GPT-4o、Claude 3.5 Sonnet等模型的飞速发展,传统的 AI评测基准正逐渐失去挑战性。我们需要的不再是能被"刷题"解决的测试,而是一种全新的范 式,去探测这些"硅基心智"在复杂逻辑、深层因果、反事实思考和伦理困境等维度的真正极限。 Project EVA应运而生。它不是一场编程竞赛,而是一场智慧与创造力的试炼。我们寻找的不是问 题的"答案",而是那个能定义AI未来的"问题"本身。参赛者需 ...
科研论文这件事,总是开窍后已太晚......
自动驾驶之心· 2025-09-18 03:40
还在等导师"喂饭"?还在想"基础打好再发"?醒醒!科研开窍要趁早,拒信和延毕不会等你准备 好! 看到"延毕"两个字,是不是心里一紧?每年,都有不少才华横溢的硕士,明明能力不差,却卡在 了"论文"这道坎上。不是不努力,而是"开窍"太晚。 "开窍"晚的典型画像 "等导师安排"型: 总觉得导师没给明确方向/任务,自己就无从下手。被动等待,时间悄然流逝。 "追求完美"型: 总想"学完所有知识"、"打好完美基础"、"做出惊天成果"再开始写。结果?基础 永远学不完,实验永远不完美。 "畏难拖延"型: 一想到读文献、调模型、写论文、被拒稿就头大,下意识逃避,用课程、项目甚 至游戏来麻痹自己。 "低估周期"型: 天真地以为写论文、投稿、修改、接收是几个月就能搞定的事情。殊不知,从idea 到接收,动辄半年到一年甚至更久!审稿被拒?周期再加倍! 科研"开窍"的核心是什么? 核心就四个字: 尽早行动! 把"发论文"当成 贯穿硕士生涯 的核心目标,而非最后冲刺的任务。 算一笔"时间账": 研一暑假开始投入:你有近2年时间打磨1-2篇高质量论文(含投稿周期),游刃有余。 研二下才开始着急:留给你的有效时间可能不足1年,还要面临课程、 ...
中国大模型的技术一号位们
自动驾驶之心· 2025-09-18 03:40
中国AI大模型领域领导者战略布局与技术成果 DeepSeek(梁文锋) - 团队在3年核心技术积累后产品上线 20天内连续更新50多个版本 [5] - 产品上线20天内获得全球3000万日活用户成为现象级产品 [5] - 展现中国AI创业公司技术实力和市场爆发力 加剧全球AI大模型领域竞争 [5] 通义千问(林俊旸) - 团队以周级迭代速度推进优化 半年内完成30余次版本升级 [9] - 成功适配制造、金融、政务、医疗、教育等20多个重点行业场景 [9] - 累计服务超10万家企业客户 成为国内产业级AI大模型标杆产品 [9] - 打破大模型只聚焦C端体验认知局限 大幅降低中小企业引入AI技术门槛 [10] 字节Seed(吴永辉) - 团队以快速响应用户反馈为导向 短期内密集迭代数十个版本 [14] - 产品短时间内突破千万日活 成为用户高频依赖的智能助手 [14] - 广泛应用于办公文档处理、学习答疑、生活服务咨询、创意内容辅助等日常场景 [14] - 推动AI技术从专业领域走向大众日常 加速AI在普通生活场景中的普及 [14] 腾讯混元大模型(薄列峰) - 团队半年内完成8次重大版本更新 实现代码生成精度提升等能力突破 [17] - 服务超20万家企业客户 赋能百度搜索、小度智能设备、自动驾驶等核心业务 [17] - 推动大模型技术从技术探索迈向产业实用 加速传统行业智能化转型 [17] 日日新大模型(徐立) - 构建国内领先AI大装置SenseCore 为模型研发提供算力算法数据协同底座 [22] - 持续迭代多模态能力 技术测评多次刷新通用AI能力榜单 [22] - 服务超1000家大型企业客户 覆盖全球超40个国家和地区 [22] - 打破AI技术单点应用局限 推动AI向全链条渗透升级 [23] Minimax(闫俊杰) - 推出国内首个商用万亿参数MoE架构大模型abab 6.5 [26] - 服务数万家企业客户 覆盖金融、教育、医疗等多个行业 [27] - 积累千万级C端用户 形成企业服务加C端应用双驱动产品矩阵 [27] - 为行业提供高效低成本大模型产业化路径 加速AI普惠进程 [27] 月之暗面Kimi(杨植麟) - 产品凭借超长文本处理差异化优势 早期支持20万字上下文后续升级至百万字级 [32] - 攻克传统大模型处理长篇文档痛点 快速覆盖科研辅助、法律文书分析等专业场景 [32] - 上线不久收获千万级用户关注 成为聚焦专业场景价值的现象级产品 [32] - 带动行业从通用对话向专业领域落地聚焦 推动AI技术在专业场景实用化进程 [32] 文心一言(王海峰) - 打造中国首个自主研发开源开放的产业级深度学习平台百度飞桨 [35] - 全面负责百度人工智能技术研发和商业化落地 包括百度大脑、文心大模型等核心体系构建 [35] - 推动百度AI在搜索、云计算、自动驾驶、智能硬件等众多业务领域应用 [35] - 飞桨平台降低中国AI开发者门槛 文心大模型推动生成式AI在国内普及发展 [35] 行业整体影响 - 这些领导者推动AI技术从实验室突破走向产业规模化落地 [2][37] - 中国AI企业展现技术深度与场景落地能力 提升全球AI产业应用领域竞争力 [10][23] - 带动AI产业链上下游协同发展 为全球AI产业提供技术产业双向驱动的中国样本 [17][23]
苦战七年卷了三代!关于BEV的演进之路:哈工大&清华最新综述
自动驾驶之心· 2025-09-17 23:33
BEV感知技术演进 - BEV感知已成为自动驾驶领域的基础范式,提供统一的空间表征,支持鲁棒的多传感器融合和多智能体协作[2] - 随着自动驾驶车辆从受控环境向现实世界部署过渡,复杂场景(如遮挡、恶劣天气和动态交通)中的安全性和可靠性仍是关键挑战[2] - 本文首次从安全关键视角对BEV感知进行全面综述,系统分析当前主流框架及实现策略,并将其划分为三个渐进阶段:单模态车载感知、多模态车载感知和多智能体协作感知[2] BEV感知的本质(What) - BEV感知是一种高效的空间表征范式,能够将来自多种传感器模态(如相机、激光雷达、毫米波雷达)的异构数据投影到统一的BEV坐标系中[6] - 通过这种投影,系统可构建周围环境的一致性结构化空间语义地图,消除传感器特有的视角差异[6] - 自上而下的视角能够帮助系统准确感知和理解物体间的空间关系,大幅降低多视角与多模态数据融合的复杂度[6] BEV感知的重要性(Why) - 凭借统一且可解释的空间表征,BEV感知成为自动驾驶中多模态融合与多智能体协作感知的理想基础[8] - 统一坐标系不仅简化了车载与路侧传感器的融合过程,还能支持多车辆与基础设施间的高效信息共享,突破单车辆感知的局限性[8] - BEV表征具备结构化、一致性的语义信息,能够为路径规划、车辆控制等下游任务提供支持,成为复杂协作驾驶场景中"感知-决策"环节的关键桥梁[8] BEV感知的实现方式(How) - 安全导向的BEV感知(SafeBEV)演进划分为三个主要阶段:SafeBEV 1.0(单模态车载感知)、SafeBEV 2.0(多模态车载感知)和SafeBEV 3.0(多智能体协作感知)[12] - 各阶段的特征与技术进展在后续章节详细阐述,包括单模态感知的局限性、多模态融合策略以及多智能体协作的优势[12] SafeBEV 1.0:单模态车载感知 - 该阶段采用单一传感器(如相机或LiDAR)实现基于BEV的场景理解,具有系统复杂度低、计算成本低的优势[13][20] - 基于相机的方法依赖单应性变换或数据驱动的BEV建模,分为稀疏范式与密集范式两类[13] - 基于激光雷达的方法通过点云体素化、稀疏卷积或PointNet等技术提取BEV特征,在空间分辨率与计算效率间取得平衡[13] - 但在恶劣条件下鲁棒性有限:相机方法对光照变化、遮挡和深度估计误差敏感,激光雷达方法面临点云稀疏性和天气导致的性能衰减问题[20][41] SafeBEV 2.0:多模态车载感知 - 该阶段通过集成相机、LiDAR、雷达等异构传感器提升BEV感知性能,突破单模态系统的局限性,增强遮挡与恶劣天气下的鲁棒性[14][42] - 融合策略分为五类:相机-雷达融合、相机-LiDAR融合、雷达-LiDAR融合、相机-LiDAR-雷达三模态融合及时间融合[14][42] - 根据融合阶段的不同,每类策略又可进一步分为单阶段融合(SSF)和多阶段融合(MSF)[42] - 这些策略共同增强了现实自动驾驶场景中BEV感知的安全性、适应性与可靠性[14] SafeBEV 3.0:多智能体协作感知 - 随着车联网(V2X)技术的发展,自动驾驶车辆可通过车-车、车-基础设施间的信息交互与联合推理,突破单智能体感知的局限性[15][72] - 通过在统一BEV空间中聚合多源传感器数据,协作感知能够实现全局环境建模,为动态交通中的安全导航提供关键支持[15][72] - V2VNet、DiscoNet、CoBEVT等代表性框架通过特征压缩、带宽高效协议及分布式推理技术,在降低通信成本的同时实现实时、可扩展的协作[15] - 多智能体观测的时空融合技术能够增强全局态势感知,提升对遮挡或远距离目标的感知能力[15] BEV感知数据集 - 高质量数据集是感知算法研发与评估的核心基础,设计完善的数据集对于提升BEV感知的鲁棒性与安全性至关重要[98] - 车载BEV数据集分为单模态与多模态两类,单模态数据集支持专项研究,多模态数据集支持传感器融合策略的研发[99][102] - 多智能体协作感知数据集在传感器多样性、协作能力及复杂交通场景表征方面取得显著进展,为基于BEV的协作感知研究提供了关键基础[104][105] - 路侧感知数据集利用固定路侧单元实现高精度、广范围的环境感知,具有稳定、抗遮挡的视角及广阔的时空覆盖范围[107] 挑战与未来方向 - BEV感知在开放世界场景下面临关键安全挑战,包括开放集识别、大规模未标注数据、传感器性能退化及智能体间通信延迟[2][16] - 未来研究方向包括与端到端自动驾驶系统的融合、具身智能及大型语言模型的应用[2][16] - 多模态融合仍面临标定与同步、环境干扰、实时性约束和视野局限等挑战[66][70] - 多智能体协作感知需解决通信可靠性、时空对齐及系统可扩展性三大关键挑战[97]
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-17 23:33
VLA绝对是今年自动驾驶学术界和工业界的主流关键词。 去年的端到端+VLM,标志着智能驾驶从规则驱动向数据驱动的根本转变。在实际中使用我们发现,端到端虽然提供了一个打通上下游视角的能力,但面对复杂的困难场 景仍然受限。如果在自动驾驶公司工作过,就知道量产模型的迭代仍然被限制在无限corner case的循环中。 VLA本质上也可以算作是一种端到端,不过更加直白和干净,很多方法也取消了传统端到端的复杂的3D感知任务。借鉴VLM更强大的通用泛化能力,除了任务更简洁, VLA更重要的还是提供了一种解决corner case的可能性。 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。自动驾驶VLA的技术栈仍然没有收敛!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 前一段时间我们推出了《端到端与VLA自动驾驶小班课》,这门课侧重在端到端自动驾驶的技术栈梳理,同学们的反馈很好。 所以很多同学联系自动驾驶之心想学习更多 关于VLA的前沿知识! 因此我们联合国内外的教研团队共同打造了《自动驾驶VLA实战教程》,针对自动驾驶VLA的技术栈进行了全面的梳理。 学习自动驾驶VLA,是一个一站式强化多领域 ...
揭秘小鹏自动驾驶「基座模型」和 「VLA大模型」
自动驾驶之心· 2025-09-17 23:33
小鹏自动驾驶技术方法论 - 提出自动驾驶软件3.0时代概念 即"AI模型即软件" 整个软件栈由端到端AI模型构成 基于以数据为中心的方法迭代[6] - 公司处于将整个自动驾驶软件栈构建为端到端AI模型驾驶汽车的阶段[8] - 基于规模定律(scaling law) 利用每天从数十万辆真实世界车辆收集的大量数据训练大型视觉模型作为"工厂"[8] 基础模型与部署架构 - 通过大数据构建基础模型 无需依赖三维空间先验知识和空间问题 类似世界模型概念[8] - 通过深度裁剪 量化 蒸馏将基础模型压缩为更小版本 部署到车端硬件[8] - 在云端构建VLA(视觉语言动作)基础模型 通过蒸馏剪枝和微调训练部署到车端[32] 内外循环训练机制 - 内循环为每个模型创建训练流 扩展数据后进行再训练和监督微调(SFT) 持续提升模型性能[9] - 外循环通过数十万辆车作为现实世界数据采样器 持续采样数据 根据返回数据持续训练(协同训练)[11] - 重复内外循环过程直至性能达到L4级自动驾驶 公司目标2026年实现L4级智驾车型量产[11][13] VLA模型训练方法 - 采用阿里Qwen作为原始VLM模型 使用公司整理的驾驶数据进行预训练和对齐[15] - 预训练数据分类包括静态交通元素 动态交通参与者 点对点轨迹数据 占用网络 交通信号灯和交通流信息[18] - 基于Chain-of-Thought思维链进行四步推理:提供基本驾驶知识 CoT SFT 强化学习CoT 考虑延迟的CoT SFT[22][23] 模型优化与安全强化 - 监督微调(SFT)建模为"指令遵循"任务 使用筛选的好数据专门训练导航 舒适刹车等专用指令[27] - 后期训练(post-training)采用强化学习解决长尾案例 建立奖励模型确保行动一致性[29] - 强化学习设计三重奖励机制:安全(避免碰撞) 效率(避免卡壳) 合规(遵守交通规则)[30] 行业竞争核心要素 - 底层算法和架构相通 行业差距取决于高质量数据 大算力以及算法产品化和工程落地能力[32] - VLA概念需要基础成熟的LLM作为底座 针对性训练交通驾驶行为[32] - 基础模型蒸馏上车思路可加速开发并快速部署到不同算力平台 但前提需要大算力和高质量数据[32]
超高性价比3D扫描仪!点云/视觉全场景厘米级重建
自动驾驶之心· 2025-09-17 23:33
产品核心特点 - 面向工业场景和教研场景的超高性价比3D扫描仪 轻量化设计 一键启动 实现高效实用的三维解决方案[1] - 以多模态传感器融合算法为核心 实现厘米级精度的三维场景实时重构 可广泛用于多种作业领域[1] - 每秒20万级点云成图 70米测量距离 360°全域覆盖 支持20万平米以上的大场景扫描[1][29][30] - 可选配3D高斯数据采集模块 实现高保真实景还原 支持跨平台集成[1][50] - 配备高带宽网口及双USB 3.0接口 为科研实验提供灵活扩展空间[1][22] 技术参数 - 系统运行于ubuntu 20.04 支持ROS 相对精度优于3cm 绝对精度优于5cm[22] - 尺寸14.2cm*9.5cm*45cm 重量1.3kg(不含电池) 续航时间约3-4小时 存储容量256G[22] - 采用Intel N5095处理器 4核2.0GHz 内存16G/硬盘256G 支持WIFI/蓝牙连接[22] - 配备Livox Mid-360激光雷达 Intel D435i深度相机 T-RTK UM982 Mobile定位模块[22][23] - 支持微秒级硬件同步触发 同步精度达微秒级 IMU频率最高800Hz[23][34] 操作特性 - 操作简单直观 一键启动即可执行扫描作业 扫描结果导出即用[5] - 设备自带手持Ubuntu系统和多种传感器 手柄集成电源系统[3] - 支持实时解算 输出数据格式包括pcd, las, plv等多种通用格式[22] - 提供彩色点云建图功能 支持高 中 低曝光参数调节[42] - 配备5.5寸触控屏(1280x720分辨率) 支持数据实时预览[22] 应用场景 - 适用于写字楼 停车场 工业园区 隧道 森林 矿场等复杂室内外场景[38][46] - 支持跨平台集成 适配无人机 无人车 机械狗 人形机器人等多种负载平台[44] - 可用于地理信息数据采集 城市规划 文物监测 工程监理等领域[52][54] - 支持20万平米以上大场景实时扫描 结果实时查看 支持彩色融合[30] 产品版本与定价 - 基础版本售价19800元 包含主机 软件 RTK配件和在线用户手册[57][58] - 深度相机版本售价23800元 在基础版上增加深度相机[57][58] - 3DGS在线版本售价39800元 包含3D高斯采集配件 赠送两个月云服务(月费5000元)[57][58] - 3DGS离线版本售价67800元 包含本地渲染软件 需客户自备高性能服务器[57][58] - 所有版本均提供专业工程师培训支持服务 购买后提供1年售后服务[58][60]
前理想CTO跨行具身创业,多家资本助力......
自动驾驶之心· 2025-09-17 03:26
具身智能行业动态 - 元璟资本投资合伙人、前理想汽车CTO王凯已投入具身智能创业 [2] - 某头部自驾技术高管即将参与具身智能创业 [2] 融资情况 - 成立数月便获得红杉资本、蓝驰资本等多家机构累计5000万美元投资 [3] 创始人背景与能力 - 王凯2020年加入理想汽车负责智能驾驶相关研究 涉及座舱、自驾、操作系统和平台 [3] - 王凯推动了地平线芯片方案量产 2022年离开理想加入元璟资本担任投资合伙人 [3] - 另一位自驾高管参与某头部新势力的端到端与VLA量产工作 [3] 资本关注重点 - 具身智能赛道目前比较火热 [3] - 创始人的量产能力是资本非常看好的关键因素 [3] - 具身智能领域需要量产能力强的人才推动商业化进程 [3]
自动驾驶之心企业合作邀请函
自动驾驶之心· 2025-09-17 02:01
自动驾驶之心是具身智能领域的优秀创作和宣传的媒体平台。近一年内,我们和多家自驾公司签订 长期合作事项,包括但不限于品牌宣传、产品宣传、联合运营等。 我们期待进一步的合作!!! 联系方式 随着团队的不断扩大,我们期望在上述业务上和更多优秀的公司建立联系,推动自驾领域的高速发 展。欢迎有相关业务需求的公司或团队联系我们。 添加商务微信oooops-life做进一步沟通。 ...
那些号称端到端包治百病的人,压根从来没做过PnC......
自动驾驶之心· 2025-09-16 23:33
端到端自动驾驶技术发展现状 - 国内新势力车企正在推进VLA(Vision-Language-Action)技术的落地和优化 而另一部分企业则聚焦WA(World Model)路线 更多车企和Tier1供应商仍处于端到端技术攻坚阶段[2] - 端到端系统通过输入传感器原始数据直接输出控制信号或自车轨迹 代表性算法包括UniAD和Sparse系列[3] - 端到端本质是实现感知信息的无损传递 解决模块化方法中人工定义感知结果无法覆盖开集场景的问题 目前工业界普遍采用模仿学习方法进行优化[4] 端到端技术挑战与行业共识 - 端到端系统虽提高性能上限但下限稳定性不足 实际落地仍需传统规控方法兜底 learning-based输出轨迹仍需经过传统PnC处理[5] - 行业共识是自动驾驶从规则驱动转向认知驱动 但端到端技术距离成熟仍有较长距离 需要更多时间沉淀[5] - 车企为突破感知模型迭代瓶颈 积极布局VLA和WA技术路线 但需理性看待端到端替代传统规控的局限性[5] 自动驾驶技术社区生态 - 自动驾驶之心知识星球社区规模已超4000人 覆盖超300家机构与自动驾驶公司 目标两年内达到近万人规模[8][102] - 社区整合40+技术方向学习路线 包括VLA、端到端、多模态大模型等前沿领域 并提供与一线产业界/学术界大佬的直接交流渠道[8][9][17] - 社区提供岗位内推机制 成员来自蔚小理、地平线、华为、英伟达等头部企业 以及国内外顶尖高校实验室[17] 技术资源体系 - 社区汇总近60+自动驾驶数据集 涵盖VLM预训练/微调/思维链/强化学习等类型 并整合3D目标检测/BEV感知/Occupancy等开源项目[37][53][55] - 提供七大福利视频教程 内容覆盖世界模型、自动驾驶大模型、Transformer等 已举办超百场专业技术直播[88][91] - 详细梳理端到端自动驾驶技术体系 包括一段式/二段式量产方案、VLA算法及里程碑方法 兼顾学术界与工业界需求[39][47]