多模态大模型

搜索文档
转行自动驾驶算法之路 - 学习篇
自动驾驶之心· 2025-09-10 23:33
开学季促销活动 - 推出299元超级折扣卡 一年有效期内购买全平台课程享受七折优惠 [3] - 自动驾驶之心知识星球立减88元 [3] - 课程消费满1000元赠送2门带读课程 八选二 [3] - 自动驾驶论文辅导1000元最高抵扣10000元 [3] - 自动驾驶1v6小班课限时立减1000元 [3] - 全平台硬件优惠包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂科研平台 桌面级机械臂科研平台 数采夹爪单臂双臂方案 [3] 自动驾驶技术课程体系 - 端到端与VLA自动驾驶课程覆盖多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等技术方向 [6][7] - 自动驾驶4D标注算法小班课聚焦自动化4D标注技术 解决动静态元素 OCC和轨迹标注等复杂需求 [11] - 多模态大模型与自动驾驶实战课程涵盖通用多模态大模型 大模型微调 端到端自动驾驶多模态大模型 [15][16] - BEV感知全栈系列教程包含毫米波雷达视觉融合 激光雷达视觉融合 3D4D毫米波雷达 车道线检测 Occupancy占用网络等技术模块 [19] - 多传感器标定融合课程提供标定技术方案 [20] - 模型部署课程包含CUDA与TensorRT部署实战 BEV模型部署实战 [21] - 规划控制与预测课程涵盖规划控制理论实战 轨迹预测理论与实战 [21] - 自动驾驶仿真与开发课程提供Carla-Autoware联合仿真 面向量产的C++实战教程 [22] - 科研辅导课程包括自动驾驶与CV领域通用论文辅导 NeRF与自动驾驶论文带读 [22] 教学服务特色 - 课程配备专属VIP交流群 主讲老师每日群内交流 不定期线上直播答疑 [29] - 小班课聚焦实际工作需求 解决量产痛点 分享面试亮点 [23][24] - 提供简历辅导和面试辅导环节 针对秋招社招需求 [24][25] - 课程学员可获岗位推荐 对接理想 地平线 百度 上海人工智能实验室 蔚来 小鹏 华为车BU 大疆等企业 [41] 硬件与开发支持 - 硬件平台支持包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂平台 桌面级机械臂平台 数采夹爪方案 [3] - 开发环境要求本地电脑配备GPU 显存至少12GB 支持CUDA加速 [36] - 提供Ubuntu开发环境支持 课程代码规范基于Apollo等工业级框架 [36]
击败英伟达,全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球!
机器人圈· 2025-09-10 09:07
近日,优必选自主研发的人形机器人 Walker 最强大脑——百亿参数基座的多模态大模型:优必选 Thinker ,在 机器人感知与规划领域三大国际权威基准测试——分别由微软、谷歌等发起与提出的 MS COCO Detection Challenge 、 RoboVQA 与 Egoplan-bench2 中,针对二十一个场景、四大类型的任务规划等命题,优必选一举 斩获四项全球榜单第一。榜单吸引了来自英伟达、北京智源研究院、上海 AI Lab 等全球顶尖团队,角逐激烈。优 必选这次取得的成绩不仅体现了其机器人在复杂环境感知、语义理解与长程任务规划方面的全方位技术领先性, 也标志着人形机器人 Walker S 系列的"最强大脑"实现关键进化。 多模态感知+强推理规划 赋能工业场景规模化应用 在智能化浪潮席卷全球的当下,人形机器人的规划能力已成为关键竞争维度之一。传统机器人系统依赖预设指令 执行任务,难以应对高度动态、多变的现实场景。而本次三大基准测试的核心,正是针对人形机器人在复杂环境 中的多模态感知和推理规划能力进行系统化验证。 MS COCO detection challenge 由微软发起,是计算机视觉领域 ...
全球首个L4级能源AI Agent,预测准确率较传统方法提升30%以上 | 创新场景
钛媒体APP· 2025-09-08 01:13
核心技术架构 - 采用ILM多模态大模型作为AI决策大脑,具备复杂场景理解和推理能力 [1][2] - 基于HEE超级能源引擎技术底座,提供强大数据处理和计算能力支撑 [1][2] - 实现主动感知、自主决策、智能执行的完整闭环,支持多模态数据融合处理 [2] 技术突破 - 从L3到L4跨越,实现从有条件自主到完全自主的技术突破 [4] - 突破单一数据源限制,实现文本、数值、图像、时序数据的全方位信息感知 [2][4] - 具备毫秒级响应速度,满足能源市场高频交易需求 [2][4] - 主动意识算法支持7x24小时自主监控市场变化 [2][4] 性能指标 - 短期负荷预测准确率达98.5%,较传统方法提升30%以上 [4] - 电价预测精度提升35%,风险预测准确率达到95% [4] - 决策响应时间从分钟级提升至毫秒级,峰值处理能力提升10倍 [4] - 系统可用性达到99.9%以上,支持大规模并发处理 [4] 应用场景 - 自主监控电力现货市场和辅助服务市场多个交易品种 [2] - 实时优化分布式能源资源配置,协调发电、储能和负荷侧资源 [2] - 基于电价预测优化储能系统充放电策略,提升经济性和运行效率 [2] - 已在多个省份电力交易中心部署,累计处理交易额超百亿元 [4] 商业成效 - 试点项目交易收益较传统方法提升25-40% [4] - 运营成本降低30%以上,人力投入减少60% [4] - 每1%准确率提升可在万亿级能源市场节省数亿元成本 [4] - 服务客户覆盖发电企业、售电公司和工业用户等多类型 [4] 行业影响 - 推动能源行业向智能化、数字化方向发展 [6] - 为传统能源企业提供转型升级技术路径 [6] - 通过智能优化提升可再生能源消纳率,助力双碳目标实现 [4] - 作为全球首个L4级能源AI Agent,树立行业技术标杆 [1][6]
自动驾驶中有“纯血VLA"吗?盘点自动驾驶VLM到底能起到哪些作用~
自动驾驶之心· 2025-09-06 16:05
视觉语言自动驾驶模型技术实现 - 模型支持不同数量相机输入 无需明确指定相机数量[2] - 轨迹输出采用文本形式 通过Prompt限制为XY坐标格式[4] - 输出坐标为车辆坐标系相对值 原点为(0,0) 非图像坐标[6] - 使用Python编程进行轨迹格式规范化处理 确保输出符合预期[8] - 通过JSON格式和关键词约束优化未经训练模型的输出效果[9] 数据集构建与处理 - 遇到坐标异常问题 连续多帧坐标相同后出现突变[14] - 不同数据集存在坐标格式差异 包括经纬度与相对坐标[14] - 通过规则化方法剔除不合理轨迹数据[14] - 统一转换为自车坐标系下的相对位移进行数据对齐[18] - 输入为图像和前1.5秒轨迹点 输出未来5秒轨迹点[20] 模型训练与性能 - 经过数据训练后模型输出格式符合性显著提升[8] - 通过QA训练获得多模态轨迹预测和场景理解能力[11] - 具备动态物体轨迹预测能力 包括车辆行人运动预测[11] - 新增端到端预测任务确保数据完整性[20] 社区资源与技术覆盖 - 知识星球涵盖40+技术方向包括多模态大模型和端到端自动驾驶[22] - 社区成员来自头部自驾公司和高校实验室 超4000人规模[24] - 提供近40个技术路线图和学习入门路线[24] - 包含自动驾驶数据集汇总与仿真工具资源[27] - 建立与多家自动驾驶公司的岗位内推机制[29]
自动驾驶之心开学季火热进行中,所有课程七折优惠!
自动驾驶之心· 2025-09-06 16:05
值此开学季之际,我们为大家准备了重磅学习礼包: 1. 重磅推出299元超级折扣卡(一年期有效):购买后,享受全平台课程七折优惠; 2. 自动驾驶之心知识星球立减88; 3. 课程福利放送:满1000元赠送2门带读课程(八选二); 4. 自动驾驶论文辅导1000最高抵扣10000; 5. 自动驾驶1v6小班课限时福利立减1000; 6. 全平台硬件优惠: 全栈教研平台黑武士001 足式/强化学习科研平台:TRON1 四足机械狗+机械臂科研平台 桌面级机械臂科研平台 数采夹爪(单臂+双臂方案) 超级折扣卡 重点介绍下我们最新推出的超级折扣卡!活动期间购买有效, 自购买之日起一年时间内,购买平台任意课程均享受七折优惠,包括后续推出的新课程呦~ 自动驾驶前沿课程 2025年我们重点推荐以下自动驾驶技术方向。 1)端到端与VLA自动驾驶 端到端自动驾驶(End-to-End Autonomous Driving)作为目前智驾量产的核心算法,可以分为一段式端到端、二段式端到端两个大的技术方向。自UniAD获得 CVPR Best Paper以来,正式拉开了国内新一轮的智驾军备竞赛。2024年理想汽车更是宣布E2E+VLM ...
筹备了很久,下周和大家线上聊一聊~
自动驾驶之心· 2025-09-05 07:50
社区活动与交流 - 计划举办线上交流活动 针对自动驾驶多个技术方向收集问题并进行交流 [1] - 社区成员主要分布在头部自驾公司 互联网公司 Top高校实验室和传统机器人公司 形成工业界和学术界互补的态势 [3] - 社区已建立超过100场专业技术直播 邀请学术界和工业界大佬分享最新研究成果 [52] 社区规模与内容 - 自动驾驶之心知识星球目前拥有超过4000名成员 目标在未来2年内达到近万人规模 [5] - 社区内容涵盖近40个自动驾驶技术方向 包括多模态大模型 VLM 端到端自动驾驶 规划控制 多传感器融合等 [3][5] - 社区提供视频 图文 学习路线 问答和求职交流为一体的综合服务 并梳理了40+技术路线 [5] 技术资源与学习 - 汇总近40+开源项目 近60+自动驾驶数据集 行业主流仿真平台以及各类技术学习路线 [12] - 提供全栈方向学习课程 适合0基础入门 同时为进阶者提供产业体系和项目方案 [8][10] - 社区内部包含自动驾驶感知 仿真 规划控制等学习路线 以及VLA 多模态大模型等前沿技术内容 [12][13] 行业合作与就业 - 与多家自动驾驶公司建立岗位内推机制 帮助成员将简历送至心仪公司 [8] - 社区成员来自国内外知名高校和头部企业 包括上海交大 清华大学 CMU 蔚小理 地平线 华为 英伟达等 [12] - 提供求职交流 行业机会挖掘 投资与项目对接等服务 [16] 技术方向覆盖 - 详细梳理端到端自动驾驶 VLM VLA 世界模型 扩散模型 BEV感知 3D目标检测等多领域内容 [25][26][28][29][31][34][36] - 涵盖规划控制 多传感器融合 在线高精地图 Occupancy Network 轨迹预测 强化学习等关键技术 [32][37][38][40] - 包括传感器标定 模型部署 CUDA 仿真框架等工程实践内容 [7][43][46] 直播与专家分享 - 直播内容覆盖VLA 3D检测 扩散模型规划器 神经符号系统等前沿话题 [52] - 邀请学术界和工业界专家分享最新研究成果 如Impromptu VLA DetAny3D模型等 [52] - 提供超过100场专业技术直播 部分内容可反复观看 [52]
开学了,需要一个报团取暖的自驾学习社区...
自动驾驶之心· 2025-09-04 23:33
自动驾驶行业招聘与求职 - 金九银十为秋招关键期 业内tier 1公司已开始发放测试岗位offer 但部分求职者仍希望冲刺算法岗[1] - 行业招聘需求集中在感知算法、端到端自动驾驶、4D标注、多模态大模型等前沿方向[7][11][14] - 主流车企与科技公司包括理想、地平线、百度、上海人工智能实验室、蔚来、小鹏、华为车BU、大疆等均开放岗位[38] - 课程学员可获得直接推荐至算法开发负责人的机会 绕过官网投递流程[38] 自动驾驶技术发展趋势 - 端到端自动驾驶成为智驾量产核心算法 分为一段式与二段式技术方向 理想汽车已宣布E2E+VLM双系统架构量产[7] - 2024年端到端技术需融合多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多领域知识[8] - 4D自动标注算法需求激增 因端到端训练需时间同步后的传感器统一标注动静态元素、OCC和轨迹等[11] - 多模态大模型与自动驾驶结合成为新兴领域 学术界论文爆发 工业界融资案例快速增长[14] 专业培训课程体系 - 推出299元超级折扣卡 一年期内享受全平台课程七折优惠[4][6] - 开设端到端与VLA自动驾驶小班课 涵盖多模态大模型、BEV感知、强化学习等核心技术[7][8] - 4D自动标注算法就业小班课聚焦数据闭环算法开发与工程化落地[11][12] - 多模态大模型实战课程系统化覆盖从通用模型到端到端自动驾驶应用[14][15] - 感知系列课程包括BEV感知全栈、毫米波雷达视觉融合、激光雷达视觉融合等16个模块[16] - 规划控制与预测课程包含轨迹预测理论与实战、规划控制小班课等[18] - 模型部署课程涵盖CUDA与TensorRT部署、BEV模型部署实战[18] 硬件与科研平台 - 全栈教研平台黑武士001支持全流程开发[4][43] - 足式/强化学习科研平台TRON1针对进阶研究[4][43] - 四足机械狗+机械臂科研平台整合运动控制与操作[4][43] - 桌面级机械臂科研平台适用于轻量级实验[4][43] - 数采夹爪提供单臂与双臂方案 支持数据采集任务[4][43] 学习与交流机制 - 每门课程配备专属VIP交流群 主讲老师每日群内交流并定期直播答疑[26] - 重点解决小白常踩坑问题、工程常见问题及后续研究方向[26] - 实际讨论内容涵盖模型微调(如Florence2)、TensorRT部署、多模态数据标注等实操问题[28][29][32] 工程实践与挑战 - 车端部署需满足低于100毫秒响应时间的理想目标 复杂场景要求成功率99.9%以上[34] - 转向角误差需小于1度(理想目标)或2度(可接受范围)[34] - 加速制动误差需小于0.1 m/s²(理想目标)或0.2 m/s²(可接受范围)[34] - 传感器升级(如相机200万→800万像素)可能需重构数据集与模型重新训练[36] - 多传感器联合标定采用在线标定与优化结合方式 依赖高精地图投影验证精度[36]
国投智能(300188.SZ):已将多模态能力应用到了视觉理解和增强上
格隆汇· 2025-09-04 07:26
多模态大模型技术应用进展 - 通过动态规则及指令将多模态大模型广泛应用于行为识别、场景分析、风险预警及应急指挥等领域 为每一路视频构建智慧大脑系统 [1] - 在视频流全面感知过程中应用多模态技术 从视频中获取目标事件信息并形成完整的信息认知图景 [1] - 智能穿戴设备领域应用多模态能力于视觉理解与增强 结合数据和服务资源实现业务场景与数据能力的联动 [1] 业务赋能方向 - 多模态大模型技术全面赋能公司各业务线 覆盖视频分析、行为识别及智能指挥等核心业务场景 [1] - 技术应用延伸至智能穿戴设备领域 强化视觉理解与数据服务资源的协同效应 [1]
开放几个大模型技术交流群(RAG/Agent/通用大模型等)
自动驾驶之心· 2025-09-04 03:35
技术交流群成立 - 大模型之心Tech技术交流群正式成立 专注于大模型相关技术交流 [1] - 交流内容涵盖大模型RAG AI Agent 多模态大模型 大模型部署等方向 [1] - 感兴趣者可添加小助理微信AIDriver005申请加入 需备注昵称和大模型加群 [2]
自动驾驶之心开学季活动来了(超级折扣卡/课程/硬件/论文辅导福利放送)
自动驾驶之心· 2025-09-02 09:57
日月更替,斗转星移。又到了金秋九月的开学季,校园里涌动的青春朝气与实验室里闪烁的代码光标遥相呼应。还记得十年前自己新学期踏进大学校园,看到无 人小巴的震撼,也是那个时候第一次接触到了自动驾驶,现在想想就是那个时候埋下了投身自驾的种子。 从16年开始,自动驾驶踏上了飞速发展的列车,整个世 界都处于人工智能爆发的前夕,有些人因为自身的努力或幸运站在了潮头之上,激昂和困惑交织在每个人的心头。 自动驾驶十年沉浮 这十年,自动驾驶从最开始的瞒珊学步,ImageNet图像分类,到COCO目标检测、分割、跟踪,进化到nuScenes 3D世界感知,再到BEV大一统整个感知模块(3D 检测/OCC/在线地图),又到今天的端到端、VLA。自动驾驶就像一个婴儿一样,终于快长大了。 未来又会是哪个方向呢?VLA和WA会是终局么?L4自动驾驶 还是具身智能抑或虚拟现实? 可能是,也可能不是。但科技总归是朝着智能化的大趋势大踏步前进,保持跟进与学习是重中之重。 自动驾驶的十年征程堪称一部浓缩的产业进化史,十年前我很难想象人工智能会到今天的高度。2015年百度无人车在雾霾中完成城市道路测试时,行业曾天真地 以为 L4 时代近在咫尺。无数 ...