Workflow
Multimodal Large Model
icon
搜索文档
合伙人招募!4D标注/世界模型/VLA/模型部署等方向
自动驾驶之心· 2025-09-27 23:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 丰厚的现金激励; ...
打算招聘几位大佬共创平台(4D标注/世界模型/VLA/模型部署等方向)
自动驾驶之心· 2025-09-25 07:36
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); ...
招聘几位大佬,打算共创平台(模型部署/VLA/端到端)
自动驾驶之心· 2025-09-04 08:42
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、视觉语言模型(VLA)、端到端自动驾驶系统[3] - 涵盖具身交互、联合预测、SLAM技术、3D目标检测、世界模型等前沿领域[3] - 涉及闭环仿真3D高斯溅射(3DGS)技术及大模型部署与量化感知推理[3] 人才资质要求 - 要求候选人来自QS世界大学排名前200高校[4] - 优先考虑硕士及以上学历且拥有顶级会议论文发表记录的专家[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职推荐、读博及出国留学支持[5] - 设立具有竞争力的现金激励方案[5] - 开放创业项目合作与推荐渠道[5]
又有很多自动驾驶工作中稿了ICCV 2025,我们发现了一些新趋势的变化...
自动驾驶之心· 2025-08-16 00:03
多模态大模型 & VLA - 多模态大模型和VLA是当前最热门的赛道,主流范式遵循『预训练-微调-强化学习』三阶段,但通用自动驾驶VLM基础模型仍缺失 [5] - 华科与小米联合推出ORION框架,通过视觉语言指令生成动作实现端到端自动驾驶 [5] - 中山大学与美团合作开发All-in-One大型多模态模型DriveMM,整合多任务处理能力 [6] - 重庆大学提出MCAM模型,通过多模态因果分析理解自车级驾驶视频 [8] 闭环仿真 & 世界模型 - 基于世界模型和3DGS的闭环仿真成为行业刚需,聚焦车道线、红绿灯等细粒度性能优化 [5] - 清华大学与旷视科技推出DiST-4D模型,实现4D驾驶场景的时空解耦生成 [34] - 美团与中山大学开发RoboTron-Sim,通过模拟极端案例提升实车驾驶性能 [17] - 清华大学与地平线合作Epona模型,采用自回归扩散方法构建世界模型 [47] OCC与3D重建 - 丰田利用大规模二值占用数据开发语义占用预测模型B2S-Occupancy [52] - 清华大学团队提出GS-Occ3D,基于高斯泼溅技术扩展纯视觉占用重建 [51] - Valeo AI推出GaussRender,通过高斯渲染学习3D占用 [60] - 慕尼黑工业大学开发SceneDINO,实现无监督语义场景补全 [56] 目标检测 - 新加坡国立大学提出Perspective-Invariant 3D检测方法PI3Det,提升视角不变性 [68] - 韩国庆熙大学开发SFUOD框架,解决无源未知物体检测问题 [71] - 南京理工大学推出OcRFDet,基于物体中心辐射场实现多视角3D检测 [75] 数据集与评估 - 加州大学欧文分校发布DriveBench工具包,评估VLM在自动驾驶中的可靠性 [76] - 卡内基梅隆大学推出ROADWork数据集,专注施工区域驾驶场景 [79] - 中国科大与华为联合开发VLADBench,细粒度评估大视觉语言模型 [87] 端到端与轨迹预测 - 香港科技大学与滴滴合作强化轨迹预测模型,引入奖励启发机制 [29] - 韩国DGIST实验室利用可控扩散模型解决长尾轨迹预测问题 [30] - 中科院自动化所与理想汽车推出World4Drive,通过意图感知潜变量模型实现端到端驾驶 [32] 其他技术方向 - 浙江大学与中兴通讯开发Dynamic-DINO,实时开放词汇检测 [93] - 新加坡国立大学团队提出LiMA框架,跨视角蒸馏提升LiDAR表征 [97] - 复旦大学与萨里大学合作DriveX,在自由轨迹上生成驾驶视图 [37]
自动驾驶之『多模态大模型』交流群成立了!
自动驾驶之心· 2025-06-26 12:56
自动驾驶技术平台 - 自动驾驶之心是国内领先的自动驾驶技术交流平台 [1] - 平台关注自动驾驶前沿技术、行业动态及职场成长 [1] - 平台覆盖具身智能、视觉大语言模型、世界模型等前沿技术方向 [1] - 涉及端到端自动驾驶、扩散模型、车道线检测等核心技术 [1] - 包含2D/3D目标跟踪、检测、BEV感知等多模态感知技术 [1] - 涵盖多传感器融合、transformer、大模型等AI技术 [1] - 涉及点云处理、在线地图、SLAM等空间感知技术 [1] - 包含光流估计、深度估计、轨迹预测等环境理解技术 [1] - 覆盖高精地图、NeRF、Gaussian Splatting等建模技术 [1] - 涉及规划控制、模型部署落地等应用技术 [1] - 包含自动驾驶仿真测试、产品经理、硬件配置等产业环节 [1] - 提供AI求职交流等职业发展支持 [1]
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
机器之心· 2025-06-20 11:59
核心观点 - 上海人工智能实验室联合多所高校研究团队提出首个专为开放世界移动操作(OWMM)设计的多模态智能体架构OWMM-Agent,首次实现全局场景理解、机器人状态跟踪和多模态动作生成的统一建模 [1] - OWMM-Agent在真实环境测试中零样本单步动作预测准确率达90%,展现出强大的泛化能力 [2][12] - 该研究通过仿真数据合成方案微调多模态大模型OWMM-VLM,在模拟环境和真实环境中均取得突破性进展 [8][9][12] 问题背景 - 传统移动抓取机器人在处理开放指令时依赖预先构建的场景3D重建或语义地图,耗时且难以应对动态环境 [5] - OWMM任务面临三大核心难点:全局场景推理、具身决策闭环和系统整合问题 [5] 技术方案 多模态Agent架构 - 将OWMM问题建模成多轮多图推理和定位问题,实现端到端的感知-推理-决策-状态更新过程 [6] - 通过函数调用传统路径规划器和机械臂运动规划器,不依赖预定义策略技能库 [8] 数据合成方案 - 基于Habitat仿真平台设计数据合成方案,解决VLM基座模型在机器人领域的"幻觉"问题 [8] - 利用143个仿真场景、157种可抓取物体和1471个容器,采集20万+条多图加文本数据集 [9] - 通过GPT-4o重写思维链和文字总结内容,引入机器人第一视角图像增强数据多样性 [9] 模型表现 模拟环境测试 - OWMM-VLM-38B模型在单步动作决策、图像检索和动作定位三项任务上准确率分别达97.85%、87.54%和88%,远超GPT-4o和模块化方案 [15] - 在308次模拟测试中,OWMM-VLM-38B完成长序移动抓取任务成功率达21.9%,且零死循环,而基线模型成功率低于1%且频繁陷入死循环 [15] 真实环境测试 - 在Fetch机器人上仅通过模拟数据训练即实现90%的零样本动作生成成功率(30次测试中27次成功) [12] - 在"将豆奶盒从书桌移至会议桌"任务中展现出强泛化能力,能准确检索目标位置、规划导航路径并生成机械臂抓取坐标 [12] 未来展望 - 该研究首次证明通过大规模模拟数据微调的VLM模型可成为开放世界移动操作的通用基础模型 [14] - 为"会听、会看、会做"的通用家庭助手奠定关键技术基础,有望实现"一句话指挥机器人完成家务"的智能生活 [15]
2025年全球多模态大模型行业发展现状 AI服务器和算力发展推动市场爆发式增长【组图】
前瞻网· 2025-04-22 07:44
全球多模态大模型行业发展历程 - 人工智能学科诞生于1956-2005年的早期探索期 神经网络模型开始发展 [1] - 2006-2019年进入快速成长期 深度学习概念被重新引入 Transformer等模型推动行业进步 [1] - 2020-2022年为大模型兴起期 参数规模迅速扩大 2022年被视为大模型元年 [1] - 2023年起进入广泛应用期 各领域深度应用不断拓展 [1] 全球人工智能服务器现状 - 全球人工智能硬件市场(服务器)规模将从2022年195亿美元增长至2026年347亿美元 五年CAGR达17.3% [3] - 生成式AI服务器占比将从2023年11.9%提升至2026年31.7% [4] 全球大模型算力需求情况 - ChatGPT的GPT-3模型训练参数量达1750亿 算力消耗3640PF-days 需至少1万片GPU支撑 [5] - 模型参数扩大十倍时 算力投入增幅超十倍 受模型架构/优化效率/并行处理能力/硬件能力等因素影响 [5] 全球大模型市场规模情况 - 2023年全球大模型市场规模达210亿美元 [7] - 2024年市场规模预计280亿美元 同比增长33% [7] 全球多模态大模型竞争格局 - GPT-4o以81分领跑SuperCLUE基准测试 是唯一超过80分的全球模型 [10] - 中国6个大模型超过GPT-4-Turbo-0409 绝大部分闭源模型已超越GPT-3.5-Turbo-0125 [10]
招生 | 人大信院AIM3实验室招收人工智能方向学生
量子位· 2025-03-16 05:37
文章核心观点 介绍中国人民大学AIM3实验室的相关信息,包括实验室概况、导师、科研成果、学生培养、氛围、招生计划和申请条件等,吸引有科研热情的人加入 [1][3][4][5][8][11] 实验室概况 - 隶属于中国人民大学信息学院-计算机系-感知与交互智能计算研究室,研究多模态智能计算,关注大语言模型等方向 [1] - 中国人民大学是“985工程”“211工程”重点建设大学,信息学院计算机专业是国家级特色专业建设点,在教育部第五轮学科评估中评为A,在国际计算机学科排行榜CSRankings统计中,在人工智能和数据库等领域排名位居世界前列 [2] 导师介绍 - PI金琴老师毕业于清华大学和卡内基梅隆大学,现为人大信息学院教授,在顶会顶刊发表论文百余篇,谷歌学术引用超8000次,入选人工智能全球女性学者榜单等 [3] - 青年教师王文轩老师2024年毕业于香港中文大学,研究方向为人工智能大模型,博士期间发表顶会论文二十余篇,指导本科生经验丰富 [3] 科研成果 - 近三年在人工智能顶会上发表论文五十余篇,课题组成员多次进行学术报告 [4] - 积极参与国际权威比赛并获诸多奖项,如蝉联CVPR 2018 - 2020 ActivityNet视频描述挑战赛冠军等 [4] 学生培养 - 组内学生成果突出,近三年7人次获国家奖学金,2人次获百度奖学金 [5] - 毕业生去向良好,主要前往知名科研院所继续科研或互联网大厂从事算法研究 [5] 实验室氛围 - 研究氛围好,学生可自主选课题,经费充足,显卡资源丰富,提供设备支持研究 [5] - 与头部互联网企业和海外院校保持合作,学生可前往实习访问 [5] - 导师重视学生成长,定期组织运动和团建,成员自主设计实验室周边 [6] 招生计划 - 2026年可招收并指导博士生2名、学硕3名、专硕3名、访问生若干,可联系金琴老师或王文轩老师 [8] 申请条件 - 双一流或同等水平学校学生,综合排名前20%,有科研经历优先 [11] - 对科研有热情,踏实专注有毅力,有良好自主学习能力,具备扎实英语功底和编程能力 [11]