多模态大模型
搜索文档
AI挑战赛聚焦具身智能应用落地
人民网· 2025-10-27 09:47
行业战略定位与发展方向 - 具身智能机器人是人工智能与高端制造深度融合的战略性前沿领域,正在实现从虚拟算法向实体智能的革命性跨越 [1] - 加快应用落地和产业融合的路径包括加强底层建设共建产业生态、促进应用场景开放赋能数据供给、深化产学研融合筑牢人才根基 [1] - 行业专注于与物理环境相互作用的智能体,强调感觉运动耦合和情境智能 [2] 核心技术融合与创新趋势 - 具身智能本体正融合新材料、感控一体、变体结构、多自主体协同合作等交叉技术以应对复杂物理环境的挑战 [2] - 多模态大模型与具身智能机器人的融合将赋予多智能体多模态自感知、自认知、自决策、自执行和自学习能力,实现思考、感知、行动三者有机智能融合 [2] - 未来重要科学方向是将机理模型与大数据学习的新方法结合 [2] 行业应用前景与现存挑战 - 技术将对未来智能机器人、工业具身智能、智能医疗等领域产生强大赋能作用 [2] - 替代物理世界体力工作仍需克服未知非结构化环境的物理建模、灵巧操作、多模态自然交互及高质量多模态数据生成等挑战 [2] 产业生态与创新活力 - 专项赛共吸引全国重点高校、科研机构和科技企业的74支队伍参赛,最终决出24支优胜团队 [3] - 大赛采用产业命题与开放场景竞赛模式,赛题涵盖仿生灵巧手精密操作、具身智能垂直领域大模型任务规划、国产化机器人AI芯片等前沿方向 [3]
相机参数秒变图片!新模型打通理解生成壁垒,支持任意视角图像创作
量子位· 2025-10-27 03:31
核心技术突破 - 提出Puffin统一多模态模型,首次在统一框架下融合以相机为中心的理解与生成任务,解决了此前两类任务被独立研究、模型受限于固定视角的问题[1][2][11][12] - 模型具备“与相机共思”能力,通过将抽象相机参数转化为专业摄影术语和分析空间线索,弥合了视觉-语言-相机模态间的鸿沟,支持空间想象和灵活的跨视角应用[4][18][20][44] - 在生成任务网络设计中引入像素级相机透视场作为连续潜在变量,并结合共享的思维链机制,实现了对图像生成更精细的空间控制和更合理的空间结构生成[16][27][28] 模型架构创新 - 引入几何对齐的视觉编码器,通过语义教师网络与视觉教师网络的双重蒸馏获得,兼具几何保真度和强语义理解能力,克服了现有多模态大模型视觉编码器缺乏几何保真度的局限性[14] - 采用渐进式解冻与联合微调的分阶段优化策略,使模型在底/中层结构线索与高层语言推理之间建立紧密联系[14][15] - 设计连接模块,通过可学习的queries将文本描述和相机参数对应的LLM隐式状态映射为扩散模型可理解的条件信号[15] 数据集与基准建设 - 构建Puffin-4M大规模高质量数据集,包含约400万张图片-语言-相机三元组,弥补了多模态空间智能领域同时覆盖视觉、语言与相机模态的数据集稀缺的空白[29][30] - 数据集构建流程涵盖360°全景数据收集与预处理、2D透视图像渲染生成、场景描述与空间推理打标以及跨视角场景扩展四个阶段[32][33] - 开源Puffin-Gen和Puffin-Und两个评测基准数据集,分别为相机可控生成和相机理解提供更具挑战性和综合性的验证标准[34] 性能表现 - 在相机理解任务中,Puffin模型在Roll、Pitch、FoV等参数估计上全面超越现有方法,例如在Roll参数估计上达到0.32度误差和84.9%/93.4%/96.2%的1/5/10度AUC精度[36] - 与GPT-4o、Qwen-Image、Nano Banana等主流多模态模型相比,Puffin在Up Vector、Latitude、Gravity等几何参数估计上误差显著更低,例如Up Vector平均误差为11.94度,远低于GPT-4o的24.11度[38] - 模型在AIGC图像和真实世界摄影图像等多种场景中均表现出良好的鲁棒性和合理的空间生成能力[39][41] 应用前景 - 模型能够通过精确预测相机参数,在自然场景图像中辅助虚拟三维物体的插入,并可通过指令微调灵活扩展至空间想象、世界探索和摄影指导等跨视角任务[43][44] - 在世界探索任务中,对初始视角与生成视角进行三维重建可视化显示,生成结果在空间结构上保持了良好的一致性[44] - 未来计划进一步提升跨视角能力,并扩展至以相机为中心的视频生成与理解,促进在动态与沉浸式场景中的更广泛应用[45]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-24 16:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
高盛大幅上调阿里资本开支预期至4600亿元:推理需求爆炸性增长,AI效率提高驱动更强收入
硬AI· 2025-10-24 12:40
文章核心观点 - AI推理需求呈指数级增长,推动云服务厂商资本开支持续扩张,技术效率提升反而可能加速资本开支向收入的转化 [2][3][6] - 中国互联网巨头在AI领域的战略路径分化,阿里巴巴聚焦企业级AI云市场,字节跳动发力消费级应用 [2][3][8] - 当前中国主要科技股估值相较于全球同行仍有折价空间,市场尚未进入AI泡沫 [4][10] AI推理需求与资本开支 - 高盛预计阿里巴巴2026至2028财年合计资本开支将达4600亿元人民币,远高于其此前3800亿元的目标 [2][3] - AI推理需求激增是支撑资本开支判断的核心逻辑,阿里巴巴AI推理需求每2-3个月翻一番 [2][6] - 字节跳动日均token消耗量在9月份突破30万亿,相比4-5月实现翻番,已接近谷歌的43万亿水平 [6] - 高盛预测中国云服务提供商在2025年第三季度资本开支将同比增长50% [6] - 技术效率提升(如阿里云Aegaeon系统节省82% GPU资源,DeepSeek模型减少90% token消耗)并不意味着资本开支缩减,反而有助于投资更有效转化为收入 [6] 巨头AI战略路径分化 - 阿里巴巴凭借全栈AI能力押注企业级AI云市场,在外部AI云收入规模和企业级服务方面处于领先地位 [2][3][8] - 字节跳动凭借聊天机器人"豆包"在消费级市场和日均token消耗量上占据最大份额,侧重于探索面向消费者的AI应用 [2][3][8] - 阿里巴巴正式推出夸克AI聊天机器人助手服务,利用闭源通义千问模型与字节跳动"豆包"和腾讯"元宝"竞争 [8] - 字节跳动加速"豆包"商业化,在聊天中无缝接入抖音电商服务,并加入AI键盘等新功能 [8] 多模态进展与商业化 - 中国多模态大模型凭借开源、低价和高速度策略形成差异化优势,例如腾讯"混元图像3.0"在文生图模型排行榜名列前茅 [10] - 阿里巴巴Qwen3 Max模型输出价格比GPT-5/Gemini 2.5 Pro便宜40% [10] - 中国开源AI模型获全球市场认可,例如爱彼迎大量使用阿里巴巴Qwen模型支持其客服代理 [10] - 中国To-C聊天机器人商业化路径仍在演进,最终可能更多地由广告收入驱动 [10] 行业估值水平 - 腾讯和阿里巴巴2026年预期市盈率分别为21倍和23倍,相较于谷歌的24倍以及亚马逊和微软的28-30倍,仍处于"不苛刻"水平 [4][10] - 高盛认为市场尚未进入AI泡沫,腾讯和阿里巴巴估值相较于其盈利增长前景及全球同行仍有折价空间 [4][10]
有的同学还没入门具身,有的已经CCF-A!?
具身智能之心· 2025-10-24 10:00
公司服务概述 - 公司提供具身智能领域的论文辅导服务,覆盖多模态大模型、视觉语言导航、机器人仿真等前沿研究方向[1] - 服务采用1对1定制化辅导模式,辅导范围涵盖从CCF-A到CCF-C级别的会议以及SCI一区到四区的期刊[1] - 公司导师团队由来自国内外名校的博士及头部企业研究员组成,拥有ICML、NeurIPS、CVPR等顶级会议的投稿和审稿经验[1] 公司服务流程与优势 - 公司提供全流程闭环辅导,包括选题创新点挖掘、实验设计、代码调试、论文写作和投稿策略等环节[1] - 公司服务兼具工业界和学术界双视角,不仅关注论文发表,更注重研究成果的落地价值[2] - 公司为前10名咨询者提供免费匹配专属导师的机会,可进行深度会议并获得个性化的会议期刊选投建议[3]
高盛大幅上调阿里资本开支预期至4600亿元:推理需求爆炸性增长,AI效率提高驱动更强收入
华尔街见闻· 2025-10-24 09:25
行业资本开支趋势 - 高盛上调对中国头部云厂商的资本开支预测,预计阿里巴巴2026至2028财年合计资本开支将达到4600亿元人民币,远高于其此前3800亿元的目标 [1] - 高盛预测中国云服务提供商在2025年第三季度的资本开支将同比增长50% [2] - AI推理需求的指数级增长是驱动资本开支上行的核心逻辑,阿里巴巴的AI推理需求每2-3个月翻一番,字节跳动日均token消耗量在9月份突破30万亿,相比4-5月实现翻番 [2] 公司战略路径分化 - 阿里巴巴凭借全栈能力聚焦企业级AI云市场,在外部AI云收入规模和企业级服务方面处于领先地位 [1][3] - 字节跳动侧重于消费级AI应用,其聊天机器人“豆包”在To-C市场和日均token消耗量上占据最大份额 [1][3] - 阿里巴巴推出夸克AI助手服务与字节跳动“豆包”和腾讯“元宝”竞争,字节跳动则加速“豆包”商业化,无缝接入抖音电商服务 [3] 技术效率与商业化进展 - 中国公司在AI计算效率方面取得突破,阿里云GPU池化系统Aegaeon可节省82%的GPU资源,DeepSeek的OCR模型能将文本输入token消耗减少90% [2] - 中国多模态大模型在全球市场取得进展,腾讯“混元图像3.0”在文生图排行榜名列前茅,阿里巴巴Qwen3 Max模型输出价格比GPT-5/Gemini 2.5 Pro便宜40% [4] - 中国To-C聊天机器人商业化路径加速演进,字节跳动“豆包”整合电商功能,阿里巴巴夸克推出图像视频创作平台“造点” [3][5] 全球应用与估值水平 - 中国开源AI模型获得全球市场认可,爱彼迎大量使用阿里巴巴Qwen模型支持其客服代理 [5] - 高盛认为中国主要科技股估值具吸引力,市场尚未进入AI泡沫,腾讯和阿里巴巴2026年预期市盈率分别为21倍和23倍,低于谷歌的24倍及亚马逊和微软的28-30倍 [1][5]
HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴
机器之心· 2025-10-22 06:32
文章核心观点 - 蚂蚁集团与西安交通大学联合提出并开源了HumanSense项目,旨在解决多模态大模型在以人为中心的交互场景中“AI感”过强的问题 [2][3] - 该项目包含一个全模态评估基准HumanSense Benchmark和一个全模态推理模型HumanSense OmniReasoning,通过模拟人类从感知到反馈的思维演进过程,系统评估和提升AI的交互能力 [3][4] - 研究证明,融合视觉、听觉和文本信息的全模态模型在高阶交互任务上具有明显优势,音频是情感理解的关键,而融合全模态感知的思考能力是提升交互表现的有效方法 [4][9][18] 评估基准设计 - HumanSense Benchmark构建了4层认知阶梯,包含15项难度递增的评估任务,共计3882个源于真实数据的问答对 [4] - 评估任务覆盖从基础感知(L1)、复杂感知(L2)、上下文理解(L3)到反馈策略(L4)的全链条能力,系统地衡量大模型从“看见听见”到“理解思考”再到“恰当回应”的综合能力 [4][12] - 交互数据覆盖了面对面交流、文字聊天以及电话访谈等多模态场景,细粒度地拆解了人类交互过程 [4][12] 模型性能评估 - 人类受试者在HumanSense子集上取得了87.5%的平均准确率,而表现最好的模型Qwen2.5-Omni-7B为57.8%,即使顶尖模型如GPT-4o与人类表现仍有近30%的差距 [9][13] - 全模态模型得益于增加音频输入,在L3、L4两类高阶任务中的表现明显优于纯视觉模型,在谎言检测等任务上甚至超越了人类水平 [9][10] - 全模态消融实验证明,在社会关系、对话和谐度等任务上,增加音频输入能带来远超纯视觉的表现,语音是交互中不可或缺的信息维度 [4][14] 优化策略与推理能力 - 公司提出多阶段模态递进的强化训练方式,通过视觉先行、语音增强、边听边看综合判断三个阶段,让模型有效激发深度思考能力 [19][20][21] - 完整三阶段强化训练后,大多数任务都获得了最佳表现,例如心理咨询任务从0.399提升至0.619 [19][20] - 通过构建“感知关键特征和情绪-理解上下文-思考与回应”的提示词模板,即使免训练也能有效提升评估指标,证明了推理拓展在交互场景的有效性 [21] 下游应用与行业影响 - 全模态推理模型可输出包含主题、情感策略、表情与肢体动作等相互关联的结构化内容,为下游数字形象生成提供精细控制 [23][25] - 配套开源项目如Ditto-talkinghead支持基于单张图像的可控说话人生成,是首个支持实时视频生成的开源实现;VersaAnimator可实现语音驱动和肢体动作控制 [25][27][29] - 这些工作有潜力推动大模型交互应用从单一任务工具进化为有情感有表现的生活同伴,为用户提供情感支撑和生活支持 [25]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-22 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互、联合预测等技术 [3] - 其他关键方向包括SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理 [3] 合伙人资质要求 - 候选人需来自QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级会议论文成果的候选人将获得优先考虑 [4] 合伙人待遇与支持 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
合合信息推出多模态文本智能技术落地方案,助力AI实现智能推理
21世纪经济报道· 2025-10-21 08:29
行业发展趋势 - 多模态大模型正成为人工智能发展的重要方向,其利用文本、图像、音频、视频等多种信息形式进行表达、理解和交流 [1][4] - 根据2025年Gartner人工智能技术成熟度曲线,多模态AI将在未来五年内成为各行业提升所有应用和软件产品功能的核心技术 [4] - 行业对AI系统的需求正从“功能实现”向“业务赋能”深化,旨在推动AI系统从辅助工具进化为具备自主决策能力的业务伙伴 [15] 技术突破与创新 - 合合信息推出“多模态文本智能技术”方案,通过文本相关空间位置理解深层语义逻辑,实现对多模态信息的“立体化综合化理解” [3] - 哈尔滨工业大学车万翔教授分享“多模态思维链”技术,将推理逻辑分解为一系列可解释的跨模态推理步骤,以生成更精准可靠的结论 [4] - 南开大学周宇教授介绍系统化的OCR幻觉缓解方案,为提升多模态大模型的可视文本感知能力提供有效路径 [4][8] - 技术方案将文本智能认知程度从语义理解拓展到类人推理及自主机器决策,形成从感知到认知再到决策的技术实现路径 [15] 应用场景与案例 - 小红书hi lab团队分享基于单视觉语言模型的多语言文档布局解析工具“dotsocr” [9] - 华中科技大学刘禹良教授介绍首个覆盖甲骨文专家破译全流程的辅助考释框架AlphaOracle,在“劳”等字的辅助破译上取得突破 [11][12] - 合合信息文本智能技术帮助用户解决复杂场景下的文档图像问题,方案已在金融、医药、教育等专业领域开展应用 [8][15] - 技术方案处理对象从传统文档延伸至多种承载文本信息的媒介,如论文、财报、视频、自然场景,实现对业务流程的智能重构 [14][15]
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward
机器之心· 2025-10-21 03:43
研究背景与问题定义 - 多模态大模型在高分辨率、结构密集的视觉信息(如地铁图)理解上面临挑战,容易出现看错线路、漏站、重复路线等推理幻觉 [3] - 传统强化学习方法在路径规划任务中面临奖励极度稀疏的困境,导致训练不稳定且效率低下 [3] RewardMap框架核心设计 - 框架包含两大核心组件:难度感知的细粒度奖励和多阶段强化学习 [10] - 采用课程式训练策略,先从易于获得稠密信号的问题类型开始,逐步迁移到复杂的路径规划任务 [10] - 奖励函数由格式合规、最终正确性和细节项三部分组成,其中细节项权重系数为α=0.5 [11] - 细节项奖励对起点/终点正确性、线路名称匹配、换乘站点合理性、路线分段数等要素分别评分,形成连续型信号而非全或无的评判 [11] 数据集构建 - 构建ReasonMap-Plus数据集,覆盖30座城市,包含4018个问题样本 [6] - 数据集明确区分五类细粒度题型(两类Local Counting、Global Counting、两类True/False),并为强化学习阶段提供细密监督 [6] - 数据集包含易/中/难三级难度标签,在训练/测试划分上保持城市与难度分布的多样性与均衡性 [6] 性能评估结果 - RewardMap在六项外部评测基准上均取得一致提升,在SpatialEval上的增幅最高达到+13.51% [13] - 在Qwen2.5-VL-7B-Instruct模型上,RewardMap相比基线RL在平均性能上提升+3.47% [14] - 质化对比显示,经过RewardMap训练的模型显著减少了视觉混淆和幻觉现象,在路线分段上更能匹配真实地图结构 [15] 应用价值与未来展望 - 该框架为高分辨率、强结构的视觉任务提供了一套可复用的强化学习范式 [17] - 基于地图数据的后训练被验证能提升多模态大模型的通用能力,未来这类真实数据将在模型不同训练阶段发挥更大作用 [18]