多模态大模型

搜索文档
何小鹏:大模型道路,大家都在摸着石头过河
快讯· 2025-06-12 11:31
小鹏汽车新品发布 - 小鹏在广州发布了最新SUV车型G7 [1] - 发布会超过一半时间用于介绍辅助驾驶芯片"图灵" [1] - 媒体沟通会主要围绕芯片技术展开讨论 [1] 自动驾驶技术路线 - 公司CEO表示大模型道路仍处于探索阶段 [1] - VLA方案成为国内辅助驾驶第一梯队的选择 [1] - 理想汽车已开始开发VLA方案 [1] - 特斯拉坚持"端到端"方案与多模态大模型路线不同 [1]
格灵深瞳: 国泰海通证券股份有限公司关于北京格灵深瞳信息技术股份有限公司部分募投项目变更实施地点的核查意见
证券之星· 2025-06-12 10:28
募集资金基本情况 - 公司首次公开发行人民币普通股46,245,205股,发行价为39.49元/股,募集资金总额为182,622.31万元 [1] - 扣除不含税券商承销费用和保荐费用12,783.56万元后,募集资金为169,838.75万元 [1] - 扣除其他发行费用2,829.73万元后,募集资金净额为167,009.02万元,其中超募资金67,009.02万元 [1] 募集资金投资项目情况 - 公司首次公开发行股票的募集资金使用情况包括多模态大模型技术与应用研发项目 [1] - 项目投资总额为100,006.17万元,调整前和调整后拟投入募集资金均为100,000.00万元 [1] 募投项目变更实施地点具体情况 - 公司将"多模态大模型技术与应用研发项目"的实施地点由北京市海淀区东升科技园及延庆区中关村延庆园变更为北京市海淀区东升科技园及大兴区联东U谷 [1] - 变更后的实施地点通过租赁房产方式取得,位于北京市大兴区庞各庄镇工业区核心区域,具备充足的办公场所租赁资源和产业集群 [1] - 变更原因包括原延庆场地结构限制及精细化控制项目成本考虑,以提高资源利用效率 [2] 募投项目变更实施地点的影响 - 本次变更仅涉及部分募投项目实施地点,不影响募投项目的实施内容和募集资金用途 [3] - 变更符合公司长期发展规划,不会对公司正常生产经营、业务发展及募集资金使用产生不利影响 [3] 履行的审议程序及相关意见 - 公司董事会审议通过关于部分募投项目变更实施地点的议案 [3] - 监事会认为本次变更不存在改变或变相改变募集资金投向的行为,符合相关监管规定 [3] 保荐人核查意见 - 保荐人认为公司已履行必要的审议程序,本次变更不属于募投项目的实质性变更 [4] - 变更不会对募投项目实施造成不利影响,不存在损害股东利益的情形 [4]
2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
机器之心· 2025-06-12 03:23
本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。本项目为 作者在英伟达实习期间完成的工作。 想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个 "精灵族树屋村落"—— 参天古木和树屋、发光的蘑菇路灯、半透 明的纱幔帐篷... 传统工作流程中,这可能需要数周时间:先手工建模每个 3D 资产,再逐个调整位置和材质,最后反复测试光照效果…… 总之就是一个 字,难。 核心贡献:无需训练的智能 3D 场景工厂 ArtiScene 的核心创新在于构建了一个完全 无需额外训练 的自动化流水线,将文本生成图像的前沿能力与 3D 重建技术巧妙结合。它一共包含五步: 1. 2D 图像作为 "设计蓝图" 系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图,因为它能同时呈现物体的长、宽、高信息,且不受场景位置影响。相比直 接生成 3D,这种方法能利用更成熟的 2D 生成技术确保布局合理性和视觉美感。 这种困境正是当前 3D 内容创作领域的缩影。传统 3D 设计软件如 ...
CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
机器之心· 2025-06-12 00:53
多模态大模型学习新范式 - 提出Crab统一学习框架,通过数据和模型两个角度实现多模态场景理解任务的高效统一,超越垂类专家模型 [2][3][13] - 当前主流的多任务指令微调范式忽视多模态数据异质性和任务间复杂关系,联合训练可能导致任务相互干扰 [2][13] - 新范式明确任务间互助关系,在时序定位、空间定位、像素级理解和时空推理等任务上实现通用理解能力 [3][13][26] 数据集构建与特征 - 构建AV-UIE数据集,包含200K训练样本,涵盖九种任务,其中时序定位任务占比6.8%,空间定位任务占比25.8%,像素级理解任务占比41.6%,时空理解任务占比25.8% [20] - 数据集通过细化现有标签增加显示推理过程,包含具体时空信息,明确任务间互助关系 [16][18] - 采用in-context learning方式利用多模态大模型标注,辅以人工检查纠正,保证数据质量 [18] 模型架构与技术创新 - 设计Interaction-aware LoRA结构,采用共享A矩阵和多个不同LoRA Head B矩阵,每个Head学习数据交互的不同层面 [23] - 通过Router为不同任务分配权重,解耦模型能力,增强特定能力并建立任务间协助桥梁 [23] - 模型包含三个统一多模态接口,处理audio、visual和segmentation mask数据 [21] 实验性能对比 - 在AVE任务上准确率达到80.15%,超过AVT(75.80)、PSP(77.80)和MM-Pyramid(77.80)等专有模型 [27][28] - 在ARIG任务上cloU达到41.78,AUC达到0.42,超过LVS(23.69 cloU)、EZ-VSL(26.43 cloU)和FNAC(27.15 cloU)等专有模型 [28] - 在AVQA任务上平均准确率达到78.94%,超过ST-AVQA(71.59)、COCA(72.33)和PSTP-Net(73.52)等专有模型 [27][29] 任务类型与能力展示 - 时序定位任务要求模型输入音视频并定位时序片段,如找到发生的音视频事件 [5] - 空间定位任务要求模型输入音频和图像并定位发声物体位置 [7] - 像素级理解任务要求模型输入音频和图片并分割发声物体,包含S4、MS3、AVSS和Ref-AVS等多种分割任务 [9] - 时空推理任务要求模型输入乐器演奏音视频并回答相关问题,涉及时序和空间信息理解与推理 [8]
2025年中国多模态大模型行业硬件现状 AI芯片和AI服务器的需求在多模态大模型影响下加速增长【组图】
前瞻网· 2025-06-11 05:17
AI芯片市场 - AI芯片定义宽泛,面向人工智能应用的芯片均可称为AI芯片,目前尚无严格标准[1] - AI芯片分类方式包括按技术架构、功能和应用场景三种[1] - 2024年中国AI芯片市场规模达1688亿元,同比增长40%[5] - 国内AI芯片企业竞争集中在少数企业,代表企业包括华为海思、寒武纪、地平线等[7] - 华为海思昇腾系列芯片已服务智能能源、金融、城市、制造等多个行业[8] - 寒武纪思元系列芯片面向智慧工厂、无人机、机器人、零售等领域[8] - 地平线征程系列和旭日系列芯片赋能奥迪、博世、比亚迪等汽车厂商[8] AI服务器市场 - AI服务器由DRAM、GPU、加速芯片等组成,可分为训练型和推理型[3] - 常见计算模块结构为CPU+多块GPU组合模式[3] - 多模态大模型推动AI服务器需求增长,2024年中国市场规模达115亿美元[9][10] - 预计2027年市场规模将达134亿美元,2022-2027年复合增长率22%[10] - 多模态大模型处理图片视频等数据使算力需求激增[9] - AI服务器技术创新包括先进芯片技术、算法优化和架构设计[9] - 应用场景从自动驾驶扩展到智能制造等行业[9]
海天瑞声20250610
2025-06-10 15:26
行业与公司概述 - 行业涉及AI数据服务与标注领域,核心公司包括海天瑞声(国内龙头)和Scale AI(国际领先)[2] - 海天瑞声定位为全栈数据生态服务商,覆盖数据采集、标注、治理及海外市场拓展[18][19] - Scale AI聚焦数据标注与国防领域,客户包括OpenAI、Meta、美国军方等,2025年营收预计20亿美元(2024年为8.7亿)[4][14] --- 核心观点与论据 **1 AI数据行业增长驱动因素** - **多模态需求爆发**:视觉数据收入占比从2024年显著提升至2025Q1的49%,超越语音和文本[10][12] - **AI应用普及**:成本下降推动中小机构自建AI体系,市场空间加速扩大(Scale AI六年CAGR达91%,海天2025Q1增速72%)[8][9] - **政策支持**:中国央企AI+专项行动(如中国移动订单2025年前三月达1,900万 vs 过去五年累计1,200万)[26][27] **2 公司战略与业务进展** - **海天瑞声**: - **全球化布局**:菲律宾基地(1,500人,成本为国内1/3-1/4)支撑海外收入占比48.5%,新增内容审核业务(毛利25%)[19][21][22] - **技术创新**:AI辅助标注、合成数据研发提升效率(全职250人支撑大量项目)[23] - **政企合作**:通过"3+1"模式(数据治理+标注+清洗)参与地方政府数据产业化项目,本地化部署确保合规[30][32] - **Scale AI**: - **军方订单主导**:2025年预计50%收入来自美国军方/政府,估值276亿美元(PS翻倍)[5][14] - **产品粘性**:Donovan平台提供定制化AI部署,类似Palantir模式[17] **3 竞争差异与风险** - **收入结构差异**:海天无军方业务(资质限制),Scale AI依赖政府订单[15] - **数据合规**:海天采用定向采集(非爬虫),外采数据占比24%;全球版权判例增加(如《纽约时报》案例)[35][36] - **产能瓶颈**:海天国内需求激增导致产能紧张,部分订单需排队[29] --- 其他关键细节 - **行业趋势**: - 结构化数据需求上升(医疗/法律/金融领域推动NLP业务增长)[13] - 数据供给端变化:开源数据枯竭,合规外采成主流[31] - **海天未来规划**: - 2025年为"数据积累元年",拓展全栈生态(标准化平台+数据运营)[16][18] - 投资数安易补充数据安全能力,联合职业院校建标注基地降成本[33][34] - **宏观影响**:美国AI国策化(Scale AI受益),中国数据要素三年行动政策推动央企合作[27][28] --- 数据摘要(关键数值) | 指标 | 海天瑞声 | Scale AI | |---------------------|-----------------------------------|------------------------------| | **2025收入** | 2025Q1增速72% | 预计20亿(2024年8.7亿)[4] | | **收入结构** | 视觉49%(2025Q1)[12] | 军方/政府占比50%[5] | | **海外成本** | 菲律宾基地成本为国内1/3-1/4[21] | - | | **估值/PS** | - | 276亿(PS翻倍)[4][14] | --- 注:所有结论均基于电话会议原文,未添加主观推断。
苹果AI放鸽子,AI录音机、AI玩具等“新国货”先火了
南方都市报· 2025-06-10 08:41
高品质消费品牌TOP100行业趋势 - 南方都市报联合广东连锁经营协会等成立组委会,将从企业品质力、成长性、创新性、社会责任等方面评选"2025高品质消费品牌TOP100" [2] - 调研聚焦九大热门赛道:颜值经济、运动户外、食品康养、智能消电、宠物经济、体验经济、兴趣消费、跨境出海、消费科技 [2] - AI+硬件成为涵盖功能性产品、玩具产品和家电产品等多个赛道的重要趋势 [2][3] AI硬件发展趋势 - 国内外科技巨头和初创公司已推出一批AI硬件,包括功能性硬件如AI录音机、AI眼镜,情绪性消费产品如AI玩具,以及消费刚需如AI家电等产品 [3] - AI录音机Plaud Note全球出货近70万台,年化收入1亿美金,连续2年达十倍增长 [5][7] - 雷鸟X3 Pro AR眼镜在中国AR/AI拍摄眼镜线上市场份额达50%,Rokid AI+AR眼镜全球订单超25万台 [7] 功能性AI硬件 - Plaud Note利用大模型能力将60种语言文本整理成脑图、笔记、日记等形式,提高工作效率 [5] - 智能眼镜通过AI提升交互和响应速度,带来翻译、导航等多方面应用体验 [8] - 十方融海"小智AI"3个月用户DIY接入设备增长20万台,讯飞AI耳机累计用户突破100万 [8] AI玩具市场 - 三星AI家庭伴侣机器人Balie将在美国和韩国上市,TCL发布Ai Me机器人 [12] - 汤姆猫推出定价1499元的AI情感陪伴机器人,奥飞娱乐发售299元"AI智趣喜羊羊"AI玩具 [12] - 日本初创公司Yukai Engineering推出小猫形态机器人Nekojita FuFu,能挂在杯壁上将食物吹凉 [13] - FoloToy旗下产品去年销售量两万多台,今年一季度已接近去年全年销售量 [13] - 跃然创新BubblePal销售量突破20万台,下半年将推出多个新品线 [16][18] AI家电市场 - 2024年中国高端家电市场智能化进展显著,智能厨房设备销售额增长超过30% [20] - 海尔洗衣机搭载视觉大模型能精准识别衣服种类、颜色和数量,自动选择最合适的洗护模式 [20] - 戴森V15 Detect Slim内置AI芯片,能分析不同区域脏污程度,智能规划清洁路径 [20] - 科沃斯T80扫地机实现智能识别房屋环境,精准规避障碍物,新品在天猫一周成交破千万元 [21] - 美的冰箱搭载AI动态食材识别功能,可识别超过100种食材,提供食材过期提醒和个性化饮食计划 [21] - 京东调研显示74.4%消费者认为具备AI功能的产品可被称为"新国货" [22]
AI自发形成人类级认知!我国科技学家揭示多模态大模型涌现类人物体概念表征
环球网· 2025-06-10 02:09
研究背景与核心问题 - 人类智能核心在于对自然界物体进行概念化 不仅能识别物理特征 还能理解功能 情感价值和文化意义[1] - 研究探讨大语言模型是否能从语言和多模态数据中发展出类似人类的物体概念表征系统[1] 研究方法与设计 - 研究采用创新范式 结合计算建模 行为实验与脑科学方法[2] - 使用认知心理学经典"三选一异类识别任务" 要求模型与人类从1854种日常概念的三元组中选出最不相似选项[2] - 通过分析470万次行为判断数据构建AI大模型的"概念地图"[2] 研究发现与维度提取 - 从海量大模型行为数据中提取出66个高度可解释的"心智维度" 并为这些维度赋予语义标签[2] - 这些维度与大脑类别选择区域(如FFA PPA EBA)的神经活动模式显著相关[2] 模型性能比较 - 多模态大模型(Gemini_Pro_Vision Qwen2_VL)在行为选择模式上与人类一致性表现更优[3] - 人类决策更倾向于结合视觉特征和语义信息 而大模型更依赖语义标签和抽象概念[3] 研究结论与意义 - 研究证实多模态大语言模型能够自发形成与人类高度相似的物体概念表征系统[1][3] - 表明大语言模型并非"随机鹦鹉" 其内部存在类似人类对现实世界概念的理解[3] 研究成果发表 - 相关研究成果以Human-like object concept representations emerge naturally in multimodal large language models为题发表于《自然·机器智能》期刊[3]
生数科技CEO骆怡航:从模型到生产,多模态AI如何推动视频创作更高效
硬AI· 2025-06-09 14:07
多模态大模型行业趋势 - 多模态大模型正处于规模化生产落地的关键拐点,技术迭代迅速,行业需求旺盛[1][5][6] - 视频生成技术需同时满足优质内容、百倍效率提升和成本大幅降低三大条件才能实现规模化落地[1][7][9] - 行业痛点包括传统内容生产周期长、成本高、专业软件依赖性强,多模态大模型可显著改善这些问题[7][9] 生数科技战略与产品布局 - 公司聚焦多模态生成领域,当前以视频生成为核心,未来将拓展至3D叙事空间等方向[3][9] - 目标覆盖8大行业(如互联网广告、动漫、电商等)和30大场景,已服务2000+企业客户[11][22] - 产品矩阵包括Vidu系列模型(1.5/2.0/Q1)及SaaS/MaaS平台,支持移动端和API接入[10][11] 技术突破与产品迭代 - Vidu 2.0实现5秒极速生成,Q1版本新增高清/首尾帧/动漫支持,并优化音效生成能力[3][11] - 模型能力持续升级:1.5版本提升多主体一致性,Q1版本在文生/图生领域登顶国内外榜单[10][13] - 全球覆盖200+国家和地区,拥有3000万创作者用户,日活跃用户生成数百万次创意内容[11][12] 商业化进展与案例 - 专业创作占比增长300%,企业客户增长150%,严格场景(广告/动漫/电商)应用占比达80%[4][22] - 典型案例包括:与飞鹤合作品牌广告(成本效率显著提升)、索尼电影水墨风宣传片(成本节省90%)[18][20] - 创作者案例:动漫作品《观察者悖论》观看量达300万次,效率较传统方式提升10倍[14][16] 行业应用价值 - 赋能内容生产全流程:从个人创作者(如60岁作家视频化著作)到企业级批量生产(飞书API集成)[16][18] - 在影视/广告领域实现突破:好莱坞动画工作室采用AI工作流,十天完成传统需一个月的预告片制作[20][21] - 核心价值主张:生产效率需提升百倍,生产成本需降至传统方式的1%以下以推动行业变革[7][9][22]
我国科学家研究揭示多模态大模型概念表征机制
新华社· 2025-06-09 09:32
传统人工智能研究聚焦于物体识别准确率,却鲜少探讨模型是否真正"理解"物体含义。何晖光说:"当 前人工智能可以区分猫狗图片,但这种'识别'与人类'理解'猫狗的本质区别仍有待揭示。" 研究团队从认知神经科学经典理论出发,设计了一套融合计算建模、行为实验与脑科学的创新范式,并 构建了人工智能大模型的"概念地图"。 何晖光介绍,研究团队从海量大模型行为数据中提取出66个"心智维度",并为这些维度赋予了语义标 签。通过研究发现这些维度是高度可解释的,且与大脑类别选择区域的神经活动模式显著相关。研究还 对比了多个模型在行为选择模式上与人类的一致性,结果显示多模态大模型在一致性方面表现更优。 此外,研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依 赖语义标签和抽象概念。本研究表明大语言模型内部存在着类似人类对现实世界概念的理解。(记者宋 晨) 记者6月9日从中国科学院自动化研究所获悉,该所与中国科学院脑科学与智能技术卓越创新中心的联合 团队在《自然·机器智能》发表相关研究,首次证实多模态大语言模型能够自发形成与人类高度相似的 物体概念表征系统,为人工智能认知科学提供了新路径,也为构建类人 ...