多模态大模型

搜索文档
这几个方向,从自驾转大模型会比较丝滑......
自动驾驶之心· 2025-08-06 11:25
大模型技术方向 - 大模型技术分为四大模块:大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化 [1] - 多模态大模型方向包括视觉语言模型、预训练数据集、PEFT、微调及部署推理优化 [2] 大模型RAG - RAG核心组件包括检索器、增强器和生成器 如何利用知识库提升性能是重点 [1] - RAG子领域快速发展:Graph RAG、视觉理解应用、Knowledge-Oriented RAG、多模态RAG、Reasoning Agentic RAG [1] - 业内已建立多种评测方法和数据集用于RAG性能评估 [1] AI Agent - AI Agent是当前最热门方向 涵盖单智能体、多智能体、智能体强化学习 [1] - 研究方向包括Agent通信效率优化、自进化Agent、RAG与Agent结合 [1] 技术社区 - 大模型之心Tech社区致力于构建国内最大大模型技术社区 持续输出产业学术信息 [3] - 社区通过知识星球平台培养人才 快速搭建技术模块 [3]
具身智能之心招募科研辅导老师了!学术圈的大佬看过来~
具身智能之心· 2025-08-06 08:30
招募科研辅导老师 - 具身智能方向招募科研辅导老师 旨在带动学术界发展 [1] - 研究方向包括VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等 [2] - 要求博士及以上学历 包含在读 需有2篇A会或一区以上期刊/会议 有辅导经验者优先 [3] - 提供行业资源共享 论文署名与现金激励 [4]
大模型究竟是个啥?都有哪些技术领域,面向小白的深度好文!
自动驾驶之心· 2025-08-05 23:32
大语言模型(LLM) - 大语言模型是基于海量文本数据训练的深度学习模型,核心能力在于理解并生成自然语言文本,参数量通常达数十亿至数千亿级别,训练数据量可达TB级[3] - 现代LLM核心特征包括大规模参数(如GPT-3有1750亿参数)、Transformer架构、预训练+后训练范式以及多任务适应性[6] - LLM核心能力包括理解和生成两方面,技术基础是Transformer神经网络架构特别是自注意力机制[6] Transformer架构 - Transformer是LLM核心技术基础,由Google于2017年提出,包含Encoder和Decoder两部分,关键创新是自注意力机制[9] - Encoder-only架构仅保留编码器部分,典型代表是BERT模型,适合文本理解任务[10] - Decoder-only架构是现代LLM主流选择,如GPT系列、Llama系列,适合文本生成任务[11] LLM核心能力 - 文本生成与创作:如GPT-4可生成技术文档,Claude 4在工程文档生成方面比GPT-4.1高42%[12] - 代码生成与辅助编程:Claude 4 Opus在SWE-bench测试中得分80.2%,Qwen2.5-Max中文代码采纳率达82%[12] - 知识问答与推理:Gemini 2.5 Pro凭借200万token上下文窗口在实时数据分析中表现优异[12] - 文本理解与转换:Llama 3.1 8B在德语医疗文本结构化任务中准确率达89.3%[13] - 多模态处理:前沿模型如Gemini 2.5 Pro支持文本、图像、视频多模态输入输出[14] 代表性LLM工作 - GPT系列:由OpenAI开发,GPT-3有1750亿参数,GPT-5预计将具备2000万token上下文窗口[15][16][20] - Llama系列:由Meta开发的开源模型,Llama 4首次采用MoE架构,包含三个版本[17][21] - Qwen系列:阿里巴巴开发的中国最具影响力开源大模型,已开源200多款模型[18][22] - DeepSeek系列:以创新架构设计和高效推理著称,DeepSeek-V3采用MoE架构[19][23] 视觉基础模型 - 视觉基础模型是通过大规模数据预训练、具备通用视觉理解或生成能力的深度学习模型[25] - 主流架构包括视觉Transformer(ViT)、CNN与Transformer混合架构如ConvNeXt和MobileViT[26][27] - 核心任务包括图像分类与识别、跨模态理解、目标检测与定位、图像分割等[27][29] 语音大模型 - 语音大模型是经过大规模语音数据预训练的大型神经网络模型,参数规模庞大,训练数据量达百亿甚至万亿级别[31] - 主流架构以Transformer为主,采用序列到序列结构,如Whisper模型[32] - 适用任务包括语音识别、语音翻译、语音到语音翻译、文本到语音合成等[36] 多模态大模型(MLLM) - 多模态大模型能同时处理和理解文本、图像、语音、视频等多种模态信息[39] - 主流架构为"预训练模态编码器+可训练模态连接器+大语言模型+模态解码器"组合模式[40] - 适用任务包括视觉问答、图文生成、跨模态检索、视觉定位与分割等[41] - 代表性工作包括LLaVA、Qwen2.5-VL、GPT-4o等[41][42] 推理大模型 - 推理大模型聚焦于通过优化提示方式、引入外部知识或改进推理流程提升大模型推理能力[43] - 主流架构以"基础模型+增强模块"为核心,不改变原模型主干结构[45] - 核心技术方向包括提示工程、上下文学习、思维链与慢思考、检索增强生成等[46] - 代表性工作包括自动提示优化(OPRO)、思维链(CoT)、DeepSeek-R1等[47][48]
Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布
机器之心· 2025-08-05 18:56
大语言模型多模态离散化技术综述 - 核心观点:Discrete Tokenization成为多模态LLM统一建模的关键技术,通过向量量化将非文本模态转化为LLM可处理的离散表示,实现跨模态理解与生成[2][8][39] - 首次系统化梳理八类向量量化方法,构建完整技术地图[7][8][14] - 按输入模态组织内容结构,覆盖单模态到多模态应用全景[6][39] 核心技术体系 - 八大类向量量化方法:VQ(经典码本)、RVQ(残差量化)、PQ(乘积量化)、AQ(加性量化)、FSQ(有限标量量化)、LFQ(无查表量化)、BSQ(球面二值量化)、GART(图锚点关系量化)[9][14][16] - 不同方法在码本构建(显式/隐式)、梯度传播、量化精度等方面存在显著差异[10][14] - FSQ/LFQ/BSQ等隐式码本方法天然避免码本坍塌问题[16] 码本坍塌挑战 - 核心问题:训练中码字收敛到极少数,导致利用率下降与多样性不足[12] - 解决方案:码本重置、线性再参数化、软量化、正则化等[15] - VQ/RVQ等显式码本方法坍塌风险较高,需额外缓解措施[16] 早期单模态应用 - 图像领域:VQ-VAE/VQGAN实现高效视觉表示[3] - 音频领域:SoundStream/Encodec构建语音离散单元[6] - 视频领域:VideoGPT/MAGVIT支持帧级量化[6] - 图结构:NodePiece等降低图数据存储开销[6] LLM驱动的单模态建模 - 图像:SPAE/LlamaGen等将视觉特征映射到LLM词表空间[23][25] - 音频:TWIST/JTFS LM实现语音离散化处理[25] - 图结构:NT-LLM/Dr.E通过量化支持图节点分类[25] - 推荐系统:LC-REC/LETTER量化用户行为特征[25] LLM驱动的多模态融合 - 双模态组合:Text+Image(SEED/LaVIT)、Text+Audio(AudioPaLM/SpeechGPT)成为主流方向[26][28][34] - 三模态及以上:AnyGPT(文本+图像+音频)、VideoPoet(文本+图像+音频+视频)展现扩展性[29][34] - 统一token机制实现跨模态语义对齐与任务协同[27][30] 未来研究方向 - 技术瓶颈:码本利用率、信息损失、梯度传播、粒度对齐等[36][40] - 突破方向:自适应量化、统一框架、生物启发码本、可解释性提升[37] - 模态扩展:向触觉、嗅觉等更复杂模态延伸[39]
快手:用大模型点燃北京AI第一城的生产力
北京商报· 2025-08-05 09:28
北京AI产业发展现状 - 北京AI企业数量超过2400家 核心产业规模接近3500亿元 占全国近四成备案上线大模型 [1] - 算力供给总规模超3.3万P 预计年底将超4.5万P 朝阳区酒仙桥数字经济算力中心提供每秒百亿亿次计算能力 [10][11] - 形成"技术突破—产业应用—创新消费"发展闭环 通过多政策协同推进各领域应用场景开放 [1][12] 快手可灵AI业务表现 - 全球用户规模突破2200万 累计生成1.68亿个视频和3.44亿张图片 服务超过1万家企业客户 [5][15] - 2025年一季度营收超过1.5亿元 4月和5月月度付费金额均超1亿元 ARR超1亿美元 [9][15] - 产品迭代升级30余次 发布多图参考和灵动画布等功能 拥有AI图片 视频和音频多模态能力 [3][15] AI技术应用成效 - 视频大模型使影视制作周期从3-6个月缩短至2个月 制作团队从100多人减少至零真人拍摄 [3] - AI大模型降低短视频营销素材制作成本60%-70% 广告短片可节省约90%成本 [4][15] - AI医院2天完成三甲医院2-3年诊断量 诊断准确率超过96% [6] 商业化应用案例 - AI试衣功能实现任意衣服 任意身材 任意动作的虚拟试穿 保留衣物图案文字细节 [7][8] - AIGC短视频营销素材日均广告消耗达3000万元 虚拟数字人直播解决方案日均消耗突破3000万 [8] - "灵蛇奇遇"主题活动总曝光量4亿 AI概念视频播放量超1000万 三大品牌单日GMV破历史峰值 [9] 技术创新与研发 - 智源研究院推出"悟界"系列大模型 RoboOS 2.0将代码量降至传统方式的1/10 [11] - 可灵AI团队两年发表超80篇国际顶刊论文 获得超过3万次引用 [15] - 采用双轨技术路线:精耕现有成熟技术路线与前瞻探索未来技术路线 [16] 产业生态建设 - 算力中心吸引AIGC视听产业创新中心落地 推出虚拟制片工具包 [10] - 与中日友好医院共建医疗可信数据空间 开发樱智医疗大模型 [10] - 头部企业聚焦底层技术突破 中小企业开发细分场景应用 消费端完成价值验证 [12]
重金研发“拥抱”AI时代,安防龙头海康威视市值迈向3000亿元
每日经济新闻· 2025-08-03 07:41
业绩表现 - 公司上半年实现营业收入418.18亿元,同比增长1.48%;归母净利润56.57亿元,同比增长11.71%,净利润增速显著高于营收增速 [1][2] - 经营现金流净额从去年同期的-1.9亿元大幅改善至53.4亿元,增长幅度高达2917.5% [3] - 管理费用同比下降5.33%,费用管控初见成效 [5] 业务结构 - 传统安防业务仍是基本盘,但创新业务实现收入117.66亿元,同比增长13.92%,占营收比重28.14% [3] - 海康机器人、萤石网络、海康汽车电子、海康微影等创新业务已在各自领域取得领先地位 [3] - 国内传统安防业务营收占比跌破50% [4] 研发投入与技术成果 - 上半年研发投入56.7亿元,研发费用占营收13.56% [3] - 从2020年至今累计研发费用超过500亿元,研发费用率从11%提高至12.8% [6] - 发布"观澜"大模型,构建物联感知大模型、语言大模型和多模态大模型能力 [6] - 推出数百款大模型产品,应用于工业制造、电力行业、城市治理和交通管理等领域 [7] 海外市场挑战 - 欧美等核心市场损失难以完全弥补,部分国家对中国监控设备出台移除政策 [5] - 加拿大市场收入占比不足0.3%,加拿大政府要求停止运营对业绩直接影响有限 [5] - 通过拓展发展中国家市场使海外业务收入保持一定增长 [5] 战略转型与市场表现 - 从"安防设备龙头"向"AIoT解决方案服务商"战略升级进入收获期 [2] - 市值正重新迈向3000亿元大关 [1][8] - 积极把握AI大模型技术突破带来的发展机遇,驱动业务势能持续释放 [6]
智元机器人罗剑岚老师专访!具身智能的数采、仿真、场景与工程化~
自动驾驶之心· 2025-08-01 16:03
具身智能数据讨论 - 公司与多家传感器供应商合作,重点研发视觉触觉与高密度传感器,并构建跨平台数据采集API以实现标准化数据输入[2] - 机器人应用需达到95%成功率才能满足家庭场景需求,当前性能优化是主要门槛[2] - 仿真数据用于模型迭代但大模型训练100%使用真机真实数据,仿真流水线在扩展性上存在瓶颈[2][3] - 合成数据仅用于工程迭代与模型调试,发布与部署阶段完全依赖真实场景数据[3][4] - 真实数据成本核心在于缺乏标准化机制,公司尝试通过远程摇操、自动部署机器人等方式建立自动化数据采集闭环[6] - 机器人数据瓶颈与自动驾驶不同,需解决数据稀缺、性能优化及工程伦理等多方面挑战[7] 具身大模型评估 - 行业缺乏通用benchmark,公司计划搭建统一真机测试场供不同模型评估[8][9] - 评估维度包括具身技术路线与性能表现,当前从Demo炫技转向产业闭环但仍面临工程复杂性等挑战[9] - 公司世界模型基于统一平台,能生成视频、评测模型并训练策略,处理复杂场景能力较强[10] - VLA路线需结合大模型与优化策略,机器人执行要求远高于ChatGPT的50%-60%准确率[11] - 中美差异:美国重算法创新与开源生态,中国在工程集成与规模部署上更具优势[12] 遥操作vs自主决策 - 自主决策需机器人理解世界、生成策略并执行任务,关键技术门槛在于多模态信息融合与高成功率[13][14] - 当前"失控"问题源于软件设计不完善而非机器人意识,公司通过模拟测试与安全机制确保安全[14] - 数据积累路径从垂直场景逐步过渡到通用场景,无法直接实现通用能力[15] 具身智能应用场景与落地 - 场景部署流程分为任务建模、场景迁移、场景适配与安全验证四步,强调软硬件协同与人机安全[17][18] - 工业结构化环境更易落地,需满足近乎100%的性能要求,家庭场景因复杂性长期市场更大[20][21] - 工业场景中VLA需结合大模型与优化策略,相比传统方案具备更强泛化能力与更低调试成本[23] - 人形机器人技术路线未收敛,公司同时依赖外部厂商与自研技术探索模块化标准[23] - 家庭环境异质性带来工程挑战,需通过垂直场景数据积累逐步演化通用能力[23] - 执行速度慢源于模仿学习局限,需引入专门优化训练而非仅模仿原始操作[24] 具身未来展望 - 追求DeepSeek moment即高成功率+泛化能力+速度的统一提升,而非ChatGPT式低成功率泛化[26] - 数据驱动成为科学范式,通过大规模数据与统计验证建立结论[27] - 未来架构可能超越Transformer,类脑架构更贴近生物大脑处理模型[28] - 传感器选择关键在"对的传感器"而非数量,方法论与算法架构更重要[28] 具身软硬件协同 - 公司构建平台化操作系统(类似"机器人Android")为硬件与传感器提供统一接口[30] - 行业需开放合作共建生态,单靠操作系统无法推动性能级模型创新[31][32]
从Figma到中国垂类应用全球崛起
格隆汇APP· 2025-08-01 05:27
美股科技股年内最大IPO之一:Figma - Figma成立于2012年,以22亿美元的前端设计软件市场为起点,目标扩展至330亿美元的全流程产品开发生态 [2] - 核心产品Figma平台凭借轻量化、社区繁殖和协同办公三大优势在全球设计工具市场占据重要地位 [2] - 借助AI编程能力,Figma切入程序员协同办公场景,未来有望向"无人开发"方向拓展 [4] 全球AI应用发展的奇点将至 - 多模态大型语言模型(MLLM)的诞生解决了单模态局限,成为场景扩张的关键 [5][6] - 多模态应用的变现能力显著优于纯文本产品,如Midjourney年收入5亿美元,Runway付费用户超百万,付费转化率比纯文本Chatbot高2-3倍 [7] 中国视频生成:全球化商业化的突围样本 - 国内厂商在视频生成领域实现全球化突破,美图、快手、睿琪软件年化收入超1亿美元 [8] - 美图AI设计工具在东南亚电商渗透率达25%,快手可灵视频生成工具上线10个月ARR破1亿美元 [8] - 多模态能力在短视频、电商、内容创作等高频场景中成为打开付费意愿的关键 [8] 投资逻辑:中美共振下的价值重构 - 海外用户AI付费意愿显著高于国内,如可灵海外订阅转化率8.7%,是国内的3倍,美图海外ARPU较国内高40% [9] - Figma通过覆盖全流程构建生态优势,国内企业需在垂直领域建立"AI+行业know-how"双重壁垒,如美图AI功能将商拍成本降低60% [10] - 中国政府发布《数字中国建设2025年行动方案》,支持AI应用发展,同时整治技术滥用 [10] 结语:从工具革命到产业重构 - Figma的崛起与多模态大模型的爆发代表生产力工具的范式迁移,需要底层架构创新与垂直场景深度解构 [12] - 中美AI商业化共振下,能将技术优势转化为全球市场份额的公司将创造新的商业传奇 [12]
邝子平对话印奇:商业模式闭环才能持续推动技术进步,AI时代硬件机会巨大
IPO早知道· 2025-08-01 04:12
论坛背景 - 启明创投连续第三年主办世界人工智能大会分论坛,聚焦AI技术与应用共振周期[2] - 论坛邀请重磅嘉宾分享创新、创业和创投主题,旨在为AI产业提供有价值信息[2] - 启明创投是中国AI领域最早布局的投资机构之一,与旷视科技有12-13年投资渊源[3] AI终端发展趋势 - 未来3年将是AI+终端关键发展期,汽车和手机成为最核心的终端载体[6] - 中国智能驾驶进入第十年,未来3年将迎来自动驾驶格局的本质性变化[6] - 手机与AI结合存在巨大探索空间,可能出现杀手级应用或软硬结合创新[7] - 新的人机交互场景如智能座舱可能在未来5年超越智驾成为讨论焦点[7] AI模型技术演进 - 模型是驱动AI产业演进的最重要底层力量[10] - 学习范式演进分为三个阶段:模仿学习→强化学习→自主学习,18-24个月完成一次迭代[12] - 信息处理形态沿语言→多模态→世界模型纵向发展[13] - 强化学习将成为未来6-9个月的技术重点,多模态模型将实现理解生成一体化[14] - 中美模型技术差距约6个月,但算力投入差距正在扩大[15] 商业模式思考 - 商业闭环是AI企业可持续发展的关键要素,不能闭环的商业模式无法推动技术进步[18] - 基础大模型公司需验证商业模式能否支撑每年20-30亿人民币的算力投入[19] - C端产品可通过快速验证假设建立商业飞轮,而基础模型需要更大投入和更长回报周期[18] 硬件领域机会 - 硬件领域存在巨大机会,特别是汽车和手机终端[20] - AI终端未来将实现服务、操作系统与硬件的一体化,硬件形态将服务化[22] - 华为和小米生态展示"人车家"布局,手机仍是核心但穿戴设备等子品类有发展空间[25] - 智能家居可能成为具身AI的核心场景,但需要5年以上发展周期[25] - 年出货量100-500万台的垂直硬件领域存在优质创业机会[26]
三天,我看清楚了未来AI将如何介入我们的生活
36氪· 2025-07-31 23:23
大会概况 - 2025年世界人工智能大会(WAIC)在上海举办 为期3天 吸引70多个国家和地区1500多位专家及800多家企业参与 展览面积首次突破7万平方米 参观人数预计达35万[1] - 海外厂商参与度较低 除谷歌和特斯拉外缺乏国际巨头 同时由于与世界机器人大赛(WRC)时间冲突 部分厂商选择保留重磅新品[1] 生成式AI应用拓展 - 生成式AI渗透至工业 医疗 交通等硬核领域 从文本 图像生成向多模态任务执行演进[3][4] - 阶跃星辰发布3210亿参数MoE架构模型Step 3 激活参数38亿 实现多模态推理并在国产芯片上提升解码效率[4] - MiniMax推出全栈智能体MiniMax Agent 可分解任务并调用API 演示中单句指令生成数据看板或搭建电商网站 一个月内迭代12次[4] - 合合信息展示AI鉴伪技术 毫秒级识别深度伪造 适用于金融票据篡改等高危场景[5] - 百度推出GenFlow 2.0多智能体调度系统及秒哒平台 3分钟生成可运行应用 数字人Nova升级版提升直播场景拟真度[5] - 声网发布对话式AI引擎 新增声纹识别与视觉理解能力 互动宠物"芙崽"实现嘈杂环境语音响应及拟人化反馈[7] - 阿里云发布云端AI Agents平台无影AgentBay 支持多系统无缝切换 三行代码接入 同时展示从芯片到平台的全栈能力[8] 算力基础设施升级 - 国产GPU厂商集中展示芯片架构与智算方案 竞争焦点从单卡性能转向全链路效率与成本优化[9][14] - 华为昇腾AI云服务采用CloudMatrix 384超节点 整合384颗NPU与192颗CPU 算力达300 PFlops 突破跨机通信瓶颈[9][11] - 沐曦科技发布曦云C600 GPU 支持多精度混合算力 内置安全模块瞄准金融政务场景[11] - 摩尔线程推出全功能GPU产品线 覆盖云端训练卡MTT S4000(48GB显存/768GB/s带宽) 云渲染卡及消费级显卡[12] - 燧原科技展示燧原S60推理卡商业化应用 覆盖聊天机器人 广告投放等场景 并公布多地智算中心部署案例[14] 具身智能突破 - 机器人运动控制与交互能力显著提升 从基础行走扩展到复杂任务执行与情绪表达[3][15][21] - 千寻智能人形机器人Moz1搭载Spirit v1 VLA模型 完成太空步 S型压弯等高难度动作 并演示饮料递送 衣物折叠等泛化任务[15] - 傅利叶智能交互陪伴机器人GR-3结合康养场景 提供导诊 认知康复等多维服务 外骨骼设备实现远程康复协同[16] - 智元机器人灵犀X2-N实现双足与轮式模式切换 在开幕式中完成灯光表演[18] - 优艾智合工业模型MAIC实现多机器人协同调度 完成搬运 拣选等流水线作业[18] - 宇树科技人形机器人G1(29关节/35公斤)展示格斗动作及击倒快速起身 工业四足机器人B2负重120公斤 消费级Go2售价低于1万元[18][20] - 云深处科技四足机器人绝影X30在电力巡检场景实现1000小时无故障运行 支持自主充电及AR手势操控[20] 自动驾驶商业化推进 - Robotaxi开展城市道路体验活动 覆盖浦东30公里路网 延伸至机场与迪士尼区间 实现L4级跨区域接驳[22][24] - 小马智行Robotaxi覆盖北上广深 集成大模型优化乘客交互 支持语音添加临时需求如顺路购咖啡[24] - 斑马智行基于高通8295平台推出端侧智能座舱 支持离线90%功能闭环 并根据驾驶员情绪推荐内容[24] - 蘑菇车联推出城市级交通模型MogoMind 聚合多源数据实现智能调度与拥堵预测[25] - 上海发布自动驾驶行动方案 目标2027年L4载客600万人次 载货80万TEU 开放道路超5000公里[27]