多模态大模型
搜索文档
上海复兴岛“全球创客岛”启动暨2025上海量子城市年度大会举行
中国经济网· 2025-12-19 05:46
12月18日,上海复兴岛——全球创客岛启动暨2025上海量子城市年度大会在上海市杨浦区复兴岛举办。 记者了解到,复兴岛正着眼打造"全球创客岛",其战略留白空间的存量工业建筑正陆续被临时改造为共 享实验室、概念验证中心、中试基地等全周期创新空间,旨在为全球创客提供低成本、开放式、多元化 的创新创业环境。 据了解,复兴岛曾是上海重要的工业基地和仓储区,见证了中国近代民族工业的崛起与繁荣,是承载了 百年复兴记忆的"时光胶囊"。岛上保留着旧仓库、厂房和码头设施等大量工业遗存,同时拥有独特的生 态资源,全岛绿化覆盖率超过60%。 随着上海黄浦江沿岸开发向两端不断延伸,以复兴岛为中心的滨江中北段,成为重要的战略发展空间。 去年12月,复兴岛成为量子城市时空创新先行实验区,开启"留白之地"到"创新高地"的转型。 据介绍,杨浦区将为复兴岛创新创业集聚区构建全链条的政策支持体系。创业环境方面,为创新主体提 供阶段性房租减免,发放新质秀带创新券,降低企业智能算力成本,支持创新企业在初期阶段快速成 长。孵化品牌方面,有序推动复兴岛未来产业载体改造建设,对引进的国内外知名孵化机构加大运营补 贴力度,加强对孵化机构的引育奖励。 在上海 ...
赛道分化加剧,2026年人工智能最强风口来袭
36氪· 2025-12-03 08:57
文章核心观点 - 2026年将成为人工智能发展的关键分水岭,AI将从“AI+”的修补模式,演进为AI原生重构系统底层逻辑、物理AI打通虚拟与现实、多模态技术融合以及世界模型实现规律预判的深度变革阶段 [1] AI原生引发系统应用底层革命 - AI原生意味着以AI为系统设计的底层逻辑与能力中枢,驱动从技术架构、业务流程、组织角色到价值创造方式的全方位重塑,是AI未来发展的关键方向 [3] - AI原生架构与传统“AI+”架构存在根本差异:设计起点从现有业务流程转向AI能力边界;数据流向从业务系统抽取数据给AI模型,转变为数据实时流入AI中枢驱动业务;系统角色从“辅助工具”转变为“决策引擎”;迭代速度从月级提升至天级 [4] - 真正的AI原生系统具备三个显著特征:以自然语言交互为基础,实现GUI与LUI混合;具备自主学习和适应能力,能根据上下文和环境变化调整输出;具备基于大语言模型和知识库自主完成任务的能力,实现端到端闭环 [4][5] - AI原生开发平台趋势明确,低代码/无代码工具催生大量“一人公司”模式,巨头正将AI智能体深度嵌入办公套件实现端到端闭环 [8] - AI原生应用大规模普及的前提是具备完善的工具和框架体系,如部署管理大模型的Hub平台、自动化微调工具、知识图谱管理工具等,产品化工具的积累是其快速普及的关键 [8] - 在办公场景,AI原生应用可将知识工作者的重复劳动时间减少40%以上,2026年AI原生是To C端最确定的增量市场,其核心竞争力在于对用户习惯的重构 [8] - AI原生应用的技术架构、工具产品及方法论将在1~2年内演进并达到可大规模复用的成熟度,之后全面爆发,短期内“AI原生应用”与“传统应用+AI”将共存 [9] 物理AI向现实世界全面渗透 - 2026年的AI将以物理实体形态渗透到城市、工厂、医院、家庭等场景,实现从“感知”到“行动”的跨越,即物理AI [10] - AI发展经历三阶段:感知AI(理解图像、文字、声音)、生成式AI(创造文本、图像、声音),现在正进入物理AI时代,AI能够进行推理、计划和行动 [10][11] - 物理AI的技术基础建立在三个关键组件之上:世界模型(构建对三维空间及物理定律的理解)、物理仿真引擎(实时计算复杂物理交互)、具身智能控制器(生成具体控制指令) [11][12] - 物理AI成为主流趋势的原因:一是机器人、无人系统等智能设备的物理交互需求驱动,要求AI具备在真实环境中稳定、泛化的感知、理解与执行能力;二是AI技术演进加速赋能物理实体 [14] - IDC预测,到2026年,AI模型、视觉系统及边缘计算的进步将使机器人可实现的应用场景数量增加3倍,并在制造、物流、医疗、服务等多个领域广泛部署 [14] 多模态将成为AI基础能力 - 2025年,多模态大模型以强大的跨模态理解和推理能力,成为推动产业智能化升级和社会数字化转型的中坚力量 [15] - 多模态大模型能同时处理文本、图像、音频、视频、3D模型等多种数据类型,实现信息的深度融合与推理 [15] - 其能力体系围绕“跨模态理解”与“跨模态生成”两大核心构建:理解方面包括语义匹配、文档智能解析、多模态内容深层解读;生成方面可实现文本、图像、音频、视频等不同模态内容的相互生成 [15][16] - 多模态大模型还展现出多模态思维链和上下文学习等高级认知能力,为构建更接近人类认知方式的AI系统奠定了基础 [16] - 原生多模态技术路线成为重要进化方向,即在训练之初就将多种模态数据嵌入同一个共享的向量表示空间,实现不同模态间的自然对齐与无缝切换,无需文本中转 [16] - 2026年,多模态大模型将以前所未有的速度重塑各行各业,已在文物保护、安防、智能驾驶、内容创作、工业质检、政务服务等领域展现出巨大价值,正从实验探索迈向实际应用 [17] - 技术案例如Sora 2在视频与音频生成上实现物理逼真、镜头控制、音效同步等突破;Nano Banana Pro在图像生成与编辑方面支持多图融合、4K输出等 [17] 世界模型引爆AI新一轮增长 - 世界模型让AI从“数据驱动”转向“规律驱动”,通过构建虚拟世界模型模拟物理规则实现前瞻性决策,是2026年最具颠覆性和挑战性的领域 [19][21] - 世界模型的价值在于“泛化能力”,能够将已知场景的认知迁移到未知场景,例如让自动驾驶系统在未见过道路上基于物理规律理解安全行驶 [22] - 世界模型是一种能够对现实世界环境进行仿真,并基于多模态输入数据生成视频、预测未来状态的生成式AI模型,是AI系统对现实世界的“内在理解”和“心理模拟” [22] - 与大语言模型相比,世界模型的主要数据是感知数据、模拟数据和遥测数据;架构是编码器加潜在动态的混合架构;目标是预测环境状态以支持决策;训练范式是自监督或强化学习;应用集中于机器人、控制、模拟等领域;认知基础是物理性和因果性 [24] - 世界模型具有三大核心特点:内在表征与预测,能将高维观测数据编码为低维潜在状态并预测未来状态;物理认知与因果关系,能理解和模拟重力、摩擦力等物理规律;反事实推理能力,能进行假设性思考 [24][25] - 技术层面关键包括因果推理、场景重建时空一致性、多模数据物理规则描述等,全球主流模型有谷歌Genie3、英伟达COSMOS,国内有华为盘古、蔚来NWM等 [25] - 在自动驾驶领域,世界模型可生成高动态、高不确定性场景解决长尾问题,通过闭环反馈机制降低成本、提升效率,案例如蘑菇车联MogoMind实现实时数字孪生与深度理解服务 [25] - 在具身智能中,世界模型能提供大规模高质量合成数据解决数据缺口,并重塑开发范式,未来将构建“物理+心智”双轨建模架构 [26]
简历直推!小马智行多模态大模型实习生招聘
自动驾驶之心· 2025-11-30 02:02
公司技术发展方向 - 基于视觉-语言模型开发场景描述与自然语言指令驱动的感知能力提升方案[2] - 跟进并探索视觉-语言模型等多模态前沿技术,研究其在感知、语义理解与跨模态对齐中的应用[6] - 负责基于Camera、LiDAR及多模态融合的感知算法开发与优化,工作方向包括目标检测、语义/实例分割、目标跟踪与三维重建等[6] 行业人才需求与招聘趋势 - 招聘要求计算机或相关专业本科以上学历,熟练掌握深度学习及计算机视觉相关基本算法[6] - 优先考虑在自动驾驶行业有实习经验的候选人[3] - 优先考虑能实习6个月及以上的候选人[3] - 优先考虑熟悉PyTorch等深度学习框架、对深度学习有深入了解的候选人[6] - 优先考虑熟悉并行计算或CUDA编程、或具有图像处理方面经验的候选人[6]
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
量子位· 2025-11-28 04:11
文章核心观点 - 多模态大模型后训练中,样本难度比训练范式更为关键,仅使用强化学习策略(GRPO-only)进行优化是可行且有效的,无需监督微调(SFT)作为前置步骤 [2][3][36][37] - 研究提出了两种可量化的样本难度评估策略(PISM和CMAB),并基于此设计了分层训练框架,在多个基准测试上取得了显著性能提升 [6][7][36] 研究方法与创新 - 提出渐进式图像语义掩码(PISM)策略,通过模拟不同程度的视觉信息损失来量化样本对视觉细节的依赖程度,从而划分样本难度 [10][14][15][16][17] - 提出跨模态注意力平衡(CMAB)策略,通过分析模型生成响应时对文本和图像的注意力之比,评估跨模态交互复杂度以划分样本难度 [19][20][21][22] - 设计了两种后训练范式进行对比:GRPO-only范式(直接对中高难度样本应用强化学习)和SFT+GRPO范式(先进行监督微调再进行强化学习) [23][24][25] 实验结果与分析 - 在视觉推理任务上,GRPO-only(中等+困难样本)范式在MathVista达到68.3分,OCRBench达到77.8分,MMMU提升0.107,MMStar提升0.083,全面超越传统SFT+GRPO范式 [28][29] - 在视觉感知任务上,GRPO-only(中等+困难样本)范式在MathVista达到68.3分,MMVet达到50.367分,MMMU达到0.550分,MMStar达到0.629分,尤其在需要跨模态深度融合的任务中优势明显 [33][34] - 实验表明SFT阶段并未带来性能增益,甚至可能因引入“伪思维链”而限制模型真实推理能力,所有SFT+GRPO范式的性能均低于GRPO-only范式 [29][36] 行业影响与未来方向 - 该研究为多模态大模型性能提升提供了全新技术路径,推翻了“SFT是RL后训练必要前提”的传统认知,极大简化了训练流程 [3][37] - 未来研究方向包括动态难度调整、多策略融合以及在百亿参数级大模型上验证方法的泛化性 [38] - 研究代码已开源,为后续研究提供可复现的技术基础,有望推动多模态AI在医疗、教育、自动驾驶等领域的实际应用 [39][40]
“两翼齐飞”助推文化和科技深度融合
中国青年报· 2025-11-23 00:38
政策导向与战略机遇 - 国家层面明确将激发文化创新创造活力与繁荣发展社会主义文化作为战略任务,强调文化和科技融合催生新业态、新应用、新载体[1] - 抓住以人工智能为代表的科技革命机遇是决定我国文化能否在国际竞争中胜出的关键因素[1] - 教育部、科技部等七部门联合发布《关于加强中小学科技教育的意见》,显示政策支持已延伸至基础教育层面[1] 科技与文化融合的具体路径 - 在文化生产环节,应促进AI与科普创作深度融合,将人工智能作为创意伙伴,辅助将复杂原理转化为通俗表达并开发兼具科学性与艺术性的文化产品[5] - 在文化传播层面,需构建智能精准的科普传播网络,通过算法优化实现精准推送、借助智能翻译推动成果走向世界、利用沉浸式技术打造学习体验[7] - 在文化消费领域,要丰富优质科普资源供给,大力发展数字博物馆、云端科技馆、智慧图书馆等新型文化设施,推动科研资源科普化、数字化、可视化[7] 技术应用与产业赋能 - 人工智能技术如智能推荐、AIGC、虚拟现实、元宇宙体验正在重塑文化发展生态,为文化生产和传播开辟新天地[5] - 应充分发挥多模态大模型、智能翻译、虚拟现实等技术优势,创新中国故事的讲述方式,传播中华文化并分享科技创新成就[4] - 科学文化建设不仅关乎国民素质提升,也将为文化产业注入新的发展动能[7] 国际视野与品牌建设 - 要积极参与全球科技治理体系改革,在人工智能伦理、数字鸿沟治理等全球性议题上提出中国方案,增强国际话语权和影响力[9] - 需打造具有国际影响力的科技文化品牌,支持科技期刊、科普产品、科技影视作品"走出去",培育一批具有国际竞争力的科技文化企业[9] - 通过联合科研、学术交流、科普合作等形式,向世界展示中国科技的创新成就和科学文化的独特魅力[9]
我在珠海挺好:沃土之上,梦想花开
南方都市报· 2025-11-21 04:01
活动概况 - 活动主题为“我在珠海挺好”特区创业者风采荟,于11月20日晚在珠海大剧院举办 [1] - 活动旨在展现珠海新时代创业者的精神追求,营造创新创业浓厚氛围,彰显珠海吸引全球优秀青年人才的诚意 [1] - 活动通过《我在珠海·潮》《我在珠海·跃》《我在珠海·创》三个篇章,结合创业故事展播和文艺演出,再现创业情怀 [3] 创业者与行业代表 - 18位创业者成为舞台主角,来自人工智能、低空经济、生物医药、新能源、乡村振兴等领域 [1] - 纳金科技创始人雷震在珠海实现纳米银元器件全球独家规模化量产,成功打破国外新型透明导电材料技术垄断 [6] - 无界方舟智能技术有限公司创始人曾晓东研发的多模态大模型日处理数据超10亿Token,应用于智能机器人、眼镜、手环等硬件 [6] - 冰都食品创始人马迪亚(意大利)的企业已成长为中国意大利食品领域的重要参考企业 [6] - 低空经济领域代表朱启政运营全国首条无人驾驶载人载物融合航线 [7] - 其他代表包括推动“体育+文旅+农业”融合发展的世界冠军李咏珊、打造年出栏120万只乳鸽养殖基地的退伍军人伍浩、带领女性灵活就业的“妈妈岗”孵化者张露曦 [7] 珠海营商环境与政策支持 - 截至今年10月,珠海及横琴粤澳深度合作区的经营主体已超过46万户,个体工商户超过24万户 [4] - 《珠海市创新创业团队服务管理办法》自2021年实施以来,已立项支持80多个创新创业团队,支持资金近9亿元 [4] - 珠海的战略位置、不断改善的交通以及政府部门高效的公共管理服务被提及为企业发展的有利条件 [6]
北京门头沟打造“热带雨林式”的人才发展生态
中国青年报· 2025-11-12 12:16
企业数量与规模 - 专精特新企业达到225家 较"十三五"末增长24倍 [1] - 高新技术企业达到550家 境内外上市企业有9家 [1] - 中关村门头沟特色产业园年营业收入突破千亿元 [1] 产业经济产出效率 - 产业园地均产出率达每平方公里236亿元 [1] - 产业园劳均产出率达到334万元 [1] - 人工智能 超高清数字视听 心血管领域医疗器械三大主导产业实现从0到1的历史突破 [3] 人工智能与算力基础设施 - 建成北京最大700P算力的国产自主可控智算集群 1P约等于每秒1000万亿次计算速度 [3] - 前瞻性建设全栈自主可控人工智能算力中心 提供即申即用的普惠算力支持 [1] - 智子引擎公司将多模态大模型与摄像头 无人机 机器人等硬件设备结合形成产品与解决方案 [1] 人才政策与生态 - 系统实施灵山计划 智谷计划 百花计划 永定计划四大专项计划打造人才发展生态 [1] - 率先推出北京首个算法人才10条 两年认定了18位算法人才 平均年龄33岁 最小24岁 [4] - 创新推出三个一支持计划 涵盖安居保障 创业支持 人才评价认定等层面 [4] 创新平台与就业 - 布局国家级重点实验室 博士后科研工作站等30余个平台载体 [3] - 全区新增就业2.7万人 为各类人才提供良好发展机遇 [3] - 打造京西人才之家 升级京西人才永定卡 为人才打造高品质朋友圈 [4]
凌川科技与视觉中国达成AI视觉智算战略合作,拟共建合资公司
新京报· 2025-10-16 13:06
合作概述 - 凌川科技与视觉中国达成战略合作,合作领域包括AI视觉芯片、多模态大模型训练推理、智算解决方案 [1] - 双方建立多层次战略合作关系,结合内容与技术,拟共同建立合资公司 [1] 合作模式与内容 - 合作模式为“技术合作+市场拓展+资本绑定” [1] - 凌川科技将基于其高端智能视频芯片研发技术优势,为视觉中国提供全面的智算解决方案 [1] - 视觉中国将依托其上市公司地位和多模态大模型积累,为凌川科技高端智能视频芯片拓展市场 [1] - 在市场拓展方面,视觉中国将引入凌川科技芯片,为自身平台及客户提供算力,支撑多模态大模型、版权智能交易等业务 [1] 资本合作细节 - 视觉中国拟认购凌川科技增发的新股,投资额度不超过1亿元人民币 [1] - 视觉中国保有未来优先认购凌川科技新增股份的权利 [1] 公司背景与业务 - 凌川科技成立于2024年3月,由港股上市公司快手科技的异构计算与芯片事业部孵化而来 [2] - 凌川科技是智能视频处理芯片领域的企业,其下一代芯片已与多家大模型公司完成适配测试 [2] - 公司将重点拓展互联网、自动驾驶、智能机器人等大模型场景 [2] - 视觉中国是凌川科技引入的继快手之后的另一家重要产业方股东 [2]
230个大模型在婴幼儿认知题上集体翻车!揭秘多模态大模型的核心知识缺陷
量子位· 2025-10-10 01:03
研究核心发现 - 多模态大模型在人类婴幼儿阶段即具备的12种基础核心认知能力上普遍表现不佳,与人类表现存在显著差距,即便模型规模更大也难以弥补这一缺陷[1][4] - 研究团队构建了业界首个核心认知基准CoreCognition,包含1503道多模态题目,覆盖从连续性到机械推理等12项核心认知概念,每类题目不少于95例[2][7][9] - 在CoreCognition基准测试中,230个主流模型系统暴露出对世界常识的“核心知识盲区”[3] 基准测试方法论 - CoreCognition基准围绕发展心理学与皮亚杰分层框架构建,题目设计遵循判别性强、最小混淆、无文本捷径的高标准,所有题目必须联合利用图像与文本才能得出正确答案[9][10][11][12] - 研究团队提出了Concept Hacking(概念干预)方法,通过构造“对照组”与“干预组”来检测模型是否真正理解概念还是依赖表面模板走捷径[13] - 所有数据由12位具备相关背景的高年级本科或研究生协作完成标注与审核,并经过两轮交叉验证和人工校验[12] 模型性能关键洞察 - 模型在低层核心认知能力(如边界感、连续性、客体永恒)上显著落后于高层能力(如意向理解、工具使用),与人类各层稳定高分的模式明显不同,表明当前多模态大模型存在系统性短板[16] - 增加模型规模主要利好高层能力,对低层核心能力帮助有限甚至为负,其中视角采择能力甚至出现反向规模效应(模型越大越差)[22] - 关联性矩阵显示,模型缺乏人类由低到高的脚手架式认知发展结构,其高级感知与推理并非建立在基础的认知能力之上[18] 模型行为模式分类 - 基于Concept Hacking实验结果,模型可归纳为四类:核心知识型(接近人类水平,占比极少)、捷径依赖型、核心缺陷型、偶然型[25] - 概念干预测试揭示模型存在“假理解”陷阱,例如在直觉物理测试中,模型在原题作对但在改变关键特征的孪生版题目中直接翻车,暴露出对表面模板的依赖而非真实理解[15][24] - 引入认知指令(在题目前明确提示相关概念)可带来约6%的即刻增益,但此类做法在真实场景中可获得性与可用性受限[29][30] 行业影响与启示 - 参数堆叠并不等于理解,地基是否扎实才是关键,与其一味追求“更大、更强”,不如先补齐核心知识,让模型学会在变化中保持一致的常识判断[32][33] - 规模是加法,核心认知是乘法,真正的智能首先取决于对世界最朴素规则的把握,而非仅仅“能写会画”的表面能力[31][34] - 推理模型与其对应非推理版本相比,在多数核心能力任务上未见显著提升,表明症结在于预训练阶段对核心知识的覆盖与结构化不足,而非“会不会用推理”[27]
科大讯飞修订定增预案,拟投入24亿元募集资金扩充算力规模
中证网· 2025-09-29 14:44
募集资金用途变更 - 公司拟变更2025年度向特定对象发行A股股票募集资金用途 总额保持不变但补充流动资金金额由32亿元减至8亿元 同时新增24亿元用于算力租赁专项支出 [1] 算力租赁项目投资 - 公司将24亿元募集资金投入算力租赁项目 旨在扩充算力规模以支持大模型研发攻关和算法创新迭代 [1] - 该项目将支撑讯飞星火认知大模型底座升级 并为深度推理星火X1大模型 多模态大模型 语音大模型和多语言大模型优化提供算力保障 [1] - 算力资源扩充将提升公司多语种大模型服务能力 增强人工智能业务海外拓展技术实力 并形成新业务收入增长点 [1] 战略发展背景 - 公司在大模型技术和应用快速发展 人工智能迎来关键产业发展机遇期的背景下实施算力平台项目 [1] - 通过算力租赁模式实现基础大模型与国际最先进水平持续对标 同时为星火大模型行业应用落地提供充足算力支持 [1]