多模态模型
搜索文档
信仰与突围:2026人工智能趋势前瞻
36氪· 2025-12-22 09:32
谁也无法想到,ChatGPT迎来三周年之际,没有庆祝和纪念,反而是内部发布的一封红色警报,再次敲响了人工智能竞争白热化的战鼓。在受到Gemini 3 惊艳效果的威胁下,Open AI加速推出了GPT 5.2,用更多的资源,在多项指标上实现了反超。但三年下来,各大模型之间的性能差距和范式差异持续缩 小,业界出现不少质疑的声音,认为大模型发展正面临天花板。但也有很多人坚定看好AGI的到来,产业充满了更多的争论和分化。 站在2025的年尾,回顾来时之路,从DeepSeek的火热,到GPT4o 后吉卜力动画的流行,Sora2的与山姆奥特曼同框,再到谷歌Nano Banana生图的各种机器 猫讲解。有时似乎有恍如隔世之感,一项今年的技术,仿佛已是多年前的流行。 展望2026,我们不仅感受到对大模型智能瓶颈和投资回报不确定性的焦虑,看到更多的非共识,也看到大家的坚守和信仰,以及有望在多个方向的突围, 更多的期待和探索正在扑面而来。 信仰 1.Scalling Law驱动向AGI持续进化 自 ChatGPT 横空出世以来,业界主流都相信只要不断增加算力、扩充数据、堆叠参数,机器的智能就会像物理定律一样增长,直至触达 AGI ...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
具身智能之心· 2025-12-22 01:22
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 过去一年,具身智能领域反复被问到一个问题:它到底只是多模态模型的一个应用,还是一种全新的基础模型? 为了完整体现王潜的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 MEET2026 智能未来大会是由量子位主办的行业峰会,近 30 位产业代表与会讨论。线下参会观众近 1500 人,线上直播观众 350 万 + ,获得了主 流媒体的广泛关注与报道。 核心观点梳理 对此, 自变量机器人创始人兼CEO王潜 表示: 具身智能模型是物理世界的基础模型,独立于、平行于语言模型、多模态模型等虚拟世界的模型。 这一判断背后,首先是对物理世界与虚拟世界本质差异的重新认识。 语言模型和多模态模型所面对的,是高度可复现、低随机性的符号世界;而机器人所处的物理世界,则充满连续性、随机性、不完全可观测性 以及大量与力、接触和时序强相关的过程。 沿用以语言和视觉为中心建立起来的建模范式 ...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
量子位· 2025-12-21 05:45
编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI 具身智能模型是物理世界的基础模型,独立于、平行于语言模型、多模态模型等虚拟世界的模型。 这一判断背后,首先是对物理世界与虚拟世界本质差异的重新认识。 语言模型和多模态模型所面对的,是高度可复现、低随机性的符号世界;而机器人所处的物理世界,则充满连续性、随机性、不完全可观测性 以及大量与力、接触和时序强相关的过程。 沿用以语言和视觉为中心建立起来的建模范式,本身就存在结构性的错位。 也正因为如此,自变量机器人在实践中选择了一条更长期的路线:不把具身智能当作应用层问题,而是从模型架构、数据范式、推理方式乃至 硬件形态上,系统性地重做一套"物理世界的智能底座"。 为了完整体现王潜的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 过去一年,具身智能领域反复被问到一个问题:它到底只是多模态模型的一个应用,还是一种全新的基础模型? 对此, 自变量机器人创始人兼CEO王潜 表示: MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主 ...
中国大模型“第一股”来了,揭秘智谱与MiniMax IPO背后的“隐秘算盘”
36氪· 2025-12-18 12:19
上市进程与核心信号 - 国内大模型公司MiniMax与智谱AI已于本周初完成中国证监会备案并参与港交所上市聆讯,是内地企业赴港上市转为“报备制”后过聆讯节奏最快的一批案例之一 [1] - MiniMax早在2024年6月便以“秘交”方式向港交所递交上市申请,计划于2026年1月在港挂牌上市 [2] - 智谱AI于2025年4月在北京证监局完成IPO辅导备案,由中金公司担任辅导机构,成为国内第一家正式启动IPO流程的大模型公司,原计划在2025年内完成上市前合规流程,后评估将IPO地点从内地调整至港交所 [5][6][7] - 上市对这两家公司而言不是可选项,而是一件需要尽快完成的事,释放出行业进入新阶段的清晰信号 [3][4] 智谱AI (Zhipu AI) 深度剖析 - 公司定位为“国家队”,由清华大学计算机系教授唐杰牵头创办于2019年6月,实际控制人为唐杰与刘德兵,两人合计控制公司36.9647%的表决权 [8] - 资本实力雄厚,截至2025年7月已完成第16笔融资,累计融资额超过160亿元人民币,最新估值约400亿元人民币,刷新国内大模型创业公司估值纪录 [3][10][11] - 股东背景强大,集齐北京、杭州、成都、珠海、上海五地国资,仅2025年3月便连续引入杭州、成都、珠海三地资金,同年7月再获浦东创投与张江集团联合注资10亿元战略融资 [12][13] - 商业路径聚焦G端(政府、军工、国央企、金融)与B端,技术重心放在多模态模型与智能体(Agent) [13] - 2025年9月发布新一代旗舰模型GLM-4.6,代码能力对齐Claude Sonnet 4,并在八项主流权威基准测试中实现全面提升;2024年12月开源具备手机操作能力的AI Agent产品AutoGLM [13] - 2025年上半年经历内部调整,将此前由不同负责人管理的G端与B端业务整合,由CEO张鹏统一管理,旨在减少重复投入,提高整体人效 [14] - 财务方面,公司面向开发者的软件工具和模型业务已实现超过1亿元人民币的年度经常性收入(ARR),预计2025年总营收将继续实现100%以上的同比增长,并希望未来API业务收入占比提升至50% [15] MiniMax 深度剖析 - 公司计划于2026年1月登陆港股,未选择2025年12月底挂牌是为避开香港圣诞假期窗口期 [17] - 发展路径独特,从创立之初就将语音、视频、图文等多模态能力作为核心方向同步推进,而非从大语言模型单点切入 [18] - 收入结构更接近产品驱动型模式,而非典型的以API为主,2024年预期营收约为7000万美元,其中较大比例来自C端产品Talkie [20] - 公司策略曾为“模型与产品双轮驱动”,先后推出AI角色扮演产品Glow(上线4个月注册用户超500万)、Talkie、星野以及海螺AI等产品 [21] - 第三方数据显示,2024年11月Talkie月活用户约为2519万;海螺AI曾连续6个月位居全球视频生成类产品榜首 [21] - 面临市场竞争加剧,2025年7月Talkie月活约为911万,同期Character.AI月活约2225万;海螺AI在2025年11月Web端访问量为885万,同比增长28.92%,而在2025年1月其访问量曾达2769万 [21][22] - 2024年下半年起,公司战略从“模型与产品并重”升级为“模型优先”,重新分配资源,加强文本模型基础能力,并提高数学和编程数据占比 [22] - 2024年10月27日发布并开源新一代文本模型MiniMax-M2,在权威评测平台Artificial Analysis(AA)中获得全球第五,整体能力接近GPT-5(high)与Claude Sonnet 4.5,在智能代理和工具调用任务上具竞争力;同年7月上线MiniMax Agent,支持复杂任务 [23] - 资本路径接近互联网创业公司,共完成7轮融资,包括腾讯领投的2.5亿美元B轮、阿里巴巴领投的6亿美元战略投资,以及最近一轮上海国资出资的3亿美元,公司整体估值超过40亿美元(约288亿元人民币) [3][24] 行业趋势与竞争逻辑 - 智谱与MiniMax在2025年不约而同选择以最快速度登陆资本市场,反映大模型行业的竞争逻辑正在发生整体收敛 [27] - 国内一级市场的大模型叙事已经结束,在密集融资后估值已处高位,一级市场难再提供足够且可持续的“弹药”,尽早锁定更稳定、成本更低的二级市场融资渠道成为头部公司的现实选择 [28] - 大模型公司战略开始主动收拢,效率成为新命题,上市前均压缩边缘战线,将资源重新集中到最具确定性的核心能力上 [29] - 智谱选择整合G端与B端以减少重复投入,是用组织效率对抗资源分散;MiniMax则从“模型与产品双轮驱动”升级到“模型优先”,将资源压回语言模型基础能力及商业化路径更清晰的Agent方向 [29] - 行业正从“方向验证期”进入“资本与效率的双重约束期”,持续获得低成本资金及将研发投入转化为稳定现金流的能力成为对所有公司的考验 [30]
国产AI芯片看两个指标:模型覆盖+集群规模能力 | 百度智能云王雁鹏@MEET2026
量子位· 2025-12-18 02:34
文章核心观点 - 评判AI芯片实力的标准已从单纯算力转向能否稳定支撑从百亿到万亿参数、从稠密到MoE架构、从单模态到多模态的完整模型谱系训练,并在万卡乃至更大规模集群上实现高效扩展[1] - 国产AI芯片在大规模训练场景中真正落地难度极大,替代是一个渐进式过程,推理场景已基本解决,但大规模训练是真正的挑战[5][6] - 即便对于参数激增的MoE模型,“小芯片搭大集群”的路径依然可行,关键在于极致的通信优化与系统级协同设计[2] 大规模训练的核心挑战与攻坚路径 第一大挑战:集群稳定性 - 大规模训练是上万卡的同步系统,任何一张卡中断都可能导致任务重启,例如在100张卡时有效训练时间为99%,但当线性扩展到一万张卡时,1%的中断时间就可能导致整个集群不可用[7] - GPU天生是高故障率器件,晶体管数量多、算力高、功耗大,且监控能力弱,整体故障率比CPU高出多个量级[7] - 解决集群稳定性需从两方面入手:一是事前精细化监控与验证,通过系统级手段提前定位可能的故障(如运行变慢、精度异常、数据不一致),尤其是在静默错误场景中需精准定位故障节点[8];二是构建故障后的透明Checkpoint和快速恢复机制,避免大规模重算[9] 第二大挑战:让集群真正扩展起来 - 一个万卡集群必须实现线性扩展,否则只有千卡、两千卡的规模意义不大[10] - 扩展过程大致经历三个阶段:在百卡集群上验证技术可行性,关键在于RDMA通信技术的适配与优化[11];在千卡集群上,由于网络不再对等,需要做好网络亲和性调度等复杂优化[11] - 实现大规模扩展的核心逻辑是“XPU驱动的any to any的通信”,即以XPU为核心,在通信过程中绕过CPU影响,直接用XPU驱动网络,并针对不同流量设置不同优先级以优化任务[14] 第三大挑战:模型生态与精度体系 - 英伟达最强的护城河是其过去十多年沉淀的模型生态,包括成千上万种模型变体、算子体系、框架适配,这使其在训练精度上保持绝对稳定性[15] - 在大模型时代,由于Transformer架构相对统一,国产芯片迎来了机会[16] - 当前的Scale维度已转变为模型参数的Scale(如十亿、百亿、千亿)和任务训练规模的Scale(如百卡、千卡、万卡),这两个维度的Scale带来了整个系统层面的Scale,映射到硬件上会有不同的size、形状、切分策略和并行策略[5][17] - 算子映射到不同硬件平台时,在精度和性能上都会存在挑战,精度上的微小差异可能导致长时间的训练白跑[19] - 为此,公司构建了高度泛化的算子体系,针对不同算子的size做了高强度泛化,并在泛化基础上进行小规模验证精度,避免每次都使用万卡对比,从而保证大规模训练的可靠性[19] MoE模型与多模态模型的新挑战 - MoE模型能在不提升激活参数规模的情况下扩展模型参数,延续Scaling Law,但给系统架构带来新挑战:模型参数变大、输入序列变长,导致通信占比显著提升,从而需要改变整个模型架构[12][20][21] - 适配MoE系统需要极致的通信优化,以及显存的协同与计算overlap[22] - 结论是,即便是MoE模型,“小芯片搭大集群”的方式依然可行[24] - 多模态模型带来另一类挑战,不同模态具有不同的训练强度和计算需求,若沿用原来的同构拆分方法会导致训练效率极低,典型情况下MFU(模型浮点运算利用率)可能都不到10%[24] - 针对多模态模型,需要进行异构数据均衡的调度,适配异构并行策略,使系统能够根据workload动态调整并行策略,为不同模型找到最优的运行策略[26] 国产芯片的实践与衡量标准 昆仑芯的大规模实践案例 - 公司已在百度Qianfan VL、百度蒸汽机等自研模型上取得较领先的效果,并实现了全栈基于昆仑芯的训练[12][31] - 具体实践案例包括: - **Qianfan-VL-70B模型**:多模态模型,在5千卡集群上训练,在通用基准测试中表现出色,并在OCR、文档理解和数学推理等特定领域任务中达到了SOTA性能,支持通过特殊token激活思维链能力,覆盖复杂图表理解、视觉推理、数学解题等多种场景,主打OCR全场景识别和复杂版面文档理解两大特色能力,在多项基准测试中表现优异[28] - **Qianfan-VL-8B模型**:多模态模型,在2千卡集群上训练[28] - **百度蒸汽机模型**:多模态模型,在6千卡集群上训练,是全球首个中文音视频一体化生成模型,在VBench-I2V榜单上位列全球第一,支持“无限时长”生成,突破了传统AI视频生成10秒左右的时长限制,行业首次实现AI长视频实时交互生成(即边生成边调整),目前生成速度超越国内主流视频模型[28] 衡量国产芯片“能否真正用起来”的关键维度 - **模型覆盖能力**:需覆盖大语言模型、多模态、文生视频等完整模型体系[30] - **集群规模能力**:需实现从百卡到千卡再到万卡的全覆盖[30] - 公司目前在模型覆盖上基本达到主流大模型体系,在规模上已能跑万卡任务,未来还会向数万卡推进[27] - 如同Google用Gemini证明TPU的训练能力一样,硬件需要绑定优秀的自研模型才能真正被市场接受[28][29]
电子行业2026年投资策略:AI创新与存储周期
广发证券· 2025-12-10 09:08
核心观点 - 报告核心观点认为,AI创新与存储周期是电子行业2026年投资策略的两大主线 AI模型创新与资本开支是产业发展的核心动力,驱动AI产业链协同发展 同时,AI推理需求驱动存储价格上涨和架构升级,存储周期持续向上 [1][4] AI创新:模型创新与CAPEX筑基,AI产业链协同发展 需求:模型创新与CAPEX筑基 - AI产业链包括AI硬件、AI CAPEX和AI模型与应用三大环节,其中AI CAPEX是驱动上游硬件发展的核心动力源 [12] - 模型创新是AI发展的核心动力,大模型在Chatbot、Coding、多模态等场景快速渗透,持续拓展应用领域 [14] - AI CAPEX构筑AI周期的基石,云厂商、头部企业及主权国家的资本开支具有刚性与延续性,为上游硬件环节提供订单与现金流支撑 [14] - 海外云厂商及Oracle的CAPEX/OCF在2025年第三季度环比有所下降,但仍处于可控范围,未来AI周期持续向上 [36] 模型创新进展 - **谷歌**:持续突破多模态模型边界,产品矩阵覆盖内容理解、生成到虚拟世界交互全链条,多模态生成在清晰度、动作可控性与叙事连贯性上已具备商业化价值临界点 [19] - **OpenAI**:通过记忆功能、GPT-5.1及群聊功能升级个性化体验,内部预测2025年收入将达130亿美元,同比增约350%,2030年收入预期上调至2000亿美元 [25][28] - **Anthropic**:在企业级LLM API市场份额达32%,内部预测2025年营收38亿美元,2028年目标700亿美元,毛利率有望从-94%跃升至77% [29] 算力:GPU与ASIC共舞 - AI算力竞争已转向“专用硬件+计算平台”的生态构建,展现从通用计算到专用AI计算的产业演进路径 [42] - **谷歌**:发布TPU v7 Ironwood,单芯片峰值算力达4614 TFLOPs,性能较前代提升4倍以上,支持单SuperPod扩展到9216个芯片,构建了从芯片集群到云服务的完整生态闭环 [45][48] - **英伟达**:确立年度产品更新节奏,发布Vera Rubin NVL144和Rubin Ultra NVL576平台,后者性能可达Blackwell Ultra GB300 NVL72平台的14倍,通过“硬件+软件+网络”垂直生态巩固市场地位 [52][56] - **AWS**:宣布研发下一代定制芯片Trainium4,将集成英伟达NVLink Fusion互连技术和UALink,旨在提升计算、内存和互连性能 [58] - **国产算力**:从“单点突围”转向“系统升维”,华为、阿里等厂商推出超节点解决方案,华为昇腾芯片规划以一年一代、算力翻倍的速度演进 [61][63][64] PCB:价值量提升与扩产 - **单GPU PCB价值量持续提升**:英伟达Rubin系列新增midplane、CPX板及正交背板等设计,驱动PCB规格升级 测算显示,Vera Rubin NVL144若包含正交背板,单GPU PCB价值量预计达1313美元,较A100/H100时代提升显著 [70][74] - **单ASIC PCB价值量持续提升**:谷歌TPU v7和AWS Trainium3的架构升级对PCB提出更高要求 测算显示,2025年AWS T系列单ASIC对应PCB价值量预计超700美元,Google TPU约363美元 [78][86] - **AI PCB市场规模高速增长**:预计AI服务器PCB市场规模将从2025年的49亿美元增长至2026年的102亿美元,同比增长108% 其中ASIC AI服务器PCB市场规模预计从32亿美元增至63亿美元,同比增长94% [89] - **国内PCB厂商积极扩产**:沪电股份、生益电子、景旺电子等国内头部厂商通过海外建厂、国内技改等方式积极扩充AI PCB产能 [90][93] 存储:AI推理驱动增长 - AI推理采用分级存储架构,HBM、DRAM、SSD、HDD协同支撑高效计算 [101] - AI推理,特别是超长上下文和多模态需求,驱动AI存储快速增长 测算显示,2026年10个谷歌级推理应用所需存储容量将达48EB [106] - 英伟达GPU配置持续升级,单GPU对应的HBM容量从H100的80GB提升至VR300 Ultra的1024GB,同时CPX系列新增GDDR7内存 [108] 电源:800V HVDC升级 - 为满足MW级机柜功耗需求,英伟达提出800V HVDC供电架构,可减少电能转换环节、降低损耗并简化热管理 [111] - SiC和GaN功率半导体是实现800V HVDC架构的关键,能实现更高功率密度与能效 [112] - 采用超高压SiC MOSFET的固态变压器可将高压交流电直接转换为800V直流,进一步提升能效 [119] - 预计至2030年,全球SiC&GaN功率器件市场规模将达25.64亿美元 [121] 存储周期:AI驱动价格上涨,扩产与升级同发力 价格与盈利 - AI驱动云侧和端侧存储搭载量显著增长,存储价格持续上涨,存储原厂毛利率显著提升 [4] 扩产:优先投向HBM - 海外存储原厂资本开支进入上行区间,产能优先投向HBM,传统DRAM和NAND投产较为谨慎 [4] 架构升级与设备需求 - **DRAM升级**:4F2+CBA工艺延续主流DRAM升级趋势;3D堆叠DRAM显著提升带宽,指向AI推理市场 [4] - **NAND升级**:3D NAND堆叠层数持续升级 [4] - 存储架构升级为设备需求带来新机遇 [4] 产业模式与接口芯片 - 存储代工模式迎来产业变革机会 [4] - 接口芯片如MRDIMM和VPD为产业打开新空间 [4] 投资建议 - 建议关注AI产业链相关标的,包括模型创新与CAPEX驱动下的算力、存储、PCB、电源等环节 [4] - 建议关注存储产业链相关标的,聚焦AI驱动下的价格上涨、架构升级及产业模式变革机会 [4]
行业周报:聚焦豆包AI进展及游戏、电影上新-20251207
开源证券· 2025-12-07 14:56
行业投资评级 - 投资评级:看好(维持)[1] 核心观点 - 报告建议继续布局商业化进展较快的AI应用方向,并关注游戏旺季及电影市场回暖带来的投资机会[3] - 头部科技公司在多模态模型、Agent、端侧AI及算力云方面继续发力,或加剧AI领域竞争,推动模型及垂直细分领域AI应用落地能力不断提升,助力AI商业化空间打开[3] - 随着年底圣诞、元旦档期及后续寒假、春节假期陆续来临,游戏行业或再次进入新游上线及老游运营推广旺季,流水有望环比明显提升[3] - 《阿凡达3》等后续新片上映或继续驱动电影票房回暖[4] 行业数据综述 - 截至2025年12月6日22:00,《三角洲行动》获内地iOS游戏免费榜第一,《王者荣耀》获内地iOS游戏畅销榜第一[10] - 截至2025年12月6日22:00,《明日方舟:终末地》为安卓预约榜第一,《逆战:未来》为iOS预约榜第一[10] - 电影《疯狂动物城2》为周票房第一,本周票房13.76亿元,累计票房27.85亿元[23] 行业新闻综述:AIGC - DeepSeek-V3.2发布,在公开的推理类Benchmark测试中达到GPT-5的水平,仅略低于Gemini-3.0-Pro,大幅缩小了开源模型与闭源模型的差距[29] - 可灵AI发布全球首个统一多模态视频模型O1,视频生成时长介于3-10秒[30] - 豆包手机助手技术预览版发布,可协助完成跨App操作[31] - 豆包Seedream 4.5模型上线,提升人像质感与设计专业性[31] - 火山引擎将于12月18-19日举行原动力大会,将发布豆包大模型家族全线焕新及Agent开发工具升级[3] - 豆包语音识别模型2.0发布,上下文整体关键词召回率提升20%[3] 行业新闻综述:游戏 - 2025年11月微信小游戏畅销榜中,《道友来挖宝》平均排名3.3,《无尽冬日》平均排名3.4[31] - 2025年,中国电子竞技产业收入为293.31亿元,同比增长6.40%,用户规模超4.95亿人[32] - 《洛克王国:世界》宣布定档3月26日,全网预约人数超4000万[32] - 《逆战:未来》定档2026年1月13日上线,官网预约玩家数量已突破2000万[33] - 新游《九牧之野》全平台预约人数破100万,Taptap期待值7.8,将于12月18日全平台公测[3] 行业新闻综述:影视 - 11月漫剧播放增量约27.77亿,不到10月份61.46亿播放增量的一半[35] - 11月抖音平台新上线的漫剧数量达到2441部,对比10月减少3499部[35] - 11月抖音端漫剧新增播放量TOP50榜单中,共有27部AI漫剧上榜,数量首次反超沙雕漫[35] - 抖音集团短剧版权中心推出重点品类激励计划,在原分账基础上叠加10%-20%的额外分成激励[34] - 爱奇艺推出“云腾开源”计划,激励精品横屏短剧[34] - 掌阅科技上线漫剧“星芒计划”,对10000+优质小说IP开放合作,享最高30%利润分成[35] 公告总结 - 电广传媒与芒果超媒、张旅集团拟共同投资1.8亿元设立张家界芒果文旅有限公司,负责经营大庸古城项目[38] - 祥源文旅全资子公司拟以3.45亿元收购金秀莲花山景区开发有限公司100%股权[36][37] 板块行情综述 - A股传媒板块2025年第49周(12月1日-12月5日)下跌3.86%,表现落后于上证综指(+0.37%)、沪深300(+1.28%)等主要指数[39] - 传媒子板块中,体育板块表现最好,周涨幅为+1.39%;营销板块表现较弱,周跌幅为-4.48%[39] - A股传媒个股中,联建光电周涨幅最大(+28.62%),蓝色光标周跌幅最大(-13.98%)[39][40] - 美股传媒个股中,Applovin周涨幅最大(+15.42%),猎豹移动周跌幅最大(-11.81%)[39][45] - 港股传媒个股中,数字王国周涨幅最大(+20.69%),美图公司周跌幅最大(-12.67%)[39][46] 重点公司及受益标的 - AI广告方向重点推荐汇量科技、引力传媒,受益标的包括蓝色光标、易点天下等[3] - AI漫剧方向重点推荐哔哩哔哩、快手、阅文集团,受益标的包括捷成股份、中文在线等[3] - AI电商方向重点推荐值得买,受益标的包括阿里巴巴[3] - AI设计方向受益标的包括美图公司[3] - 游戏板块重点推荐吉比特、恺英网络、巨人网络、心动公司、腾讯控股等,受益标的包括世纪华通等[3] - 电影方向重点推荐上海电影,受益标的包括中国电影等[4]
阿里Qwen-Image更新;商汤发布NEO架构|数智早参
每日经济新闻· 2025-12-02 23:17
阿里巴巴Qwen-Image模型更新 - 公司发布图片生成及编辑模型Qwen-Image的重磅更新,新模型在图像编辑中维持更高一致性,并在多视角转换、多图像融合、多模态推理等方面取得突破进展 [1] - 新版本Qwen-Image已首发接入千问App,用户可无限次免费使用 [1] 商汤科技发布NEO架构 - 公司正式发布并开源与南洋理工大学S-Lab合作研发的全新多模态模型架构NEO,为日日新SenseNova多模态模型奠定新一代架构基石 [2] - NEO是行业首个可用的、实现深层次融合的原生多模态架构,通过核心架构层面的多模态深层融合,实现性能、效率和通用性的整体突破 [2] 优必选科技战略合作 - 优必选科技与卓世科技签署战略合作框架协议,合作聚焦“行业模型+具身智能”核心方向 [3] - 双方计划在未来5年内达成1万台机器人部署及联合拓展数十亿元商业化订单落地 [3] AI行业技术趋势 - AI视觉技术发展仍充满挑战,未来需关注在保持技术领先的同时进一步降低模型训练成本、提升运行效率以实现更广泛应用落地 [1] - AI范式转移始于架构破壁,从单模态到多模态,率先跳出修补思维的参与者有望拿到下一代产业门票 [2] - 人形机器人产业化拐点的关键在于机器人能在真实场景中稳定运行、获得客户复购、保险支持及监管许可,万台部署是水到渠成的起点 [3]
商汤开源NEO多模态模型架构,实现视觉、语言深层统一
新浪财经· 2025-12-02 11:25
公司产品发布 - 商汤科技与南洋理工大学S-Lab合作,于12月2日发布并开源了全新的多模态模型架构NEO [1][4] - NEO架构旨在从底层原理打破传统“模块化”范式,通过核心架构层面的多模态深度融合,实现视觉和语言的深层统一 [1][4] 架构创新与优势 - NEO架构在注意力机制、位置编码和语义映射三个关键维度进行底层创新,使模型天生具备统一处理视觉与语言的能力 [2][5] - 在原生图块嵌入方面,NEO摒弃离散的图像tokenizer,通过独创的Patch Embedding Layer构建从像素到词元的连续映射,以更精细捕捉图像细节 [3][6] - 在原生多头注意力方面,NEO在统一框架下实现了文本token的自回归注意力和视觉token的双向注意力并存,提升了对空间结构关联的利用率 [3][6] 性能表现 - NEO展现了极高的数据效率,仅需3.9亿图像文本示例,为业界同等性能模型所需数据量的1/10,便能开发出顶尖视觉感知能力 [2][5] - 在多项公开权威评测中,NEO架构均斩获高分,其简洁架构在多项视觉理解任务中可追平Qwen2-VL、InternVL3等顶级模块化旗舰模型 [2][5] - 根据评测数据,NEO 1.7B版本在MMMU得分为48.6,在MMB得分为76.0,在MMStar得分为54.2,在SEED-I得分为74.2,在POPE得分为87.5 [1][4] - 根据评测数据,NEO 8B版本在MMMU得分为54.6,在MMB得分为82.1,在MMStar得分为62.4,在SEED-I得分为76.3,在POPE得分为88.4 [4] 行业技术范式 - 当前业内主流多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式,本质仍以语言为中心,图像与语言融合仅停留在数据层面 [2][5] - 传统的“拼凑”式设计学习效率低下,且限制了模型在涉及图像细节捕捉或复杂空间结构理解等复杂多模态场景下的处理能力 [2][5]
亚马逊云计算盛会即将开幕,关注科创板50ETF(588080)等产品配置价值
每日经济新闻· 2025-12-02 11:20
科创板市场表现 - 科创板50指数下跌1.2% [1] - 科创成长指数下跌1.3% [1] - 科创综指下跌1.3% [1] - 科创100指数下跌1.6% [1] AWS行业动态 - 全球最大云服务公司亚马逊网络服务将举办年度云计算盛会"AWS Re:Invent 2025" [1] - 预计将举办超过600场技术研讨会探讨AI创新应用 [1] - AWS预计发布新一代多模态Nova模型 [1] - 该模型能够处理文本、语音、图像和视频,并能生成文本和图像 [1]