Workflow
多模态模型
icon
搜索文档
大厂AI模型专题解读
2025-09-28 14:57
大厂 AI 模型专题解读 20250927 摘要 国内大模型架构创新不足,依赖海外架构如 Transformer 和 MoE,导 致难以超越国外领先模型。算力方面,国内 AI 大厂 GPU 算力远低于海 外巨头,受中美贸易战影响,资源受限。 国内模型侧重推理成本和性价比,适应国内用户消费习惯,而国外如 GPT 追求顶级性能,商业模式差异导致模型上限存在差距。数据获取方 面,国内数据法律相对宽松,成为追赶海外大模型的优势。 阿里采取几乎全开源策略,包括模型权重、代码及训练数据,以扩大影 响力,并整合其云服务系统形成闭环互利模式。通过公开打榜测试验证 性能,提高可信度,因此开源认可度较高。 国内多模态模型聚焦国内场景,如电商广告、短视频等,生成内容更贴 近国人需求,性价比和成本控制优于海外模型。但在长文本理解、多样 化场景处理及泛化性方面仍有提升空间。 MoE 架构已成为大模型标配,通过门控系统分配输入内容给对应专家系 统处理,降低计算成本和推理时间。未来优化方向包括精准入口分层、 专家系统结构差异化和训练稳定性。 Q&A 目前国内的通用大模型与海外头部大模型的差距具体体现在哪些方面? 国内通用大模型与海外头部大 ...
国内的这款“赛博陪玩”闯进了东京TGS
虎嗅· 2025-09-28 07:17
编辑|苗正卿 头图|东京TGS展 这是29年来史上最大规模的东京TGS游戏展(日本东京游戏展览会,以下简称"TGS"),16万平方米的展厅,有超1000家参展企业来自中国。但在最大的游 戏主展馆,却只有一家与AI有关。 而对于这25万参展观众来说,AI,或者说AI如何与游戏结合,还不是他们关注的重点。就连TGS留给这家国内AI游戏公司的位置也只有一个小角落。 但对于国内唯一拿到TGS入场券的AI游戏陪伴公司"心影随形"来说,已经足够让他们兴奋。 创始人刘斌新在现场激动地向虎嗅分享,自己是如何接收到来自TGS的邀请函邮件,并决定将出海的第一站瞄向日本。 大约两个月前,刘斌新的邮件箱里收到一封来自东京TGS的邀请函。而引起TGS注意的是,其在海外社交媒体(X和YouTube)上的宣传都是用日语。 "最开始都是我们联合创始人王碧豪在发这些blog。"刘斌新告诉虎嗅。 在他们二人中,王碧豪才是那个更资深的游戏玩家。据刘斌新介绍,碧豪从小就很喜欢玩游戏,每年在游戏上花的时间超过300个小时。也就是说,即使在 工作日,碧豪平均每天也会花将近一个小时玩游戏。 而二人的结识还要追溯到更早。从2013年在百度开始,王碧豪就是刘 ...
加码下一代“操作系统”和“计算机” 阿里巴巴放出一系列新招
证券时报网· 2025-09-24 15:44
阿里巴巴AI战略愿景 - 公司预测通用人工智能AGI是确定性事件 终极目标是发展超越人类的超级人工智能ASI [2] - 大模型是下一代操作系统 超级AI云是下一代计算机 [2] - 一旦跨过奇点 AI将催生IT产业巨大变革 [2] AI基础设施投资 - 公司积极推进三年3800亿AI基础设施建设计划 并持续追加更大投入 [2][3] - 2032年阿里云全球数据中心能耗规模将比2022年提升10倍 [3] - 过去一年阿里云AI算力增长超5倍 AI存力增长4倍多 [4] 全球基础设施扩建 - 在巴西 法国 荷兰首次设立云计算地域节点 [4] - 扩建墨西哥 日本 韩国 马来西亚和迪拜的数据中心 [4] - 目前在全球29个地区运营91个可用区 是中国最大 亚太第一云服务商 [4] 全栈技术能力展示 - 发布新一代磐久128超节点AI服务器 单柜支持128个AI计算芯片 密度刷新业界纪录 [4] - 展示从底层芯片 超节点服务器 高性能网络到AI平台的全栈AI技术能力 [4] 大模型产品突破 - 发布七款大模型技术产品 覆盖语言 语音 视觉 多模态 代码等领域 [5] - 通义旗舰模型Qwen3-Max性能超过GPT5和Claude Opus 4 跻身全球前三 [5] - 千问视觉理解模型Qwen3-VL开源 在32项核心能力测评中超过Gemini2.5-Pro和GPT5 [5] 产业合作与落地 - 与英伟达在Physical AI领域合作 集成全套Physical AI软件栈 [7] - 阿里云百炼平台已有超20万开发者开发80多万个Agent [8] - 通义灵码插件下载量超2200万 累计为开发者生成超60亿行代码 [8] 行业应用案例 - 工商银行使用多模态技术取代传统OCR技术开发商户智能审核助手 [9] - 网易借助Qwen3-coder模型实现游戏开发提效50% [9] - 宝马 比亚迪 蔚来等车企利用阿里AI打造智能座舱 [9] - 西门子工业智能系统使用多个AI Agent完成订单调度 生产等具体任务 [9]
华为,重磅新品发布
中国基金报· 2025-09-24 10:53
【导读】 华为穿戴音频新品线上发布会召开,HUAWEI WATCH GT 6、FreeClip 2 等重磅 新品 首发 亮相 中国基金报记者 张燕北 9月24日下午,华为穿戴音频新品线上发布会召开,超长续航全能智能手表HUAWEI WATCH GT 6系列、创新C形桥架构的HUAWEI FreeClip 2耳夹耳机、华为Vision智慧屏5 Pro等新品 正式发布。 近几年,智能穿戴设备逐渐从"科技尝鲜品"转变为大众日常刚需产品,华为也在持续深耕这 一领域,凭借其创新的技术和全面的产品线,成为全球智能穿戴设备领域的领航者。 华为WATCH GT 6系列正式发布 WATCH GT系列出货超5400万台 本次新品发布会上,HUAWEI WATCH GT 6系列是重头戏之一。 这次发布的WATCH GT 6有41mm和46mm两款,WATCH GT 6 Pro只有46mm款式。 HUAWEI WATCH GT 6系列延续GT系列高端时尚设计风格,采用多面几何锋芒设计、蓝宝 石玻璃镜面、航天级钛合金机身与微晶纳米陶瓷后壳。 更重要的是,GT 6系列技术底座全面革新,新表续航实力有很大突破,首次搭载全新高硅叠 片异形电 ...
微信WeChat-YATT横空出世,腾讯强化学习布局剑指何方
搜狐财经· 2025-09-24 09:56
WeChat-YATT技术特点 - 基于Megatron-Core和SGLang/vLLM研发 专注强化学习和多模态模型训练[2] - 显著优化强化学习场景参数更新效率 提供灵活多模态数据融合接口 通过模块化设计降低分布式训练门槛[2] - 命名"Yet Another Transformer Trainer"体现腾讯在AI基础设施层的长期投入决心[6] 技术对比优势 - 相比Meta PyTorch在强化学习支持更胜一筹 对比Google JAX在中文场景和多模态处理具明显优势[4] - 与同类强化学习框架Ray RLlib相比 深度整合微信生态独具特色[4] - 特别强调易扩展性 满足大模型快速迭代需求 参数规模突破万亿门槛后训练框架灵活度决定竞赛先机[4] 腾讯AI战略布局 - 开源WeChat-YATT是构建技术生态圈的重要步骤 类似Google开源TensorFlow的路径[2] - 结合申请微信AI服务平台商标 混元大模型全面落地等动作 形成底层技术突破与上层应用落地的双轮驱动[7] - 微信作为十亿级流量入口需强大AI能力支撑 混元大模型持续进化需高效训练工具 WeChat-YATT填补关键环节形成从基础设施到终端应用的完整链条[7] 强化学习战略价值 - 重点投入强化学习训练库 预示在游戏 推荐系统 自动驾驶等核心领域的下一代AI应用场景布局[7] - 大模型时代竞争本质是基础设施竞争 自主可控训练框架将成为头部企业标配[7]
可穿戴设备迎政策利好!这一品类出货量大增超60% 外资机构密集调研4股
财经网· 2025-09-23 02:11
政策支持 - 国家体育总局印发指导意见推进运动促进健康服务数字化和智能化升级 加强智慧可穿戴监测设备与器材应用[1] - 政策支持运用大数据和人工智能等高新技术打造数智应用场景 提高服务科技含量和精准度[1] - 可穿戴设备主要包括智能眼镜 智能手表 智能手环和智能戒指等产品 用于实时监测生理状态和周围环境信息[1] 行业增长 - 2025年第二季度全球腕戴设备市场出货4922万台 同比增长12.3%[2] - 中国腕戴设备市场出货2080万台 同比增长33.8% 增速领跑全球[2] - 中国成人智能手表市场出货958万台 同比增长64% 其中千元以下及2000元以上产品分别增长66.1%和110.2%[2] 技术发展 - 可穿戴设备通过AI芯片和多模态模型技术向个人健康防线和全域智能生活核心入口发展[2] - 健康管理从监测走向治疗 生态从孤立走向协同 应用范围持续扩展至医疗保健和工业物联网等领域[1][2] - 设备功能包括健康管理 运动测量 社交互动和智能家居控制等场景[1] 市场表现 - A股可穿戴设备概念指数9月22日上涨2.47% 67只概念股中11只9月以来涨幅超10%[3] - 长盈精密 天岳先进和立讯精密累计涨幅分别达43.59% 35.78%和32.56%[3] - 长盈精密开发基于AI技术的可穿戴产品关键零部件取得较大突破[3] 外资关注 - 7月以来20只概念股接受外资机构调研 立讯精密 水晶光电 领益智造和恺英网络调研机构家数分别为28家 14家 11家和9家[3] - 立讯精密在AI眼镜零组件和整机产品领域有广泛布局 支持约三分之一市场品类[3] - 17只概念股获QFII重仓 合计持仓市值21.99亿元 京东方A 洲明科技和领益智造持仓市值超1亿元[4] 公司动态 - 立讯精密总市值4420.1亿元 市盈率30.25倍[4] - 水晶光电总市值390.63亿元 市盈率35.39倍[4] - 领益智造总市值1072.95亿元 市盈率53.89倍[4]
商汤20250918
2025-09-18 14:41
**公司及行业** * 商汤科技 人工智能行业 生成式AI领域 [1] **核心财务表现** * 公司整体收入同比增长36% 生成式AI业务收入同比增长73% 占集团整体收入77% [2][3] * 经调整净亏损同比收窄50% [2][4] * 应收账款拨备计提减少约4.5亿元人民币 [2][4] * 现金周转天数缩短至100多天 上半年回款达31.6亿元人民币 [2][4][5] **业务结构调整与战略进展** * 财务报表收入结构调整为生成式AI 视觉AI和X创新业务三类 [2][6] * X创新业务子公司大芯片公司"希望"和端侧芯片公司"影微创新"已顺利融资并实现出表 [2][7] * 公司人员成本从高峰6000多人减少至3000多人 [20] **技术优势与核心竞争力** * 拥有中国第一个5A级智算中心上海临港AIDC 是亚洲最大的单体智算中心之一 [12] * 超过10年的视觉AI积累 在基础设施投入 模型研发及算法突破方面具备优势 [8][9][12] * 在多模态模型研发方面取得进展 日新6和日新6.5模型已在金融 教育 政务 电商营销等场景实现商业化应用 [4][19] * 每天可生成约5TB Opens数据用于动态融合模型的数据准备 [18] **产品与应用落地** * Agent产品"小浣熊"产品家族月活跃用户情况及客户转化率亮眼 主要面向To B市场 拥有超过百万用户 [13][14] * 在具身智能领域拥有超过20个客户 提供端到端解决方案 [18] * 生成式AI基础设施不仅是GPU规模 还涉及软件 行业理解和数据能力等多方面 需要针对具体场景进行二次训练和优化 [4][11] **市场认知与行业趋势** * 全球资本市场对生成式AI理解深化对公司发展产生积极影响 [2][8] * 生成式AI领域市场热点从模型关注转向寻找杀手级应用 技术和客户需求快速变化 [10] * To B应用在生成式AI领域弹性较好 [10] * 坚定认为大模型发展的下一个阶段是打开与物理世界交互的大门 [18] **运营策略与资源管理** * 在芯片供给和资源获取方面采取轻资产模式 通过租赁或联合运营的方式快速获取资源 [17] * 没有设定具体的CAPEX目标 而是结合下游需求和上游供应链情况进行灵活调整 [16] * 更注重提供端到端的交付解决方案 包括软件层 工具层 机构模型 行业模型以及数据能力等 [16]
超讯通信:已在若干客户场景中完成了少量元醒训练推理一体机的交付应用
格隆汇· 2025-09-17 07:58
行业背景 - 国内大模型产业处于快速成长阶段 AIGC、多模态模型及垂直行业模型落地应用持续加速 [1] - 算力基础设施需求显著增长 [1] 产品与技术 - 公司推出元醒训练推理一体机 基于沐曦GPU构建 [1] - 面向DeepSeek-R1/V3等大模型全栈式应用场景 [1] - 提供从底层算力到模型部署的一站式交付能力 [1] 市场应用 - 产品满足政企、科研、金融、制造等多行业需求 [1] - 已在若干客户场景中完成少量元醒训练推理一体机交付应用 [1] - 正在积累行业实践经验 [1] 发展前景 - 各类垂直场景应用逐步成熟 [1] - 预计未来该类产品交付规模和市场需求有望持续增长 [1]
后端到端时代:我们必须寻找新的道路吗?
自动驾驶之心· 2025-09-01 23:32
行业技术发展趋势 - 2025年VLA(Vision-Language-Action)成为行业新焦点,但技术路径出现明显分歧,部分企业积极推广而部分头部团队选择回避 [1][5][6] - 相较于2023-2024年端到端技术达成行业共识的局面,VLA技术路线呈现"分歧中的探索"态势 [5][6] - 技术切换期被视为占领用户心智和证明研发优势的关键窗口 [4] 企业战略布局差异 - 理想汽车通过VLA巩固端到端技术红利带来的领先优势 [4] - 元戎启行借助VLA提升辅助驾驶系统性能上限 [4] - 小鹏汽车将具身智能领域积累的VLA技术迁移至辅助驾驶系统,并采用自研高算力芯片解决实时性问题 [4][22] - 华为ADS明确主张WA(World Model + Action)为自动驾驶终极方案,回避VLA路径 [5] - 蔚来在低速场景应用世界模型但对外宣传保持低调 [5] - 地平线否认其HSD系统属于VLA,坚持VA(Vision-Action)技术路线 [23] VLA技术原理与应用 - VLA通过视觉模块感知环境、语言模块表述任务、动作模块执行驾驶行为,实现感知-决策一体化 [9] - 技术优势在于结合端到端的性能与语言的可解释性,理想状态下可映射人类驾驶本能 [10] - Wayve的LINGO系列实现边驾驶边用自然语言解释决策,LINGO-2支持实时语言指令调整行为 [12] - OpenDriveVLA融合2D/3D视觉token与语言生成控制轨迹,在Nuscenes数据集取得最优结果 [14][16] - 谷歌Deepmind的RT系列将互联网视觉-语言知识迁移至机器人控制,提升泛化能力 [17][18] 技术挑战与局限性 - 自然语言存在模糊性与不完备性,例如"慢一点"等指令缺乏精确动作约束 [19] - 语言-动作不对称性问题导致监督学习存在噪声,语言主要在任务级别有效而非细粒度控制 [19] - 多模态Transformer推理开销巨大,OpenVLA模型约7B参数需15GB显存且运行频率仅6Hz,低于行业10Hz标准 [21] - 实际部署中多用于上层任务分配,轨迹输出仍由传统模型执行并需兜底机制 [23] 替代技术路径发展 - VA(Vision-Action)方案通过内隐世界模型实现环境状态向量化表示,华为与地平线采用此路径 [23] - 地平线HSD系统通过深度神经网络实现决策统一性,在不同场景下保持自适应行为 [25] - 采用平衡数据分布并筛选优化人类驾驶数据,使决策更符合直觉 [25] - 坚持模块最小化架构,屏蔽激光雷达输入以避免感知依赖,保持系统简洁性与可维护性 [28] - 纯视觉版本结合软硬件一体方案具备成本优势 [31] 行业本质问题与未来方向 - 辅助驾驶核心问题仍是缺乏对世界的深度理解能力 [33] - 语言作为新输入维度类似激光雷达,提供抽象能力但非终极解决方案 [33] - 行业面临选择新道路或深化现有路径的战略抉择,不同技术路线均存在发展机会 [34]
Diffusion 一定比自回归更有机会实现大一统吗?
机器之心· 2025-08-31 01:30
Diffusion架构与自回归架构在多模态大一统模型中的对比 - 多模态能力被视为实现人类级别智能的必要条件 构建大一统模型成为关键目标 旨在用单一架构统一处理文本 图像 音频 视频 3D模型及机器人动作信号等异构数据类型[8] - 自回归架构长期主导多模态领域 Transformer系列LLM从NLP扩展至多模态 催生LLaVa Qwen-VL InternVL Ovis和GPT4等模型[8] - 扩散架构原主要应用于视觉生成领域 如Stable Diffusion和DiT 但近期扩散语言模型在NLP任务突破 重新引发对其实现多模态大一统潜力的关注[8] Diffusion架构的理论优势与潜力 - 扩散范式天然支持并行生成 精细化控制和动态感知 这些是自回归模型难以实现的能力[9] - 离散扩散架构被强调为替代自回归实现多模态统一处理的潜在方案[9] - 扩散语言模型通过并行生成和迭代式去噪解决自回归模型推理速度瓶颈 具有扩展至其他模态的潜力[9] 生成式建模的信息论基础 - 自回归模型本质是预测下一个token 通过最小化序列描述长度实现无损压缩 尤其适应NLP任务[9] - 多模态自回归模型需将输入转换为一维序列 早期使用双编码器架构分别处理图像文本 后转向仅解码器架构并通过连接器转换图像嵌入[10] - 扩散架构本质是纠错机制 正向加噪和反向去噪过程同样构成强大压缩框架 且支持两种压缩模式[11]