Workflow
多模态大模型
icon
搜索文档
“扫地茅”科沃斯强势回归,一季度净利同比增60%再创行业新高
贝壳财经· 2025-04-30 00:34
财务表现 - 2024年公司总收入达165.42亿元,同比增长6.71%,归属于上市公司股东的净利润8.06亿元,同比增长31.70% [6] - 2025年第一季度实现营收38.58亿元,同比增加11.06%,归属于上市公司股东的净利润4.75亿元,同比增加59.43%,环比翻倍增长 [7] - 2024年运营成本、销售费用得以控制,营销费用同比减少3.53% [11] - 2024年公司毛利率46.52%,同比增加1.94个百分点 [24] 双品牌战略 - 科沃斯品牌服务机器人2024年销售收入80.82亿元,占全部收入的48.86%,添可品牌高端智能生活电器销售收入80.61亿元,同比增长10.87%,占全部收入的48.73% [11] - 科沃斯品牌服务机器人产品全球出货达295万台,同比增长16.9%,添可品牌洗地机全球出货达414万台,同比增长28.3% [20] - 添可洗地机在美、法、德、加、意等9大国家站点中稳居市占第一 [30] 研发投入与创新 - 2024年研发支出达8.85亿元,同比增长7.30% [22] - 截至报告期末,公司合计获得授权专利2415项,在申专利1470项,新增专利申请410项,其中发明专利157项 [23] - 公司在机器人技术的三维空间理解、交互能力、AI算力、多模态大模型和具身智能等方面已提交专利申请152项,其中100项为发明专利 [23] - 科沃斯推出T30、T50和X8系列等多款畅销扫地机器人产品,X8系列洗地机器人凭借行业首创的滚筒恒压活洗功能推动行业技术革新 [16] 海外市场拓展 - 2024年科沃斯和添可品牌实现海外收入共计68.08亿元,同比增长12.6%,占公司品牌业务收入的42.2% [32] - 科沃斯和添可品牌在欧洲市场营业收入较上年分别显著增长51.6%和64.0% [28] - 添可已进入欧洲20多个国家超过50个重要的零售渠道 [32] - 2024年擦窗机器人、割草机器人海外收入展现强劲发展势头 [31] 行业背景 - 2024年中国清洁电器市场规模突破400亿元,成为第六大家电品类,行业销售额423亿元,同比增长24.4%,零售量3035万台,同比增长22.8% [10] - 2024年全球清洁电器市场零售额规模达到200亿美元,同比增长8%,东欧、拉丁美洲、中东和非洲零售额同比增速均接近20% [27] - 2024年全球扫地机器人市场出货量2060.3万台,同比增长11.2%,全年销售额达93.1亿美元,同比增长19.7% [27] - 2024年国内洗地机市场零售量同比增长31.1%,添可在内的前三品牌占据洗地机市场65.0%的零售额份额 [27]
星宸科技(301536) - 301536星宸科技投资者关系管理信息20250430
2025-04-30 00:02
业务增长情况 - 2025 年 Q1 各业务线同比增长超 20%,智能机器人芯片单季度出货量及营收超 2024 年全年,ADAS 及感知芯片起量,智能安防领域行业地位巩固提升 [2] 盈利情况 - 2024 年度归属于上市公司股东的净利润约 2.56 亿元,同比增长约 25.18%;2025 年一季度约 5,117.87 万元,同比增长约 0.48% [3] 盈利增长点 - 智能机器人、智能眼镜、车载激光雷达等领域有望成为后续增长点 [3] 产品布局 - 已推出适用 AI 眼镜的 SoC 芯片 SSC309QL,客户终端产品预计 2025 年下半年出货;正开发下一代适用于运动及智能穿戴场景的先进 IP 及 SoC 芯片,预计 2025 年下半年投片 [3] 人形机器人领域布局 - 机器人芯片初步完成产品矩阵,已大批量出货;2024 年出货量及营收同比 2023 年超三倍增长,2025 年 Q1 单季度出货量及营收超 2024 年全年 [4] 技术与市场布局 - 技术上正升级高阶机器人芯片,有望 2026 年量产;市场上有望 2025 年跻身领先梯队,目标二至三年内成为智能机器人行业头部 SoC 芯片供应商 [5] 研发投入 - 2024 年全年研发投入约 6.02 亿元,同比增加约 1.1 亿元,同比增长约 21.95%,研发投入率约 25.59%;2025 年 Q1 约 1.68 亿元,同比增加约 2,773 万元,同比增长约 19.8%,研发投入率约 25.24% [6] 毛利率波动看法 - 优先提升产品销售规模及市场占有率,后续规模效应释放有望降低成本,长期盈利及毛利率将稳健向好 [7] 激励计划 - 2024 年 7 月 10 日披露《2024 年限制性股票激励计划(草案)》 [7] 销售占比 - 直接及间接海外销售占比已过半(穿透至最终客户计算) [7] 收并购打算 - 持续评估投资或并购战略标的,有重大进展会及时披露 [8] 股东人数 - 截止 2025 年 4 月 18 日股东人数为 22,683 户 [9] 回购计划 - 聚焦主业发展,若有相关计划将及时披露 [10] 市值管理计划 - 依法依规运用多种方式提升公司价值,增强投资者信心 [10] 公司业绩情况 - 2024 年度营业收入约 23.54 亿元,同比增长约 16.49%;2025 年一季度约 6.65 亿元,同比增长约 26.36% [10] 行业发展前景 - 端边侧 AI SoC 芯片朝更高效能、更低功耗、更小尺寸发展,多模态时代带来新机遇 [11] 一季度业绩与收入结构 - 2025 年一季度各产品线双位数增长,智能物联及智能车载领域增速更高,相关产品线营收占比持续提升 [13] 业绩波动原因 - 受行业周期波动影响,但自 2023 年下半年企稳回暖,持续开拓新业务领域 [13]
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
机器之心· 2025-04-29 03:22
多模态大模型推理加速框架Dynamic-LLaVA - 提出Dynamic-LLaVA框架,针对多模态大模型在不同推理模式下实现高效推理,包括预填充阶段以及有无KV Cache的解码阶段 [9][12] - 在预填充阶段计算开销减少约75%,无KV Cache解码阶段计算开销减少约50%,有KV Cache解码阶段GPU显存占用减少约50% [9] - 基于LLaVA-1.5进行1个epoch的监督微调,确保模型能高效运行在稀疏化推理路径上 [14][27] 技术实现方案 - 预填充阶段引入可训练的轻量化图像预测器,通过决策分数保留前k大视觉token实现稀疏化 [15][17] - 解码阶段对视觉token采用相同稀疏化处理,对输出文本token分两类处理:最后一个token完整输入LLM decoder,其他历史token进行稀疏化 [19][23] - 使用KV Cache的解码阶段采用"Online KV Cache压缩"方法,仅判断当前新token的KV激活是否需要加入KV Cache [21] 性能表现 - 在视觉理解任务上性能几乎不下降,部分任务如SciQA上7B和13B版本性能提升2.3%和0.8% [31] - 生成能力基准测试显示PPL仅变高0.3,METEOR略有提升,同时实现大幅推理效率提升 [33][35] - 实际推理测试中13B版本预填充时间从0.83s降至0.37s,4K解码时间从13368s降至6184s,显存占用显著降低 [36][37] 应用前景 - 随着多模态大模型在复杂推理、长思维链领域的发展,Dynamic-LLaVA在更长输出、更复杂推理场景下将体现更明显优势 [42] - 框架可与其他高效视觉projector方法集成,如表2中与TokenPacker结合进一步减少视觉token同时保持性能 [32]
Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品
量子位· 2025-04-28 03:43
多模态大模型几何解题能力评估 核心观点 - 首个从几何原理视角评估多模态大模型几何解题能力的双语基准GeoSense发布,包含5层知识架构和1789道精细标注的几何问题 [1][6][7] - 创新性提出GPI(几何原理识别)和GPA(几何原理应用)指标,弥补传统评测仅关注答案正确性的不足 [11][12] - 评测显示Gemini-2.0-Pro-Flash综合表现最佳,开源模型中Qwen-VL系列领先 [25][28][29] 评测体系设计 - **知识架构**:覆盖148个几何原理(65定义/47定理/36公式),分平面几何与立体几何5层级 [6] - **数据集**:1789道双语问题标注5556个几何原理对应关系,23位专业人员参与质量把控 [7][9] - **评估指标**: - GPI量化模型识别必要几何原理的能力(正确识别比例) [15][16] - GPA通过F1 score衡量原理与视觉元素的匹配应用 [18][20] - ACC保留传统答案正确性评分 [22] 模型表现分析 - **头部模型**: - Gemini-2.0-Pro-Flash三项指标平均分65.3,公式类GPI达87.4 [26][28] - Qwen2.5-VL-72B开源最优(AVG 60.1),较7B版本提升17% [26][35] - **短板领域**: - 平面几何理解普遍薄弱,如Claude3.5-Sonnet在TMPF原理的GPA仅32.5 [32] - 定义/定理类表现显著弱于公式类(如InternVL2.5-78B定义类ACC仅29.8) [46][48] - **规模效应**:模型参数量与表现正相关(Qwen2.5-VL从7B到72B提升8.8分) [35] 关键发现 - **能力瓶颈**:几何原理识别(GPI)是主要限制因素,GPI每提升5%可带动ACC提高7.7% [37][39] - **复杂问题挑战**:所需原理数量增加时,闭源模型GPI下降更显著(如GPT-4o复杂问题ACC仅51.7) [41][42] - **计算优势**:模型在公式类表现突出(Gemini-2.0公式类GPI 87.4 vs 定义类64.2) [26][47]
李彦宏:DeepSeek不是万能,最大问题是慢和贵,大多数大模型速度比DeepSeek满血版更快,价格更低【附多模态大模型行业市场分析】
搜狐财经· 2025-04-27 06:28
百度AI开发者大会核心观点 - 百度创始人李彦宏指出DeepSeek目前仅能处理文本,无法理解或生成图片、音频、视频等多模态内容,而多模态能力是未来基础模型的标配[2][6] - DeepSeek存在幻觉率较高的问题,在电商直播等场景可能产生错误信息,且其API调用价格比中国市场多数大模型更高、速度更慢[3] - 李彦宏强调"没有应用,芯片、模型都没有价值",未来统治AI世界的将是应用而非模型本身[6] DeepSeek的市场表现 - DeepSeek年初凭借低成本AI模型迅速爆发,1月27日登顶15个国家和地区苹果应用商店免费榜,在美国市场超越ChatGPT等产品[2] - 该应用成为史上最快达成日活跃用户数突破3000万的应用,也是首个同时在中美苹果App Store榜首的中国应用[2] 中国多模态大模型行业现状 - 国内主流大模型训练成本差异显著:百度文心、阿里通义、腾讯混元等大厂模型投入超2亿美元,创业公司如Kimi、DeepSeek成本控制在3000-6000万美元[4] - 云托管成本受模型规模影响,大厂依托自有云平台(如阿里云PAI、华为云)降低成本,初创公司依赖多云弹性部署面临更大挑战[4] - 多模态大模型收入呈现头部集中格局:阿里云收入超1100亿元占集团15%,华为云收入688亿元占5%,腾讯云收入636亿元占5-7%,百度云收入占比约12%[4][5]
技术突破引领产业升级 格灵深瞳多模态大模型+AI PC国产化双轮驱动
财经网· 2025-04-25 14:50
公司研发投入与技术成果 - 2024年研发投入18,89713万元 同比增长3% [1] - 新增专利储备90个 持续强化技术壁垒 [1] - 启动"多模态大模型技术与应用研发项目" 布局未来产品线 [1] 多模态大模型技术突破 - 自研视觉大模型Unicom基于Vision Transformer架构 在10亿级图像数据预训练 [1] - Unicom学术评测超越OpenAI CLIP和谷歌SigLIP模型 成果发表于ECCV2024 [1] - 深瞳灵感-7B多模态大模型在具身问答和引用表达分割任务中达到世界领先水平 [1] 核心技术矩阵与商业化应用 - 形成六大技术方向:多模态大模型 3D立体视觉 交通场景感知 跨镜追踪 机器人感知 视频动作分析 [2] - 技术落地领域:智慧金融 城市管理 智慧教育 工业检测 [2] - 视觉大模型已实际应用 显著提升AI算法交付效率 [1] 未来战略规划 - 整合AI技术与终端产品 研发AI PC及无人计算装备 [2] - 持续加大多模态大模型投入 开发自主可控AIGC系统 [2] - 聚焦垂直领域 构建"AI+行业"核心竞争优势 [2]
王晓刚:物理世界模型用于驾驶辅助训练很重要
新浪财经· 2025-04-24 09:04
上海车展与行业趋势 - 上海车展于4月23日开幕 主题为"拥抱创新 共赢未来" 涵盖传统燃油车、新能源车、智能驾驶和供应链技术等领域 高阶智驾、AI大模型和多模态感知等前沿技术加速落地 [1] 供应链成本控制策略 - 保证产品品质和安全性是第一位 通过扩大智驾市场合作量产车辆分摊智能驾驶系统成本 [3] - 行业逐渐形成硬件配置共识 车厂注重传感器型号平台化 减少对特定车型的重复开发和适配工作 [3][4] 技术突破方向 - 生成式智驾是未来重要趋势 利用世界模型重建物理场景 通过仿真环境复现问题场景并生成大量危险场景数据 解决端到端模型的数据局限性和不确定性问题 [5][6] - 多模态大模型改变智能座舱交互形态 具备深度思考能力 支持多轮多人对话和观点综合 打破传统一对一交互模式 [6][10] 数据有效性分析 - 99%的用户真实数据对训练模型没有帮助 因为90%的驾驶数据是匀速直线行驶 缺乏信息增量 只有踩刹车、避让或拐弯等场景的信号才有效 [7] - 复杂场景中80%的驾驶行为可能停止 仅少数高水平驾驶者能顺利通过 这些是高质量数据 类似GPT等大模型也需筛选互联网数据 删除90%以上低质量数据 [7] 模拟数据应用 - 模拟仿真解决驾驶行为生成问题 通过强化学习改进模型 但困难场景仍需寻找 类似DeepSeek面临难问题稀缺的挑战 [8] - 模拟数据需保持硬件系统时空一致性 例如11个摄像头生成的视频轨迹必须一致 避免训练问题 并可兼容设备故障 [8] 智能座舱产品进展 - 多模态识别功能已在某主机厂实现 更多新功能在上海车展展示 正在寻找量产机会 [9] - New Member产品支持多对多、多轮多人对话 能识别对话者身份并参与讨论 总结观点 实现根本性交互变革 [10] - 主动交互可应对长途驾驶犯困问题 如播放音乐或说话 但更需与驾驶结合确保安全 避免长时间聊天 [10][11] 行业变革节点 - 自动驾驶时代到来将根本改变座舱状态 解放人员自由度 [12] - New Member类聊天机器人可与手机等设备打通 实现无处不在的交互 [12] 软硬件开发生态 - 软硬一体可降低成本 但通用性更好的软件生态是关键 如英伟达GPU的强软件生态 [13] - 芯片厂商如英伟达、高通、MTK和英特尔均强调生态建设 软硬结合是趋势 但最优解仅在成本有优势 不影响纯软件开发公司 [13]
研判2025!中国音频行业产业链、市场规模及重点企业分析:AI技术引领音频行业变革,多模态大模型与生成式AI重塑内容创作[图]
产业信息网· 2025-04-23 01:36
内容概况:音频行业的发展得益于多项关键技术的突破。例如,AI技术的应用使得音频内容的创作和 消费更加智能化。多模态大模型和生成式AI正在改变音频内容的创作方式,提升用户体验。这些技术 进步不仅提高了音频内容的质量,还为用户提供了更加个性化和互动化的体验。2024年,中国音频行业 市场规模为287亿元,同比增长14.80%。 相关上市企业:腾讯音乐(01698)、网易云音乐(09899)、漫步者(002351)、中文在线 (300364)、科大讯飞(002230) 相关企业:中文在线数字出版集团股份有限公司、北京掌阅科技股份有限公司、科大讯飞股份有限公 司、讯飞听见科技有限公司、江西铜业股份有限公司、国光电器股份有限公司、深圳市欧陆通电子股份 有限公司、惠威科技集团股份有限公司、漫步者科技有限公司、华为技术有限公司、小米通讯技术有限 公司、阿里巴巴集团控股有限公司 关键词:音频、音频市场规模、音频行业现状、音频发展趋势 一、行业概述 音频是指人耳能够感知的声音信号,其频率范围一般在20赫兹(Hz)到20000赫兹(Hz)之间。从物理 角度来看,音频是通过物体的振动产生的机械波,这种机械波在介质(如空气、水等)中 ...
阶跃星辰多模态大模型为OPPO新机提供技术支持
快讯· 2025-04-22 08:05
阶跃星辰多模态大模型为OPPO新机提供技术支持 《科创板日报》22日讯,《科创板日报》获悉,OPPO年度旗舰机型 Find X8 Ultra 全网首发的"一键闪 记"功能,由阶跃星辰多模态提供技术支持,可智能识别手机屏幕上的内容、生成摘要,并将碎片化的 信息归类到不同的记忆合集,存储到"小布记忆"应用中。除了"一键闪记",此前阶跃星辰还协助OPPO 打造了"一键全能搜"和"一键问屏"两项AI功能。(记者 黄心怡) ...
多模态大模型改造人脸防伪检测,厦大腾讯优图等研究入选CVPR 2025
量子位· 2025-04-21 13:23
skjack 投稿 量子位 | 公众号 QbitAI 近年来,人脸合成技术在快速发展,相关检测任务也逐渐从"看得出来"向"说明白为什么"演进。除了判断一张脸是真还是假,更需要模型能"说 出个所以然"。 在CVPR 2025的工作《Towards General Visual-Linguistic Face Forgery Detection》中,研究团队尝试从 视觉+语言的多模态视角 来改 进伪造检测方法。 但问题也随之而来—— 数据从哪里来? 多模态任务的关键是高质量标注数据。而伪造检测任务相比于传统的图文匹配,难度在于: 目前社区主流的做法大概有两类: 但实验发现,两种方式都存在较明显的问题,尤其在高质量伪造图像中,容易出现"看花眼"的情况——模型或者标注人可能会误判没有问题的 区域,产生所谓的"语言幻觉"。 本文提出了一种简单有效的训练范式,并围绕数据标注问题,构建了一个高质量的文本生成流程。 为什么要引入语言模态? 在伪造检测任务中加入语言,有两个直接的好处: 因此,团队提出了如图所示的一个新的多模态训练框架: △ 图1:视觉语言伪造检测训练范式 该方法的关键在于:不再直接用图像做二分类判断,而是 先 ...