多模态大模型

搜索文档
蚂蚁集团副总裁、前基础大模型负责人徐鹏离职
证券时报· 2025-04-14 11:01
高管变动与AI部门调整 - 蚂蚁集团副总裁、前基础大模型负责人徐鹏已离职 徐鹏曾担任AI创新研发与应用部门NextEvo负责人 负责蚂蚁百灵大模型研发工作 [1][2] - NextEvo为蚂蚁内部AI精英部门 2023年在国际期刊和会议发表超30篇论文 开源了DLRover和GLake项目 [2] - 徐鹏拥有11年谷歌工作经历 曾负责谷歌翻译核心技术研发 并参与广告系统算法开发 [2] 组织架构与战略调整 - 蚂蚁集团成立数字支付事业群和支付宝事业群 实行轮值总裁制 首任任期至2025年6月30日 [3] - 新架构旨在加速双飞轮和AI战略推进 数字支付事业群聚焦创新支付产品 支付宝事业群专注用户增长与商业化 [3] - 2025年3月1日起 韩歆毅将接任CEO 井贤栋将更专注于董事长职责 [3] AI技术研发进展 - 蚂蚁集团正在研发百灵多模态大模型 已进入内测阶段 该模型可同时处理文字、图像、声音等信息 [2] - NextEvo部门承担蚂蚁AI所有核心技术研发 包括百灵大模型系列产品 [2]
夸克“AI解题大师”:这哪里是解题,分明是AI家教空降!
硬AI· 2025-04-02 10:12
产品功能 - 夸克"AI解题大师"提供深度解题功能,通过多模态大模型实现秒级精准识别手写体与印刷体题目[6] - 采用分层递进式解析模式,包含考点分析、公式推导、图文解释及知识点拓展,形成"讲透一道题,学会一类题"的教学闭环[9] - 配备AI对话追问功能,支持实时互动答疑,通过通俗化案例解析复杂概念[12][13] - 提供类似题推荐系统,构建"识别-解析-练习"的完整学习路径[13] 技术架构 - 核心采用阿里自研推理及多模态大模型+夸克"灵知"学习大模型,具备教育领域专业预训练经验[14] - 基于"AI超级框"平台实现多智能体协同,包括扫描智能体、题库智能体、对话智能体等模块化分工[14] - 整合夸克多年积累的海量全学科题库资源,覆盖K12至职业资格考试全学段[15][16] 市场定位 - 突破传统AI搜题工具局限,从答案搬运转向思维训练,重新定义AI学习产品价值[17] - 目标用户覆盖K12学生、大学生、职场人士等全年龄段学习需求[16] - 推动行业从效率工具向"AI家教"形态进化,确立深度思考与启发式教学新标准[17] 战略布局 - 作为阿里大模型在教育场景的旗舰应用,体现公司AI平台化战略的前瞻部署[14] - 通过"AI超级框+学科Agent"架构展示技术整合能力,为后续功能扩展预留接口[14] - 预示公司将围绕"AI家教"概念持续迭代,可能延伸至更广的教育科技领域[18]
Hi 机器人丨“大脑”“小脑”再进化,人形机器人又迎新突破
搜狐财经· 2025-03-26 14:53
人形机器人技术突破 - 人形机器人进化速度超预期,涵盖运动控制、流水线作业、家庭照护等多领域 [3] - 全球首个实现侧空翻的电驱机器人,0.5秒内完成横向能量爆发,单侧腿部瞬时压力达体重4.5倍 [5] - 机器人动作能力显著提升,可完成丝滑街舞、鲤鱼打挺、格斗武术等复杂动作,依赖动力系统、智能算法、感知技术集成 [7] 智能系统升级 - 最新机型融合运动智能、作业智能、交互智能,具备骑车购物、缝补衣物、拟人化交流等功能 [9] - 多模态大模型实现毫秒级反应速度,突破传统文本生成语音的延迟瓶颈 [11] - 工程优化后模型时延降至毫秒级,直接实现图像/语音到语音的转换,省略中间计算过程 [13] 行业应用场景拓展 - 机器人从工业场景向家庭场景渗透,提供陪伴、照护等生活服务 [3][9] - 技术迭代推动机器人执行能力多样化,包括舞蹈表演、家务协助等高复杂度任务 [7][9]
阶跃星辰 Tech Fellow 段楠:Step-Video 系列模型的关键技术解读
AI科技大本营· 2025-03-21 06:35
2025全球机器学习技术大会 - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行 设有12大技术专题 汇聚50+位院士 IEEE Fellow等顶尖专家 [2] - 专题涵盖智能体 联邦学习 多模态大模型 强化学习等前沿议题 [2] - 大会设置AI企业创新展区 展示产业链技术产品方案 展位所剩不多 [9][11] 段楠博士技术分享 - 阶跃星辰Tech Fellow段楠博士将在「多模态大模型前沿」专场分享《视频生成基础模型进展 挑战和未来》 [2] - 段楠博士曾任微软亚洲研究院资深首席研究员12年 专注自然语言处理 多模态基础模型等领域 [4] - 分享将围绕开源Step-Video系列模型 剖析文生视频 图生视频等任务的最新进展 [6] 阶跃星辰开源模型 - Step-Video-T2V为300亿参数视频生成模型 支持8-10秒540P视频 覆盖11类内容生成需求 中英双语输入 [5][6] - Step-Audio是首款工业级开源语音交互模型 支持多语种实时高保真生成 适用于客服 翻译等场景 [5][6] - 两款模型在多项指标上超越现有开源模型 已应用于自动驾驶 影视创作等领域 [6] 行业影响与参与 - 大会为科研学者 技术专家提供前沿洞见 推动AI技术变革与应用落地 [8] - 活动旨在促进AI生态融合 探索产业升级路径 拓展应用场景 [9][11]
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
量子位· 2025-03-18 22:20
文章核心观点 - 东南大学、香港中文大学、蚂蚁集团等研究人员提出的LMM - R1框架,通过创新两阶段训练策略解决多模态领域难题,提升多模态大模型推理能力,且成本低效果好,有强大应用潜力 [2][3][4] 分组1:LMM - R1框架背景与优势 - 多模态大模型在深度数学推理任务上表现不佳,小型模型更明显 [1] - LMM - R1框架创造性引入规则化奖励函数机制,仅需240元GPU成本,将多模态模型推理能力提升至工业级应用标准 [4] - 经LMM - R1框架强化的QwenVL - 2.5 - 3B模型,在推箱子等任务中超越100B +参数量产品级大模型 [4] 分组2:从文本到多模态推理能力迁移挑战及解决 - 将基于规则奖励的强化学习扩展到多模态领域面临数据限制和基础推理能力薄弱两大挑战 [5][6] - LMM - R1框架通过创新两阶段训练策略解决上述问题 [5] 分组3:LMM - R1两阶段强化学习策略 - 第一阶段基础推理增强(FRE),利用纯文本推理数据增强模型基础推理能力,避开多模态数据限制 [7] - 第二阶段多模态泛化训练(MGT),将第一阶段推理能力泛化到多模态领域,避免依赖昂贵多模态训练数据 [9] 分组4:实验结果 - 以Qwen2.5 - VL - Instruct - 3B为基准模型,经LMM - R1框架训练后在几何推理、感知 - 推理平衡、智能体相关领域基准测试上显著提升 [10] - 在纯文本和多模态基准测试上平均提升约4.5% - 4.8%,推理密集型任务效果明显,避免推理能力退化问题 [11] - 在推箱子任务中,经LMM - R1框架强化后的模型仅通过初始画面即可完成完整动作序列规划 [12] 分组5:LMM - R1框架应用潜力与发展 - 3B规模小模型使用LMM - R1两阶段RL训练可极大增强推理能力,框架有强大应用潜力 [13] - 框架基于OpenRLHF实现完全自主研发,构建高效稳定训练体系,降低资源消耗 [13] - 项目开源后获学术界关注,技术方案被多个知名开源项目采纳,在GitHub获超500 +星标关注 [13] - 团队将持续深耕多模态模型领域,推动技术落地应用,与开源社区共建多模态强化学习框架 [14]
海康威视:跟踪报告之四:宏观信心修复,大模型规模化落地变现开启-20250309
光大证券· 2025-03-08 18:39
报告公司投资评级 - 维持“买入”评级 [3][27] 报告的核心观点 - 2024年公司营收增长但归母净利润下降,业绩短期承压;2月制造业PMI回暖,宏观信心修复,此前压制业绩和估值的宏观因素边际改善;政治局集体学习强调平安中国建设,安防及数字化治理项目有望加速落地,公司PBG业务或受益;“多模态大模型+智能硬件”将开启规模化落地变现;24H1创新业务和海外主业占比过半,国内主业2025年轻装上阵;智能平权趋势下,公司具备多模态大模型、端侧感知层设备优势及海量用户和行业经验,长期受益概率提升 [1][2][3][23][27] 根据相关目录分别进行总结 宏观经济与公司业绩 - 2024年公司实现营业收入924.86亿元,同比增长3.52%;实现归母净利润119.59亿元,同比下降15.23% [1][23] - 2025年2月制造业PMI录得50.2%,再次进入扩张区间,较上月回升1.1个百分点,由产需指数拉动,需求快速恢复,采购量、生产指数均升至52%以上,从业人员指数创2023年5月以来新高 [1][10] 政策利好 - 2月28日中共中央政治局就建设更高水平平安中国进行第十九次集体学习,强调要把平安中国建设推向更高水平,预计今年安防及数字化治理项目将加速落地,公司PBG业务有望直接受益 [2][12] 大模型业务 - 公司基于观澜大模型技术体系,推出文搜超脑、文搜主机等文搜计算系列产品,实现高效检索及实时预警,助力安防业务提智增效 [15] - 大模型加持的智能计算产品在智算、智存、智搜、智用方面升级,满足用户多样化管理需求,具备“识更多”“搜更准”“应用更灵活”特点 [15] - 公司推出视觉大模型摄像机,部署至端侧,提升成像画质、目标检出率,降低误报率,在周界应用中,大模型警戒系列摄像机识别距离提升,误报率下降90%以上 [20] 公司业务结构 - 2024H1公司创新业务及境外业务营收占比持续提升,境外业务营收占比提升至28%,创新业务占比营收提升至25%;公司基于创新业务在多领域布局,大模型催化更直接,境外业务通过扩充产品线、增加项目型销售获得较快增长 [23] 投资建议 - 考虑下游需求弱复苏,下调2025年归母净利润预测为145.43亿元,下调幅度为24.32%,新增2026年预测为167.15亿元,当前市值对应24 - 26PE分别为26X、21X、19X,持续看好国内业务修复和创新业务增长态势,维持“买入”评级 [3][27] 财务预测 |指标|2022|2023|2024E|2025E|2026E| |----|----|----|----|----|----| |营业收入(百万元)|83,166|89,340|92,487|104,364|118,403| |营业收入增长率|2.14%|7.42%|3.52%|12.84%|13.45%| |归母净利润(百万元)|12,837|14,108|11,959|14,543|16,715| |归母净利润增长率|-23.59%|9.90%|-15.23%|21.61%|14.93%| |EPS(元)|1.36|1.51|1.30|1.58|1.81| |ROE(归属母公司)(摊薄)|18.77%|18.48%|14.96%|16.67%|17.55%| |P/E|25|22|26|21|19| |P/B|4.6|4.1|3.9|3.6|3.3| [4][28]
【海康威视(002415.SZ)】宏观信心修复,大模型规模化落地变现开启——跟踪报告之四(刘凯/王之含)
光大证券研究· 2025-03-07 14:30
公司业绩表现 - 2024年公司实现营业收入924.86亿元,同比增长3.52%,但归母净利润119.59亿元同比下降15.23%,业绩短期承压 [2] 宏观环境改善 - 2月制造业PMI录得50.2%,较上月回升1.1个百分点,进入扩张区间,产需指数拉动明显,采购量和生产指数均升至52%以上,从业人员指数创2023年5月以来新高 [3] - 宏观信心修复,此前压制公司业绩和估值的宏观因素边际显著改善 [3] 政策支持与业务机会 - 中共中央政治局集体学习强调建设更高水平平安中国,预计安防及数字化治理项目将加速落地,公司PBG业务有望直接受益 [4] 技术创新与产品布局 - 公司发布多模态大模型文搜存储系列产品(文搜NVR、文搜CVR),将大模型技术与嵌入式智能硬件深度融合,目标实现更广、更准、更快、更易的检索,推动多模态大模型规模化、平民化、普惠化落地 [5] - 创新业务在端侧/机器人/智联汽车/存储等领域布局,大模型催化更为直接,境外业务通过扩充产品线和增加项目型销售持续较快增长 [6] 业务结构优化 - 24H1创新业务+海外主业占比已过半,国内主业预计2025年轻装上阵 [6]
声网发布对话式AI引擎:让任意大模型开口说话
36氪· 2025-03-07 09:37
产品发布 - 公司于3月6日举办"AI开口,互动无界"发布会,推出全球首个对话式AI引擎,支持任意文本大模型升级为多模态大模型 [2] - 定价策略为0.098元/分钟,单次赠送1000分钟,智能打断功能增值服务0.042元/分钟 [2][7] 核心技术能力 - 模型选择多:支持DeepSeek、ChatGPT等全球主流大模型及语音合成供应商,兼容30000+终端机型 [4] - 响应速度快:全链路优化后语音对话延迟中位数650ms,打断响应低至340ms [5] - 抗干扰能力强:选择性注意力锁定功能屏蔽95%环境噪声,80%丢包率下仍可稳定对话 [5] - 开发效率高:仅需2行代码15分钟完成部署,支持LLM与TTS的URL/Key快速接入 [6] 成本效益分析 - 用户单次对话平均3轮问答21.1秒,成本约3分钱,月均15次对话成本不足5毛钱,年成本5元 [8] 应用场景拓展 - 主要落地场景包括智能助手、虚拟陪伴、口语陪练、智能客服及智能硬件 [10] - 智能硬件领域可实现语音控制、智能看护、个性化服务,覆盖AI玩具、教育硬件、穿戴设备等 [10]
集齐了「鸿蒙」和「DeepSeek」两颗「龙珠」,深思考给出端侧AI「深度思考」
36氪· 2025-02-27 10:31
核心观点 - AI端侧模型与硬件模组一体化正迎来智能终端大爆发,2032年全球AI端侧市场规模预计达1436亿美元 [6] - 深思考人工智能(iDeepWise.ai)发布基于鸿蒙系统的端侧多模态大模型TinyDongni及DeepSeek-R1优化版本,形成国产化全链条解决方案 [7][13][15] - 公司通过自研Dongni-AMDC压缩算法实现模型高效量化,在保持精度的同时将DeepSeek-R1压缩至1B参数规模 [8][11][24] - 端侧模型在医疗、汽车、机器人等强隐私场景展现突出优势,已实现商业化落地 [39][45][46][47] 技术突破 - 自研Dongni-AMDC算法实现模型权重和输入数据双重压缩,使1B模型在RK3588芯片上达到10.2 tokens/s推理速度 [11][24][34] - 创新多层次语义解码架构Dongni-v,通过模态交互机制实现图像文本特征跨模态对齐,赋予模型多模态能力 [12][26][27] - TinyDongni模型支持32K超长上下文理解,内存占用降低30%,在RK3588上推理速度达13.6 tokens/s [21][35] 行业落地 - 医疗领域:AI显微镜已实现3000万例宫颈癌筛查,模型学习1687万篇医学论文 [46][47] - 智能汽车:实现手势/语音/图像/情感多模态交互,支持实时车内外场景分析 [48] - AI PC:推出本地多模态搜索、AI办公、情感交流"Her模式"及"AI Recall"功能 [40][42][43] - 机器人:应用于情感陪伴、养老、教育场景,具备情绪识别与语音对话能力 [45] 产业链协同 - 与国产模组厂商广和通、深开鸿合作,推出基于RK3588和QCS8550芯片的硬件解决方案 [30][31] - 模型适配OpenHarmony/Linux/Windows/Android系统,开发周期缩短50% [10][30][32] - 形成"模型+系统套件+算力模组"一站式方案,打破国产算力性能不足的认知 [12][35][38]