Workflow
多模态模型
icon
搜索文档
百度文心大模型4.5系列正式开源,同步开放API服务
量子位· 2025-06-30 04:39
百度文心大模型4.5系列开源 - 公司正式宣布文心大模型4.5系列开源,同步提供API服务,涵盖10款模型,参数范围从0.3B到47B,覆盖文本和多模态任务[2] - 开源模型权重与代码完全开放,开发者可通过飞桨星河社区、HuggingFace、百度智能云千帆平台下载使用[2] - 开源协议采用Apache 2.0,支持学术研究和产业应用[3][14] 模型技术特点 - 创新性提出多模态异构模型结构,适用于从大语言模型向多模态模型的持续预训练,提升多模态理解能力[5] - 使用飞桨深度学习框架进行高效训练和推理,模型FLOPs利用率达到47%[6][7] - 包含混合专家(MoE)模型和稠密型模型,参数丰富度高[4] 性能表现 - 文本模型在C-Eval、CMMLU、MMLU等基准测试中超越DeepSeek-V3、Qwen3等竞品,例如300B参数模型在C-Eval得分91.5,CMMLU得分91.2[8][10] - 多模态模型在视觉常识、多模态推理等评测中优于OpenAI o1,如VL-424B-A47B模型在MMBench-cn得分90.9,OCRBench得分872[12][13] - 轻量级21B文本模型效果与Qwen3相当,28B多模态模型达到同量级SOTA水平[13] 开发者支持 - 提供开箱即用的工具链,包括ERNIEKit开发套件和FastDeploy部署套件[17] - 飞桨平台广泛兼容多种芯片,降低后训练和部署门槛[15] - 实现框架层(飞桨)与模型层(文心)的"双层开源"[18] 公司AI战略布局 - 构建算力、框架、模型、应用四层全栈技术优势,飞桨为中国首个产业级开源深度学习平台[16][17] - 此次开源强化了公司在AI开源生态的领先地位,覆盖从学术到产业的完整链条[14][18]
老黄亲自挖来两名清华天才;字节 Seed 机器人业务招一号位;清华北大浙大中科大校友跳槽去Meta | AI周报
AI前线· 2025-06-29 06:09
英伟达人才招募 - 英伟达CEO黄仁勋亲自招募两位清华毕业的华人AI专家加入公司,其中朱邦华担任首席研究科学家,焦剑涛具体岗位未透露[1][2] - 两位学者此前联合创办生成式AI创企Nexusflow,并在种子轮融资中筹集1060万美元[2] OpenAI动态 - GPT-5预计7月上线,将支持语音、图像、代码和视频等多模态输入,具备深度推理能力[5] - OpenAI开始租用谷歌AI芯片,首次实质性使用非英伟达芯片[5] - 4位华人AI研究员从OpenAI跳槽至Meta,分别来自清华、北大、浙大和中科大[11][12] 特斯拉与Meta人才竞争 - 特斯拉AI工程师拒绝Meta高薪挖角,表示不愿离开马斯克团队[13] - Meta近期从OpenAI挖走多名顶尖研究员,包括3名曾在DeepMind工作的专家[13] 脑机接口进展 - Neuralink公布2025-2028年发展规划,计划逐步增加植入电极数量并拓展应用场景[14][15][16] - 目前已有7名受试者参与测试,平均每周使用设备50小时[17] - 第二代手术机器人效率提升11倍,电极植入深度可达50毫米以上[17] 机器人及具身智能 - 宇树科技员工约1000人,年度营收超10亿元,受益于具身智能行业发展[18] - 字节跳动Seed团队招募机器人业务负责人,成立独立公司加速布局[9] 大模型竞争 - 马斯克宣布将在7月4日后发布Grok 4大模型[6] - 谷歌发布Imagen4文生图模型,支持2K分辨率图像生成,定价0.04-0.06美元/张[27][28] - 谷歌推出离线机器人AI模型Gemini Robotics On-Device,具备本地视觉识别和动作执行能力[29] 智能硬件 - 小米发布首款AI眼镜,售价1999元起,配备1200万像素摄像头[30] - Solos推出AirGo V2智能眼镜,售价299美元,配备1600万像素摄像头[31][32] 企业动态 - 微软计划对Xbox游戏部门进行大规模裁员,可能涉及整个团队[23] - 阿里巴巴将饿了么和飞猪并入淘天集团,向大消费平台转型[24][25] - 饿了么AI助手"小饿"完成全国部署,日均服务量突破2000万次[33]
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
量子位· 2025-06-28 04:42
阿里多模态模型Qwen-VLo发布 - 全新多模态模型Qwen-VLo在原有基础上全面升级,具备三大核心能力:增强的细节捕捉、单指令图像编辑、多语言支持[2][11] - 模型支持任意分辨率和长宽比的输入输出,突破传统固定格式限制[2] - 新增对现有信息的注释功能(如检测、分割等),示例中成功用红色Mask分割香蕉边缘[12] 核心功能演示 - 连续生成能力:像"连续剧"一样精准生成系列图片,示例展示购物篮装货场景[4][6][7] - 单指令编辑能力:成功将北极熊喝可乐替换为喝牛奶,保持背景和主体高度一致[20][22][23] - 多步骤任务处理:完成草图→上色→加字→编辑汉字的全流程,人物主体稳定[36][37][42] 技术实现特点 - 采用渐进式生成机制:从上到下逐步构建图像,过程中持续优化预测内容[52][56] - 生成效率提升:特别适合广告设计和漫画分镜等长文本图像任务[57][58] - 与GPT-4o差异:官方强调其渐进生成是真实技术实现而非视觉障眼法[50][52] 用户实测表现 - 现实风格处理:成功将照片中的鸟替换为鸽子,但未理解网络热梗"蒜鸟"[26][28][30][32] - 文本编辑能力:在保持背景稳定的前提下,准确修改图像中的中英文内容[44][45] - 创意应用场景:网友实现动漫角色一键上色、定制宣传看板、制作梗图等功能[59][60][62]
月之暗面开源多模态Kimi-2506
快讯· 2025-06-23 00:27
月之暗面开源多模态Kimi-2506 金十数据6月23日讯,大模型平台月之暗面(MoonshotAI)对其开源的多模态模型Kimi-VL-A3B- Thinking进行了大升级,发布了2506版本。在性能表现上,Kimi-VL-A3B-Thinking-2506实现了更聪明且 更省token的突破。在多模态推理基准测试中取得了更好的准确性:MathVision上达到56.9(提升 20.1),MathVista上为80.1(提升8.4),MMMU-Pro上是46.3(提升3.2),MMMU上为64.0(提升 2.1),同时平均所需的思考长度减少了20%。 (AIGC开放社区) ...
小米MiMo-VL VS 千问Qwen2.5-VL | 多模态模型实测
理想TOP2· 2025-06-18 11:43
小米多模态模型MiMo-VL-7B性能评测 - MiMo-VL-7B模型在多项测试中表现优于Qwen2.5-VL-7B,尤其在表格识别和数学解题任务中[3][15][29][35] - Think版本模型性能显著优于No-Think版本,在表格识别准确率和数学解题正确率上差异明显[9][15][35][52] - 模型在简单表格识别任务中表现良好,但在中等复杂度表格识别上仍有不足[9][18][26] - 手写体OCR识别是明显短板,所有版本模型表现均不理想[46][52] - 图像识别基础能力完善,在基础视觉问答任务中表现稳定[61][64] 模型对比分析 - MiMo-VL-7B整体性能优于同参数规模的Qwen2.5-VL-7B,但与72B参数模型仍有差距[5][32][68] - 在数学解题任务中,RL-No-Think版本表现不稳定,出现明显错误[35][40] - 表格识别任务中,Think版本能更好处理合并单元格等复杂结构[15][18][26] - 模型继承了Qwen2.5-VL的ViT部分初始化参数,在视觉特征提取方面具有优势[4] 技术实现细节 - 测试采用vLLM框架在单卡4090上运行,支持最大长度12800[64][65] - 模型提供SFT和RL两个版本,均支持Think/No-Think模式[4][5] - 输入处理支持base64编码图像传输,可实现多模态交互[65][66] - 在语言理解任务中,Think模式能显著提升分析推理能力[53][56]
证券研究报告行业周报:2025年暑期档在即,字节发布豆包大模型1.6-20250615
国盛证券· 2025-06-15 07:53
报告行业投资评级 - 增持(维持)[6] 报告的核心观点 - 2025年传媒弹性方向看好AI应用、IP变现及并购重组,AI应用聚焦新应用的映射投资及部分较成熟应用的数据跟踪,重点关注多模态产业方向;IP变现聚焦有IP优势及全产业链潜力的公司,潮流玩具、影视内容等方向有机会;并购重组重点关注国企方向,在国资委明确国企市值考核的背景下,传媒国企诉求明显提升,部分国企资金优势明显[1] 根据相关目录分别进行总结 投资聚焦 行情概览 - 本周(6.9 - 6.13)中信一级传媒板块上涨1.38%,在新消费等主题带动下上涨[1][10] - 传媒板块本周涨幅前五:元隆雅图(42.9%)、川网传媒(33.5%)、粤传媒(31.8%)、巨人网络(21.9%)、中文在线(21.6%);跌幅前五:歌华有线( - 9.0%)、中国科传( - 9.5%)、湖北广电( - 9.8%)、大晟文化( - 10.2%)、祥源文化( - 15.9%)[13] - 教育&人服板块本周涨幅前五:豆神教育(13.2%)、中国科培(9.0%)、人瑞人才(6.0%)、粉笔(4.6%)、全通教育(4.1%);跌幅前五:科锐国际( - 5.9%)、开元教育( - 6.3%)、宇华教育( - 8.8%)、思考乐教育( - 11.5%)、希望教育( - 11.6%)[14] - 重点港股&中概股上市公司一周走势:泡泡玛特(11.4%)、快手( - 1.9%)、猫眼娱乐(8.2%)、爱奇艺(2.4%)、腾讯控股( - 1.0%)、心动公司(5.7%)、网易 - S(4.0%)、哔哩哔哩(6.8%)、阅文集团(4.8%)、腾讯音乐(2.6%)[14] 本周子板块观点 - 资源整合预期关注中视传媒、国新文化等[1][18] - AI关注荣信文化、奥飞娱乐等[1][18] - 游戏建议关注神州泰岳、恺英网络等[1][18] - 国企关注慈文传媒、皖新传媒等[1][18] - 教育关注学大教育等[1][18] - 港股关注阿里巴巴、腾讯控股等[1][18] 重点事件回顾 - 2025暑期档已汇聚60余部中外影片,国产影片类型丰富,进口大片也将登场,还启动系列活动及电影周,推出惠民观影举措[2][20] - 6月12日字节发布豆包大模型1.6,是国内首款支持多模态理解和256K上下文长度思考的SOAT模型,在多方面取得重大突破,家族成为行业领先顶尖模型[3][20] - OpenAI推出推理模型o3 - pro,回答更受专家认可,取代o1 - pro面向Pro/Team用户开放,o3降价80%引发争议,o3 - pro适合高价值难题求解[4][20] 子板块数据跟踪 游戏 - 近期热门重点游戏包括《现代战舰》《问鼎三国 - 策略国战手游》等[21] - 展示腾讯、完美世界、三七互娱等公司核心游戏畅销榜排名变化情况[23] 院线 - 内地电影市场周总票房(6.7 - 6.13)约2.72亿元(不含服务费),票房排名前三的电影:《碟中谍8》(0.93亿),《时间之子》(0.43亿),《疾速追杀:芭蕾杀姬》(0.30亿)[22] 影视视频 - 2025年6月7日至13日全平台剧集收视播放量,《临江仙》《藏海传》《长安的荔枝》排名前三;综艺收视播放量《哈哈哈哈哈第五季》《奔跑吧第九季》《这是我的西游》排名前三[25]
火山引擎原动力大会即将召开,恒生互联网ETF(159688)大涨超3.7%,恒生科技ETF指数基金(513580)涨超2.8%
21世纪经济报道· 2025-06-09 02:58
港股市场表现 - 6月9日港股高开高走,恒生指数涨超1%,恒生科技指数涨幅扩大至2 33% [1] - 恒生科技ETF指数基金(513580)盘中涨幅达2 82%,持仓股中金蝶国际涨超6%,腾讯音乐-SW、美团-W、京东集团-SW等大涨 [1] - 恒生互联网ETF(159688)大涨3 77% [1] 字节跳动AI大会 - 6月11日字节将在北京召开火山引擎Force原动力大会·春,内容包括豆包大模型家族全面升级及多场分论坛 [1] - 主论坛内容涵盖火山引擎新品发布、AICoding、AIAgent [1] - 行业分论坛包括AI+金融、AI+汽车、AI+生态、AI+医药大健康专场 [1] - 6月12日为开发者交流日,大会涉及芯片、汽车、智能终端、软件应用等领域的企业合作伙伴 [1] 多模态AI动态 - 5月21日谷歌推出Veo 3视频生成模型,实现AI视频音画同步 [2] - 5月23日豆包上线视频通话功能,支持实时视频交流及屏幕分享 [2] - 6月6日快手宣布可灵AI ARR在2025年3月突破1亿美金,4月和5月月度付费金额均突破1亿人民币 [2] - 6月10日苹果WWDC 2025及6月11日字节Force 2025原动力大会·春召开,多模态模型和端侧AI产品有望加速落地 [2] 投资主线分析 - 投资主线降维为三个方向:Deepseek突破与开源引领的科技AI+、消费股估值修复和消费分层复苏、低估红利崛起 [2] - 红利回撤与AI产业趋势相关,AI产业趋势进展取决于应用端和消费端突破 [2] - 消费板块投资核心因子是估值,当前低估值、利率下行、政策催化下复苏周期抬头 [2] - 恒生互联网板块值得重视 [2]
中信建投:多模态产品密集更新,关注WWDC及字节火山大会进展
快讯· 2025-06-09 00:27
多模态动态更新 - 谷歌在2025I/O大会上推出Veo3视频生成模型,实现AI视频音画同步 [1] - 豆包上线视频通话功能,支持实时视频交流及屏幕分享 [1] - 快手宣布可灵AI ARR在2025年3月突破1亿美金,4月和5月月度付费金额均突破1亿人民币 [1] 行业会议展望 - 苹果WWDC2025和字节Force2025原动力大会即将召开 [1] - 多模态模型和端侧AI产品有望加速落地 [1]
当前时点如何看光模块需求
2025-06-02 15:44
纪要涉及的行业和公司 - **行业**:光通信行业、云计算行业、AI 行业 - **公司**:微软、Meta、谷歌、亚马逊、宏盛、旭创、天孚通信、新易盛、世嘉光子、博创科技、德科立、源杰科技、Oracle、AIT、AXIT、苹果 纪要提到的核心观点和论据 - **光模块板块需求强劲且呈长期增长趋势**:国内和海外 AI 算力供应链一季报成绩良好,北美四大云服务商一季报超预期,市场对北美一季报反馈积极,2025 年北美云服务商资本支出预期上调,反映市场信心增强[1][2][4] - **2026 年光通信行业需求可能超预期**:2026 年需求指引时间点提前,过去每年指引时间点都提前,通常发生在需求强劲时[8] - **市场对 2026 年增长预期悲观但可能反转**:从股价和市盈率定价看,市场认为 26 年云商增速大幅下降,甚至可能负增长,但近期可能因多领域交叉验证而反转[9][13] - **云商资本开支有周期性规律且影响光通信行业**:云商资本开支呈现三年双位数增长加一年低增速/负增速规律,过去十年北美四家云商资本开支复合年均增长率为 26%,过去五年为 27%,历史上三次低增速分别在 2015、2019 和 2023 年,该规律与光通信行业发展节奏和投资力度紧密相关[10][11] - **新兴技术驱动光通信行业发展**:AI、元宇宙等新兴技术影响光通信行业发展方向和投资力度,如 16 - 18 年云计算爆发、21 - 22 年底元宇宙拉动投资、24 年 AI 带动行业高增速[12] - **AI 模型训练和推理有新趋势**:AI 模型训练方面多模态模型发展值得期待,推理方面 Agent AI 将带来大量 token 消耗,导致推理算力需求爆发式增长[14][15] - **不同云服务商需求有差异**:谷歌和微软未来主要需求与 1.6T 相关,预计 2026 年 1.6T 需求至少翻倍;Meta 和 AWS 的 800G 需求持续提升,可能在 2026 年下半年或更晚上升至 1.6T[16][17] - **二线厂商增长迅速**:Oracle 和 AIT 增长快,目前一年 400G/800G 采购量约为头部云商的三分之一或四分之一,2026 年预计显著增长甚至翻倍[18][19] - **苹果有望推动算力需求膨胀**:苹果在 AI 领域表现积极,有望成为第七大云服务提供商,推动整体算力需求膨胀[20] - **投资策略应优先考虑龙头企业**:行业贝塔系数反转,龙头企业估值低于平均水平,推荐宏盛、旭创和天孚通信,新易盛估值更低也值得关注,光模块机构持仓大幅下降,是较好配置时点[21] 其他重要但可能被忽略的内容 - **云服务商调整费用支持资本开支**:Meta 下调费用展望控制成本投入资本开支,谷歌降本增效提升营业利润率,为增加 CAPEX 创造条件[6] - **部分公司一季报超预期**:世嘉光子、博创科技和新易盛一季报超预期,毛利率持续提升,反映供不应求状况[22] - **部分公司订单良好值得关注**:德科立和源杰科技订单情况良好,虽业绩未显著释放,但最终会出业绩,建议重点关注[23] - **投资决策需平衡宏观与微观分析**:综合考虑宏观与微观维度,避免忽略微观变化对 EPS 的影响,准确描绘定价模型[25]
恺英网络20250531
2025-06-02 15:44
纪要涉及的行业和公司 - 行业:游戏行业 - 公司:恺英网络、腾讯、网易、米哈游、世纪华通 纪要提到的核心观点和论据 游戏行业 - 观点:建议投资者超配游戏板块 - 论据:2025 年腾讯、网易和米哈游三家大厂产品线表现不强,预计 A 股游戏板块二季度到三季度市场占有率上升;核心游戏公司估值在 15 - 18 倍,板块处于上行通道;暑期游戏和 AI 应用数据预计表现良好,多模态模型可能成为催化剂[2][4] 恺英网络 - 观点:维持重点推荐评级,与世纪华通并列首推 - 论据:当前估值 17 倍,有机会通过 IP 平台和 AI 布局抢占优势,跳出传统游戏产品周期局限[3][10] - 观点:传奇游戏市场表现优异 - 论据:在传奇游戏市场市占率超 50%;通过搭建用户平台和打造传奇生态延长玩家生命周期、降低投流成本;“传奇盒子”收入从 2022 年 2 亿增长到 2024 年 9 亿,日活用户从 2024 年初 40 万增长到年底 45 万,有望达 50 万[2][5] - 观点:新产品上线节奏加快 - 论据:2024 年第四季度至今,多款产品有上线计划,如“三国天下归心”“大富翁”“拳皇”等,部分产品已上线或即将定档[2][6] - 观点:海外业务有望延续高增长 - 论据:已在香港和韩国设立办公室,收购复古情怀 IP,搭建海外发行平台;2025 年有望延续 2024 年 220%的高增长态势,重点关注东南亚市场 RO 仙境传说等 IP 产品[2][7] - 观点:AI 领域布局广泛 - 论据:计划发布 AI 陪伴、社交应用“IF”,女性向产品研发进展顺利;暑期将发布 AI 游戏引擎 2.0 版本;探索 AI 辅助创作的双边用户平台商业逻辑;布局 AI 玩具,与大鹏眼镜合作探索 AI 眼镜生态[2][8][9] 其他重要但是可能被忽略的内容 - 5 月 21 日“天使之战”在欧美地区上线,5 月 23 日“爆炸骑兵”在东南亚上线,6 月 11 日“星苍之野望”将在日本地区定档,6 月“开心小矿工”可能上线[6] - 恺英网络计划拓展其他国际地区业务布局,并可能推出 AI 生成游戏[7]