Workflow
多模态模型
icon
搜索文档
普通人用Gemini CLI提效的 1 万种方法!藏师傅保姆级教程
歸藏的AI工具箱· 2025-07-02 09:08
产品定位 - 谷歌推出完全免费的命令行AI工具Gemini CLI,对标近期火爆的Claude Code [1] - 与Cursor等IDE工具的核心区别在于无界面、纯命令行操作,但支持自动执行任务和处理本地文件 [3][4] - 内置谷歌搜索/文件读写等工具,输入/tools可查看全部支持功能 [4] - 支持MCP工具扩展上下文能力 [6] 技术特性 - 多模态能力支持图片内容分析/批量重命名/打标 [38][39] - 可调用本地软件实现视频剪辑(ffmpeg)/文档转换(Pandoc)/图片处理(ImageMagick)等专业功能 [49][63][67] - 通过Homebrew一键安装第三方工具如yt-dlp实现视频下载 [60][61] - 支持将复杂操作封装成脚本实现一键执行,如deep_work.sh脚本可自动开关软件/切换系统模式 [43] 应用场景 - 知识管理:自动分析Obsidian笔记库并建立反向链接/生成索引文档 [34][35][36] - 内容创作:改写文章/生成博客及推特版本/自动制作PPT [31][32][33][46] - 多媒体处理:视频转GIF/添加水印/配乐/序列帧转换 [53][54][57][59] - 文件批处理:图片重命名/尺寸调整/拼接/格式转换 [39][65][66] 用户体验 - 非技术人员可通过自然语言交互完成专业操作,无需编程知识 [8][9] - 采用NPX安装方式降低使用门槛,仅需终端输入npx命令即可运行 [18][19] - 推荐配合Bob翻译软件解决英文界面问题 [24] - 操作限制在指定文件夹内执行避免系统风险 [15][16]
百度文心大模型4.5系列模型开源,国内首发平台GitCode现已开放下载!
财富在线· 2025-06-30 07:40
百度文心大模型4.5系列开源 - 百度文心大模型4.5系列正式开源并在GitCode平台首发上线,面向全球开发者、企业和研究机构免费提供[1] - 开源系列包含10款模型,涵盖47B和3B的混合专家(MoE)模型以及0.3B的稠密参数模型,最大模型总参数量达424B[3] - 采用创新多模态异构模型结构,通过跨模态参数共享实现知识融合,同时保留单一模态专用参数空间[3] 技术架构与性能 - 模型基于飞桨深度学习框架训练,预训练阶段FLOPs利用率达47%,在文本和多模态基准测试中达到SOTA水平[4] - 在指令遵循、世界知识记忆、视觉理解和多模态推理任务上表现突出[4] - 模型权重按Apache 2.0协议开源,配套飞桨产业级开发套件广泛兼容多种芯片[4] GitCode平台生态 - GitCode平台注册用户超620万,月活达120万,已成为国内重要开源社区[5] - 平台集成代码托管、版本控制、协作开发功能,提供开源组件库和开发工具[5] - 文心大模型与GitCode深度融合,推动AI开发模式变革和中国开源生态发展[5] 开发者活动 - GitCode与CSDN联合开展文心大模型实战测评与社区探讨系列活动[6]
百度文心大模型4.5系列正式开源,同步开放API服务
量子位· 2025-06-30 04:39
百度文心大模型4.5系列开源 - 公司正式宣布文心大模型4.5系列开源,同步提供API服务,涵盖10款模型,参数范围从0.3B到47B,覆盖文本和多模态任务[2] - 开源模型权重与代码完全开放,开发者可通过飞桨星河社区、HuggingFace、百度智能云千帆平台下载使用[2] - 开源协议采用Apache 2.0,支持学术研究和产业应用[3][14] 模型技术特点 - 创新性提出多模态异构模型结构,适用于从大语言模型向多模态模型的持续预训练,提升多模态理解能力[5] - 使用飞桨深度学习框架进行高效训练和推理,模型FLOPs利用率达到47%[6][7] - 包含混合专家(MoE)模型和稠密型模型,参数丰富度高[4] 性能表现 - 文本模型在C-Eval、CMMLU、MMLU等基准测试中超越DeepSeek-V3、Qwen3等竞品,例如300B参数模型在C-Eval得分91.5,CMMLU得分91.2[8][10] - 多模态模型在视觉常识、多模态推理等评测中优于OpenAI o1,如VL-424B-A47B模型在MMBench-cn得分90.9,OCRBench得分872[12][13] - 轻量级21B文本模型效果与Qwen3相当,28B多模态模型达到同量级SOTA水平[13] 开发者支持 - 提供开箱即用的工具链,包括ERNIEKit开发套件和FastDeploy部署套件[17] - 飞桨平台广泛兼容多种芯片,降低后训练和部署门槛[15] - 实现框架层(飞桨)与模型层(文心)的"双层开源"[18] 公司AI战略布局 - 构建算力、框架、模型、应用四层全栈技术优势,飞桨为中国首个产业级开源深度学习平台[16][17] - 此次开源强化了公司在AI开源生态的领先地位,覆盖从学术到产业的完整链条[14][18]
老黄亲自挖来两名清华天才;字节 Seed 机器人业务招一号位;清华北大浙大中科大校友跳槽去Meta | AI周报
AI前线· 2025-06-29 06:09
英伟达人才招募 - 英伟达CEO黄仁勋亲自招募两位清华毕业的华人AI专家加入公司,其中朱邦华担任首席研究科学家,焦剑涛具体岗位未透露[1][2] - 两位学者此前联合创办生成式AI创企Nexusflow,并在种子轮融资中筹集1060万美元[2] OpenAI动态 - GPT-5预计7月上线,将支持语音、图像、代码和视频等多模态输入,具备深度推理能力[5] - OpenAI开始租用谷歌AI芯片,首次实质性使用非英伟达芯片[5] - 4位华人AI研究员从OpenAI跳槽至Meta,分别来自清华、北大、浙大和中科大[11][12] 特斯拉与Meta人才竞争 - 特斯拉AI工程师拒绝Meta高薪挖角,表示不愿离开马斯克团队[13] - Meta近期从OpenAI挖走多名顶尖研究员,包括3名曾在DeepMind工作的专家[13] 脑机接口进展 - Neuralink公布2025-2028年发展规划,计划逐步增加植入电极数量并拓展应用场景[14][15][16] - 目前已有7名受试者参与测试,平均每周使用设备50小时[17] - 第二代手术机器人效率提升11倍,电极植入深度可达50毫米以上[17] 机器人及具身智能 - 宇树科技员工约1000人,年度营收超10亿元,受益于具身智能行业发展[18] - 字节跳动Seed团队招募机器人业务负责人,成立独立公司加速布局[9] 大模型竞争 - 马斯克宣布将在7月4日后发布Grok 4大模型[6] - 谷歌发布Imagen4文生图模型,支持2K分辨率图像生成,定价0.04-0.06美元/张[27][28] - 谷歌推出离线机器人AI模型Gemini Robotics On-Device,具备本地视觉识别和动作执行能力[29] 智能硬件 - 小米发布首款AI眼镜,售价1999元起,配备1200万像素摄像头[30] - Solos推出AirGo V2智能眼镜,售价299美元,配备1600万像素摄像头[31][32] 企业动态 - 微软计划对Xbox游戏部门进行大规模裁员,可能涉及整个团队[23] - 阿里巴巴将饿了么和飞猪并入淘天集团,向大消费平台转型[24][25] - 饿了么AI助手"小饿"完成全国部署,日均服务量突破2000万次[33]
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
量子位· 2025-06-28 04:42
阿里多模态模型Qwen-VLo发布 - 全新多模态模型Qwen-VLo在原有基础上全面升级,具备三大核心能力:增强的细节捕捉、单指令图像编辑、多语言支持[2][11] - 模型支持任意分辨率和长宽比的输入输出,突破传统固定格式限制[2] - 新增对现有信息的注释功能(如检测、分割等),示例中成功用红色Mask分割香蕉边缘[12] 核心功能演示 - 连续生成能力:像"连续剧"一样精准生成系列图片,示例展示购物篮装货场景[4][6][7] - 单指令编辑能力:成功将北极熊喝可乐替换为喝牛奶,保持背景和主体高度一致[20][22][23] - 多步骤任务处理:完成草图→上色→加字→编辑汉字的全流程,人物主体稳定[36][37][42] 技术实现特点 - 采用渐进式生成机制:从上到下逐步构建图像,过程中持续优化预测内容[52][56] - 生成效率提升:特别适合广告设计和漫画分镜等长文本图像任务[57][58] - 与GPT-4o差异:官方强调其渐进生成是真实技术实现而非视觉障眼法[50][52] 用户实测表现 - 现实风格处理:成功将照片中的鸟替换为鸽子,但未理解网络热梗"蒜鸟"[26][28][30][32] - 文本编辑能力:在保持背景稳定的前提下,准确修改图像中的中英文内容[44][45] - 创意应用场景:网友实现动漫角色一键上色、定制宣传看板、制作梗图等功能[59][60][62]
月之暗面开源多模态Kimi-2506
快讯· 2025-06-23 00:27
月之暗面开源多模态Kimi-2506 金十数据6月23日讯,大模型平台月之暗面(MoonshotAI)对其开源的多模态模型Kimi-VL-A3B- Thinking进行了大升级,发布了2506版本。在性能表现上,Kimi-VL-A3B-Thinking-2506实现了更聪明且 更省token的突破。在多模态推理基准测试中取得了更好的准确性:MathVision上达到56.9(提升 20.1),MathVista上为80.1(提升8.4),MMMU-Pro上是46.3(提升3.2),MMMU上为64.0(提升 2.1),同时平均所需的思考长度减少了20%。 (AIGC开放社区) ...
小米MiMo-VL VS 千问Qwen2.5-VL | 多模态模型实测
理想TOP2· 2025-06-18 11:43
小米多模态模型MiMo-VL-7B性能评测 - MiMo-VL-7B模型在多项测试中表现优于Qwen2.5-VL-7B,尤其在表格识别和数学解题任务中[3][15][29][35] - Think版本模型性能显著优于No-Think版本,在表格识别准确率和数学解题正确率上差异明显[9][15][35][52] - 模型在简单表格识别任务中表现良好,但在中等复杂度表格识别上仍有不足[9][18][26] - 手写体OCR识别是明显短板,所有版本模型表现均不理想[46][52] - 图像识别基础能力完善,在基础视觉问答任务中表现稳定[61][64] 模型对比分析 - MiMo-VL-7B整体性能优于同参数规模的Qwen2.5-VL-7B,但与72B参数模型仍有差距[5][32][68] - 在数学解题任务中,RL-No-Think版本表现不稳定,出现明显错误[35][40] - 表格识别任务中,Think版本能更好处理合并单元格等复杂结构[15][18][26] - 模型继承了Qwen2.5-VL的ViT部分初始化参数,在视觉特征提取方面具有优势[4] 技术实现细节 - 测试采用vLLM框架在单卡4090上运行,支持最大长度12800[64][65] - 模型提供SFT和RL两个版本,均支持Think/No-Think模式[4][5] - 输入处理支持base64编码图像传输,可实现多模态交互[65][66] - 在语言理解任务中,Think模式能显著提升分析推理能力[53][56]
证券研究报告行业周报:2025年暑期档在即,字节发布豆包大模型1.6-20250615
国盛证券· 2025-06-15 07:53
报告行业投资评级 - 增持(维持)[6] 报告的核心观点 - 2025年传媒弹性方向看好AI应用、IP变现及并购重组,AI应用聚焦新应用的映射投资及部分较成熟应用的数据跟踪,重点关注多模态产业方向;IP变现聚焦有IP优势及全产业链潜力的公司,潮流玩具、影视内容等方向有机会;并购重组重点关注国企方向,在国资委明确国企市值考核的背景下,传媒国企诉求明显提升,部分国企资金优势明显[1] 根据相关目录分别进行总结 投资聚焦 行情概览 - 本周(6.9 - 6.13)中信一级传媒板块上涨1.38%,在新消费等主题带动下上涨[1][10] - 传媒板块本周涨幅前五:元隆雅图(42.9%)、川网传媒(33.5%)、粤传媒(31.8%)、巨人网络(21.9%)、中文在线(21.6%);跌幅前五:歌华有线( - 9.0%)、中国科传( - 9.5%)、湖北广电( - 9.8%)、大晟文化( - 10.2%)、祥源文化( - 15.9%)[13] - 教育&人服板块本周涨幅前五:豆神教育(13.2%)、中国科培(9.0%)、人瑞人才(6.0%)、粉笔(4.6%)、全通教育(4.1%);跌幅前五:科锐国际( - 5.9%)、开元教育( - 6.3%)、宇华教育( - 8.8%)、思考乐教育( - 11.5%)、希望教育( - 11.6%)[14] - 重点港股&中概股上市公司一周走势:泡泡玛特(11.4%)、快手( - 1.9%)、猫眼娱乐(8.2%)、爱奇艺(2.4%)、腾讯控股( - 1.0%)、心动公司(5.7%)、网易 - S(4.0%)、哔哩哔哩(6.8%)、阅文集团(4.8%)、腾讯音乐(2.6%)[14] 本周子板块观点 - 资源整合预期关注中视传媒、国新文化等[1][18] - AI关注荣信文化、奥飞娱乐等[1][18] - 游戏建议关注神州泰岳、恺英网络等[1][18] - 国企关注慈文传媒、皖新传媒等[1][18] - 教育关注学大教育等[1][18] - 港股关注阿里巴巴、腾讯控股等[1][18] 重点事件回顾 - 2025暑期档已汇聚60余部中外影片,国产影片类型丰富,进口大片也将登场,还启动系列活动及电影周,推出惠民观影举措[2][20] - 6月12日字节发布豆包大模型1.6,是国内首款支持多模态理解和256K上下文长度思考的SOAT模型,在多方面取得重大突破,家族成为行业领先顶尖模型[3][20] - OpenAI推出推理模型o3 - pro,回答更受专家认可,取代o1 - pro面向Pro/Team用户开放,o3降价80%引发争议,o3 - pro适合高价值难题求解[4][20] 子板块数据跟踪 游戏 - 近期热门重点游戏包括《现代战舰》《问鼎三国 - 策略国战手游》等[21] - 展示腾讯、完美世界、三七互娱等公司核心游戏畅销榜排名变化情况[23] 院线 - 内地电影市场周总票房(6.7 - 6.13)约2.72亿元(不含服务费),票房排名前三的电影:《碟中谍8》(0.93亿),《时间之子》(0.43亿),《疾速追杀:芭蕾杀姬》(0.30亿)[22] 影视视频 - 2025年6月7日至13日全平台剧集收视播放量,《临江仙》《藏海传》《长安的荔枝》排名前三;综艺收视播放量《哈哈哈哈哈第五季》《奔跑吧第九季》《这是我的西游》排名前三[25]
火山引擎原动力大会即将召开,恒生互联网ETF(159688)大涨超3.7%,恒生科技ETF指数基金(513580)涨超2.8%
21世纪经济报道· 2025-06-09 02:58
港股市场表现 - 6月9日港股高开高走,恒生指数涨超1%,恒生科技指数涨幅扩大至2 33% [1] - 恒生科技ETF指数基金(513580)盘中涨幅达2 82%,持仓股中金蝶国际涨超6%,腾讯音乐-SW、美团-W、京东集团-SW等大涨 [1] - 恒生互联网ETF(159688)大涨3 77% [1] 字节跳动AI大会 - 6月11日字节将在北京召开火山引擎Force原动力大会·春,内容包括豆包大模型家族全面升级及多场分论坛 [1] - 主论坛内容涵盖火山引擎新品发布、AICoding、AIAgent [1] - 行业分论坛包括AI+金融、AI+汽车、AI+生态、AI+医药大健康专场 [1] - 6月12日为开发者交流日,大会涉及芯片、汽车、智能终端、软件应用等领域的企业合作伙伴 [1] 多模态AI动态 - 5月21日谷歌推出Veo 3视频生成模型,实现AI视频音画同步 [2] - 5月23日豆包上线视频通话功能,支持实时视频交流及屏幕分享 [2] - 6月6日快手宣布可灵AI ARR在2025年3月突破1亿美金,4月和5月月度付费金额均突破1亿人民币 [2] - 6月10日苹果WWDC 2025及6月11日字节Force 2025原动力大会·春召开,多模态模型和端侧AI产品有望加速落地 [2] 投资主线分析 - 投资主线降维为三个方向:Deepseek突破与开源引领的科技AI+、消费股估值修复和消费分层复苏、低估红利崛起 [2] - 红利回撤与AI产业趋势相关,AI产业趋势进展取决于应用端和消费端突破 [2] - 消费板块投资核心因子是估值,当前低估值、利率下行、政策催化下复苏周期抬头 [2] - 恒生互联网板块值得重视 [2]
中信建投:多模态产品密集更新,关注WWDC及字节火山大会进展
快讯· 2025-06-09 00:27
多模态动态更新 - 谷歌在2025I/O大会上推出Veo3视频生成模型,实现AI视频音画同步 [1] - 豆包上线视频通话功能,支持实时视频交流及屏幕分享 [1] - 快手宣布可灵AI ARR在2025年3月突破1亿美金,4月和5月月度付费金额均突破1亿人民币 [1] 行业会议展望 - 苹果WWDC2025和字节Force2025原动力大会即将召开 [1] - 多模态模型和端侧AI产品有望加速落地 [1]