Gemma 3n

搜索文档
0.3B,谷歌开源新模型,手机断网也能跑,0.2GB内存就够用
36氪· 2025-09-05 07:14
产品发布与核心特性 - 谷歌开源全新开放式嵌入模型EmbeddingGemma 拥有3.08亿个参数 专为端侧AI设计 支持在笔记本和手机等设备上部署检索增强生成(RAG)和语义搜索应用 [2] - 模型能生成隐私性良好的高质量嵌入向量 断网情况下可正常运行 性能接近尺寸翻倍的Qwen-Embedding-0.6B模型 [2] - 基于Gemma 3架构打造 针对100多种语言训练 量化后内存占用低于200MB [3] 技术性能与基准测试 - 在MTEB基准测试中 成为500MB以下开放式多语言文本嵌入模型中排名最高的模型 [3] - 在多项测试中全面超越同尺寸gte-multilingual-base模型:平均任务得分61.15(vs 58.24) 检索得分62.49(vs 56.50) 分类得分60.90(vs 57.17) 聚类得分51.17(vs 44.33) [10][11] - 性能接近595M参数的Qwen-Embedding-0.6B模型 后者平均任务得分64.34 检索得分64.65 分类得分66.83 聚类得分52.33 [10][11] 架构设计与优化技术 - 采用Matryoshka表征学习技术 支持输出768维、512维、256维和128维等多种嵌入尺寸 平衡质量与效率 [12] - 通过量化感知训练将RAM使用量降至200MB以下 在EdgeTPU上实现256个输入token的推理时间小于15毫秒 [12] - 模型参数包含约100M模型参数和200M嵌入参数 总参数量308M [12] 应用场景与集成生态 - 支持端侧RAG应用 能理解语言细微差别 提升检索相关文档的准确性 避免生成不准确答案 [6][8][9] - 与主流工具深度集成 包括sentence-transformers、llama.cpp、MLX、Ollama、LangChain等开发框架 [5] - 支持离线隐私保护应用:本地文件搜索、离线聊天机器人、移动智能体函数调用分类等 [13] 行业影响与发展前景 - 模型小巧高效 提供可自定义输出尺寸和2K令牌上下文窗口 为移动RAG管道和语义搜索解锁新用例 [5] - 标志着谷歌在小型化、多语言和端侧AI领域取得新突破 推动端侧智能普及 [15]
实探谷歌开发者大会:一通电话生成App、智能体秒变网页助手,全球首个“海豚语”大模型亮相
搜狐财经· 2025-08-13 13:38
大会概况 - Google I/O Connect China 2025开发者大会于8月13日在上海开幕 聚焦AI驱动的前沿技术、开发工具及全球化平台动态[2] - 现场展示区吸引多国开发者排队体验"App热线"、"AI快拼"、"Web AI智能体"等AI赋能产品交互[2] AI技术进展 - Gemini 2.5系列模型具备跨模态任务处理能力和快速响应能力 支持开发者构建复杂规划逻辑应用[5] - 生成式模型Veo3和Imagen 4激发开发者在图像、音视频领域的创意灵感并提升内容生产效率[5] - Gemma开源模型支持开发者根据实际需求开发衍生模型 其应用拓展包括医疗健康领域MedGemma、全球首个"海豚语"大模型DolphinGemma及端侧设备Gemma 3n[5] 开发者生态观察 - AI技术迭代显著降低应用开发门槛 吸引多元背景开发者涌入生态 中国开发者以发散性思维和多样性创意推动市场竞争[7] - AI工具普及可能导致工程师忽视自主深度学习思维 而持续自主学习被视为创新的根本来源[7] - 开发者与AI工具形成双向赋能关系:开发者通过工具提升效率与创新能力 同时以场景实践和数据反馈驱动AI工具持续进化[7] 战略定位 - Google将中国出海开发者定义为全球创新舞台不可或缺的中坚力量[6] - 经营开发者生态需深入观察社区开发者角色背景及真实需求 持续倾听用户反馈 该策略适用于Google、Meta等大型企业及初创公司[7] - Google将通过资源、社区和合作伙伴网络促进本土与全球开发者交流协作 支持中国出海开发者长期成长[7]
AI产业跟踪:海外:德国TNG推出DeepSeek变体模型,DeepSWE开源AIagent
国泰海通证券· 2025-07-09 11:12
报告行业投资评级 未提及 报告的核心观点 报告跟踪AI产业最新趋势,涵盖行业动态、应用资讯、大模型资讯和科技前沿等方面,展示AI领域的多项进展与创新 根据相关目录分别进行总结 AI行业动态 - 戴尔向CoreWeave交付首批英伟达GB300NVL72系统,该系统AI性能超“每秒百亿亿次浮点运算”,每个机架提供40TB快速内存,与上一代相比性能显著提升 [4] - Meta成立超级智能实验室,由前Scale AI CEO等领导,专注AI产品和应用研究,还从多家公司挖来11名顶尖人才 [5] AI应用资讯 - Meta为WhatsApp商业版增添AI功能,未来几周大型企业可通过API接口使用语音通话功能,客户与企业能互发语音消息,目前免费未来或收费 [6] - 亚马逊部署第100万台机器人并推出DeepFleet生成式AI基础模型,可协调机器人行动,缩短10%行动时间,提升配送效率并降成本 [7] - 谷歌推出Veo 3视频生成模型,能生成视频背景音效,可生成1080P、超60秒视频,已向美国地区Gemini Ultra会员开放 [8] - 法国Kyutai开源文本转语音模型Kyutai TTS,支持文本流式传输,延迟低至350毫秒,支持英法双语及长篇文章语音生成 [9] - 谷歌Gemini 2.5 Pro API恢复免费访问,提供每分钟5次请求、每分钟25万tokens及每日100次调用的免费额度 [11] - 谷歌发布Gemini教育版,面向全球教育领域免费开放,有免费和付费两种版本,计划年内推广至更多地区 [12] - Claude Code推出Hooks功能,基于Shell的钩子系统,能将编程会话中的不确定性转化为确定性命令 [13] AI大模型资讯 - 德国TNG推出DeepSeek变体模型R1T2,速度提升200%,是6710亿参数的开源混合模型,但欧洲企业使用或受限 [14] - 智谱开源GLM - 4.1V - Thinking,以90亿参数在28项多模态基准测试中表现惊艳,跨域泛化能力强 [15] - DeepSWE开源AIAgent框架,在SWE - Bench - Verified测试中表现出色,训练方法等全面开源 [16] - 谷歌开源Gemma 3n,原生支持多模态输入及文本输出,在多语言、数学、编码与推理方面均有质量提升 [18] - Grok4在「人类最后考试」拿下45%跑分,在多项基准测试中表现超竞品 [19] 科技前沿 - 欧洲第一台百万兆次级超级计算机JUPITER亮相,位于德国于利希超级计算中心,能效位列全球前五 [20]
产业观察:【AI产业跟踪~海外】德国TNG推出DeepSeek变体模型,DeepSWE开源AIAgent
国泰海通证券· 2025-07-09 09:45
AI行业动态 - 戴尔向CoreWeave交付首批英伟达GB300NVL72系统,AI性能超“每秒百亿亿次浮点运算”,每个机架提供40TB快速内存[8] - Meta成立超级智能实验室,从OpenAI等公司挖来11名顶尖人才[9] AI应用资讯 - Meta为WhatsApp商业版添加AI功能,月活超2亿,目前免费未来或收费[10] - 亚马逊部署第100万台机器人,推出DeepFleet模型,缩短机器人10%行动时间[11] - 谷歌推出Veo 3视频生成模型,已向美国地区Gemini Ultra会员开放[12] - 谷歌发布教育产品Gemini for Education,付费版每月2美元[17] AI大模型资讯 - 德国TNG推出速度提升200%的DeepSeek-TNG R1T2 Chimera模型,参数6710亿[19] - 智谱开源GLM - 4.1V - Thinking,在28项多模态基准测试中表现惊艳[20] - DeepSWE开源AIAgent,Pass@1准确率达42.2%,运用TTS策略后升至59%[21] - Grok4在「人类最后考试」用推理技术后跑分达45%,超OpenAlo3一倍[24] 科技前沿 - 欧洲首台百亿亿次超算JUPITER跻身全球TOP500榜单第四,能效位列全球前五[25] 风险提示 - AI软件销售、研发及capex投资计划可能不及预期[4][26]
计算机行业周报:谷歌发布全新多模态大模型Gemma3n,阿里达摩院发布医疗AI模型DAMOGRAPE-20250630
华鑫证券· 2025-06-30 12:43
报告行业投资评级 - 推荐(维持)[2] 报告的核心观点 - 算力租赁价格较为平缓,谷歌发布适合边缘设备运行的全新多模态大模型Gemma 3n [3][15][16] - Kimi周平均停留时长环比+58.70%,阿里达摩院发布全球首个利用平扫CT识别早期胃癌的AI模型DAMO GRAPE [3][27][28] - 法律科技公司Harvey完成3亿美元E轮融资,估值达50亿美元 [4][39] - 本周AI算力指数、AI应用指数等有涨有跌,部分公司涨幅或跌幅较大 [44] - 近期关注国产算力机会,中长期关注嘉和美康、科大讯飞等公司 [51][52] 根据相关目录分别总结 算力动态 - 数据跟踪:本周算力租赁价格较平缓,如显卡配置为A100 - 40G中,腾讯云16核+96G价格为28.64元/时;A800 - 80G中,恒源云16 + 256G价格环比上周降12.77% [15][18] - 产业动态:6月27日谷歌发布并开源全新端侧多模态大模型Gemma 3n,为端侧设备提供多模态功能,具有多模态设计、专为设备端优化等特性,其核心MatFormer架构有独特优势,还采用了PLE技术和键值缓存共享等 [16][17][19] AI应用动态 - 周流量跟踪:2025.6.20 - 2025.6.26期间,访问量前三位为ChatGPT、Bing和Canva,平均停留时长环比增速第一为Kimi,达58.70% [27][29] - 产业动态:6月25日阿里达摩院发布医疗AI模型DAMO GRAPE,突破传统影像学限制,可利用平扫CT识别早期胃癌,在全国大规模临床研究证明其有望提升胃癌检出率,已在部分地区部署并推广,未来探索“一扫多查” [28][31][32] AI融资动向 - 6月24日法律科技公司Harvey完成3亿美元E轮融资,估值达50亿美元,其AI平台服务全球多国律所及机构,年度经常性收入增长,核心产品能处理法律工作,融资后计划扩大团队、拓展业务 [4][39][40] 行情复盘 - 本周(6.23 - 6.27日),AI算力指数/AI应用指数/万得全A/中证红利日涨幅最大值分别为2.82%/2.55%/1.56%/0.34%,AI应用指数/万得全A/中证红利日跌幅最大值分别为 - 0.23%/-0.28%/-0.52%;AI算力指数内部*ST云创涨幅最大,AI应用指数内部恒银科技涨幅最大、完美世界跌幅最大 [44] 投资建议 - 近期关注国产算力机会,华为开发者大会2025上线新一代昇腾AI云服务,国产算力链有望价值重估 [51] - 中长期关注临床AI产品成功落地验证的嘉和美康、以AI为核心的龙头厂商科大讯飞等多家公司 [52]
电子行业点评:谷歌端侧大模型迭代,泰凌微借势高增乘红利
民生证券· 2025-06-30 08:16
报告行业投资评级 - 对泰凌微的评级为推荐 [3] 报告的核心观点 - 开源大模型高速发展拉动端侧AI芯片需求提升,泰凌微作为谷歌物联网生态系统核心供应商有望受益产业升级迎来高成长 [1][2] - 泰凌微2025年半年度业绩预增,营收和利润表现良好,产品结构优化使毛利率和净利率提升 [2] - 端侧新品放量和新客户扩充为泰凌微构筑高速成长基石,建议关注 [3] 根据相关目录分别进行总结 事件 - 6月27日谷歌发布并开源全新端侧多模态大模型Gemma 3n,在大模型竞技场得分超1300分,是首个超1300分的10B以下模型 [1] 开源大模型对端侧AI芯片需求的影响 - Gemma 3n通过逐层嵌入技术在不增加内存占用前提下提升质量,低内存设计适配端侧设备,其性能提升激发市场对AI端侧芯片需求 [1] 泰凌微的应对与机遇 - 泰凌微作为谷歌物联网生态核心供应商,推出TL721X、TL751X等端侧芯片,具备低功耗+AI运算和多协议物联网无线连接能力,适配端侧设备需求,有望受益产业升级 [2] 泰凌微2025年半年度业绩情况 - 预计25H1营收5.03亿元,YOY+37%,归母净利润0.99亿元,YOY+267%;Q2单季预计营收2.73亿元,YOY+34%,QOQ+19%,归母净利润0.63亿元,YOY+103%,QOQ+75% [2] - 25H1毛利率预计达50.7%,YOY+4.52pct;净利率预计达19.7%,得益于高毛利产品销售占比提升、成本效应和经营杠杆效应 [2] 泰凌微的产品与业务发展 - 新产品方面,端侧AI芯片25Q2单季度销售额达千万元规模,Matter芯片在海外智能家居领域批量出货,国内首家通过认证的BLE 6.0芯片在全球一线客户大批量生产,WiFi芯片已批量出货 [3] - 业务线方面,音频业务新头部客户大批量出货且原有客户出货量增长,海外业务持续扩张,境外收入占比提升 [3]
2G 内存跑 Gemma 3n 完整版!全球首个 10B 内模型杀疯 LMArena:1300 分碾压记录
AI前线· 2025-06-27 04:58
谷歌Gemma 3n发布 - 谷歌正式发布开源大模型Gemma 3n完整版,支持在本地硬件运行,具备输入图像、音频和视频能力,支持文本输出,最低可在2GB内存设备运行[1][2] - Gemma系列面向开发者,与封闭专有的Gemini不同,可供下载和修改[2] - Gemma 3n的E4B模型成为首个参数低于10B但LMArena测评得分突破1300的模型,表现优于Llama 4 Maverick 17B、GPT 4.1-nano、Phi-4[2] 技术架构创新 - 采用MatFormer架构,类似俄罗斯套娃设计,大模型内嵌套完整子模型,实现性能与资源动态平衡[10][12] - 引入Per-Layer Embeddings机制,E2B和E4B模型核心Transformer权重仅需2B和4B存储在加速器内存[17] - 新增KV Cache Sharing机制,使长文本推理首个Token生成速度提升2倍[19] - 搭载MobileNet-V5-300M视觉编码器,在Pixel设备实现每秒60帧处理,速度提升13倍,参数减少46%,内存占用缩小4倍[20] 多模态能力 - 原生支持图像、音频、视频和文本输入及文本输出[4] - 音频处理采用Universal Speech Model编码器,支持语音识别和翻译,在英西法意葡语间转换效果突出[21][22] - 开发者测试显示E4B模型在单GPU微调时仅占用18GB VRAM,比Gemma-4B节省3GB[9] 开发者生态 - 与AMD、NVIDIA等十多家公司合作,提供多种运行方式[5] - 推出MatFormer Lab工具,帮助开发者基于基准测试快速选择最优模型配置[13] - 支持预提取模型开箱即用和Mix-n-Match定制,E2B子模型推理速度可达E4B的2倍[14]
最低仅需2G显存,谷歌开源端侧模型刷新竞技场纪录,原生支持图像视频
量子位· 2025-06-27 04:40
核心观点 - 谷歌发布开源多模态模型Gemma 3n,原生支持文本、图像和音视频处理 [2] - Gemma 3n在10B以下模型中首次突破1300分(1303分),成为性能领先的小规模模型 [3] - 模型通过架构创新实现低内存占用(最低2GB),适配端侧设备 [4][6] 模型架构 - 采用MatFormer(嵌套式Transformer)架构,包含E2B(5B)和E4B(8B)两种型号,通过"有效参数"概念优化资源占用 [10][11] - 嵌套结构允许训练E4B时同步优化E2B子模型,并支持Mix-n-Match方法自定义模型尺寸 [12][15] - 配套工具MatFormer Lab将发布,用于检索最佳模型配置 [16] 端侧优化技术 - 引入逐层嵌入(PLE)技术,将部分参数加载到CPU,仅核心权重需VRAM存储,内存占用降至2B/4B水平 [17][18] - 采用KV缓存共享技术,预填充性能较Gemma 3-4B提升2倍,优化长序列处理 [19] 多模态支持 音频处理 - 集成基于USM的音频编码器,支持160毫秒音频转Token,实现端侧ASR/AST功能 [20] - 流式编码器默认支持30秒音频片段,可通过训练扩展至任意长度 [20] 视觉处理 - 搭载MobileNet-V5-300M视觉编码器,支持256x256至768x768分辨率,Pixel设备处理速度达60FPS [21] - 架构较MobileNet-V4扩大10倍,采用混合深度金字塔模型和多尺度融合VLM适配器 [21] 模型可用性 - 已在谷歌AI Studio及Ollama、llama.cpp等第三方工具上线,权重可通过Hugging Face获取 [8] - 技术细节持续公开,MobileNet-V5技术报告将后续发布 [22]
谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型
机器之心· 2025-06-27 00:49
端侧AI模型Gemma 3n发布 - 谷歌正式发布并开源全新端侧多模态大模型Gemma 3n,代表设备端AI的重大进步 [2][3] - Gemma 3n为手机、平板、笔记本电脑等端侧设备带来强大的多模式功能,性能达到去年云端先进模型水平 [3] - 模型累计下载量已超过1.6亿次 [30] 模型特性 - 多模态设计:原生支持图像、音频、视频和文本输入和文本输出 [5] - 专为设备端优化:提供E2B和E4B两种型号,原始参数数量分别为5B和8B,但运行内存占用仅需2GB和3GB [5] - 架构突破:采用MatFormer架构、每层嵌入(PLE)技术,以及新型音频和视觉编码器 [5][7][13] - 质量提升:支持140种文本语言和35种语言的多模态理解,E4B版本LMArena得分超过1300 [5] 核心架构创新 - MatFormer架构:采用俄罗斯套娃式设计,一个较大模型包含更小、功能齐全的版本 [8] - 弹性执行:未来可实现E4B和E2B推理路径之间动态切换,优化性能和内存使用 [12] - 每层嵌入(PLE)技术:大幅提高模型质量,同时不增加设备加速器内存占用 [14] - E2B和E4B模型的核心Transformer权重分别约为2B和4B,其余参数可在CPU上高效计算 [15] 性能优化技术 - 预提取模型:可直接下载E4B模型或独立E2B子模型 [17] - Mix-n-Match方法:可在E2B和E4B之间创建自定义尺寸模型 [17] - 键值缓存共享(KV Cache Sharing):提升流式响应应用的首个token获取时间,预填充性能提升两倍 [18][19] 音频与视觉功能 - 音频编码器:每160毫秒生成一个token,可处理长达30秒的音频片段 [21][22] - 支持自动语音识别(ASR)和自动语音翻译(AST),在多种语言间翻译效果出色 [22] - 视觉编码器:采用MobileNet-V5-300M,支持多种输入分辨率,在Google Pixel上每秒处理高达60帧 [24][26] - 相比基线SoViT,MobileNet-V5-300M在量化情况下实现13倍加速,参数减少46%,内存占用减少4倍 [27]
AI观察|“杀手级”应用继续缺失,AI大模型开始寻求硬件加持
环球网· 2025-06-24 07:34
AI行业热度与投资趋势 - 年初deepSeek腾空出世点燃市场热情 但年中AI热度趋于平静 纳斯达克指数表现平淡 [1] - 市场共识认为AI智能持续提升但缺乏"杀手级"应用 未形成产业闭环 [1] - 投资人指出AI领域资本过度集中 大模型企业融资规模过大但缺乏可行商业模式 [1] AI大模型竞争格局 - AI大模型呈现"赢者通吃"特性 GPT-o3和deepSeek-R1发布后迅速覆盖其他模型的优势 [2] - GPT-o3在学术研究辅助方面已达到研究生能力水平 [2] - 智源研究院认为中国大模型能力未达GPT-4标准前不宜急于垂直领域应用 [2] AI软硬件结合趋势 - 产业观察家提出AI创业需构建"双护城河" 同时优化大模型和硬件技术 [3] - OpenAI以65亿美元收购硬件设计公司io Meta与Oakley合作推出AI智能眼镜 [3] - 宇树科技获7亿元人民币C轮融资 将探索新材料和算法优化 [4] AI产业发展方向 - AI竞争从算法转向软硬件协同 需在垂直领域深度渗透 [4] - 智能需扎根实体场景 通过技术跨界融合构建产业生态闭环 [4]