Workflow
EmbeddingGemma
icon
搜索文档
0.3B,谷歌开源新模型,手机断网也能跑,0.2GB内存就够用
36氪· 2025-09-05 07:14
产品发布与核心特性 - 谷歌开源全新开放式嵌入模型EmbeddingGemma 拥有3.08亿个参数 专为端侧AI设计 支持在笔记本和手机等设备上部署检索增强生成(RAG)和语义搜索应用 [2] - 模型能生成隐私性良好的高质量嵌入向量 断网情况下可正常运行 性能接近尺寸翻倍的Qwen-Embedding-0.6B模型 [2] - 基于Gemma 3架构打造 针对100多种语言训练 量化后内存占用低于200MB [3] 技术性能与基准测试 - 在MTEB基准测试中 成为500MB以下开放式多语言文本嵌入模型中排名最高的模型 [3] - 在多项测试中全面超越同尺寸gte-multilingual-base模型:平均任务得分61.15(vs 58.24) 检索得分62.49(vs 56.50) 分类得分60.90(vs 57.17) 聚类得分51.17(vs 44.33) [10][11] - 性能接近595M参数的Qwen-Embedding-0.6B模型 后者平均任务得分64.34 检索得分64.65 分类得分66.83 聚类得分52.33 [10][11] 架构设计与优化技术 - 采用Matryoshka表征学习技术 支持输出768维、512维、256维和128维等多种嵌入尺寸 平衡质量与效率 [12] - 通过量化感知训练将RAM使用量降至200MB以下 在EdgeTPU上实现256个输入token的推理时间小于15毫秒 [12] - 模型参数包含约100M模型参数和200M嵌入参数 总参数量308M [12] 应用场景与集成生态 - 支持端侧RAG应用 能理解语言细微差别 提升检索相关文档的准确性 避免生成不准确答案 [6][8][9] - 与主流工具深度集成 包括sentence-transformers、llama.cpp、MLX、Ollama、LangChain等开发框架 [5] - 支持离线隐私保护应用:本地文件搜索、离线聊天机器人、移动智能体函数调用分类等 [13] 行业影响与发展前景 - 模型小巧高效 提供可自定义输出尺寸和2K令牌上下文窗口 为移动RAG管道和语义搜索解锁新用例 [5] - 标志着谷歌在小型化、多语言和端侧AI领域取得新突破 推动端侧智能普及 [15]