Gem
搜索文档
太猛了!谷歌悄悄在 Gemini 里塞了个 N8N 进去
歸藏的AI工具箱· 2025-12-19 09:28
谷歌Gemini平台Gem功能重大更新 - 谷歌Gemini平台中的Gem功能(类似GPTs)近期完成重要更新,其能力从仅能保存提示词的水平,升级为可直接生成带有界面的网页应用,功能显著增强[1][2] - 新版Gem功能支持用户上传任何图片或文档作为输入,并能创建网页输出结果,同时可以调用谷歌全部模型,功能相当强大[2] - 此次更新实质上是将谷歌近期发布的Agent构建工具Opal内置到了Gemini平台中,使其更加易用[6] 新版Gem功能的核心特性与创建流程 - 用户可通过Gemini侧边栏的“探索Gem”选项进入,界面新增“New Gem”实验入口,点击即可进入创建页面[7][9] - 创建过程极为简化,用户仅需在输入框中描述想要构建的应用,系统便会自动开始构建,右侧会显示进度并允许实时测试[12][14] - 新Gem支持极其丰富的输入格式,包括常见文件、YouTube视频、网页操作录制视频以及涂鸦[15] 应用案例展示:数据分析与个性化生成 - 以力量训练数据分析为例,用户上传CSV文件后,Gem能生成详细报告,包含数据看板、各类表格及个性化训练建议[13][17] - 生成内容支持通过修改提示词进行实时调整,例如将报告语言从英文改为中文[17][19] - 生成的训练分析报告内容全面,例如:覆盖106天内的24个训练日,平均每4.6天训练一次;按身体部位分析总训练容量,其中上半身约29775.25 kg*reps*sets,腿部约24157.50 kg*reps*sets[19] - 报告能自动识别进步与退步的练习,例如:高位下拉容量从1000.0增加到1500.0,而坐姿划船容量从1440.0减少到810.0[19] - 另一案例是屏幕使用时间分析工具,上传截图后可生成包含可视化海报、文本分析及基于分析建议的音频博客的完整网页应用[4][33] 高级编辑功能与Opal工作流 - 用户可点击“Open Advanced Editor”进入Opal界面进行高级编辑,该界面直观展示了数据处理、模型调用、输入输出的完整工作流卡片[21][23] - 编辑界面主要分为四个部分:添加卡片的区域、应用/卡片预览区域、用于修改应用的提示词输入区、以及代表每个处理步骤并可进行链接的卡片编辑区[23][24] - 用户可通过提示词让系统自动修改工作流,也可点击具体卡片进行精细化调整,例如选择不同模型或修改提示词[25][26][29] 强大的多模态模型集成 - 在Opal编辑器中,用户可为不同任务卡片选择专门的谷歌模型,覆盖文本、音频、视频、图像等多种模态[26] - 可用模型包括:用于文本/音频/视频/表格/图片处理的Gemini 2.5 Flash或Gemini 3 Pro;用于文生图的Imagen 4;用于图生图的Nano Banana Pro;用于视频生成的Veo模型;用于文本转语音的AudioLM模型;以及音乐生成模型Lyria 2[26][27] 应用分享与平台整合战略 - 创建完成的应用可通过“Share App”按钮生成分享链接,其他用户登录谷歌后即可使用,系统会根据用户的Gemini会员等级扣除相应的模型使用额度[36] - 此次更新体现了谷歌强大的产品整合能力,将AI实验室孵化的多个产品(如Opal、NoteBookLM)整合进Gemini平台,形成了功能全面、额度高、模型强大的生态系统[38]
解读国内首个DeepResearch AI Agent 智谱沉思模型
2025-04-15 14:30
纪要涉及的行业或公司 * 行业:人工智能(AI)大模型与AI Agent应用行业[1] * 公司:智谱AI(发布AutoGLM“陈思版”产品)[1] 核心观点与论据 * **产品定位与架构**:AutoGLM“陈思版”是国内首个集深度研究能力和操作能力于一体的AI Agent[1] 其整体架构是一个结合了思维链(快思考)和test-time-scaling技术(慢思考)的链式模型 专门为完成AI Agent任务进行端到端特殊训练和优化的模型[2] * **核心竞品对比**: * **与Manus的区别**: * **运行环境**:智谱产品主要在用户本地客户端运行 调用客户端浏览器能力进行数据抓取 Manus则在云端自建虚拟环境运行 部分通过后端代码直接抓取数据[3] * **数据安全与成本**:本地运行可让用户看到完整的数据抓取与分析过程 缓解数据安全担忧 同时减少公司在云端的算力投入和容器环境配置成本[4] * **模型基础**:智谱使用自主研发、为任务专门优化的Agent模型 Manus更多使用其他家研发好的大模型[5] * **与DeepSeek的区别**:DeepSeek的链式模型已完全免费 智谱错过了最佳收费时间点 目前竞争策略是将成本做到最低[10] * **产品能力与限制**: * **任务处理**:在浏览器任务上 由于通常只控制一个浏览器 因此只能有一个工作进程 无法并行处理多窗口对话或同时使用多个应用程序 但在涉及多个技能人的非纯浏览器任务上可以协同工作[6][7] * **浏览器兼容性**:目前重点适配Chrome浏览器 因其功能和稳定性更高 兼容其他浏览器(如IE、Safari)技术上不特别困难[8] * **信息源与访问**:对于Google Scholar等海外网站无法访问的问题 需要用户自行解决(如使用网络工具) 对于需要账号登录的网站 产品支持在客户端操作中引导用户输入密码 登录信息会记录在本地保留一段时间[12] * **技术细节**: * **思考时间与消耗**:任务处理时间较长 消耗的token数量波动大 简单任务可能只需几百token 复杂任务可能消耗数万甚至数十万token[8] * **算力投入**:公司为X400(根据上下文推断,可能指代该产品)投入了约2000P的算力 若以NVIDIA 4090显卡估算 大约对应两三千张卡[9] 其他重要内容 * **商业模式**:产品目前免费开放 主要因竞品(DeepSeek)免费和Manus已抢占市场风头 未来商业模式(如会员制)将视竞争情况而定[10] * **发展历程**:公司早在2023年1月就在研发类似Manus的Agent 但未引起市场关注[10] * **未来计划**:计划将“陈思版”与“反思版”模型合并 形成与Manus类似的产品[11]