Workflow
T5Gemma 2
icon
搜索文档
腾讯研究院AI速递 20251222
腾讯研究院· 2025-12-21 16:01
摩尔线程新一代GPU与AI产品发布 - 发布新一代全功能GPU架构“花港”,算力密度提升**50%**,能效提升**10倍**,支持FP4到FP64全精度计算,可支撑**十万卡以上**智算集群 [1] - 即将发布“华山”AI训推一体芯片和“庐山”高性能图形渲染GPU,夸娥万卡智算集群算力达**10EFLOPS**,S5000单卡推理刷新国产GPU性能纪录 [1] - 发布搭载“长江”SoC芯片的AI算力本MTT AIBOOK,提供**50TOPS**异构AI算力,可本地运行最高**30B**端侧大模型,今日起在京东预售 [1] OpenAI与谷歌发布新一代AI模型与工具 - OpenAI发布GPT-5.2-Codex,在SWE-Bench Pro和Terminal-Bench 2.0基准测试中取得SOTA性能,相比GPT-5.2提升了指令遵循、长上下文理解和网络安全能力 [2] - OpenAI正式宣布Codex全面支持Agent Skills,接入Anthropic主导的全行业标准规范,支持显式调用和隐式调用,并提供内置工具自动生成或安装技能 [5][6] - 谷歌开源T5Gemma 2和FunctionGemma两款Gemma 3家族小模型,T5Gemma 2提供**270M-270M、1B-1B和4B-4B**三种规模,FunctionGemma专为函数调用优化,仅**2.7亿**参数可在手机等设备运行 [3] 英伟达与Luma AI发布创新AI应用 - 英伟达开源NitroGen基础模型,训练目标是玩**1000款以上**游戏,以游戏视频帧作为输入输出手柄操作信号,模型基于GR00T N1.5架构,采用**5亿**参数,从**4万小时**公开游戏视频中训练 [4] - Luma AI发布Ray3 Modify功能,主打“真人先行、AI跟随”的视频制作方式,支持关键帧控制和角色参考能力,已集成进Dream Machine平台,面向影视制作与广告创意 [7] 人形机器人商业化与AI编码能力进展 - 宇树G1人形机器人在王力宏演唱会完成高难度空翻表演,视频获**4000万**网友围观,G1机器人零售价**9.9万元**起,身高**132厘米**,小跑速度超**2m/s**,拥有**23至43个**关节 [8] - 人形机器人租赁市场**2024年**全球收入规模**112.2亿元**,预计**2031年**达**171.2亿元**,年复合增长率**6.1%** [8] - METR报告称Claude Opus 4.5的**50%**任务完成时间跨度约**4小时49分钟**,超越GPT-5.1-Codex-Max的**2小时53分钟**,AI编码智能体任务时长呈指数级增长 [9] AI行业趋势与关键人物 - Karpathy提出2025年六大转折,包括RLVR、Cursor成为应用层“包工头”、Claude Code作为“赛博幽灵”、Vibe Coding让编程门槛消失等,强调LLM是新操作系统 [10][11] - 谷歌AI产品负责人Josh Woodward通过Nano Banana功能让Gemini应用月活从**3月3.5亿**飙升至**10月6.5亿**,一度超越ChatGPT登顶App Store榜首,其推动NotebookLM等项目并强调AI创新与社会责任并重 [11]
谷歌版两门「小钢炮」开源,2.7亿参数干翻SOTA
36氪· 2025-12-19 06:17
谷歌发布Gemma 3家族新模型 - 公司在“大模型”领域发布Gemini 3 Pro和Flash后,继续在端侧“小模型”发力,于近期发布了两项与端侧相关的新技术 [1] - 新发布的两个模型均属于Gemma 3家族,分别是T5Gemma 2和FunctionGemma,两者均为“小模型”但专攻方向不同 [3] T5Gemma 2:架构创新与性能 - T5Gemma 2是一个底层架构创新,是首个开源的多模态长上下文编码器-解码器模型,其最小规模为270M–270M参数 [1] - 公司开源了T5Gemma 2的三种预训练模型规模:270M–270M、1B–1B以及4B–4B [5] - 该模型采用编码器-解码器架构,与当前主流的仅解码器架构不同,代表了AI技术领域的“另一条路” [4][14] - 在多个基准测试中,T5Gemma 2展现出强大的多模态性能,超越了公司自己的Gemma 3模型 [8] - 在代码、推理和多语言等任务的通用能力上,T5Gemma 2整体上优于对应规模的Gemma 3模型 [9] - 相较于Gemma 3和第一代T5Gemma,T5Gemma 2在生成长上下文内容的质量上有显著提升 [9] - 在预训练阶段的性能可能超过对应体量的Gemma 3模型,而在后训练阶段则取得了显著更优的表现 [11] 编码器-解码器架构的回归与优势 - 在GPT、Llama、Gemini、DeepSeek等仅解码器架构主导的时代,T5Gemma 2是对经典Transformer中编码器-解码器路线的回归与现代化改造 [14][15][16][17][18][19][20] - 编码器-解码器架构采用“先读懂再动笔”的机制,能强迫模型先消化输入再生成输出,这种机制天生更严谨,有助于减少“幻觉”问题 [32] - 该架构在多模态处理方面具有天然优势,编码器可以作为处理图像信号的“眼睛”,比强行塞给仅解码器模型处理更顺畅 [33][34] - 在手机等端侧算力有限的环境中,编码器-解码器架构往往能用更少的参数达到与大型仅解码器模型相当的效果,效率更高 [35] - 公司并未从零训练T5Gemma 2,而是采用“模型适配”技术,利用已训练的Gemma 2或Gemma 3解码器模型作为种子,将其权重映射到新结构中,大幅降低了计算成本 [36] FunctionGemma:功能与场景创新 - FunctionGemma是一个专为函数调用优化的模型,参数规模为2.7亿,可在手机、浏览器及其他设备上运行 [1] - 该模型是对模型“技能”的专项训练,类似于剥离大模型的知识类能力,只保留针对性的函数调用功能 [7] - FunctionGemma旨在解决大模型落地痛点,让模型“不仅要能聊,还要能干活”,能够输出结构化数据去调用外部API或工具 [37][40] - 该模型为AI智能体设计,擅长多步骤推理和执行任务,且极致轻量化,可直接运行在手机等低功耗边缘设备上,作为系统的“控制中枢” [40] - 它是一个专门设计的“神经路由器”,旨在解决云端大模型在延迟、隐私和成本上的固有缺陷 [42] - 模型专注于函数调用这一特定任务的极致优化,通过小型化和专业化,将智能下沉至网络边缘 [44] - 其270M参数规模在当今时代显得微不足道,但证明了在特定领域,小模型通过高质量数据微调可达到甚至超越大模型的表现 [44] - 模型剔除了大量通用世界知识,专注于解析JSON、匹配函数签名和处理参数类型等技能 [45] 端侧部署与移动端战略 - FunctionGemma专为在移动设备上运行而设计,其270M参数在FP16精度下的权重大小约为540MB,仅占现代Android旗舰机总内存的5%-7%,可在后台常驻 [46][48] - 通过Int8量化,模型大小可降至约270MB;通过Int4量化,可降至约135MB,使其能在入门级甚至嵌入式设备上流畅运行 [49][50][51] - 公司发布该“小”模型背后,隐藏着对未来AI计算架构的深刻思考及在移动操作系统控制权争夺中的防御性布局 [52] - 在移动互联网向意图驱动发展的下一阶段,FunctionGemma试图让AI成为通用的用户界面,用户可直接表达意图而非点击图标打开应用 [53][54][55] - 通过让模型直接学习应用的API定义,开发者只需暴露工具,FunctionGemma就能理解并操作这些工具 [56] - 公司通过开源FunctionGemma,意在制定一套AI与应用交互的标准协议,如果所有Android开发者都按其格式定义工具,Android系统将成为强大的智能体平台,加深公司护城河 [57][58] 应用验证与行业影响 - 公司提供了两个参考实现来验证FunctionGemma的能力,展示了其在游戏和系统控制领域的潜力 [59] - 在系统控制场景中,经微调的FunctionGemma在将自然语言指令转换为Android系统意图的任务上,准确率达到85%,远超未微调基座模型的58% [60][61] - 在名为“Tiny Garden”的游戏Demo中,FunctionGemma展示了任务分解能力,可将一句语音指令拆解为一系列函数调用,且整个过程完全离线,无需联网 [62] - 对于开发者,FunctionGemma提供了低成本、高隐私的方案,将智能体能力集成到普通应用中,无需昂贵服务器开销 [64] - 对于手机厂商,270M的参数量是完美的“甜点”,既能利用现有NPU硬件,又不会过度挤占系统资源,为打造“AI原生操作系统”提供了理想基础 [64] - 对于公司自身,这是在AI时代捍卫Android生态控制权的关键一步 [64]