Imagen 4

搜索文档
谷歌OCS(光交换机)的技术、发展、合作商与价值量拆解
傅里叶的猫· 2025-09-17 14:58
谷歌AI发展势头 - 谷歌推出Gemini 2.5 Flash Image 上线不到一个月新增2300万用户并生成超过5亿张图片 助力Gemini APP在多国应用商店登顶下载榜 [2] - 谷歌发布多项多模态大模型更新 包括Veo 3音视频同步生成 Genie 3实时交互世界 Imagen 4图片生成以及Pixel 10系列AI硬件整合 凸显AI研发领先优势 [2] - Gemini 3.0预计于2025年底推出 有望进一步提升模型能力 [2] 反垄断影响 - 美国地区法官公布谷歌搜索反垄断惩罚措施 强调恢复竞争而非惩罚 未采纳分拆等激进提议 好于市场此前悲观预期 [4] - 谷歌业务基本盘保持稳固 算法能力 生态优势和品牌口碑依然领先 流量获取成本TAC有望优化 整体影响可控 [4] OCS技术背景 - 传统Scale out网络中数据传输需要多次光电转换和电光转换 以H100千卡IB集群为例 数据从一台服务器传输到另一台通常需要经过8次转换 显著降低集群效率并增加延迟和能耗 [6] - 光信号在远距离高带宽传输场景下表现优于电信号 但现有技术无法直接对光信号进行灵活数据处理 必须先转化为电信号才能完成地址处理等操作 [8] - AI大模型数据流转具有高度可预测性 无需拆包查看地址 通过反射直接传输至目标服务器即可构建高效全光网络 相比传统互联网数据传输类似快递 AI数据中心全光网络更像地铁 [9] OCS主流技术方案 - MEMS方案是市场绝对主流占比超过70% 技术成熟参与企业多 性能指标均衡 端口扩展能力达320×320 成本较低切换速度快 [10] - MEMS通过微型反射镜角度调整实现光信号路径动态调整 每根输入光纤光信号经过MEMS反射镜引导到目标输出光纤 反射镜配备二维转轴通过调节角度改变反射方向 [10] - DRC方案采用全固态设计无运动部件 通过控制液晶分子结构变化实现光路折射 驱动电压极低可靠性和寿命明显提升 寿命达MEMS方案十倍 成本约4万美元低于MEMS方案5万美元 但切换速度仅毫秒级 [11][12] - 压电陶瓷方案目前没有详细信息阐述具体特点和优劣势 [13] OCS部署策略 - OCS技术核心优势场景是端口间映射关系稳定不需要频繁调整传输路径的网络环境 优先使用OCS可最大程度利用低功耗极低传输时延特性 [13] - 避免将OCS部署在需要高频率动态调整路径或有高度随机化流量模式的场景 这类场景会放大OCS切换时间长的问题导致网络整体效率下降 [13] - 通过合理规划网络拓扑结构提升OCS使用效率 如把高带宽需求且通信关系稳定节点集中到同一物理区域 通过OCS建立直接连接减少跨区域通信资源消耗 [13] 光交换机与传统电交换机差异 - 性能上光交换机通过直接提供稳定光通道传输数据时延极低接近光速 无需频繁进行光电转换 传统电交换机需多次光电转换并解包识别目标地址重新转发 大大增加数据传输时延 [14] - 功耗上光交换机不用进行信号转换能量损耗更少功耗优势明显 灵活性上传统电交换机更有优势 端口间全连接模式每个数据包能根据包头地址直接定位目标端口无需配置固定线路 仅需纳秒级数据处理时间 而光交换机重新配置内部固定线路适应流量变化目前切换时间毫秒级 [14] - 光交换技术更适合流量模式相对稳定端口间映射关系明确且不用频繁切换场景 传统电交换机更适合流量动态变化大需要频繁调整数据传输路径场景 [14] 成本与长期使用优势 - 长期使用下OCS交换机可实现约30%成本节约 因OCS寿命长如硅基液晶方案寿命约为MEMS方案十倍 MEMS方案寿命又长于传统电交换机 且无需频繁更换 同时单位端口能耗成本更低 [16] - OCS交换机初始成本较高当前设备单价通常在4-5万美元甚至更高 传统电交换机单价仅为几千至3万美元 对预算有限中小型数据中心初始投入压力较大 [16] - 时延方面OCS通过光通道直接传输数据时延可接近光速 相比传统电交换机时延提升约60%-70% 功耗上OCS相比传统电交换机可降低约40%功耗 [16] OCS端口数量问题 - 不同OCS技术方案端口数量存在限制 核心原因是技术实现难度和制造工艺水平差异 不同方案核心部件结构加工精度要求不同导致端口扩展天花板不一样 [17] - MEMS方案端口数量直接和光纤数量挂钩 每根光纤需对应一个微型反射镜 小镜子数量决定端口数量理论上限 [18] - 小镜子加工良率是关键限制因素 因MEMS芯片上小镜子需要极高加工精度 实际生产中难保证所有小镜子正常工作 例如谷歌某款MEMS芯片设计包含176个小镜子 但40个因加工不良被屏蔽 剩下136个中还有8个用于通道校准 最终实际有效端口数只有128个 [18] - 芯片尺寸与制造工艺矛盾也限制端口数量 增加芯片尺寸能容纳更多小镜子提升端口数 但随着芯片尺寸增大加工良率会明显下降 同时面临精度控制散热等技术挑战 [18] 光路系统关键部件 - 激光注入模块和摄像头模块核心目的是实现实时校准功能 不是直接参与数据传输 是保障光路长期稳定运行关键不是冗余设计 [19] - 校准系统用于调整MEMS小镜子偏转角度 确保光路始终处于预设精准状态 避免因设备老化导致光路偏移 [19] - MEMS小镜子偏转角度由焊盘上电压控制 随着设备使用时间增加机械转轴会出现老化磨损 导致偏转角度减小影响数据传输准确性 [19] - 激光注入模块发射专用波长光束对每个光路持续检测 摄像头模块捕捉光束实际传播路径判断是否存在偏移 一旦发现偏差系统自动调整控制电压使小镜子恢复到预设偏转角度 [19] - 校准过程依赖两套独立发射和接收单元 分别对应系统中两个MEMS芯片 实现对所有光路全面覆盖 [19] MEMS制造难点 - MEMS小镜子制造难点不是集中在镜面本身 而是体现在机械结构与电子控制集成环节 源于MEMS技术机电一体化核心属性 [20] - 每个MEMS芯片通常包含超过100个小镜子 每个小镜子不仅需要简单镀膜结构保证光反射效率 还必须集成复杂机械部件 最关键的是用于实现角度调整的小型转轴 尺寸极小在微米级别 对加工精度要求极高 [20] - 机械部件与电子控制芯片高度集成增加制造难度 小镜子角度调整依赖电子控制信号 需将机械转轴与电子控制电路在极小芯片空间内实现无缝衔接 既要保证机械结构灵活性又要确保电子信号稳定传输 [20] - 复杂集成结构导致加工良率较低 因涉及机械电子光学等多领域工艺要求 任何一个环节出现问题都会导致整个小镜子失效 例如谷歌某款MEMS芯片设计176个小镜子 最终因加工问题屏蔽40个 有效率不足80% [20] 发射和接收模组 - OCS中发射和接收模组是光路校准系统核心组成部分 主要涉及激光芯片探测器芯片无源光学器件等关键组件 用于保障校准激光信号稳定发射与精准接收 [22] - 有源组件包括激光芯片用于发射校准用激光束和探测器芯片用于接收校准激光束判断光路是否偏移 这两类芯片是模组核心功能部件 直接决定校准精度和稳定性 [22] - 无源光学器件包括滤光片过滤杂光确保校准激光纯度 准直透镜将激光束校准为平行光 棱镜改变激光传播方向 隔离器防止激光反射干扰保护激光芯片 这些器件用于优化激光束传输路径提升校准效率 [22] - 单套发射或接收模组总成本约1000美元 有源组件激光芯片加探测器芯片成本最高约占总成本60%-70% 无源光学器件成本约占15%-20%约150美元 其余成本为模组装配测试和封装费用约占10%-15% [23] 二色向分光片 - 二色向分光片是OCS光路校准系统中波长筛选关键部件 通过对特定波长光信号选择性透射或反射 实现校准光路与数据光路分离 确保校准功能精准运行 [24] - 核心功能是区分OCS系统中校准光信号和数据光信号 避免两者相互干扰 校准系统使用激光波长通常为850纳米 数据传输使用光信号波长通常为1310纳米 [24] - 二色向分光片通过特殊镀膜工艺实现对这两种波长选择性处理 对于850纳米校准光信号允许透射通过进入校准系统探测器芯片 对于1310纳米数据光信号则反射回数据传输路径阻止进入校准系统 [24] - 核心技术壁垒在于复杂镀膜工艺 需在镜片表面镀上多层不同材质不同厚度薄膜 每层薄膜对特定波长光信号产生干涉效应 实现850纳米透射1310纳米反射效果 镀膜工艺对薄膜材质纯度厚度均匀性层数控制要求极高 [25] - 二色向分光片还需具备高透光率对850纳米光信号透光率需达90%以上 高反射率对1310纳米光信号反射率需达95%以上 和长期稳定性镀膜层不易磨损氧化 [25] 微透镜阵列 - 微透镜阵列MLA是OCS设备刚需部件 核心功能是准直发散激光束 确保光信号在传输过程中稳定性 [26] - 光信号从光纤输出后会自然发散 若不进行准直会导致光信号衰减光路偏移影响传输效率和稳定性 MLA通过阵列化微型透镜将发散激光束校准为平行光 确保光信号在传输和反射过程中稳定性 [26] - 随着OCS设备出货量增长如谷歌每年部署1万台以上未来预计增长至10万台 MLA需求也将同步刚性增长 [27] - 国内厂商炬光科技是OCS领域MLA核心供应商之一 已进入部分头部OCS设备厂商供应链作为二级供应商二供提供MLA产品 部分OCS设备厂商如谷歌为保障供应链安全自行建立MLA生产线实现部分MLA自主供应 [27] - 单个MLA通道价格约1美元 一台OCS设备通常包含约270个通道 单台设备MLA成本约260美元占OCS设备总成本约6% 价格波动对OCS设备整体成本影响较小 [28] - 若按未来OCS设备出货量预测2030年可能达5-10万台长期有望达30万台 MLA市场规模将从当前数百万美元增长至数亿美元 随着OCS设备端口数量增加如从136×136扩展至300×300 每台设备所需MLA通道数量也将增加提升MLA单位设备价值量 [28] CPO与OCS区别 - CPO核心思路是把交换芯片和光模块封装在同一壳子里 光信号从芯片到光模块距离大大缩短时延和功耗降低 且能实时跟着数据流量变调整传输路径速度达纳秒级灵活性高 尤其适配英伟达GPU集群NVLink NVSwitch技术 [29] - OCS走全光路子靠MEMS反射镜或硅基液晶分子控制光信号路径 全程不用光电转换 时延接近光速功耗比电交换机低40% 但光路需提前配置调整路径速度仅毫秒级应对频繁变流量吃力灵活性差 [29] - CPO适合数据流向老变需要快速响应场景如AI大模型实时推理和云计算给不同租户分配资源 特别是英伟达GPU主导AI数据中心 [30] - OCS适合流量模式固定不用老调路径场景如大模型深度训练和数据中心上层网络冗余保护 像谷歌TPU集群特别适合用OCS既能满足低时延需求长期用还能省电 [30] 谷歌OCS模式 - 谷歌使用MEMS芯片采用自主设计加委托代工模式 芯片设计环节由谷歌自行完成 生产制造环节委托给瑞典专业代工厂Silex负责 [31] - 早期谷歌曾尝试从市场直接采购现成MEMS芯片 但因对端口数量切换速度可靠性等指标有定制化要求 市场通用产品无法满足其OCS系统适配需求 [31] - 谷歌决定组建团队自主设计MEMS芯片 从底层架构确保芯片与自身OCS设备TPU集群兼容性 同时优化芯片性能参数如提升小镜子角度控制精度降低驱动电压 [31]
Nano-Banana核心团队首次揭秘,全球最火的AI生图工具是怎么打造的
创业邦· 2025-09-03 10:10
技术能力提升 - Nano Banana模型实现图像生成和编辑功能的重大质量飞跃 生成速度快 能理解模糊和口语化指令 并在多轮编辑中保持角色和场景一致性 效果更自然[5][9] - 模型具备强大的世界知识 能根据上下文进行创造性解释 例如将"make it nano"解释为生成迷你版角色[11] - 文本渲染能力成为评估图像生成效果的关键指标 当模型能生成有结构的文字时 也能更好地学习图像中的结构[13][16] - 采用交错式生成(Interleaved Generation)技术 使模型能分步骤处理复杂指令 逐步构建复杂图像 而非一次性生成所有内容[18][30][33] - 实现像素级精确编辑 能保持画面其他部分不变的情况下修改特定元素[26] - 生成单张图像速度仅需13秒 支持快速迭代创作[28] 模型架构优势 - 基于Google多个团队的项目成果 结合Gemini的世界知识与指令遵循能力 以及Imagen模型的图像美学追求[3] - 原生多模态能力使图像理解和图像生成像"姐妹"一样密切相关 不同模态间产生正迁移[18] - 具备对多模态上下文的访问能力 能在图像和文本之间进行协调与理解[21] - 相比专门化模型Imagen Nano Banana更适合复杂多模态工作流 包括多轮编辑和创意探索[35][37] - 可接受图像作为参考输入 更好地理解生成提示[39] 开发与评估方法 - 通过提升文本渲染效果来同时提升生成图像质量[5][13] - 收集用户反馈构成基准数据集 持续追踪和改进常见失败模式[42][44] - 结合Gemini团队和Imagen团队的专长 既注重指令执行和世界知识 也关注图像自然度和美观度[48] - 团队具备专业美学判断能力 能通过人工评估成千上万张图像来比较模型表现[49] 未来发展方向 - 不仅追求视觉质量提升 更注重模型智能和事实准确性[6][51] - 目标是打造能理解用户深层意图 甚至能超越用户提示词提供更好创意的聪明模型[6][51] - 致力于提高数据保真度 特别是在工作场景中生成准确可用的图表和信息图[52][53][57] - 最终愿景是将所有模态整合进Gemini 从知识迁移中受益并向通用人工智能(AGI)迈进[35]
GoogleI/OConnectChina2025:智能体加持,开发效率与全球化双提升
海通国际证券· 2025-08-22 06:30
行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 核心观点 - Google I/O Connect China 2025大会展示了AI模型创新、开发工具升级与全球化平台生态的重要进展 重点包括Gemini 2 5系列在多模态处理与响应速度上的提升 Gemma开放模型系列的多场景应用以及AI开发工具链的全面智能化升级 [1] - Gemini 2 5架构通过统一嵌入表示与跨模态注意力机制显著提升多模态理解与生成的准确性 并集成链式推理与结构化推理模块增强复杂任务的逻辑一致性和多步推理能力 [2] - Gemma系列模型基于Transformer架构 在参数规模、推理优化与许可协议上更具开放性 支持开发者在医疗、教育、语音交互等特定领域进行二次训练 其衍生模型如MedGemma、DolphinGemma和Gemma 3n分别聚焦医学语料、动物声学研究和轻量化端侧部署 [3] - Google将AI智能体功能深度集成到Firebase Studio、Android Studio和Chrome DevTools等核心开发工具中 形成全新工作流 显著提升开发效率与调试能力 [4][7] - 海外生成式模型如Lyria、Veo3、Imagen 4在音乐、视频、图像生成方面的一致性及多模态交互能力较国内模型更成熟 为内容出海团队提供强大生产力工具 [4] 技术架构创新 - Gemini 2 5实现文本、图像、音频和视频的统一嵌入表示与跨模态注意力机制 使开发者能够直接输入多模态提示并在同一向量空间进行联合推理 避免信息割裂 [2] - Gemini 2 5集成链式推理与结构化推理模块 通过中间表征增强逻辑一致性 在复杂任务的多步推理中表现突出 [2] - Gemma 3n通过剪枝、量化和蒸馏技术实现轻量化 仅需2GB内存即可在端侧设备流畅运行 [3] 开发工具升级 - Firebase Studio智能体模式利用任务分解与代码生成技术 可根据自然语言需求自动生成应用原型并递进式完成功能扩展与bug修复 [4][7] - Android Studio引入BYOM功能 允许开发者自由选择Gemini Nano、Gemma或第三方模型在统一IDE环境中进行训练与调试 [4][7] - Chrome DevTools内置Gemini助理 可直接在浏览器环境中进行语义分析与代码修正 快速解决CSS布局或跨浏览器兼容性问题 [4][7] 多场景应用拓展 - MedGemma聚焦医学语料与临床对话 在问答和影像理解任务上表现优异 [3] - DolphinGemma探索动物声学 首度建立海豚语大模型 [3] - Imagen 4在图像生成方面展示出强大能力 为电商营销和游戏出海企业提供高效内容生产工具 [4][8] 全球化生态建设 - Google通过开放海外生成式模型能力 强化内容创作生态 吸引内容出海团队使用其工具提升短视频、电商营销和游戏出海的效率 [4] - 与Trip com合作开发AI旅行助手 展示AI智能体在垂直领域的应用潜力 [13]
实探谷歌开发者大会:一通电话生成App、智能体秒变网页助手,全球首个“海豚语”大模型亮相
搜狐财经· 2025-08-13 13:38
大会概况 - Google I/O Connect China 2025开发者大会于8月13日在上海开幕 聚焦AI驱动的前沿技术、开发工具及全球化平台动态[2] - 现场展示区吸引多国开发者排队体验"App热线"、"AI快拼"、"Web AI智能体"等AI赋能产品交互[2] AI技术进展 - Gemini 2.5系列模型具备跨模态任务处理能力和快速响应能力 支持开发者构建复杂规划逻辑应用[5] - 生成式模型Veo3和Imagen 4激发开发者在图像、音视频领域的创意灵感并提升内容生产效率[5] - Gemma开源模型支持开发者根据实际需求开发衍生模型 其应用拓展包括医疗健康领域MedGemma、全球首个"海豚语"大模型DolphinGemma及端侧设备Gemma 3n[5] 开发者生态观察 - AI技术迭代显著降低应用开发门槛 吸引多元背景开发者涌入生态 中国开发者以发散性思维和多样性创意推动市场竞争[7] - AI工具普及可能导致工程师忽视自主深度学习思维 而持续自主学习被视为创新的根本来源[7] - 开发者与AI工具形成双向赋能关系:开发者通过工具提升效率与创新能力 同时以场景实践和数据反馈驱动AI工具持续进化[7] 战略定位 - Google将中国出海开发者定义为全球创新舞台不可或缺的中坚力量[6] - 经营开发者生态需深入观察社区开发者角色背景及真实需求 持续倾听用户反馈 该策略适用于Google、Meta等大型企业及初创公司[7] - Google将通过资源、社区和合作伙伴网络促进本土与全球开发者交流协作 支持中国出海开发者长期成长[7]
小扎千亿挖人名单下一位:硅谷华人AI高管第一人
量子位· 2025-06-28 04:42
Meta的AI人才争夺战略 - 扎克伯格亲自带队重金招募AI人才,包括从OpenAI、Google、Scale AI等竞争对手挖角以及召回Meta旧部[1][2][3] - 重点目标包括Meta前工程高级副总裁Bill Jia,其曾主导PyTorch开发,现为Google Core ML/AI负责人[6][7][8] - 公司为AI人才提供数千万美元薪酬方案,坊间传闻部分"转会费"高达1亿美元[33][37] Google的AI部门整合与Bill Jia的贡献 - Google在2023年重组AI部门为Core ML/AI,由Bill Jia领导并整合多个团队[11][12][14] - Bill Jia上任半年内裁撤10名表现不佳的总监级员工,并推动Gemini 2.5 Flash等核心项目[13][16] - Google DeepMind与Core ML/AI深度合作,主导Gemini系列模型研发[16] Meta的AI业务现状与调整 - Llama 4发布遭遇滑铁卢,性能问题与AI研究主管离职引发舆论危机[18][19][22] - 公司紧急重组AI团队,设立AI产品团队和AGI Foundations团队,分别负责应用与基础技术[25][26][28] - 新成立超级智能实验室,目标开发超越人类认知的AI系统[29] 行业竞争与开源策略 - Meta坚持开源路线,计划年内推出多个Llama版本,但面临Google开源模型Gamma的竞争[44] - Google宣布全面拥抱开源为未来核心战略,提供业界最高免费限额的终端服务[44] - 行业AI人才争夺白热化,OpenAI等公司对Meta挖角行为提出反报价[36]
腾讯研究院AI速递 20250626
腾讯研究院· 2025-06-25 15:06
谷歌Gemini家族新成员 - Gemini Robotics On-Device是首个能在机器人本地运行的视觉-语言-动作模型,无需网络连接,适用于延迟敏感型应用 [1] - 该模型可执行高度灵巧任务如拉开拉链、折叠衣物,展现出优于其他本地模型的泛化性能和多步骤指令处理能力 [1] - 仅需50-100个演示即可适应新任务,能跨平台泛化到不同机器人如Franka FR3和Apollo人形机器人 [1] 谷歌Imagen 4/Ultra上线AI Studio - 谷歌将最新的Imagen 4和Imagen 4 Ultra文生图模型上线AI Studio和API,普通版每张约4美分,Ultra版约6美分,生成速度接近实时 [2] - Imagen 4 Ultra对prompt理解更精准,能生成高质量图像,支持每次生成最多四张1024×1024的图片,测试显示能生成逼真的超现实场景 [2] - 谷歌AI Studio未来将整合MCP服务器功能和Jules SWE Agent,界面也将更新,提供更统一的工作流和复杂操作能力 [2] OpenAI开发文档协作工具 - OpenAI正在开发ChatGPT文档协作功能,使用户能在平台上共同编辑文档并进行聊天交流,直接挑战微软Office和Google Workspace [3] - 这项功能是Sam Altman将ChatGPT打造为"超级智能工作助手"战略的一部分,可能进一步扩展至文件存储等生产力功能 [3] - 预计到2030年企业订阅ChatGPT将带来约150亿美元收入,但这可能加剧与最大股东微软的竞争关系 [3] ODDY工作室AI艺术创作 - AI技术复活世界名画与艺术家走秀视频爆红,ODDY工作室创作的《名作艺术秀》将梵高、达利、蒙娜丽莎等经典艺术元素以时装秀形式呈现 [4] - 视频重现多位艺术巨匠及其作品:梵高的《星夜》、波提切利的《维纳斯诞生》、克里姆特的《吻》、达利的超现实主义等 [5] - 最后场景中梵高、达利、莫奈、达芬奇等艺术大师同台相拥谢幕,这场AI视觉盛宴完美还原艺术作品细节并引发观众情感共鸣 [5] 出门问问TicNote AI硬件 - 出门问问推出全球首款Agentic AI硬件TicNote,3mm超薄设计可磁吸手机背面,支持120+语言转写,精度达98% [6] - 搭载Shadow AI智能体,能自动总结、生成思维导图,20小时超长续航,适用会议记录、课堂笔记等多场景 [6] - 产品展现"软硬结合+AI"战略成果,将Agent技术落地实用化,为职场人提供高效AI助手 [6] Readdy.ai出海增长 - AI设计工具Readdy.ai上线4个月实现近500万美元ARR,成为增长最快的AI出海应用之一,借助短视频在TikTok等平台病毒式传播 [7] - 产品成功关键在于生成界面质量超高,平衡专业设计规范与美学表现,让用户只需简单文本描述即可获得高完成度UI设计 [7] - 背后团队是打造蓝湖和MasterGo的中国顶尖设计工具团队,专注解决"无需设计基础也能产出专业界面"的痛点 [7] Delphi数字永生项目 - AI创业公司Delphi获红杉领投1600万美元A轮融资,创建数字化身让用户在赛博世界"永生",已有情感导师靠此年入百万 [8] - 创始人Ladjevardian的初衷是为中风无法说话的爷爷创建"数字大脑",将其回忆录中的智慧数字化,实现数字疗愈 [8] - Delphi提供多级订阅服务,可复制用户语言风格、知识体系和表达方式,用户可对每次对话收费并获85%以上收入 [8] 阿里云Agent应用变现 - 阿里云百炼平台与支付宝合作推出"AI打赏"功能,开发者的Agent应用可直接获取用户打赏,金额转入开发者个人支付宝账户 [10] - 开发者只需两步即可配置打赏功能:开启"支付宝AI收"功能并为Agent完成"赞赏卡片"配置,平台随机生成10元以内打赏金额 [10] - 百炼平台已有超10万开发者创建了30多万个Agent,未来将支持在任意渠道发布Agent并实现变现 [10] Biomni生物医学Agent - 斯坦福、基因泰克等机构联合开发通用生物医学AI智能体Biomni,能自主执行跨领域研究任务,无需预定义工作流程 [11] - Biomni由两部分组成:Biomni-E1(统一生物医学环境)和Biomni-A1(智能体架构,结合大语言模型推理与代码执行) [11] - 系统在遗传学、基因组学等领域表现出色,能分析可穿戴设备数据、处理复杂RNA数据并自主设计实验方案 [11] AI开源与应用竞争 - Linux基金会执行董事Jim Zemlin认为AI基础模型终将全面开源,真正的竞争将转向应用层 [12] - 开源模式能吸引顶尖人才共同创新,开发者参与开源的首要动机是"完成工作"而非金钱 [12] - 未来公司的竞争优势将体现在用户体验、专业服务等应用层面,而非基础模型本身 [12]
刚刚,首个能在机器人上本地运行的具身Gemini来了
机器之心· 2025-06-25 00:46
Gemini Robotics On-Device发布 - 谷歌DeepMind推出首个可直接部署在机器人上的视觉-语言-动作(VLA)模型Gemini Robotics On-Device,无需持续互联网连接即可运行[2] - 该模型基于Gemini 2.0多模态推理能力开发,属于Gemini Robotics系列,于2024年3月发布[3] - 模型经过优化可在机器人机体上高效运行,展现出强大的通用灵活性和任务泛化能力[4] 技术特性与优势 - 专为延迟敏感型应用设计,在连接中断或零连接环境中保持稳健性[5] - 相比之前最佳的本地端机器人模型表现出明显优势,在分布外任务和复杂多步骤指令方面优于其他本地端方案[15][16] - 只需50到100个演示即可快速适应新任务,展示出强大的基础知识泛化能力[21] 应用场景与测试表现 - 在七项不同难度灵巧操作任务测试中表现优异,包括拉开午餐盒拉链、画卡片和倒沙拉酱等[22] - 成功适配多种机器人平台,包括ALOHA机器人、双臂Franka FR3机器人和Apptronik的Apollo人形机器人[25][26][27] - 可执行通用指令,处理未见过的物体和场景,完成折叠连衣裙等灵巧任务及工业皮带装配等精密操作[26] 开发者支持 - 谷歌将发布Gemini Robotics SDK,支持开发者在MuJoCo物理模拟器中测试模型表现[7] - 开发者可使用SDK快速将模型适应到新领域,仅需少量演示即可完成适配[7] - 模型支持微调以获得更佳性能,是DeepMind首个可供微调的VLA模型[20] 相关技术进展 - 加州大学伯克利分校等机构联合推出的MuJoCo Playground获得RSS 2025杰出演示论文奖[8] - 谷歌同时宣布在AI Studio和Gemini API中推出图像生成模型Imagen 4和Imagen 4 Ultra[33] 产品策略调整 - 下调Gemini系列免费可用额度:Gemini 2.5 Flash从每日500次降至250次,Gemini 2.0 Flash从1500次大幅降至200次[30] - 公司表示这是伴随新模型推出的策略,会降低或取消上一代模型的免费套餐[32]
冠军队独享200w?这波是冲大学生来的,超千支队伍已组队报名
量子位· 2025-06-23 08:11
大模型变现与AI广告 - 生成式AI正在重构广告行业商业模式 底层技术探索空间巨大 [4][25] - Meta 2024年Q4广告营收同比增长21%达468亿美元 占总营收96.7% [9][12] - 谷歌CEO宣布重点押注生成式AI广告 涉及内容创作、分发模型等全链路 [15] AI广告技术突破 - Meta与英伟达合作的Andromeda系统使广告召回率提升6% 质量提升8% 部分回报率增长22% [10] - 谷歌推出Veo 3/Imagen 4等工具链实现广告创意全流程AI化 [17] - 推荐系统与生成模型融合实现"生成即推荐" 可动态创造个性化广告素材 [27][29] 行业变革方向 - 广告从"千人千面"升级为"一人千面" 实现场景化智能生成 [20][21] - 广告与种草边界模糊 内容性质增强 转化率提升 [24] - 传统展示广告向生成式内容消费链转型 追求精准而非曝光 [22] 技术架构与挑战 - 核心技术包括用户建模(特征嵌入/序列建模)、生成模型设计、多任务优化(CTR/CVR) [32] - 需解决生成多样性、实时性、伦理风险等挑战 [33] - 全模态序列生成式推荐(AMGR)代表推荐系统从识别到创造的范式转变 [44] 商业应用案例 - Meta的Advantage+AI工具提升Reels广告投放效率 [11] - 可口可乐AI广告案例显示创意本体可完全由AI生成 [18][20] - 多模态生成技术使广告可无缝植入新闻、视频等场景 [30] 产业人才机遇 - 腾讯广告算法大赛聚焦AMGR 提供360万奖金及直通offer机会 [44][45] - 参赛者可接触腾讯真实业务数据 培养广告思维与业务敏感度 [42][43] - 赛事基于Angel平台提供动态算力支持 解决资源瓶颈 [48]
3个趋势,看AI到底是怎么重构广告行业的?
36氪· 2025-06-11 09:42
谷歌AI战略转向 - 公司宣布进入AI平台转型新阶段,发布Gemini 2.5和Flash模型,展示贯穿搜索、广告、内容生成的AI Mode [1] - 通过AI模式将广告与内容深度融合,实现高度个性化和自动化广告投放,重构广告分发机制和商业路径 [1] 广告系统重构 - 广告系统从"人工创意+平台匹配"转向"AI自动生成内容+全渠道自动投放"模式 [2] - Performance Max模式在2022年三季度完成对旧版智能购物广告的全面替代 [2] - 公司不是在优化广告,而是重新定义广告本身 [2] 创意生产自动化 - 发布Veo 3、Imagen 4和Flow等AI产品,提供全流程自动化创意工具 [2][4] - 创意生产从资源密集型、人力驱动模式转向高度自动化、AI驱动的内容生成模式 [2] - Veo 3可将静态产品图自动转化为带有镜头语言的视频短片,极大降低高质量视频创作门槛 [4] 个性化范式转变 - 广告从"千人千面"迈入"一人千面",实现针对个人的超个性化投放 [3] - Gemini能力集成到搜索界面,结合购物图谱展示个性化产品列表面板 [3] - 通过"查询扇出"解析用户隐含意图,实现更精准的产品推荐 [3] 智能代理功能 - 引入智能代理结账功能,允许用户设定期望购买金额,自动完成交易 [5] - 公司从搜索引擎转变为主动购物代理,从"帮助发现"升级为"促成交易" [5] - 广告主竞争重点从驱动点击转向优化"代理推荐"表现 [5] 广告与搜索体验融合 - AI总览月活跃用户达15亿,"AI搜索"类型使用量提升10%以上 [6] - 广告直接融入AI生成的答案中,成为"有用信息"的一部分 [6] - 广告曝光总量可能下降,但单次曝光转化率有望显著提升 [6] 品牌主应对策略 - 打造品牌专属智能体,实现素材审核、投放决策自动化 [7] - 提供面向智能体的服务接口或数据产品,提升品牌在AI生成内容中的可见性 [7] - 注重"品效合一"的长期主义,实现品牌建设与销售转化协同增长 [9] 广告生态变革 - 广告从"链接引擎"转向"答案引擎",创造新的盈利机制 [8] - "零点击"搜索普及,品牌主须转向AI可发现性和权威性建设 [8] - 广告与内容界限模糊,用户难以感知"是否为广告" [8]
3个趋势,看AI到底是怎么重构广告行业的?
腾讯研究院· 2025-06-11 07:44
谷歌AI战略转向 - 谷歌CEO Sundar Pichai宣布公司正处于AI平台转型新阶段 通过Gemini 2 5和Flash模型发布 展示贯穿搜索 广告 内容生成的AI Mode 实现商业模式根本性重构 [1] - 谷歌将广告与内容深度融合 实现高度个性化和自动化广告投放 重构广告分发机制和商业路径 [1] 广告系统重构 - 谷歌广告演进从2000年AdWords到2021年Performance Max 实现"AI自动生成内容+全渠道自动投放"模式 2025年I/O大会进一步纵深推进 重新定义广告本身 [4] - 广告创意"流水线"全面AI化 Veo 3将静态产品图自动转化为视频短片 极大降低高质量视频创作门槛 [5] - AI从效率工具变成创意本体和投放决策者 智能代理渗透用户全流程 广告即内容 自然融入AI生成搜索结果 [6] - 创意生产范式从资源密集型向高度自动化AI驱动转变 品牌主可降本增效 重构工作流程 重塑创意生产体系 [7] 个性化范式转变 - 广告从"千人千面"迈入"一人千面" 通过Gemini能力集成到搜索界面 改变用户交互方式 实现更精准产品推荐 [9][10] - 智能代理结账允许用户追踪价格并自动购买 谷歌从搜索引擎转变为主动购物代理 广告主竞争重点转向优化代理推荐表现 [10] - AI模式推动广告行业实现真正"一人千面" 广告互动对用户都是独一无二的 实时生成的"交互内容" [11] 广告与搜索体验融合 - 谷歌AI总览月活跃用户达15亿 AI搜索类型使用量提升10%以上 广告直接融入AI生成答案 成为"有用信息"部分 [14] - AI缩短用户决策路径 颠覆互联网广告底层逻辑 广告曝光总量可能下降但单次转化率有望显著提升 流量分发机制与定价模型面临结构性变革 [15] 广告行业未来展望 - 品牌主需转型策略 从争夺搜索结果页位置转向争夺"被AI引用"机会 优化在购物图谱中的数据表现 [18] - 打造品牌专属智能体 与广告平台深度交互 实现素材审核 投放决策自动化 确保品牌调性与市场投放统一性 [19] - 提供面向智能体的服务接口或数据产品 提升品牌在AI生成内容和智能推荐中的主动性与可见性 [19] - 注重"品效合一"长期主义 通过AI赋能精准投放与内容创新 实现品牌建设与销售转化协同增长 [19]