Workflow
阿里云容器服务ACK
icon
搜索文档
阿里云容器服务覆盖AI全流程,团队透露:OpenAI训练GPT时就用了我们的开源能力
量子位· 2025-09-19 08:55
市场地位与技术根基 - 中国AI云市场规模达223亿元,阿里云以35.8%的份额位列市场第一 [2] - 公司基于其市场领先地位,通过AI Infra分享会展示了弹性计算、集群、容器及人工智能平台等技术产品 [4] - 分享会重点展示了公司在AI全栈云计算、10万GPU集群构建及AI落地实践方面的能力 [5] 全栈AI云计算能力 - 公司构建了从IaaS、PaaS到MaaS的全栈AI云计算架构,提供端到端解决方案 [6] - 阿里云在全球29个地域运营89个可用区,其产品生态深度融合了计算、存储与AI能力 [7] - 即将发布的OSS向量Bucket将显著降低存储成本,Tablestore可毫秒级查询千亿级数据 [7][8] - 表格存储服务功能升级,包括新增JSON格式、支持单行多列向量以提升性能并降低成本 [10] 大规模计算集群技术 - 公司运用香农定律,将10万张GPU互联构建成一个统一的巨型运算器,以应对摩尔定律失效的挑战 [11][12][13] - 此技术转变被类比为从单火箭发射到数百火箭捆绑的星舰,工程复杂度呈指数级增长 [14] - 通过亲和性调度机制将任务分配到最接近的GPU,最大限度减少通信延迟 [15][16] - 为应对万卡集群可能每十几分钟发生一次的故障,构建了秒级多层故障监控系统,实现任务无缝迁移 [18] 容器服务与AI应用 - 容器服务作为云上操作系统,在GPU时代支撑AI应用,可将资源利用率显著提升,例如将客户CPU利用率从10%提升至50%以上 [22][23] - 阿里云容器服务ACK像服务器端的安卓系统,向上支撑模型训练、推理等服务,向下调度管理底层资源 [23] - 公司开源的调度器Koordinator通过精细化调度策略提升GPU训练效率 [26] - 公司贡献的协同调度插件核心技术曾被OpenAI采用,以支持其7500节点Kubernetes集群运行GPT-3等大模型训练 [27][28][29] AI落地与企业价值 - 企业应用AI的核心价值在于提升效率与获得能力突破的惊喜 [31] - 公司将AI能力涌现分为三档:预训练决定基础能力、后训练负责专项技能、业务涌现依赖数据飞轮 [32] - 拥有16年历史的DataWorks平台已升级为AI搭档,能处理多模态数据并具备溯源能力 [34] - 当前AI Agent面临结果不确定性、推理过程难可视化及成本偏高等挑战,公司正通过优化沙箱环境等措施着手解决 [36]
从计算到存储,阿里云打通AI落地的“任督二脉”
AI前线· 2025-09-05 05:33
文章核心观点 - AI时代云基础设施的竞争焦点已从硬件堆砌转向架构精妙度、业务场景贴合度以及破解规模效应减弱魔咒的能力 [2] - 阿里云通过发布通用计算、容器计算及存储服务三项产品更新,串联出一条AI落地业务场景的完整路径,引导行业重新思考云基础设施的本质 [2] - 未来竞争将回归业务创新本身,当资源不再成为瓶颈,场景抽象能力和模型迭代速度成为胜出关键 [31] 计算实例产品更新 - 发布三款基于AMD第五代EPYC处理器(Turin)的企业级实例:u2a、g9a、g9ae,针对不同业务场景提供差异化性能 [5] - u2a实例面向中小企业,性能基线较u1提升20%,支持最高15%算力突发,网络带宽支持从16Gbps突发至25Gbps,性价比提升50% [7] - g9ae实例采用物理核设计,每个vCPU独占L3缓存和内存通道,单vCPU算力提升高达60%,视频转码性能提升65% [8][9] - 通过软硬件深度融合,阿里云自研操作系统与AMD Turin服务器进行基因级适配,MySQL查询速度提升10%,单节点推理性能提升15% [10] 容器服务升级 - 阿里云容器服务ACK新增云原生AI套件Serving Stack,包含RoleBasedGroup控制器和Gateway Inference Extension两大组件 [18][19] - RBG控制器在Deepseek R1推理服务测试中,模型加载耗时减少90%,实现10GiB/s以上带宽 [21] - GIE组件在模型推理压测中,长尾场景首包延迟提升73%,缓存利用率提升90%,响应速度提升40% [21] - 容器计算服务ACS实现五大技术突破,包括CPU与内存最小粒度0.5vCPU、支持分钟级万个Pod弹出、新增价格仅为常规实例20%的BestEffort模式 [27] 存储服务增强 - 表格存储Tablestore升级AI场景支持能力,通过DiskANN等向量检索算法和自动弹性伸缩,较传统自建方案降低30%整体存储成本 [28] - 推出开源AI Agent Memory框架,预置会话、消息、知识库三大通用数据模型,支持通过OpenMemory MCP一键部署AI记忆方案 [34] - 功能升级包括新增JSON格式支持、多列向量功能,降低数据冗余并加速关联查询 [34] 行业影响与趋势 - 云计算本质从算力资源转向服务属性,未来算力与存储将继续服务化,企业只需为业务峰值买单 [30] - 基础设施设计理念转变为让基础设施匹配业务,而非业务迁就基础设施,实现算力按需膨胀、按秒计费、按故障自愈 [30] - Kubernetes已成为AI/ML工作负载主流平台,52%终端用户在Kubernetes上运行AI/ML工作负载 [14]
小红书用云新模式,找到同好是关键
36氪· 2025-06-09 08:31
小红书平台业务模式演进 - 用户行为从单纯搜索攻略转变为与同好分享讨论并优化攻略,提升出游计划制定效率 [1] - 平台从内容创作社区演变为集内容创作、社交互动与电商销售于一体的综合型平台 [1] - 业务体量和用户规模快速增长后,公司采取"云上有啥用啥"的策略 [1] 小红书技术架构与算法 - 强大的搜索与推荐算法是实现高效信息匹配的关键 [1] - 技术栈自上而下分为:搜索与推荐算法、内容算法和大数据推荐、小红书云原生平台、云端算力基础设施 [1] - 搜推业务和独特算法是公司差异化竞争的核心 [2] 小红书与阿里云的合作模式 - 公司以阿里云容器服务ACK为核心构建稳定的技术基座 [3] - 通过自研CIPU架构虚拟化技术,基于AMD EPYC处理器为云服务器ECS提供强大算力 [3] - 公司积极参与Koordinator、OpenKruise等阿里云开源项目,通过共建实现量身定制的解决方案 [3] - 合作开创"云基座+深度定制"的新用云模式,推动行业标准制定和技术生态发展 [3]