AWS AI Factory
搜索文档
亚马逊云科技:与云计算一样,Agent也将带来巨大变革
搜狐财经· 2025-12-03 08:15
文章核心观点 - 2025年被行业视为AI Agent爆发元年,其在标准化和短周期任务中已展现出强大应用能力,并有望在长周期、复杂任务领域取得飞速进展,从而彻底重塑众多行业的业务、流程和组织 [1] - 亚马逊云科技在AWS re:Invent 2025大会上发布了一系列全栈AI创新服务,旨在从基础设施、推理平台、数据和工具等方面,为AI Agent在企业生产环境中的深度应用与大规模协同提供清晰路径和解决方案 [1][19] AI Agent的发展趋势与行业影响 - AI Agent时代正加速到来,其影响力被认为与云计算一样具有变革性,未来将出现数十亿AI Agent协同工作的场景 [1] - AI Agent的爆发将彻底颠覆企业的组织架构、业务流程和用户体验,让Agent融入生产环境并实现更好协作成为企业数智化转型的必答题 [18][19] AI基础设施:AWS AI Factory - 亚马逊云科技发布AWS AI Factory,这是一个可将专用的全栈AI基础设施直接部署到客户现有数据中心内的完整技术方案 [5] - 该方案结合了NVIDIA GPU、AWS Trainium芯片、高速低延迟网络以及Amazon Bedrock和Amazon SageMaker等核心AI服务,使用户能利用自身设施,而由AWS负责部署、运维和生命周期管理,类似于获得一个私有的AWS区域 [6] - AWS AI Factory的意义在于为用户提供了一个经过验证、成熟且可持续迭代的全栈AI方案,能帮助用户屏蔽基础设施复杂性,大幅缩短部署周期并降低运维难度,尤其适合看重安全与合规性又渴望快速应用AI的行业 [6][7] AI芯片创新:Trainium与NVIDIA平台 - 亚马逊云科技正式发布采用3nm Trainium3 AI芯片的Amazon EC2 Trn3 UltraServer超级服务器,单个服务器最多可扩展144个Trainium3芯片 [7] - 与Trainium2相比,Trainium3可提供高达4.4倍的计算性能、4倍的能源效率和近4倍的内存带宽 [7] - Trainium3 UltraServer专为AI、混合专家模型和大规模强化学习等工作负载设计,在GPT-OSS等开源模型的测试中,其推理响应速度、单芯片吞吐、训练与成本均取得业界领先成绩 [11] - 公司预览了下一代Trainium 4芯片,其计算能力将比Trainium 3提升八倍,内存带宽也将大幅增加 [15] - 除了自研芯片,公司还推出采用NVIDIA最先进GB300 NVL72平台的全新P6e-GB300 UltraServers,主要针对生产环境中的万亿参数AI推理和高级推理模型 [15] 大模型与训练服务:Nova系列与AWS Nova Forge - 亚马逊云科技正式发布下一代Nova 2系列模型,包括Nova 2 Lite、Nova 2 Pro和Nova 2 Omni,基准测试表明其能力可与Claude 3.5、GPT-4.5和Gemini Flash 2.5等模型媲美 [15] - 针对企业在微调模型时可能遇到的“模型退化”问题(即加入专有数据后模型遗忘原始训练数据),公司发布了开创性服务AWS Nova Forge [16] - AWS Nova Forge允许企业基于Nova系列模型训练自己的AI模型,提供对模型训练各阶段检查点的独家访问权限,使用户可在早期阶段注入专有数据并与精选数据集协同训练,确保模型最佳训练效果且不退化 [16] Agent平台与工具:Amazon Bedrock AgentCore - Amazon Bedrock AgentCore是一个Agent平台,核心目的是帮助企业大规模地安全构建、部署和运行高性能代理,支持广泛的基础模型和框架 [17] - 该平台在大会上功能得到增强,新增了Amazon Bedrock AgentCore Policy和Evaluations两项功能 [17] - AgentCore Policy旨在通过实时、确定性的控制措施来确保组织未经授权的操作,为Agent设定清晰边界,遏制未经授权的数据访问和不当交互 [18] - AgentCore Evaluations则帮助企业了解Agent的行为和结果,简化了确保Agent质量的复杂流程,并允许开发人员使用自定义的大型语言模型和提示词编写评估器 [18] - 此外,公司还推出了Kiro、DevOps Agent、Security Agent、Quick等一系列Agent [18] 公司创新与市场地位 - 亚马逊云科技在年收入达到1320亿美元之际,技术产品创新能力依然强悍,在本次大会上一口气发布了25项核心服务更新,涵盖从芯片、大模型到Agent平台和工具的全栈AI创新 [19] - 公司以全栈AI创新推动用户全面拥抱Agent变革时代,其提出的清晰路径为AI Agent未来在企业中的持续落地带来巨大参考 [19]
Amazon challenges competitors with on-premises Nvidia ‘AI Factories'
TechCrunch· 2025-12-03 00:43
AWS新产品发布 - AWS宣布推出名为“AI Factories”的新产品 允许大型企业和政府在自有数据中心运行其AI系统[1] - 该模式下客户提供电力与数据中心 AWS负责部署并管理AI系统 并可将其与其他AWS云服务集成[1] 产品定位与核心优势 - 产品旨在满足对数据主权有严格要求的公司和政府需求 确保数据完全控制权 避免流入竞争对手或外国对手手中[2] - 本地化AI工厂意味着无需将数据发送给模型制造商 甚至无需共享硬件资源[2] 技术合作与架构 - AWS AI Factory为与英伟达的合作项目 使用AWS与英伟达技术的组合[3][4] - 部署企业可选择英伟达最新Blackwell GPU或亚马逊自研Trainium3芯片[4] - 系统采用AWS自研网络、存储、数据库及安全技术 并可接入Amazon Bedrock模型管理服务和AWS SageMaker模型构建训练工具[4] 行业竞争格局 - 微软于2023年10月展示其首批AI工厂 部署于全球数据中心以运行OpenAI工作负载[5] - 微软未明确表示将此类高端机器用于私有云 但强调正利用英伟达AI工厂数据中心技术建设位于威斯康星州和佐治亚州的新一代“AI超级工厂”[5] - 微软上月还概述了为应对数据主权问题将在本地国家建设的数据中心与云服务 包括可在客户站点安装的“Azure Local”托管硬件方案[6] 行业趋势观察 - AI发展正促使顶级云服务商重新加大对私有数据中心和混合云的投资 类似2009年的行业态势[6]