高可用技术

搜索文档
2025年腾讯专有云企业版(TCE)高可用技术白皮书
搜狐财经· 2025-09-16 07:20
业务高可用定义与需求 - 高可用关键指标包括可用性百分比、业务恢复时间RTO和数据恢复目标RPO,其中99.90%可用性对应年计划外停机时间不超过52.56分钟,99.999%对应不超过5.256分钟,99.9999%对应不超过31.5秒 [18] - 高可用建设目标基于RTO和RPO划分为四个象限:RTO≠0且RPO=0(同步容灾)、RTO≈0且RPO=0(分布式双活/多活)、RTO≠0且RPO≠0(异步备份温备/冷备)、RTO≈0且RPO≠0(最终一致性弱状态业务) [21][22][23] - 高可用建设需考虑七大要素,包括技术部分(基础设施、网络连接、数据存储、应用高可用)和非技术部分(专业技术支持、运行维护管理、灾难恢复预案) [25][26][27] 腾讯专有云TCE高可用解决方案 - TCE采用"八横四纵"高可用体系,"四纵"从故障容忍范围划分(硬件组件级、节点级、机柜级、AZ级),"八横"从业务特性维度覆盖(基础设施、管控底座、网络连接、计算调度、存储、中间件与数据库、微服务框架、应用高可用) [32][33][34] - 提供四种部署模式:单AZ部署(低成本场景)、双活AZ部署(标准场景,可选仲裁区)、三AZ部署(优先场景)、多地多中心部署(增强场景),支持跨AZ同步复制保障RPO=0及仲裁机制优化RTO [36][37] - 双AZ+仲裁区部署通过专线连接仲裁区运行支撑组件(如ZK/etcd),在主AZ故障时与从AZ重组多数派,理论RTO趋近于0 [43][44][45] 基础设施层(IaaS)高可用设计 - 基础网络通过冗余交换机、堆叠线缆冗余及分裂检测实现硬件级高可用,外联网络采用异构ISP接入(每个AZ至少两家ISP)避免单点故障 [62][63][64] - 负载均衡CLB支持跨AZ集群部署,同步L4模式NAT会话九元组或L7模式HTTP/HTTPS会话状态,单AZ故障时可无缝切换至其他AZ节点 [72][73][74] - 存储高可用包括块存储CBS三副本机制、文件存储多副本冗余、对象存储CSP/COS跨AZ强一致同步(三AZ三副本或双AZ四副本),保障RPO=0 [93][96][99] 平台层(PaaS)高可用设计 - 消息队列TDMQ-Pulsar采用存算分离架构,跨AZ部署Broker与Bookie集群,数据写入需至少一个跨AZ副本确认,保障消息不丢失 [108][109][110] - 缓存CRedis采用最终一致性模型,请求通过Proxy分发至Cache主节点,异步复制至从节点,实现RTO≈0但RPO≠0 [114][115][117] - 关系型数据库TDSQL-MySQL通过跨AZ部署Proxy与引擎节点,写请求需主节点同步复制至其他节点后返回成功,保障强一致性 [118][120] 实战案例与行业应用 - 国家级5G新媒体平台采用双活AZ+仲裁方案,实现业务连续性及数据强一致性 [15] - 头部农商银行使用双活AZ+仲裁部署,保障金融业务高可用与故障快速切换 [15] - 国有大型保险集团通过双Region部署实现异地灾备,支持地域级故障恢复 [15][52] - 头部股份制商业银行采用三AZ部署,优化支撑组件与云产品服务的故障容忍能力 [15]