云平台托管集群:EKS、GKE、AKS 深度解析与选型指南-第四章
目录
专栏介绍
作者与平台
您将学到什么?
学习特色
引言:云原生时代的托管集群浪潮
第四章:选型决策框架与实战场景分析
4.1 选型决策框架:关键维度评估
4.2 典型场景分析与推荐
专栏介绍
作者与平台
作者:庸子
用户ID:2401_86478612
第一发表平台:CSDN
欢迎来到《Kubernetes架构师之路:系统化学习与实践》专栏!在这个容器化技术主导的时代,Kubernetes已成为云原生应用编排的事实标准,掌握Kubernetes已成为每位开发者和运维工程师的必备技能。
本专栏采用系统化学习方法,从基础概念到高级实践,循序渐进地带您全面掌握Kubernetes技术栈。无论您是刚接触容器技术的初学者,还是希望深入理解Kubernetes架构的资深工程师,这里都将为您提供清晰的学习路径和实用的实战指导。
您将学到什么?
- 基础理论:深入理解容器、容器编排、Kubernetes核心概念和架构设计
- 核心组件:掌握etcd、API Server、Controller Manager、Scheduler等核心组件的工作原理
- 资源管理:学会Pod、Deployment、Service、Ingress等核心资源的创建与管理
- 网络与存储:理解Kubernetes网络模型和存储方案,解决实际部署中的网络与存储问题
- 高可用与扩展:构建高可用的Kubernetes集群,实现应用的自动扩展与故障恢复
- 监控与日志:掌握集群监控、日志收集与应用性能优化方法
- CI/CD集成:学习如何将Kubernetes与CI/CD流程结合,实现自动化部署
- 安全实践:了解Kubernetes安全模型,掌握RBAC、网络策略等安全配置
学习特色
- 系统化知识体系:从零开始,构建完整的Kubernetes知识框架
- 实战导向:每个知识点都配有实际操作案例,让您"学以致用"
- 问题驱动:针对实际部署中常见的问题提供解决方案
- 最新版本覆盖:基于最新稳定版Kubernetes,紧跟技术发展趋势
- 架构师视角:不仅教您"如何做",更解释"为什么这样设计"
无论您是想提升个人竞争力,还是为企业构建高效的云原生基础设施,本专栏都将助您成为真正的Kubernetes专家。让我们一起开启这段激动人心的Kubernetes学习之旅!
立即订阅,开启您的Kubernetes架构师成长之路!
引言:云原生时代的托管集群浪潮
在数字化转型的浪潮中,容器化技术(以 Docker 为代表)和容器编排平台(以 Kubernetes 为核心)已成为现代应用架构的基石。企业纷纷拥抱云原生,以实现敏捷开发、弹性伸缩、高可用性和资源效率最大化。然而,自建 Kubernetes 集群涉及复杂的安装、配置、升级、维护和监控工作,对运维团队的技术能力和资源投入提出了极高要求。
为了解决这一痛点,全球三大云服务提供商——亚马逊云科技(AWS)、谷歌云(Google Cloud)、微软 Azure——相继推出了其 Kubernetes 托管服务:
Amazon EKS (Elastic Kubernetes Service)
Google Kubernetes Engine (GKE)
Azure Kubernetes Service (AKS)
这些托管服务将 Kubernetes 控制平面的管理责任完全交给云厂商,用户只需专注于工作负载的部署、管理和业务创新。它们极大地降低了 Kubernetes 的使用门槛,加速了云原生应用的落地。
然而,EKS、GKE、AKS 虽然都基于 Kubernetes 核心,但在架构设计、功能特性、集成生态、成本模型、运维体验等方面存在显著差异。对于企业而言,选择哪个平台并非易事,需要综合考虑技术栈、业务需求、成本预算、团队技能、合规要求等多重因素。
本文旨在提供一份超详细、超深入、超实用的对比分析,字数超过 3 万字,力求成为您在 EKS、GKE、AKS 之间做出明智选择的终极参考。我们将从基础架构到高级特性,从技术细节到实战场景,从成本优化到未来趋势,进行全方位、无死角的剖析。
第四章:选型决策框架与实战场景分析
理论对比和成本分析之后,如何结合自身实际情况做出最佳选择?本章提供一个结构化的决策框架,并通过典型场景分析,帮助您找到最适合的云平台托管集群。
4.1 选型决策框架:关键维度评估
建议从以下 10 个关键维度评估 EKS、GKE、AKS 对您业务的匹配度。为每个维度设定权重(根据您业务的重要性),并对每个平台在该维度的表现进行评分(1-5 分,5 分最佳),最后计算加权总分。
维度 | 权重 (1-10) | EKS 评分 (1-5) | GKE 评分 (1-5) | AKS 评分 (1-5) | 评估要点 |
1. 现有技术栈与生态 | - | - | - | - | 团队熟悉度、现有云服务依赖、开发工具链、认证体系。 |
2. 核心功能需求 | - | - | - | - | 网络(SG/NetworkPolicy)、存储(块/文件/对象)、安全(身份/策略/运行时)、可观测性偏好。 |
3. 工作负载特性 | - | - | - | - | 无状态/有状态比例、稳定性/波动性、隔离要求、事件驱动程度、批处理需求。 |
4. 运维复杂度与团队能力 | - | - | - | - | 团队 Kubernetes 经验、DevOps 成熟度、可投入运维人力、对托管程度的期望。 |
5. 成本敏感度与模型 | - | - | - | - | 预算限制、成本优化优先级、对预留/Spot/无服务器的接受度、TCO vs 运维成本权衡。 |
6. 合规性与数据主权 | - | - | - | - | 行业法规(HIPAA, PCI, GDPR)、数据驻留要求、特定认证需求、审计要求。 |
7. 混合云/多云战略 | - | - | - | - | 是否有本地/边缘/其他云的 K8s 集群?是否需要统一管理/治理/监控? |
8. DevOps/CI/CD 集成 | - | - | - | - | 现有 CI/CD 平台(Jenkins, GitLab, GitHub Actions, Azure DevOps)、部署工具偏好(Helm, Kustomize, GitOps)。 |
9. 服务网格与微服务治理 | - | - | - | - | 是否需要服务网格?对 Istio/App Mesh/ASM 的偏好?跨集群服务治理需求? |
10. 供应商关系与长期战略 | - | - | - | - | 与云厂商的合作关系、合同谈判能力、对厂商锁定的担忧、长期技术路线图契合度。 |
加权总分 | - | - | - | - | (Σ(权重 * 评分)) |
维度详解与评分参考:
现有技术栈与生态:
EKS (5分): 如果团队深度使用 AWS 服务(RDS, S3, Lambda, DynamoDB, IAM),熟悉 AWS CLI/SDK,已投资 AWS 认证(SAP, DevOps),EKS 是最自然的选择,集成最无缝。
GKE (5分): 如果团队是 GCP 重度用户(BigQuery, Pub/Sub, Dataflow, Cloud IAM),熟悉 GCP 工具链,或有 Google Borg/Omega 经验,GKE 是首选。
AKS (5分): 如果团队深度使用 Azure 服务(SQL Database, Blob Storage, Active Directory, DevOps),熟悉 Azure 门户/CLI/Powershell,已投资 MS 认证,AKS 集成度最高。
评分: 根据您团队对三大云生态的熟悉度和现有依赖度打分。越熟悉、依赖越深,评分越高。
核心功能需求:
网络:需要 Pod 级安全组? -> EKS (5分)。
需要开箱即用的 NetworkPolicy? -> GKE (5分)。
需要强大的 L7 Ingress (WAF, 高级路由)? -> 三者都强,看偏好:ALB/NLB (EKS), Global HTTP/S LB (GKE), App Gateway (AKS)。
存储:需要高级文件存储 (Lustre/ONTAP)? -> EKS (5分)。
需要挂载对象存储桶? -> GKE (5分) (FUSE CSI), AKS (4分) (Blob Fuse)。
标准块/文件存储? -> 三者都满足 (4分)。
安全:需要最简单的权限管理 (Azure RBAC for AKS)? -> AKS (5分)。
需要最强大的运行时安全集成 (Defender for Cloud)? -> AKS (5分)。
需要最简单的策略管理 (Azure Policy)? -> AKS (5分)。
需要 Pod 级安全组? -> EKS (5分)。
需要原生 NetworkPolicy? -> GKE (5分)。
可观测性:需要最强大的日志查询 (KQL)? -> AKS (5分)。
需要最统一的可观测平台 (operations suite)? -> GKE (5分)。
需要最灵活的开源集成? -> 三者都好 (4分)。
评分: 根据您最看重的子功能,给对应平台打高分。没有明显偏好则三者接近。
工作负载特性:
无服务器需求:需要 Pod 级强隔离? -> EKS (Fargate) (5分)。
需要全托管集群级无服务器 (Autopilot)? -> GKE (5分)。
需要事件驱动无服务器 (ACA)? -> AKS (5分)。
需要突发流量处理 (ACI/Virtual Nodes)? -> AKS (5分)。
稳定性与波动性:负载极其稳定? -> 预留实例 (三者 4分)。
负载波动大? -> 自动扩缩容 + Spot/无服务器。EKS (Karpenter+Spot) (5分), GKE (Autopilot) (5分), AKS (CA+Spot+ACI) (4分)。
批处理/事件驱动: -> GKE (Cloud Run/Functions) (5分), AKS (ACA/Functions) (5分), EKS (Fargate/Lambda) (4分)。
评分: 根据您工作负载的主要特性,给最匹配的平台打高分。
运维复杂度与团队能力:
团队 K8s 经验丰富,希望精细控制? -> EKS (4分) (灵活性高), GKE Standard (4分), AKS (4分)。
团队 K8s 经验有限,希望最小化运维? -> GKE Autopilot (5分), AKS (控制平面免费+易用) (4分), EKS (Fargate) (4分)。
DevOps 成熟度高,喜欢自动化? -> 三者都支持 GitOps/ArgoCD (4分)。GKE (Cloud Deploy) (5分), AKS (Azure Pipelines) (5分) 在 CI/CD 集成体验上更优。
评分: 团队能力越强,对托管程度要求越低,EKS/GKE Standard/AKS 评分越高。反之,Autopilot/AKS (免费控制平面) 评分越高。
成本敏感度与模型:
极度成本敏感,有大量可中断负载? -> EKS (Karpenter+Spot) (5分)。
关注 TCO,愿意为全托管付费? -> GKE Autopilot (5分)。
运行多个小集群? -> AKS (免费控制平面) (5分)。
出站流量大? -> GKE (5分) (通常最便宜)。
有稳定长期负载? -> 预留实例 (三者 4分)。
评分: 根据您最主要的成本驱动因素和优化策略,给对应平台打高分。
合规性与数据主权:
需要特定区域/国家驻留? -> 三者都提供广泛区域 (4分),需确认具体区域可用性。
需要特定认证 (HIPAA, PCI, FedRAMP)? -> 三者都提供广泛认证 (4分),需确认具体服务认证状态。
需要满足 GDPR? -> 三者都支持 (4分)。
需要强大的合规工具集成? -> AWS (Security Hub/Config/Control Tower) (5分), Azure (Policy/Defender/Blueprints) (5分), GCP (Security Command Center/Assured Workloads) (5分)。
评分: 如果有极其严苛或特殊的合规要求,需仔细验证各平台在您目标区域的合规性声明和工具支持。通常三者都能满足主流合规需求。
混合云/多云战略:
需要管理本地 K8s 集群,追求与云上一致体验? -> EKS Anywhere (5分), GKE on Anthos (5分), AKS on Azure Stack HCI (4分)。
需要连接并统一管理异构 K8s 集群 (包括其他云)? -> Azure Arc (5分) (连接任意 K8s), Anthos (5分) (跨 AWS/Azure/本地)。
主要在单一公有云,无混合需求? -> 三者都好 (3分)。
评分: 根据您混合云/多云的具体需求和范围,给最匹配的平台打高分。Azure Arc 的“连接任意”灵活性独特,Anthos 的跨云治理成熟。
DevOps/CI/CD 集成:
现有 Azure DevOps? -> AKS (5分) (Azure Pipelines 无缝集成)。
现有 GitLab CI/CD? -> 三者都支持 (4分)。
现有 GitHub Actions? -> 三者都支持 (4分)。
现有 Jenkins? -> 三者都支持 (4分)。
需要强大的可视化 CI/CD? -> AKS (Azure Pipelines) (5分), GKE (Cloud Deploy) (5分)。
需要原生渐进式交付? -> GKE (Cloud Deploy) (5分)。
评分: 根据您现有的 CI/CD 平台和对特定功能(如可视化、渐进式交付)的需求打分。
服务网格与微服务治理:
需要服务网格? -> 三者都支持 Istio/App Mesh/ASM (4分)。
需要跨集群服务治理? -> GKE (Anthos Service Mesh) (5分) (最成熟), AKS (ASM) (4分), EKS (App Mesh) (4分)。
偏好 Envoy (App Mesh)? -> EKS (5分)。
偏好 Istio (Anthos/ASM)? -> GKE/AKS (5分)。
评分: 如果服务网格是核心需求且需要跨集群,GKE Anthos 略优。否则三者接近。
供应商关系与长期战略:
与某云厂商有战略合作或巨大折扣? -> 对应平台 (5分)。
极度担忧厂商锁定? -> 优先考虑开源兼容性 (EKS-D, Anthos 基于 Istio, Azure Arc 连接任意) 和混合云方案 (4分)。GKE Autopilot 锁定度相对较高。
看好某云在云原生领域的长期投入和路线图? -> 对应平台 (5分)。Google (K8s 发明者)、Microsoft (企业软件巨头)、Amazon (市场领导者) 都有强大投入。
评分: 这是一个主观但重要的维度。根据您的商业考量、风险偏好和对云厂商的信任度打分。
使用框架:
召集关键利益相关者(架构师、运维负责人、开发负责人、安全负责人、财务负责人)。
共同讨论并确定每个维度的 权重 (1-10),反映其对于您业务的重要性。
基于本章和前面章节的详细分析,以及您团队的具体情况,为每个平台在每个维度上 评分 (1-5)。
计算每个平台的 加权总分。
总分最高的平台通常是首选。 但务必:
审查得分差异是否显著。
关注得分最高和最低的几个维度,深入讨论原因。
考虑非量化因素(如团队情绪、迁移风险)。
进行小规模 PoC (Proof of Concept) 验证关键假设。
4.2 典型场景分析与推荐
结合上述框架,分析几种常见的业务场景,给出推荐建议。
场景 1:初创公司 - 快速迭代,成本敏感,技术栈灵活
特点: 团队小而精,技术选型灵活,追求快速上线和验证 MVP。预算有限,对成本高度敏感。工作负载以 Web 前端、API 服务为主,有一定波动性。可能使用多种开源技术栈。
关键需求: 低启动成本、易于使用、快速扩缩容、成本优化、避免厂商锁定。
决策分析:技术栈: 灵活,无强依赖。
功能: 基础网络、存储、安全即可。
工作负载: 波动性,需要自动扩缩容和成本优化。
运维: 团队经验可能有限,希望简化。
成本: 极度敏感,Spot/无服务器是关键。
合规: 通常要求不高。
混合云: 短期无需求。
DevOps: 可能使用 GitHub Actions/GitLab CI。
服务网格: 初期可能不需要。
供应商: 希望灵活,避免锁定。
推荐:首选:Google GKE (Autopilot)理由: Autopilot 提供极致的简化,团队无需管理节点,专注应用开发。按 Pod 资源付费,结合自动扩缩容,潜在 TCO 低,符合成本敏感需求。Google Cloud 的出站流量价格通常有优势。与 GitHub Actions 等流行工具集成良好。Autopilot 的锁定度在可接受范围内(标准 K8s API)。
次选:Amazon EKS (使用 Karpenter + Spot)理由: Karpenter 能最大化 Spot 利用率,显著降低计算成本,非常适合成本敏感的初创公司。EKS 生态成熟,社区支持广泛。但需要团队具备一定的 K8s 运维能力来管理 Karpenter 和集群配置。
备选:Azure AKS (免费控制平面 + Spot VMs)理由: 免费控制平面节省基础成本。Spot VMs 提供折扣。Azure 的免费套餐和试用金对初创友好。如果团队熟悉 .NET/Azure 生态,是合理选择。
场景 2:大型企业 - 深度云迁移,强合规要求,混合云规划
特点: 传统企业,正在将核心应用从本地数据中心迁移到云。有严格的行业合规要求(如金融、医疗)。IT 团队规模大,有专业运维,但流程可能较慢。计划采用混合云架构(云+本地)。现有投资可能在特定云厂商(如因企业协议)。
关键需求: 企业级安全与合规、与本地环境集成、统一管理治理、高可用性、稳定性、供应商支持、长期 TCO。
决策分析:技术栈: 可能有现有云厂商依赖(如因企业协议)。
功能: 强大的安全(身份、策略、运行时)、网络(集成、合规)、可观测性(审计)是核心。
工作负载: 核心系统,稳定性要求高,可能有部分批处理。
运维: 有专业团队,但需要工具简化治理。
成本: 关注 TCO,预留实例是重点,合规成本也需考虑。
合规: 极其重要,HIPAA/PCI/FedRAMP 等,需要工具支持。
混合云: 核心需求,需要连接本地 K8s 或统一管理。
DevOps: 可能有内部平台或使用 Azure DevOps/GitLab Enterprise。
服务网格: 很可能需要,用于微服务治理和跨集群通信。
供应商: 企业协议、支持级别、长期路线图是关键。
推荐:首选:Azure AKS + Azure Arc理由: Azure Arc 是连接和管理混合云 K8s 的利器,允许将本地或其他云上的集群连接到 Azure 进行统一治理、监控和策略执行(Azure Policy),完美满足混合云统一管理需求。Azure Policy for AKS 和 Microsoft Defender for Cloud 提供了业界领先的内置合规性和安全工具,极大简化满足严格合规要求的过程。Azure RBAC for AKS 与企业现有 Azure AD 集成,权限管理统一。如果企业已有 Microsoft 生态和 Azure 企业协议,集成度最高,支持最完善。免费控制平面在多集群场景下节省成本。
次选:Google GKE (Anthos/GKE Enterprise)理由: Anthos/GKE Enterprise 是混合云/多云治理的成熟标杆,提供跨 GCP、AWS、Azure、本地的统一控制平面、策略管理(Policy Controller)、服务网格(ASM)和配置管理。Assured Workloads 满足特定合规隔离需求。如果企业有跨多云的战略,或对 Google 的技术领导力有信心,是强有力的选择。成本相对较高。
备选:Amazon EKS + EKS Anywhere理由: EKS Anywhere 提供在本地运行与 EKS 一致体验的集群,满足混合云需求。AWS 的安全工具(GuardDuty, Security Hub, Config)和合规认证非常全面。如果企业是 AWS 重度用户或有强大的 AWS 团队,是合理选择。EKS Anywhere 对跨其他公有云的支持不如 Anthos/Arc 灵活。
场景 3:互联网/Web 应用公司 - 高流量,全球化,DevOps 成熟
特点: 面向消费者的 Web 或移动应用,流量大且波动剧烈(如促销、热点事件),需要全球化部署(低延迟)。DevOps 文化成熟,自动化程度高,频繁发布。技术栈可能多样化(微服务、事件驱动)。对性能、可用性、用户体验要求极高。
关键需求: 全球低延迟访问、极致自动扩缩容、高可用性、强大的 CI/CD 流水线、可观测性(性能、错误追踪)、成本优化(应对流量洪峰)、服务治理(微服务)。
决策分析:技术栈: 可能多云,但核心平台需强大。
功能: 全球负载均衡、自动扩缩容(HPA/CA/KEDA)、强大的 Ingress/WAF、分布式追踪是核心。
工作负载: 高波动、高并发、无状态为主、事件驱动。
运维: DevOps 成熟,追求自动化,需要强大工具链。
成本: 关注 TCO,但性能和可用性优先。Spot/无服务器应对洪峰。
合规: 通常是 GDPR,相对标准。
混合云: 可能有多区域/多云部署需求。
DevOps: 核心,需要强大的 CI/CD(渐进式交付、GitOps)。
服务网格: 核心,用于流量管理、可观测性、安全。
供应商: 看重平台能力、全球基础设施、开发者体验。
推荐:首选:Google GKE (Standard + Cloud Run + Cloud Deploy + Anthos Service Mesh)理由: GKE 的全球基础设施和 Global External HTTP(S) Load Balancer 是提供低延迟全球访问的黄金标准。Cloud Deploy 提供了原生、强大的渐进式交付(金丝雀、蓝绿)能力,完美匹配高频发布需求。Cloud Run 是处理 HTTP 无状态工作负载和突发流量的绝佳补充,自动扩缩容能力极强(0->N)。Anthos Service Mesh 提供跨集群/区域的服务治理。Google 在大规模分布式系统(Borg, Search, YouTube)的经验深厚,其平台稳定性和性能经过验证。出站流量成本可能较低。
次选:Amazon EKS (使用 Karpenter + Fargate + AWS Load Balancer Controller + App Mesh)理由: Karpenter 能智能应对流量洪峰,最大化 Spot 利用率,优化成本。Fargate 提供强隔离,适合多租户或关键微服务。AWS Load Balancer Controller 集成 ALB/NLB,支持高级路由和 WAF。App Mesh 提供服务网格能力。AWS 全球覆盖广泛,服务丰富。如果团队是 AWS 专家,是强大选择。CI/CD 需要结合 CodePipeline/CodeDeploy 或 Argo CD。
备选:Azure AKS (使用 Azure Front Door + AGIC + ACA + Azure Service Mesh)理由: Azure Front Door 提供全球负载均衡和加速。AGIC (Application Gateway Ingress Controller) 提供强大的 L7 路由和 WAF。Azure Container Apps (ACA) 是处理事件驱动和 HTTP 工作负载的新兴力量,内置 Dapr/KEDA。Azure Service Mesh 提供服务治理。Azure Pipelines 提供强大的 CI/CD。如果应用深度集成 Azure 服务(如 Cosmos DB, Service Bus),是合理选择。
场景 4:数据分析/AI 公司 - GPU 密集型,批处理,数据密集
特点: 核心业务是大数据处理、机器学习模型训练/推理、科学计算。工作负载包括长时间运行的批处理作业、分布式训练(需要 GPU)、交互式查询。对存储吞吐量、网络带宽、GPU 可用性和性能要求高。可能使用 Spark, Flink, TensorFlow, PyTorch 等框架。
关键需求: 高性能 GPU 实例、高速存储(本地 SSD/分布式文件系统)、高带宽网络(RDMA?)、作业调度与编排(如 Kubeflow, Volcano)、成本优化(Spot GPU)、与数据湖/数据仓库集成。
决策分析:技术栈: 依赖特定 AI/大数据框架和 GPU。
功能: GPU 支持、高性能存储(块/文件/对象)、高速网络、作业调度是核心。
工作负载: 批处理、长时间任务、GPU 密集、数据密集。
运维: 需要管理 GPU 驱动、框架、调度策略。
成本: GPU 成本高昂,Spot GPU 优化是关键。存储/网络成本也需关注。
合规: 数据隐私可能重要。
混合云: 可能有本地 HPC 集群。
DevOps: 模型训练/部署流水线。
服务网格: 通常不是核心。
供应商: GPU 类型、价格、可用性是关键。
推荐:首选:Amazon EKS (使用托管节点组/Karpenter + GPU 实例 + FSx for Lustre)理由: AWS 提供最广泛和最新的 GPU 实例选择(NVIDIA A100, H100, AMD Instinct 等),可用性通常最好。Karpenter 对 Spot GPU 的优化能力是其核心优势,能显著降低昂贵的 GPU 计算成本。FSx for Lustre 提供高性能、低延迟的并行文件系统,是 HPC 和 AI 训练的理想选择,与 EKS 集成良好。AWS 的存储(S3)和数据处理服务(EMR, Glue)生态成熟,便于数据湖集成。EKS 对 Kubeflow 等机器学习编排框架支持良好。
次选:Google GKE (使用 GPU 节点池 + Filestore High Scale / Cloud Storage FUSE)理由: Google 在 AI 领域(TPU,以及与 TensorFlow 的渊源)有深厚积累。GKE 支持 GPU 节点池和 Preemptible GPU(节省成本)。Filestore High Scale 提供高性能文件存储。Cloud Storage FUSE CSI 方便直接访问数据湖。Google 的 AI Platform (Vertex AI) 与 GKE 集成,提供端到端的 ML 工作流。如果工作负载能利用 TPU 或深度集成 Google AI 生态,是强力选择。
备选:Azure AKS (使用 GPU 节点池 + Azure NetApp Files / Blob Fuse)理由: Azure 提供 NVIDIA GPU 实例,并积极扩展其 AI/ML 服务(Azure Machine Learning)。Azure NetApp Files 提供企业级高性能文件存储。Blob Fuse 访问数据湖。Azure Machine Learning 服务与 AKS 集成,支持模型部署。如果企业是 Azure 重度用户或使用 Azure ML,是合理选择。在 GPU 实例的广度和 Spot GPU 优化工具上,可能略逊于 AWS。