Google Cloud Compute Engine 使用教程:实例创建、SSH 连接、防火墙配置与成本控制

Google Cloud Compute Engine 教程

谷歌云账号注册完成后,Compute Engine 是大多数用户最先接触的产品。它的配置界面选项较多,初次操作容易随便点几个默认选项就创建实例,但区域选错无法迁移、磁盘类型选错影响性能、防火墙规则不理解导致服务访问不通——这些都是后续需要重做的成本。
这篇文章从创建第一台实例的判断逻辑开始,覆盖 SSH 连接、防火墙配置、磁盘管理和计费模式选择,帮助你把 Compute Engine 从开机到稳定运行走完一遍。

创建实例前的关键判断

区域和可用区怎么选

区域(Region)是地理位置,代表一个城市或地区的数据中心群;可用区(Zone)是区域内相互独立的数据中心单元,同一区域内的可用区之间有高速内网连接,但故障不互相影响。创建实例时必须同时指定区域和可用区。

选区域的核心判断是用户在哪里:

  • 面向中国大陆用户:asia-east2(香港),延迟最低
  • 面向东南亚用户:asia-southeast1(新加坡),覆盖马来西亚、印尼、泰国更均衡
  • 开发测试或面向欧美:us-central1(美国爱荷华),价格最低、资源最充足
  • 面向日本和韩国:asia-northeast1(东京)或 asia-northeast3(首尔)

需要特别注意的是:Compute Engine 实例创建后无法跨区域迁移,只能手动创建镜像再在目标区域重建。区域选错代价较高,应在创建前确认。

可用区的选择通常不需要太纠结,选 a 区(如 asia-east2-a)即可。高可用架构应将不同角色的实例分布在同区域的多个可用区,避免单一可用区故障影响整体服务。

机器系列怎么对应业务需求

谷歌云的机器系列按用途设计,不同场景适合不同系列,以下是常用系列的对比:

系列处理器定位适合场景
E2共享 vCPU成本最低轻量应用、开发测试、低负载工具
N2Intel通用平衡Web 应用、后台服务、数据库
N2DAMD EPYC成本优化成本敏感的长期运行业务
C2Intel,高主频计算优化游戏服务端、高并发处理、科学计算
M2Intel内存优化大型内存数据库、SAP HANA

E2 和 N2 覆盖了绝大多数常规项目的需求,N2D 适合在相近性能下进一步压低成本,C2 适合对 CPU 主频敏感的场景。如果业务涉及 AI 训练或推理,需要选 A2(A100)、G2(L4)或 N1 + GPU 的组合,这类实例需要单独申请配额,审批周期因账号情况不同而有差异。GPU 实例的配额申请流程和成本结构可以参考 Google Cloud GCP GPU 定价完全指南(2026)

启动磁盘类型和大小的选择

磁盘类型影响读写性能和成本,选择时应结合业务的 IOPS 需求:

  • 标准持久化磁盘(HDD): 成本最低,IOPS 有限,适合不频繁读写的冷数据存储和日志归档
  • 平衡持久化磁盘(Balanced SSD): IOPS 较高、性价比均衡,是大多数 Web 应用和后台服务的合理默认选项
  • SSD 持久化磁盘: 高 IOPS,适合数据库、频繁读写的应用,成本高于 Balanced

启动盘大小建议 Linux 实例至少 20GB,Windows 实例至少 50GB。过小容易在系统更新、安装软件包时触发磁盘空间不足的问题,磁盘扩容虽然支持在线操作,但增加了不必要的运维步骤。

创建实例的关键配置步骤

网络配置与外部 IP 地址

VPC 网络方面,测试环境直接使用 default VPC 即可,生产环境建议创建自定义 VPC,对不同角色的资源做网络隔离。

外部 IP 选”临时”还是”静态”是一个容易被忽视的判断:临时 IP 每次实例重启都会变化,如果域名需要解析到该实例,或者需要将 IP 加入白名单,临时 IP 会造成持续的维护负担,应选静态 IP。静态 IP 单独按小时计费,即使实例停机 IP 依然计费,不用时应及时释放。

网络层级(Premium vs Standard)直接影响跨境访问质量,面向大陆用户的实例应选 Premium,保证流量走谷歌自有骨干网。详细说明可以参考 Google Cloud 网络带宽为什么这么贵:Premium 与 Standard 网络层级的成本逻辑

服务账号与访问权限

每台实例都会关联一个服务账号,决定实例能访问哪些 GCP 资源(Cloud Storage、BigQuery、Pub/Sub 等)。默认的 Compute Engine 服务账号权限范围较宽,在生产环境中存在权限过大的风险。正确的做法是为不同用途的实例创建最小权限的自定义服务账号,只授予该实例真正需要的资源访问权限。

如果实例上运行的应用需要访问 Cloud Storage 或调用其他 GCP API,通过绑定服务账号来授权,应用代码通过 GCP SDK 自动获取凭证,不需要在实例内部存储任何 API Key 或服务账号 JSON 文件。

是否开启 Spot VM

Spot VM 的价格比按需实例低 60–91%,但 GCP 在需要资源时会随时回收实例,只会提前 30 秒发出通知。适合和不适合的场景:

适合使用 Spot VM:

  • 批处理任务、数据清洗、离线渲染等可以中断重试的工作
  • CI/CD 流水线、自动化测试环境
  • AI 模型训练中配合检查点保存策略的训练任务

不适合 Spot VM:

  • Web 服务、API 后台、任何面向用户的在线服务
  • 数据库实例
  • 需要持续积累状态的长时间任务

SSH 连接和基本操作

浏览器 SSH 与本地 SSH 的选择

GCP 提供两种 SSH 连接方式,各有适用场景。浏览器 SSH 是在控制台实例列表页点击”SSH”按钮,谷歌自动处理密钥和隧道,无需任何本地配置,适合临时查看日志、快速排查问题等低频操作,缺点是在网络不稳定时容易断连。

本地 SSH 通过本地终端连接,适合频繁操作、文件传输和需要稳定会话的场景。最简便的方式是使用 gcloud CLI:

gcloud compute ssh 实例名称 –zone 可用区名称

第一次执行时 gcloud 会自动生成 SSH 密钥对,将公钥写入实例 metadata,之后直接连接不需要额外操作。

SSH 密钥管理与 OS Login

谷歌云的 SSH 密钥有项目级别(对项目内所有实例有效)和实例级别(仅对单台实例有效)两种。更推荐的方式是开启 OS Login——它将 SSH 访问权限与 GCP IAM 账号绑定,团队成员有对应的 IAM 权限就能通过 SSH 登录实例,人员变动时只需修改 IAM 权限,不需要逐台实例手动管理密钥文件,安全性和可维护性都更好。

Windows 实例使用 RDP 连接:在控制台找到实例,点击”设置 Windows 密码”生成一次性凭证,再用 RDP 客户端(Windows 自带”远程桌面连接”)输入外部 IP 和生成的用户名密码即可连接。

VPC 防火墙规则配置

GCP 的防火墙规则机制和 AWS 安全组有一个重要差异:防火墙规则作用于整个 VPC,通过**网络标签(Network Tags)**关联到具体实例,而不是直接绑定在实例上。这意味着一条规则可以通过相同标签同时应用到多台实例——但也意味着如果创建了规则却忘记给实例打标签,规则不会生效。

常用防火墙规则配置

新实例默认只开放 SSH(22 端口)入站,其他端口均关闭。常见需要手动添加的规则:

  • HTTP/HTTPS(80/443): 部署网站时必须开放,控制台提供快捷勾选,会自动添加 http-server / https-server 标签
  • 数据库端口(3306 / 5432): MySQL 和 PostgreSQL 的端口,来源 IP 应限制为应用服务器的内网 IP,严禁对 0.0.0.0/0 开放
  • 自定义应用端口(如 8080): 按实际需要配置,生产环境的来源 IP 建议收窄到实际访问来源

通过网络标签批量管理实例防火墙

创建防火墙规则时,在”目标”字段选择”指定的目标标签”并填入标签名(如 web-server);在需要应用该规则的实例网络配置里添加相同标签,规则立即生效。这种方式在管理多台同类实例时效率明显更高——扩容新增的实例只要打上对应标签,就自动继承防火墙规则,不需要逐台配置。

磁盘和快照管理

额外数据盘的挂载

除启动盘外,可以在控制台为实例挂载额外的持久化磁盘,用于存储应用数据、数据库文件或日志。控制台操作完成后,还需要在实例内部格式化并挂载,磁盘不会自动出现在文件系统里:

# 查看已挂载的磁盘

lsblk

# 格式化(仅首次挂载时执行)

sudo mkfs.ext4 /dev/sdb

# 挂载到目录

sudo mount /dev/sdb /data

# 写入 /etc/fstab 保证重启后自动挂载

echo “/dev/sdb /data ext4 defaults 0 2” | sudo tee -a /etc/fstab

持久化磁盘与实例独立计费,实例停机期间磁盘仍然产生费用,不再使用的磁盘应及时删除,避免产生不必要的存储开销。

快照备份的配置逻辑

快照是对持久化磁盘的增量备份,第一次创建为全量,后续为增量。使用快照时需要注意几点:

  • 应设置快照保留策略(如保留最近 7 天或 5 个快照),避免历史快照无限积累产生不必要费用
  • 在重要操作前(系统升级、迁移、大规模配置变更)手动创建一次快照作为回滚保障
  • 定时快照可以在控制台的”快照计划”中设置,不需要人工触发
  • 快照跨区域复制会产生额外的存储和出站网络费用,按需使用

计费模式选择与长期成本控制

Compute Engine 有三种主要计费模式,选对模式对长期成本影响显著:

计费模式相对价格灵活性适用场景
按需计费(On-Demand)最高随时启停短期项目、流量不稳定的业务
Committed Use Discount(CUD)低(1年省37%,3年省55%)承诺 1–3 年长期稳定运行的核心业务
Spot VM最低(低60–91%)随时被回收批处理、CI/CD、可容错任务

谷歌云的 Committed Use Discount 和 AWS Reserved Instances 有一个重要差别值得单独说明:CUD 是对**资源类型(机器系列 + vCPU 量 + 内存量)**的承诺,不绑定具体实例。比如承诺了 N2 系列 4 vCPU + 16GB 内存,无论启动哪台符合条件的 N2 实例,折扣都会自动应用,不需要提前指定实例 ID。这意味着业务扩容时启动新的 N2 实例,只要在承诺的资源量范围内,新实例同样享受折扣,灵活性比 AWS RI 更高。

判断是否值得购买 CUD 的核心逻辑:实例是否每天持续运行超过 20 小时、未来 12 个月业务规模是否相对可预测、账号是否稳定。满足这三个条件的核心业务实例,购买 1 年期 CUD 几乎必然划算。关于谷歌云各节点实例的定价参考,可以查看谷歌云服务器价格:成本分析与美国/香港节点价格参考

通过代理渠道充值,可以在 CUD 折扣之外进一步降低整体成本。长期运行 Compute Engine、Cloud Storage 和 CDN 的项目,叠加充值返点后的年度实际成本会明显低于官网直充,具体可以参考谷歌云代理商指南:账号开通、充值续费、账单核对与优惠规则

滚动至顶部