1.
采购与供应商确认
- 采购清单:CPU/内存/磁盘/带宽/公网IP数、操作系统支持、快照/Snapshot、控制面板、计费周期。
- 要求供应商提供:SLA 文档、IP 段归属、反向域名(PTR)、快速上架流程、KYC/开票流程、支付方式(电汇/Paypal/加密货币)。
- 实操建议:先采购 1-2 台试运行,验证网络延迟、带宽上行、IP 黑名单、是否可做 PTR,再批量下单。
2.
账户与资产登记(批量管理)
- 建 CSV/Excel 资产表:hostname, IP, 登录账号, SSH 公钥指纹, 系统镜像, 购买日期, 到期日。
- 自动开户:如果代工厂支持 API,使用脚本调用创建并导出账号信息;若手工,逐条记录并要求导出账单与资源ID。
- 密钥策略:集中生成 SSH 密钥对(ssh-keygen -t ed25519 -C "company@domain"),公钥托管在安全 Vault(如 HashiCorp Vault)并记录指纹。
3.
制作标准镜像与模板
- 在样机上完成基础配置并制作模板镜像:创建非 root 用户、加公钥、安装常用工具(curl, vim, git)、关闭密码登录。
- 自动化工具:使用 Packer 构建镜像,或使用代工厂提供的快照功能导出标准镜像,保持镜像版本号与变更记录。
- 示例:Packer 或 Ansible Playbook 模板包含用户创建、sudo、时钟同步、ntp、基础安全策略。
4.
网络、DNS 与安全初始配置
- DNS:为每台机器在内部 DNS 或外部 DNS(Cloudflare/阿里云)建记录,并配置负载域名与健康检查。
- PTR/反向解析:提交给代工厂绑定 PTR,避免邮件被拒。
- 防火墙与安全:启用 UFW/iptables 基本规则:允许 SSH(建议更改端口)、HTTP/HTTPS、监控端口;安装 fail2ban,限制登录尝试。
5.
批量部署实操步骤(一步步)
- 步骤 A(下发密钥):使用 ssh-copy-id -i ~/.ssh/id_ed25519.pub user@IP 或通过代工厂控制面板注入公钥。
- 步骤 B(初始化脚本):准备 bootstrap 脚本(云-init 或 user-data),包含 apt update && apt -y upgrade、创建用户、安装 docker、docker-compose。
- 步骤 C(自动化执行):用 Ansible inventory(CSV 转 inventory)执行 playbook:ansible-playbook -i inventory.yml site.yml,site.yml 包含配置、证书申请(certbot)、服务启动。
6.
监控、备份与运维流程
- 监控:部署 Prometheus + node_exporter 或 Zabbix,配置告警策略(CPU、磁盘、带宽、负载),告警接收渠道(邮件/钉钉/Slack)。
- 备份:关键数据使用 rsync 到异地 NAS 或对象存储,数据库使用逻辑备份并保留 7-30 天快照;定期验证恢复。
- 补丁与巡检:每天安全更新策略(自动安全补丁或者定期窗口), 建议每周一次小更新、每月一次全量更新,并记录变更单与回滚步骤。
7.
问:我如何快速把 100 台 VPS 批量上线?
- 答:把流程拆为镜像制作、密钥注入、inventory 生成、并行化部署。先制作标准镜像,准备 cloud-init/user-data 注入公钥和 bootstrap 脚本;用并发工具(Ansible -f 50 或并行 SSH 脚本)逐批(如每批 10 台)执行初始化,验证后再下一批。
8.
问:如何处理越南 VPS 的 IP 黑名单与合规问题?
- 答:采购前检查 IP 历史(在线 RBL 查询),要求代工厂提供净化 IP 或新段;为邮件业务申请专用 SMTP 提供商并做 PTR、SPF、DKIM;遵守当地法律并保留用户与账单记录,遇到投诉及时配合移除问题实例。
9.
问:常见故障如何快速定位与恢复?
- 答:先看监控告警(CPU、磁盘、网络),用 ssh 检查 syslog /var/log/syslog、dmesg;网络问题用 traceroute / ping 检测 ISP 路由;严重节点直接切换到热备或使用快照还原并在隔离环境做故障复现,记录 RCA 并更新模板。
来源:越南vps代工厂 小型企业批量采购后的部署与运维经验总结