
常见故障包括网络中断(链路断开、交换机/路由器故障)、IP被封/黑名单、BGP路由异常、机房电力或带宽故障、服务器本身宕机(硬件或系统)以及突发流量攻击(DDoS)。在海外尤其要关注ISP策略变更、公网IP回收和国际链路不稳定等问题。
为提高识别效率,应对每类故障制定独立判定条件,例如:链路丢包>5%并持续5分钟判定为链路问题;BGP丢失邻接或路由被篡改判定为路由异常;大量SYN/UDP流量短时突增判定为DDoS。
首选通过多维监控:ICMP/HTTP健康检查、被动日志、网络流量采样(sFlow/NetFlow)、BGP监测。结合traceroute、mtr、tcpdump定位链路断点与丢包点;通过BGP查看路由是否被错误公告或撤回;使用外部监测点(国内/区域ISP/公有云节点)交叉比对。
若怀疑被封或黑名单,应同时查询RIR/ISP通告、Spamhaus等黑名单,并用不同运营商和地点的探针验证访问性,区分是区域路由问题还是目标服务器本身拒绝连接。
核心策略包括:多节点与多线路冗余(跨越不同ISP与机房)、IP池与备份IP段预留、BGP备用路由/Anycast架构、低TTL的DNS备份策略、自动化健康探测与切换脚本、以及详尽的运行手册(Runbook)。
还要包含通信与权限链路:明确故障通报流程、应急联系人清单、各类故障的RTO/RPO目标、以及与越南当地机房/ISP的SLA与联络通道,保证在切换时能得到快速响应和确认。
步骤1:确认故障并分类。通过监控与人工确认(ping/traceroute/应用探针)判断是否满足切换触发条件;记录时间与现象。
步骤2:通知相关人员并触发备份流程。按Runbook通知运维、网络与客户联系人,启动预设脚本或流程并在工单中记录每步操作。
步骤3:网络层切换。若使用BGP,执行备用AS/路由公告或调整前缀到备用节点;若使用NAT/弹性IP,更新路由表或执行NAT规则;如采用DNS切换,降低TTL后修改A记录或使用GeoDNS将流量引导到备份IP。
步骤4:应用与数据一致性处理。确保备份节点已同步必要数据(数据库同步、文件同步或快照恢复),必要时暂时以只读方式提供服务以避免数据分叉。
步骤5:切换验证。使用来自多个位置的探针验证连通性、业务响应与性能;监控错误率、延迟和会话建立成功率达标后,逐步恢复正常流量。
步骤6:记录与回滚方案。若验证失败,立即根据回滚指令恢复原路由或DNS记录,并保留故障快照、日志(tcpdump、系统日志、BGP RIB)用于后续分析。
切换后验证包括:外部与内部探针的连通性、应用层完整性检测(登录、下单等关键事务)、性能指标(P95/P99延迟、错误率)、以及流量分布是否达预期。建议至少用3个不同运营商和1个越南本地探针做核验。
回滚策略必须事先定义好触发条件(例如错误率>2%、响应时间翻倍、数据不一致风险),回滚步骤要与切换步骤对称并能在SLA要求内完成。日常演练应按季度至少一次模拟切换,演练中验证自动化脚本、滞后TTL影响、数据同步和沟通链路,演练结果须归档改进Runbook。