
首先确认是本地网络问题还是主机侧问题。用本地终端尝试 ping 目标IP,若连不通,继续在不同网络或用在线端口检测服务验证目标端口是否开放。若本地能访问但服务异常,可能为主机内服务或防火墙问题。
1) 在本地用 ping 与 traceroute(tracert)测试;2) 登录云平台控制台查看主机状态与控制台日志;3) 通过控制台打开远程串口或VNC查看系统是否卡死;4) 若可登录,检查网络接口(ip addr)、路由(ip route)、防火墙(iptables/nft)与服务状态。
操作时记录时间点与输出,避免在未备份前进行可能造成数据丢失的强制操作。
查看系统日志(/var/log/messages、/var/log/syslog、dmesg)和云平台的主机事件,确认是内核崩溃(kernel panic)、OOM杀死进程还是云商主动重启维护。
1) 登录主机查看 last reboot、uptime、journalctl -b -1 查找异常;2) 检查 /var/log/kern.log 或 dmesg 是否有 panic 或硬件错误;3) 查看内存、CPU 使用与 OOM 日志;4) 若怀疑电源或宿主机问题,联系提供商并提供日志与重启时间。
保持系统自动更新并配置核心转储(kdump)以便复现崩溃时收集更多信息。
使用 mtr 或 ping 连续检测到目的IP,观察丢包发生在哪一跳(本地/骨干/对端)。若在运营商中间节点丢包,通常需要运营商介入。
1) 在不同时间段用 mtr -r -c 100 测试并保存结果;2) 比较国内/国际出口与多线回源结果,判断是否为链路拥塞;3) 如为CN2专线问题,提交工单给线路提供方并附上 mtr/traceroute 数据。
避免单次测试结论,连续多次与不同来源对比更准确;考虑切换节点或使用BGP/多线冗余。
检查云平台安全组、防火墙规则(ufw/iptables/nftables)与应用监听端口,确认是否误封端口或IP段。
1) 在控制台查看安全组规则与最近操作记录;2) 在主机运行 ss -tulnp 查看监听端口,iptables -L -n 查看规则;3) 暂时放开相关端口或禁用防火墙验证是否恢复;4) 修改规则后逐条验证并记录变更。
修改防火墙时优先通过控制台或应急通道保留管理口,防止误封导致无法远程恢复。
利用 ping/mtr/traceroute/tcpdump/ss 等工具,收集可证明丢包、SYN/ACK失败或路由异常的证据,便于上报给提供商或运维同事。
1) ping -c 100 保存丢包率与时延;2) mtr -r -c 100 得到逐跳丢包与延迟分布;3) tcpdump -i eth0 port 80 -w capture.pcap 捕获通信包用于分析三次握手或RST问题;4) ss -s 与 ss -tnp 查看连接状态与端口占用。
上传抓包文件前请对敏感信息(如证书、密钥)进行脱敏,并在工单中附上时间戳、源目标IP与测试命令,便于服务商快速定位。