当遇到无法SSH登录时,先区分是网络连通性、账号/密钥问题还是服务器本身异常。建议按照顺序检查 网络连通性、SSH服务、密钥/密码、以及控制台救援手段。
1) 本地到目标IP的连通性:使用 ping 和 traceroute/mtr 检查丢包与路由。
2) 端口连通性:用 telnet IP 22 或 nc -zv IP 22 验证22端口是否 reachable。
3) 控制台查看:登录 天下数据控制台,确认实例状态是否为“运行中”,是否存在平台告警或维护通知。
4) SSH服务与配置:通过控制台串口/控制台操作或救援模式,检查 /etc/ssh/sshd_config、sshd 是否在运行(systemctl status sshd),以及是否被iptables或firewalld阻断。
5) 密钥与账号:确认authorized_keys、权限(700/600)正确,若为密码登录,检查 /etc/ssh/sshd_config 中 PasswordAuthentication 是否被禁用。
常见问题包括安全组/防火墙误配置、SSH服务崩溃、磁盘已满导致服务无法启动、密钥权限错误。若无法在线修复,可通过控制台挂载救援盘或使用“重置密码/注入公钥”功能进行恢复。
先确认是单实例问题、区域链路问题还是域名解析问题。重点检查 DNS解析、带宽拥塞、国际链路 与实例内的网络配置。
1) DNS与域名:使用 dig +trace 或 nslookup 确认解析是否正确、TTL是否异常。
2) 路径检测:用 mtr/traceroute 测试从客户端到服务器的跳点,找出延迟或丢包发生在哪一段(本地网络、国际出口、提供商互联或目标机房)。
3) 带宽与连接数:在服务器端用 iftop、nload、netstat/ss 检查当前流量与长连接数量,确认是否被流量峰值或DDOS影响。
4) 应用层问题:通过 ab/httperf/curl -I 测试响应时间,结合应用日志(nginx/access.log、应用日志)排查慢查询、数据库瓶颈或后端API耗时。
5) 网络优化:检查TCP参数(/proc/sys/net/ipv4/tcp_*)、MTU值是否一致,必要时开启keepalive或调整拥塞控制策略。
若问题出在国际链路,建议联系天下数据技术支持并提供 traceroute/mtr 的结果;也可通过就近节点做加速(CDN、负载均衡)来缓解用户侧延迟。
磁盘相关故障常导致进程无法写日志、数据库崩溃或系统不稳定。排查先看容量与inode,再看IO负载与异常文件占用。
1) 查看容量与inode:df -h 查看磁盘使用率,df -i 查看inode是否耗尽。
2) 找出大文件:du -sh /* 或者 ncdu、find / -type f -size +100M 列出占用严重的文件。
3) 检查IO负载:iostat -xz 1、iotop 实时观察哪个进程在大量读写导致IO等待。
4) 日志文件清理:清理/压缩历史日志(/var/log),并改用logrotate合理轮转;对数据库执行数据归档或清理。
5) 扩容与分区调整:若为磁盘空间瓶颈,可在控制台扩容云盘或添加数据盘并迁移目录(调整 /etc/fstab 并保持挂载点一致)。

启用监控告警(磁盘使用率、inode、IO等待),并设置容量阈值自动通知;数据库或日志库尽量使用独立盘或不同分区隔离IO。
排查思路是先定位消耗资源的进程,再分析是什么操作或请求触发,以及是否为内存泄露或外部请求导致。
1) 查看实时占用:top 或 htop 查找CPU占用最高的进程和线程(按P排序)。
2) 详细进程信息:ps aux --sort=-%cpu | head 或 ps -eo pid,ppid,cmd,%mem,%cpu — 找出可疑PID。
3) 追踪调用栈:对可疑进程使用 strace -p PID(注意性能影响)、gdb 或 jstack(Java)获取调用信息。
4) 日志与请求分析:查看应用日志是否有大量错误、循环重试或慢请求;结合nginx/access.log确认流量模式。
5) 临时缓解:对异常进程进行重启或限制资源(systemctl restart 服务、使用cgroups或nice/renice调整优先级),并在高峰期做限流。
常见原因有突发流量、内存泄露导致频繁GC、死循环或错误脚本。建议结合APM、进程监控与自动化重启策略,设置进程自愈与告警。
外部访问异常通常来源于实例内防火墙(iptables/firewalld)、云平台安全组或机房边界ACL,排查时需自下而上验证每一层。
1) 平台安全组:登录 天下数据控制台 检查实例绑定的安全组规则,确认目标端口的入方向是否放通特定源IP或0.0.0.0/0。
2) 操作系统防火墙:在实例上检查 iptables -L -n 或 firewall-cmd --list-all,确认是否有DROP规则或富规则限制。
3) 监听端口与服务:用 ss -tulnp 或 netstat -tulnp 确认服务是否在期望端口监听并绑定正确IP(0.0.0.0或内网IP)。
4) NAT/端口映射与负载均衡:若通过LB或NAT访问,检查负载均衡的监听、后端健康检查以及SNAT/DNAT策略。
5) 排查外部网络策略:对于BGP或链路策略问题,需要抓包(tcpdump)并与机房运维或天下数据客服联系,提供抓包与端口检测数据。
进行变更时建议先在维护窗口内逐步调整安全组与防火墙规则,并结合监控验证连通性。对于误封端口,可临时在控制台放通管理IP以便恢复运维操作。