1.
概述与准备工作
实施前准备:确认合同中 CN2 类型(CN2 GIA/CN2 GT),确认对端 ASN、IP(PE/CE)、VLAN/子接口、MTU、BGP 密钥/密码(如果有)、是否要求 MPLS LSP。准备一台能 SSH 登录、有 sudo 权限的 Linux 网络设备或服务器(最好在接入侧),安装 mtr、traceroute、tcpdump、iperf3 等工具。
2.
物理与链路层检查(Step-by-step)
操作:1) 在交换机/路由器上查看接口状态:Linux: ip link show dev ethX;Cisco: show interface GigabitEthernetX/X;确认物理 up/up、错误计数(CRC、input errors)。2) 检查光模块、接头和SFP类型(单模/多模、速率匹配)。3) 如果存在误码,换光纤或SFP并记录对端链路历史数据。
3.
链路基础网络配置检查
操作:1) 检查IP配置与网段:ip addr show / show ip interface。2) 检查路由表:ip route show / show route。确保到对端网段存在静态/直连路由或 BGP 宣告。3) 检查 ARP/邻居:ip neigh / show arp,确认 MAC 学习正确。
4.
BGP 会话与路由宣告排查
操作:1) 查看 BGP 会话状态:Linux(Bird/FRR): show ip bgp summary;Cisco: show ip bgp summary。2) 若会话未建立:检查 TCP 三次握手(tcpdump -i eth0 host
and port 179),确认是否被防火墙/NAT阻断,检查 TTL/MD5(密码)设置。3) 若会话建立但路由不在表中:show ip bgp ,检查 AS PATH、COMMUNITY、next-hop 与 local preference。
5.
Traceroute 与路径验证
操作:1) 使用多种方式:traceroute -n -I -w 2 <目标>(ICMP、UDP、TCP),mtr -r -c 100 <目标> 查看丢包/延迟。2) 识别是否到 CN2 边缘丢包或延迟激增。3) 如果在国内出口后跳点丢包,记录丢包点的 IP、延时与 MPLS 标签(若可见)。
6.
MPLS/LSP 与标签转发检查
操作:1) 如果是 MPLS CN2:在本地 PE/CE 上查看 MPLS 状态:show mpls ldp neighbor、show mpls forwarding-table、show mpls l3vpn 。2) 确认 LDP/RSVP 会话正常、标签分发无误。3) 使用 traceroute mpls(设备支持时)或请求运营商在 CN2 网内执行 MPLS 路径追踪。
7.
链路质量与 MTU/MSS 问题排查
操作:1) 检测 MTU:ping -M do -s 递增直到分片或失败,以确定路径 MTU。2) 检查 TCP 握手是否成功并观察小包传输(tcpdump -i eth0 tcp and host and port )。3) 若遇到分片或 MSS 问题,调整本地 MSS(iptables --mod mangle --tcpMSS)或请求对端/运营商统一 MTU。
8.
抓包与日志采集规范(如何给运营商)
操作:1) 本地抓包:tcpdump -i eth0 host -w cn2_peer.pcap,或更具体:tcpdump -i eth0 'tcp and host and port 179' -w bgp.pcap。2) 记录时间(UTC)、涉及的设备、接口、BGP 会话建立时间、mtr/traceroute 输出。3) 将 pcap 和文字日志(traceroute、show bgp summary、show mpls)压缩并发给运营商 NOC,附上简明复现步骤与影响时间段。
9.
常见故障情形与快速定位步骤
操作:场景示例:A) BGP 不建立:先 tcpdump 确认到达 TCP SYN,再检查防火墙与 MD5;B) 单向不通:检查 next-hop 是否可达、路由回流问题,使用双向 traceroute;C) 丢包/抖动:用 mtr 长跑(>300 包)定位丢包突增跳数并对比不同时间段。
10.
故障升级与与运营商沟通要点
操作:准备信息:出现时间(含时区)、本端/对端 IP、BGP 会话截图、traceroute/mtr 输出、pcap 文件、影响范围(全部流量/部分子网)、业务影响(如丢包率、RTT)。提出明确请求:要求运营商在 CN2 内部路由/交换矩阵查找、做网内 traceroute、检查 MPLS LSP 与 PE 状态。
11.
验证修复与回归测试
操作:在运营商反馈修复后,执行:1) 验证 BGP 会话稳定(至少 10 分钟无 flaps);2) 用 mtr 与应用层流量(iperf3)测试 5-10 分钟,确认丢包/延时恢复至 SLA;3) 保留修复前后日志与 pcap 以供后续分析。
12.
问:如果 BGP 会话建立但到新加坡丢包严重,我该先检查什么?
13.
答:先用 mtr 从本端到新加坡目标(或运营商提供的 CN2 出口 IP)连续检测,确认丢包跳数和时间。若丢包在运营商链路或 CN2 边缘,抓取本端至对端的 tcpdump(包含 ICMP/UDP/TCP),并把 mtr/traceroute 与 pcap 一并上报给运营商 NOC 请求内部排查。
14.
问:如何判断是本地设备故障还是 CN2 网络问题?
15.
答:步骤:1) 在本地做 loopback 与对端直接 ping/arp 检查物理链路;2) 从另一条独立链路或云上相邻节点做 traceroute 对比;3) 如果多个来源到目标路径都在同一点出现问题,多为 CN2 网络问题;否则可能是本地设备或接入链路问题。
16.
问:上报给运营商时最关键的三项信息是什么?
17.
答:时间戳(含时区)、具体受影响的前缀/服务与流量样本、以及相关的抓包(pcap)与 traceroute/mtr 输出。这三项能最快让运营商定位到问题时间点、路径与报文层面的异常。
来源:实施中国新加坡cn2 链路时的常见问题排查与故障定位流程