1. 确定需求与预算
先把业务需求量化:并发连接数、CPU/内存/存储需求、带宽峰值、IOPS、容灾RTO/RPO、合规要求(如PDPA、PCI-DSS)。列出三类配置(基础/标准/高可用)与每类预算范围。用表格把需求映射到硬件性能(例如:50K qps -> 8核16G,NVMe 5000 IOPS)。
2. 初步品牌与机房列表筛选
在新加坡常见的机房与服务器品牌包括Equinix、Singtel、STT、Global Switch,以及戴尔(Dell)、惠普(HPE)、联想(Lenovo)、Supermicro等。用官网/第三方评测和客户案例做初筛,列出5-8个候选机房和3-4个服务器品牌。
3. 检查数据中心资质与互联资源
实际步骤:访问机房网站或要求销售提供资质(Tier等级或Uptime Institute报告)、ISO 27001、SOC 2、PCI-DSS等证书截图。确认机房可接入的ISP列表与IX(如SGIX),并索要当前带宽利用率与带宽扩展方案。
4. 比较品牌硬件可靠性指标
询问厂商的硬件冗余选项(双电源、RAID级别、ECC内存)、硬件寿命与保修策略(NBD现场、更换零件 SLA)。要求提供MTBF/MTTR指标及历史故障率,如果可能索取同型号在同机房的故障记录。
5. 查看SLA条款并逐条评估
下载或索要SLA文档,逐条核对:网络可用性百分比、供电可用性、带宽保证、赔偿条款、响应时间和维护窗口。逐项标注“可接受/需谈判/拒绝”。实操:把关键指标列成表格并分配权重。
6. 实地或远程测试网络连通性
步骤:获取测试IP和端口后,执行ping、traceroute、mtr、iperf3(上/下行各5次,持续60秒)和后续延迟抖动统计。记录平均延迟、丢包率与带宽稳定性。示例命令:iperf3 -c
-t 60 -P 4。
7. 硬件到货与上机前检验清单
收到服务器时逐项检查:型号/序列号与采购单比对;BIOS与固件版本;内存条、硬盘插槽无松动;开机自检(POST)成功。建议现场或通过远程KVM截图保存Boot日志。
8. 进行压力与稳定性测试
部署镜像后做压力测试:CPU/内存用stress-ng,IO用fio,网络用wrk或ab。示例fio命令:fio --name=randread --ioengine=libaio --rw=randread --bs=4k --size=10G --numjobs=4 --runtime=600。记录错误、延迟分布与资源饱和点。
9. 验证冗余与故障切换流程
实操步骤:1) 模拟单点断电(通过机房控制台)观察电源冗余切换;2) 关闭一台主机观察负载均衡器和备机是否接管;3) 模拟链路中断检查BGP/路由冗余是否按期望生效。记录切换时间与是否有业务中断。
10. 监控、告警与运维接口配置
要求机房/托管提供SNMP/Syslog/远程KVM/API接入。步骤:配置Prometheus+Grafana采集服务器指标,设置阈值告警(CPU>85%持续5分钟、磁盘I/O延迟>50ms)。验证告警能通过邮件/SLACK/电话通知。
11. 安全性与合规性核查
步骤:查看物理安保(双因素门禁、摄像头保留周期)、VLAN隔离策略、防火墙规则与DDoS防护方案。如果需合规(如PCI),要求通过第三方审计报告并记录整改项。
12. 交付与维护交接清单
在验收时签署交付清单:包含硬件清单、固件版本、备件存放位置、远程控制账号、SLA联系人与月度报告模板。制定例行维护与固件升级窗口,并明确双方沟通流程与应急联系电话。
13. 问:选择服务器品牌时最关键的3项指标是什么?
14. 答:品牌选择的三项关键指标
优先考虑(1)可用性与冗余设计(双电源、热插拔);(2)售后与保修响应时间(NBD现场、更换配件库存);(3)与本地机房/网络的兼容性(是否支持你使用的RAID、BMC/KVM远程管理以及与机房的互联方案)。
15. 问:如何用简单的命令判断网络质量是否符合生产要求?
16. 答:常用命令及判定标准
使用ping查看延迟和丢包(ping -c 50 ,丢包应<1%);mtr或traceroute定位抖动点;iperf3测带宽(iperf3 -c -t 60),看平均带宽与抖动。生产环境通常要求延迟<20ms、抖动小于5ms、丢包接近0。
17. 问:如何长期监控服务器可靠性并制定改进计划?
18. 答:监控与改进的实践步骤
部署统一监控(Prometheus/Grafana),收集SMART、温度、错误计数、网络延迟与应用层指标。每月分析故障根因(RCAs),记录MTTR/MTBF指标,优先解决频发故障并在季度内验证改进效果。