1.1 目标:保障机房可用性、完整性与合规性;1.2 范围:机房物理层、网络层、主机/虚拟化层、存储与备份、运维人员与第三方服务;1.3 步骤:列出所有资产(机柜、服务器、交换机、防火墙、UPS、发电机、制冷设备、传感器),并为每一项建立唯一编号、所在机柜号与负责人,形成资产清单(Excel/CMDB)。
2.1 识别适用法规:MAS TRM(金融相关)、新加坡个人数据保护法(PDPA)、Cybersecurity Act、ISO27001等;2.2 步骤:为每条法规列出控制要求(例如日志保留期、事件上报时间、物理访问记录),把要求映射到资产清单并打标签(表格:资产->控制->责任人)。
3.1 建立访客流程:预约->身份核验->临时证发放->陪同入内->离开注销;3.2 技术实施:部署门禁(卡+生物识别)、视频监控覆盖所有入口与机柜正面/后面,设置至少90天录像保留(按法规调整);3.3 审计操作:每月导出门禁与访客日志,核对异常访问并保存证据链(截图/导出CSV)。
4.1 建立管理网络:把管理接口(BMC、IPMI、交换机管理)放入独立VLAN,仅通过跳板机(堡垒机)访问;3步实施:配置交换机端口VLAN->设置ACL只允许堡垒机IP->堡垒机强制双因素登录;4.2 数据面分段:按环境(生产/预发布/管理)划分VLAN并在核心防火墙上实现最小化通讯策略,记录规则并进行季度复审。
5.1 建立清单:用CMDB导出所有固件/OS/BIOS版本;5.2 测试路径:在测试环境执行补丁升级并做回归测试(性能/网络/应用);5.3 执行窗口:定义维护窗口并发布变更通知,备份配置与数据->按步骤升级->验证服务->如异常执行回滚步骤并记录变更单;5.4 记录:每次变更需上传变更工单、回滚指令、测试结果至变更管理系统。
6.1 UPS与发电机:建立周检(日常视检)、月检(负载测试)、年检(厂商全面维护)计划;6.2 操作步骤示例:周检检查电池电压与报警->记录并对异常工单化;发电机每月负载测试(30分钟)并记录油温与转速;6.3 制冷:设置CRAC报警阈值(温度、湿度),用分区传感器逐机柜监测并配置自动告警到值班群组。
7.1 监控项:硬件(温度、风扇、PSU)、电力(输入/输出/电池)、网络流量、主机性能、应用指标;7.2 部署步骤:在所有设备启用Syslog/NTP->统一发送到Log Collector->SIEM做解析、关联规则并建立告警工单;7.3 保留策略:按合规设置日志保留(例如金融类至少7年或按法规),并实现定期完整性校验(hash比对)。
8.1 备份策略:定义RTO/RPO并据此划分关键系统(每日增量+每周全备);8.2 操作流程:备份前验证数据一致性->执行备份->备份后进行自动校验(校验和)->异地复制(至少两个可用区或第三方灾备站);8.3 恢复演练:季度演练恢复流程,从备份中恢复关键系统并记录时间与问题,修订Runbook。
9.1 事件分类:按影响划分Severity1~4;9.2 响应步骤(S1示例):检测->隔离受影响网络/设备(断开端口/ACL阻断)->现场确认安全(物理门锁/视频)->在SIEM上导出相关日志并做快照->通知高级响应组与法律合规团队->执行取证(磁盘镜像、内存抓取)->修复(补丁/替换硬件)->逐步恢复并验证;9.3 通讯:建立24/7值班表、明确上报链(本地运维->安全负责人->CISO->监管机构)与SLA上报时间(如24小时内向MAS上报重大事故)。
10.1 证据清单:访问日志、变更单、维护记录、监控告警历史、备份/恢复演练报告;10.2 审计准备步骤:定期(季度)整理证据包->运行自检清单覆盖法规映射->如被审计,提供时间戳签名日志与变更凭证;10.3 建议:通过第三方渗透测试与合规评估,输出整改清单并跟踪闭环。
11.1 建立培训周期:入职-半年-年度三档培训,含安全意识、应急流程与设备操作;11.2 演练:至少半年一次的桌面演练与年度的实兵演练(至少涵盖断电、火灾、数据泄露);11.3 持续改进:每次演练或事件结束后做根本原因分析(RCA),在30天内实现整改并在CMDB更新对应条目。
问:如果机房发生突发断电,运维第一时间该怎么做?
答:立即确认断电范围(仅本机房或外部供电故障);步骤:1) 检查UPS是否在供电并读取UPS面板报警;2) 通知值班工程师启动发电机(若自动未触发则手动启动),并记录启动时间;3) 按Runbook逐步切换关键负载到发电机,监控电压/频率;4) 在SIEM与监控系统内标注事件并通知影响系统负责人;5) 若无法恢复,按Escalation Matrix上报管理层并联系供电单位。
问:如何在不影响业务的前提下更换关键网络设备?
答:执行蓝绿/冗余切换:1) 在维护窗口前准备好替换设备并同步配置(备份现网配置并导入新设备);2) 将目标流量迁移到冗余链路或备用设备,使用流量镜像验证;3) 在低峰时段逐步下线原设备并观察30分钟无异常后替换;4) 若出现故障,立即回滚到原设备并记录问题点,最后在变更单中提交验证结果。
问:监管机构(例如MAS)对机房运维有哪些关键强制性要求?
答:关键要求包括:1) 风险管理与技术控制(TRM)—分段、最小权限、事件监控与报告;2) 日志与证据保存——满足规定的保留期并能按需导出;3) 事件上报时限——重大事故需在规定时间内上报并配合调查;4) 供应链与第三方管理——审查第三方安全和恢复能力。实现方法是把监管条款映射到控制矩阵并定期自评与接受外部审计。