问题描述:CRM数据库每日必要数据导入后才会开始数据计算生成。今天早上的计算开始时间较之前正常情况下晚了2小时。维护人员查获是 数据导入过程中原先差不多300秒完成的步骤现在用了1小时之多。
大致的排查过程如下:
(1)借助osw工具记录的linux系统历史数据,排除了对应时间段cpu、io活动异常的情况。
(2)导出对应时间段awr报告及过往正常情况下对应时间段awr报告做对比分析。
正常情况下对应时间段awr报告:
异常情况下对应时间段awr报告
可以看到数据库本身状态是相当空闲的。唯一反常的地方在于SQL*Net more data from client等待时间11.1K是正常情况下2470.2的5倍之多。
(3)去系统层面捕获网络相关的信息
sar -n DEV 3 10
千兆网卡的流量稳定在10mb/s,远远没有达到网卡的峰值。
到这里想到了本来应该上周末进行的全备,由于备份软件异常中断,昨天晚上有重新发起全备。核实全备份在问题排查时刻仍没有完成。
和网络管理人员确认得到服务器连到了百兆的交换机上,问题基本定位。偶然发生的全备份占用了业务时间窗口造成网络拥堵,表象上表现为的数据库性能异常!