出现链路抖动问题怎样排查与处理.docx
链路抖动是指物理接口在至少10秒的时间内持续上升和下降,每秒三次或更多次。常见原因通常与电缆损坏、不受支持或非标准电缆或小型封装热插拔(SFP)或其他链路同步问题有关.链路抖动的原因可能是间歇性或永久性的。链路抖动通常是物理干扰,因此要采取相应的方式和步骤来诊断和防止以及解决.问题现象以数据库主机为例,在出现链路抖动时数据库磁盘链路有异常,IO延迟大,影响数据库的访问,生产业务受到影响.出现此问题需要按照架构层次进行排Si,先排查上层操作系统出现的现象,再根据现象进行排直存储、光纤交换机、光纤线缆收发光、光纤模块是否存在问题.问题处理过程操作系统排直在系统中,如使用存储链路抖动或远程数据传输到本地未及时交互完成都可能会出现磁盘busy增高情况,磁盘IO延时会增大,正常情况下磁盘的响应时间应在10身秒以下,操作系统直看到的只是问题的表象,根因需要检查后端的光纤链路、光纤交换机等.以AIX操作系统为例(如图2所示).*-topa>non-dte-dptex-Hostbjrxcdbl-Refresh-2cs11:31.09INaneb10yreadrxltefc21128.090105.«2047.9IfCSO1128.09010S.<2047.»(TOTA1.S2adapters180211.3409S7IDisk-ServicetasandQueuesIDlkS<rvic<ReadSric*INaneBllll-seeondsal111-secondsIhdlfltM00.0KBraCB/9*fers2175.2047.4223.7Disks8559SSSSAdApter-TypeVirtualFibreChannelVirtualFlbrChannelTOTA1.(MB)-180.0IIIIWricS«rvic«Walt3«E)allll*5econdalll-econddSize0.50.00.0VaitQSize0.0XrRIFullI0.0Ibdlk01bdi91r9021111.01SOe.O0.00.01111.01SOe.O0.00.00.00.00.00.00.0I0.0IAS2磁盘响应存储排笠排直存储上对应端口的误码情况.排面方法:根据告警信息确认存储端口,如华为存储告警信息是Thelinkbetweentheinitiator(typeFC1identifier0xl0000000c995bl00)ofthehost(namehostname)andthehostport(EngineO,interfacemoduleA2,portnumberPO)isUnStabIe.表示引擎0的A2扣卡上PO和FC端口与主机连接不稳定.登录DeViCeManager主界面"首页">"省理硬件设备">"监控控制器">,'管理FC接口模块"的操作提示,清除所有FC端口误码统计.如下图3所示:iMW+*21:IJWttOffttwostr<!«美属冷为到爆淮M1.OAA2POENGoA2X0000OAA2PlENG02J>l0000OAA2PZENGo&P?0000OAA2P3ENGo<AP3000006BlPOENGOJ1O00000681PlENGoiB0000Oe81P2EN60E1920000OeBlP3ENGOJ130000"j062POENGO£28000006B2PlENGO32J>100001/1SB:12.XVP:04Wt图3存储设备管理界面系统运行一段时间(如1小时)后,由新直看告警内容中的端口的"线路误码统计”增长情况,若误码增长速度较快,可通过尝试更换该端口对应的线缆、模块单元,甚至改用其他端口来确认误码消除情况.光纤交换机排直排查交换机上的误码增长情况.以博科和SNS系列交换机进行说明,登陆交换机的C1.i命令行,通过C1.l命令Statsclear和porterrshow清除和直看当前误码情况.Wl9troMVc<B<sCrXetcet<SO39cbc3xIgim18,r>cr»vycXim««c503cttfetaitletotc3tl<txWm口图4SAN交换机误防统计运行一段时同如1小时诟亚新使用C1.I命令Porterrshow查看端口统计情况.若encin和encout增长速度较快,可通过尝试更换该端口对应的线缆、模块单元,甚至改用其他端口来消除误码.总结在操作系统出现磁盘性能问题后,根据现象检查光纤交换机和存储的误码情况,更换线缆、光纤模块等操作后检查问题是否解决.如检直各项都在正常范围且无硬件告警,说明底层硬件没有问题,可以检查端口流量是否跑满;如端口已经跑满说明业务系统流IR较大,如数据库在跑大的面询,建议可以优化SQ1.和检查索引是否添加等。在底层架构无法进行优化的情况下考虑对上层业务层面进行优化.缓解压力.