Ошибка "kernel qla2xxx"

1. Проблема

  • Присутствуют ошибки SAN на различных системах (SuSE, Solaris и даже Windows).

  • Производительность серверов и баз данных снижается, приложения медленно реагируют.

  • Система может аварийно завершить работу после этих ошибок.

  • На хостах в лог-файле /var/log/messages присутствуют ошибки:

    kernel: qla2xxx 0000:46:00.0: scsi(1:0:105): Abort command issued -- 1 3e7bbc46 2002.
    kernel: qla2xxx 0000:46:00.0: scsi(1:0:101): Abort command issued -- 1 3e7c1ec0 2002.
    kernel: qla2xxx 0000:46:00.0: scsi(1:0:103): Abort command issued -- 1 3e7d02b8 2002.
    kernel: qla2xxx 0000:46:00.0: scsi(1:0:115): Abort command issued -- 1 3e7d37a9 2002.
    kernel: qla2xxx 0000:46:00.0: scsi(1:0:109): Abort command issued -- 1 3e7d44cd 2002.

2. Решение

Данные ошибки указывают на зависание операции ввода-вывода на уровне SAN сети.

2.1. Необходимо

  • проверить оптическую трассу, при необходимости заменить кабель

  • заменить оптический трансивер в SAN коммутаторе/СХД/HBA адаптере сервера

  • проверить обновление микрокода HBA адаптера

  • заменить HBA адаптеры на сервере

  • Рекомендуется просмотреть журналы коммутатора систем хранения, чтобы убедиться в наличии счетчиков ошибок, ошибок CRC в журналах коммутатора FC.