Ребилд RAID-5
Внезапно сервак стал жаловаться на здоровье, а именно — на то, что по данным SMART одного из дисков, стало этому диску плохеть. Диск у нас этот трудится в HP Proliant DL380 G5, в RAID-5, собранном на контроллере Compaq SmartArray P400.
Ну, винты на замену были, но диск пока вроде работает. Решили подоткнуть новый диск и пометить его как hot spare, на случай если диск из массива самозапилится, то будет подхвачен новый HS-диск. Диск подоткнули, но вот с hot spare получился облом — оказывается, этот контроллер умеет в массив вставлять HS только в момент создания. А в уже существующий массив — нет.
Так что надо менять диск. Я старательно всё забэкапил, тщательно прицелился, из какого отсека диск вынимать, запалил там лампочку-индикатор, и товарищ, находящийся на месте, диск заменил. Всё вроде понялось, спросило у меня «тут это, новый диск. Будем ребилдить массив?» Я грю — конечно, бро, надо ребилдить! И процесс пошёл. Поскольку на сервере стоит FreeBSD, а там особо никаких утилит нет, позволяющих получить кровавые подробности о состоянии массива, то удовольствоваться пришлось командой:
# camcontrol devlist <COMPAQ RAID 5 VOLUME reco> at scbus0 target 0 lun 0 (da0,pass0) <TEAC DV-W28E-RW G.B1> at scbus2 target 0 lun 0 (pass1,cd0)
Я так полагаю, что VOLUME reco должно индицировать, что volume recovering. Ну, сидим курим, ждём окончания ребилда. Час, два ждём... И тут кончается рабочий день.
В общем, на следующий день к часу дня статус массива так и не изменился. Тут-то я и насторожился. И обратился к коллективному разуму с вопросом — а нормально ли это, для 150-гигового винта в RAID-5 такое время ребилда? Коллективный разум однозначно решил, что ненормально, но посоветовал использовать утилиту sysutils/cciss_vol_status, каковую я немедленно и проинсталлировал. Утилита английским по белому сказала:
cciss_vol_status -V /dev/ciss0 Controller: Smart Array P400 Board ID: 0x3234103c Logical drives: 1 Running firmware: 7.18 ROM firmware: 7.18 /dev/ciss0: (Smart Array P400) RAID 5 Volume 0 status: OK. Physical drives: 7 connector 1I box 1 bay 7 HP DG146BABCF BS05P8708AUE0827 HPD6 OK connector 1I box 1 bay 6 HP DG146ABAB4 3NM14RAG00009821Q0QZ HPDD OK connector 1I box 1 bay 5 HP DG146BABCF BS05P86088T90827 HPD6 OK connector 2I box 1 bay 4 HP DG146BABCF BS05P8608A890827 HPD6 OK connector 2I box 1 bay 3 HP DG146BABCF BS05P8607UYT0826 HPD6 OK connector 2I box 1 bay 2 HP DG146ABAB4 3NM15CQ500009822WG3Q HPDA OK connector 2I box 1 bay 1 HP DG146BABCF BS05P8607V070826 HPD6 OK
То есть, она считает, что массив уже вполне ОК. Но это расходится с показаниями camcontrol. В общем, похоже, camcontrol не перечитал данные с контроллера. Почему-то. Пришлось ему принудительно сделать
#camcontrol rescan /dev/ciss0
Только после этого camcontrol ответил, что
<COMPAQ RAID 5 VOLUME OK> at scbus0 target 0 lun 0 (da0,pass0)
Вот и думай теперь, как ему после этого доверять. Придётся, видимо, в мониторинге переделывать получение данных о состоянии массива с camcontrol на cciss_vol_status :-(
Comments
Comments powered by Disqus