Met Nagios controleren voor gefaalde RAID-schijven

Armijn Hemel, 17 augustus 2010, 7352 views.

Voor betere nachtrust draaien veel systeembeheerders hun systemen op RAID-disks, zodat een crash van een disk niet desastreus hoeft te zijn. Je moet dan wel weten wanneer een disk is gecrasht.

Tags: , , , ,

Als je ooit een falende RAID hebt gehad dan weet je dat veel problemen kan krijgen als je er niet snel genoeg op anticipeert. Oftewel: je kan te maken krijgen met verlies van data. Daarom wil je zo snel mogelijk een bericht krijgen als er iets fout gaat. We hebben wel eens gehad dat we in een dataroom stonden om een kapotte schijf te vervangen en dat de andere schijf tijdens het opnieuw opstarten van de machine het ook begaf, voordat de RAID opnieuw opgebouwd kon worden.

Daarom nemen we tegenwoordig wat meer voorzorgsmaatregelen en worden we graag snel gewaarschuwd door Nagios. We hebben aan onze verzameling scripts voor Nagios een controlescript voor RAID toegevoegd. Dit script waarschuwt ons snel via e-mail en Jabber dat er iets mis is met RAID (voor het geval we de hoge load op het systeem en de andere mails over het hoofd hebben gezien):

#!/bin/sh
RES=`cat /proc/mdstat| grep '(F)'`
if test "$RES" = ''; then
        res=0
else
        res=2
        echo "RAID failure:"
        echo $RES
fi
exit $res
Creative Commons License Op dit werk is een Creative Commons Licentie van toepassing.
Social networking: Tweet dit artikel op Twitter Geef dit artikel door op LinkedIn Bookmark dit artikel op Google Bookmark dit artikel op Yahoo! Bookmark dit artikel op Technorati Bookmark dit artikel op Delicious Deel dit artikel op Facebook Digg dit artikel op Digg Zend dit artikel naar to Reddit Geef dit artikel een duim omhoog op StumbleUpon Zend dit artikel naar Furl

Talkback

reageer op dit artikel