NFS死んだ。
きょうやったこと
- NFSが死んだので対応しました
- ファイルサーバのHDDが死んでるっぽいので交換してたら色々ぐちゃぐちゃになりました
- 某所のサービスのUIFixをした
- 後輩に色々教えてたら無限に時間が無くなりました
NFS死んだ
お昼頃に大学に着いたらSlackに「サーバにログインできないんだけど!」と苦情が来ていました。手元で自分でも入ってみると確かに入れない。 あーこれは障害(´・ω・`) 11月の7日にも、同様の現象があったので今回も同じ原因だろうと思い対応しました。
原因は、Fileサーバのストレージをサーバの/homeにNFSマウントして使っているのですが、FileサーバのNFSが何らかの原因で死にhomeにアクセスできず~って原因でした。 11月7日に死んだ時点では、よくわからないけどまぁいいかーくらいで済ましていたのですが、こうも立て続けに起きるとなんか怪しくなります。
コンソール画面に大量のError , 結局調べていくと1つのHDDが壊れていたようでBIOSレベルで認識していませんでした。 Timeout連発。 これがNFS死んだ原因かなぁ?と HDDの交換対応をすることにしました。
WDの色
HDDを見て分かったのですが、WDの緑が使われていました。研究室で標準に使っているのは青の5400rpmなので困ってしまいました。 困りながら調べていたら、WDの緑はもうなくて、青(5400rpm)に統合されたことを知りました(今更)。 ということで普通に青のHDDに交換しました。
調べていたら金色なる存在を知りました。 なんかスペシャルな感じなので今度買ってみたいですね。
ZFSのHDD交換
とりあえず交換しようとしたんですが、電源切りたくなかったのでそのままやりました。 今日は寒かったのでお酒を煽ってからだらだら作業していたら......
壊れてないHDDを壊れたHDDと勘違いし引っこ抜いた
— namazu (@namazu510) 2017年11月22日
案の定やらかしました!!! まぁRAID6相当なので無事だったんですけど。 もっと気をつけて作業しないとだめですね。
結局電源を切ってちゃんとしたのを交換しました(´・ω・`)
交換して起動し、ささっとZFSのReplaceをしようとしたんですがzpool status
打つとなんか全部ONLINE状態。 ??? ってなりました。 そもそもHDDは全部で6枚刺さっていたはずなんですが、そのリストには5枚しかない。
昔に組まれたサーバなので、私は特に調べずHDD6枚のZFS RAIDZ2で構成している物だと思い込んでいた(おそらく研究室メンバ全員そう思ってたはず)
真新しいディスクを挿したので、どうするかーと考えたのですが、ZFS RAIDZって簡単にディスク枚数の変更できないんですよね。
敗北記事が沢山出てくる。 結局追加は諦めました。
でなんだったの?
ZFSのアレイは、数ヶ月前から5枚で組まれていたことが毎日のステータスメールから分かりました。 今回ATAErrorを連発させ、Timeoutを引き起こしたHDDはZFSPoolに含まれていない6枚目のHDDでした。 つまりZFSにはまったく関係の無いHDDを交換したと。 この壊れたHDD何に使ってたんだろう??? 今度別のPCにさして解析してみようと思います(認識すればですが)
このFileサーバのリプレイスをするためのNASが1,2週間で届くそうなのではやく交換しておさらばしたいなぁって結論。
どうでもいいはなし
今日はこのはな綺譚の日です。私は柚ちゃん押しです OPの笑顔を見るために一週間がんばってます。 何度も繰り返し見ていると棗ちゃんがとってもかっこいいなぁってなります。
3年生にRailsとかサーバとか色々教えてるんですが、無限に稼働割かれて微妙につらいさんに。 Railsくらい日15時間で1週間くらいやれば出来るようになるやろさすがに。 とか甘い考えだから無限に終わらないんですね。 人に教えるのはほんと難しいですね。 ノリや指向が合わない人もいるし。。。
創成課題でのGit説明用に資料を作った(既存にあったのが酷かったので少し手を入れた)のですが。 分かりやすく、かつ正しく 要点を纏めた資料を作ることが出来ませんでした。 つらたん。 add commit push の正しい説明ができない。 いやできるんだけど説明すれば説明するほどわかりにくくなる資料が誕生。 無能感をひたすら感じました。 Gitはわかばちゃん読めば良いよホント。