ぬまのどろ

namazuのゆるい日記。 ゆるり更新。

電源の瞬断するサーバルーム

今日したこと

  • 昨日のRPGゲーをひたすら。。。 まだコンプリート出来ねぇ。。。
  • 昼夜逆転 夕方に起床
  • バグFixコミットとデプロイ
  • 電源落ちた

よく繋がらなくなるあれ

20:09に止まったよーってアラートメールが飛んできた。 あー死んだか(´・ω・`) って感じ。 ここ数カ月何度かある電力瞬断による停止。

もう何度目かであるので、この停電には慣れてしまっていたけど... gyazo.com こんなことを言われた。 よくよく考えると、電源がよく瞬断するサーバールームは草。

ここの電源が死ぬと学内サイト閲覧に影響がでる。 学内サイトがポータルから最近よく見られなくなる問題はこれのせい。 休日に止まったら電源付けに行くまでそのまんまです。 まぁ障害は学内サイト自体が死んでいるわけではなく、学内サイトへのProxyが乗っているVMホストが死ぬことによって発生している。 だから学内サイトをなんとかして見ようと思えばちょっとした方法で見ることができる。 

あのVMホストはCSCサーバ群とちょっと離れた位置に配置されていて、電源がよく止まる。 原因はおそらくボロい電源タップと大量のタコ足。 私のサービスも電源的に同じ位置にあって、そこが止まると私のサービスも死ぬので厄介。

この前電源復帰時に自動で立ち上がるように、私のところはBIOS設定を弄ったので今回はアタッチ可能になってくれたが、CSCのやつは特に触ってないので南無南無というわけ。

PCの起動順序とサービス

この前自分のところは対応したので問題ないだろうと思っていたら、これが厄介だった。

私の持ってるサービスは、PC(現在は5台) VMで数えると15台くらいで構成されているのだが、起動順序制御で嵌った。 ESXi内なら順番を制御できるのでDNS=>NFS=>....とちゃんと順番を踏んで立ち上げられるのだが、ESXi側で立ち上がるk8sのmasternodeと4台の物理マシン上のk8s workernodeがあれな感じになって自動復帰に失敗してしまった。 ちゃんとworker側のserviceが立ち上がってくれない。 

時間がたったのちにrestartすれば治るのでunitファイルのrestartを設定しておいた

「Restart」は、旧来の「respawn」にあたる設定で、サービスのメインプロセスが停止した際の動作を指定します。「Restart=always」は、常に再起動を試みます。「no」は、再起動を行いません。「on-success」は終了コード0で停止した際に再起動します。逆に「on-failure」は、0以外の終了コードで停止した際に再起動します。デフォルトでは、10秒間の間に5回以上再起動すると、次の10秒間は再起動を試みません。(このタイミングは、「StartLimitInterval」「StartLimiBurst」で設定変更が可能です。具体的には、「StartLimitIntervalの間にStartLimiBurst回以上再起動すると、次のStartLimitIntervalの間は再起動を試みません」となります。)

Systemd入門(4) - serviceタイプUnitの設定ファイル - めもめも

ほむほむって。 これでいけるやろ。

どうでもいいはなし

大学におきっぱのPCに発表レジュメを作るためのデータが入っていたことが発覚して、取りに行かないといけないので明日CSCの電源もついでにつけておきます。 ついでにBIOS設定も変えておくのでまぁ大丈夫になるでしょう。