Zenlogicで大規模障害発生 後学のためにまとめてみる

データセンター

2018年6月19日ごろよりレンタルサーバーサービスの『Zenlogic』で大障害が発生しています。

障害の内容としてはストレージシステムに問題があり高負荷状態になってしまってサービスが利用出来なくなるといったものでした。

しかし、メンテナンスを行った後も高負荷状態は解消されず、さらには1時間前に全サービス停止告知(メールでは10分前)からの無限メンテナンス。

私自身はこちらのホストを利用していないのですが、お客様がこちらに移転する予定があったので移転前で助かりました。

移転準備の確認の為にアクセスしていてたまに重いなと思っていたら大障害が起きてしまいびっくりしました。

また、私が直接契約しているわけではないのでメールやサポートの対応といった部分はツイッターの情報などになります。

対応など含めてめったにお目にかかれないことなので、後学のためにまとめてみたいと思います。

 

Zenlogicとは?

ファーストサーバ株式会社が運営する中小企業のためのレンタルサーバーです。

低価格で利用出来るYahooのクラウド基盤を使用した共有サーバーと、AWSを利用した専用サーバーがあり、今回障害が発生したのは共有サーバーの方です。

 

2012年ファーストサーバデータ消失事件

『ファーストサーバ』で検索するとサジェストに『事件』や『障害』といった単語が出てきます。

こちらについて調べてみるとzenlogicの運営元のファーストサーバ株式会社が2012年に当時行っていたレンタルサーバサービスで全データ消失、復旧に失敗し結果的にサーバーが更地になってしまった事件のようです。

また、復元周りで一部で別ユーザーのファイルが復元されてしまうということもあったようです。

 

このファーストサーバがリスタートして2015年に開始したのがZenlogicというサービスなのです。

従来のレンタルサーバーの形からクラウド上で動作させることで共有サーバーでも1環境ごとにCPUやメモリを割り当てられるといったのが特徴です。

 

影響を受けているサイト

ツイッターで話題になった有名所では上記のサイトが影響を受けています。

他にも多くの影響を受けているサイトがありますね。

また、エレコムの場合は製品のドライバーのダウンロードがここでしか出来ないので大変そうです。

時系列順に障害内容と対応をまとめてみる

ここからは公式の障害情報を見ながら時系列順にまとめてみます。

2018年6月19日

公式には高負荷障害が発生したのはこの日からとなっています。

内容はストレージシステムにて断続的な性能低下が発生で、原因となったログ出力の内容を変更する対応を行ったとあります。

しかし、高負荷自体はたまに発生しては自然解消というのが続いていました。

2018年6月22日

障害の兆候が見られたサーバーの入替え実施を行い高負荷を解消

しかし同日の夕方に「カスタマーポータル」を停止しメンテナンスを実施(高負荷との関連は不明)

2018年6月23日~2018年6月24日

土日を利用してのストレージシステムの増強作業

しかし、ここからも高負荷障害が起きては自然解消、もしくはストレージの緊急増強やパラメーターの変更を行って対応を繰り返す。

6月19日~22日の間もですが、ここからも毎日障害が発生しています。

私も6月29日前後にサーバーでの確認作業を行っていたのですが、異様に読み込みが長いなと感じることがありました。

 

この時はまだここまでの大障害になるとは思ってもいませんでした。

20187月3日

ここまでは高負荷障害が発生しては直るを繰り返しているものの、ツイッターを遡ってもそこまで関連するツイートも少なかったです。

しかし、7月3日を境にインターネットへの書き込みが急増します。

内容してはサイトにつながらない、FTPに繋がりにくいメールが届かないなどなど。

そして、ついにシステム基盤を管理しているヤフーと共に障害復旧の方法の調査を始めます。

その結果かストレージの設定値見直しを新たに行いました。

これまでの設定値変更とは違いシステム反映に時間がかかるもので、7月3日の20時30分時点では42.6%反映済みで100%には7月5日 14時頃の見込みの発表でした。

2018年7月4日

障害内容が「一部サービスで高負荷が発生し、断続的にサービスがご利用しにくい状況となっております。」に変更。

ここから短いスパンで障害情報が更新され始めます。

ストレージの設定値反映の作業も進行中。

2018年7月5日

朝9時ごろから障害内容が改善傾向に見られるとの報告。

9時45分~14時は高負荷障害が発生していないとも。

しかし、14時の時点で3日から行っていたストレージの設定値反映には遅れが発生。

「システム反映完了予定については、目途が立ち次第あらためてご報告いたします。」を最後に設定値見直しに関する報告は終了。

 

14時45分ごろより高負荷障害が再発

原因・対応の調査を行い20時30分から翌日8時までのメンテナンスを告知

 

2018年7月6日

8時になってもメンテナンスは終わらず、翌日の8時までメンテナンス延長を告知されます。

しかし、このメンテナンス自体はサービスが利用しずらくなるというものでアクセス出来たり出来なかったりの状態が続きます。

 

また、昼過ぎに電話対応の強化したようですが受付時間が平日9時~18時。

金曜日の13時過ぎから18時までのサポートセンターを強化したところでどうしようもないですよね・・・

 

2018年7月6日 18時25分 全サービス停止でのメンテナンス告知

そしてここから問題のメンテナンスが始まります。

断続的に続いている高負荷状態改善のため、昨日よりメンテナンスを実施しておりましたが、当初見込みより進捗が大幅に遅れているため、7月6日20時より、一時的にすべてのサービスのご利用を停止させていただきます。
ご利用のお客様には長期間にわたり大変ご迷惑をおかけしておりますことを、深くお詫び申し上げます。

確かこの発表時にはメンテナンスの終了時刻は未定で19時に告知するといった発表でした。

そして19時15分にメンテナンス終了時刻が発表されます。

すべてのサービスがご利用いただけないメンテナンス期間
7月6日20時00分 ~ 最長 7月9日08時00分 予定
※ 予定より早くサービスご利用が再開いただける場合にはご報告いたします

土日を挟んで月曜日の8時までのメンテナンス告知です。

当然利用者からは文句の嵐です。

メールでの告知が7分前って・・・

 

そして20時から全サービス停止でのメンテナンスが開始されました。

メンテナンス中は障害情報にメンテナンスの進捗報告が行われていました。

断続的に続いている高負荷状態改善のため、7月6日20時より、すべてのサービスのご利用を停止させていただきメンテナンスを実施しております。メンテナンスは予定どおり進捗しております。メンテナンスの終了は、最長の場合7月9日08時00分を予定しております。ご利用のお客様には長期間にわたり大変ご迷惑をおかけしておりますことを、深くお詫び申し上げます。

報告の一部は変わりますが、メンテナンス中は定期的に予定通り進んでいることが報告され続けました。

しかし、最長で月曜日8時なのに、予定通り進んでいて日曜の21時に終わってない時点でなんとなく察せてしまいますね。

2018年7月9日

明けない夜はないとは言いますが、メンテナンスは明けませんでした。

8時に更新された障害情報のページには7月6日20時00分 ~ 最長 7月9日08時00分  未定の文字が

ここに来て急に「作業に著しい遅れが生じていることから、完了予定時間を延長させていただくこととなりました。」と今まで予定通りに進んでいたメンテナンスが順調に進んでいないメンテナンスに変わってしまったのです。

月曜からどうにかしようと思っていたであろうサーバー管理者の方々はとても大変そうです。

 

そして9時にさらなる報告が追加されます。

2018年6月19日(火)より発生しているZenlogicホスティングの高負荷障害を改善するため、7月6日(金) 20時00分よりすべてのサービスを停止しメンテナンスを実施いたしました。

しかしながら、サービス再開処理後、再度の高負荷発生を確認いたしましたため、大変申し訳ございませんが、不本意ながらメンテナンスを延長させていただくこととなりました。

中の人大変だとは思いますが体だけは大事に頑張ってください・・・

と、そろそろ作業している方々が心配になってきますが、丸二日以上止めてメンテナンスを行っても駄目だったのに、これ以上どうにか手段ってあるのでしょうか?

幸いにもこの発表と同時にコントロールパネルの利用は再開されたようなので、他サーバーへの移転は行えるようになったかもしれません。

 

大手メディアのITmediaNEWSなどで取り上げられるように。

 

そして11時30分に別基盤の構築準備がアナウンスされました。

そんなにすぐ移行出来るものなんでしょうか?

 

15時前にプレスリリース公開されます。

これ金曜日に公開しとくべきだったのでは?って感じですね。

 

そして・・・

現在も、原因・対応方法の調査、及び、別環境、そのほかの代替手段を準備検討しておりますが、時間を要しており、本日中に目途をお伝えするのは厳しい状況でございます。

お疲れ様です・・・

 

2018年7月9日 22時20分

ついにここでメンテナンス終了と共にサービスが再開されます。

7月6日20時00分 ~ 最長 7月9日08時00分  未定 が 7月6日20時00分 ~ 最長 7月9日08時00分  未定 経過観察 に変更されます。

高負荷の緩和はされているものの、原因の調査や対応、別環境(別基盤?)などの作業を行っているそうです。

ただし再び高負荷状態になった場合にはまたサービスを止めるとの告知もあり。

 

ここでサイトやphpmyadmin、FTPといった機能が利用出来るようになりました。

ファイルなどを救出出来なかった人はここでバックアップを取れるようになったのが大きいですね。

 

2018年7月10日

11時頃に金曜日から行われていたメンテナンス、追加作業のすべての作業が完了したことが発表されました。

稼働は安定しているが監視と経過の報告を随時行うとあります。

 

障害は対応完了したので後は経過を観察するという段階でしょうか。

一部では、コントロールパネル開放から移設で利用者が減り、FTPなど使用可能になったことから更に利用者が減り軽くなったとの予想があります。

つまりまた人が増えれば高負荷障害が発生する可能性もあるかもしれません。

増えるかどうかは別として。

 

この大障害から学ぶこと

サーバー初心者の私としてはこの大障害から学ぶことが多くありました。

 

まずはサーバーは落ちるもので絶対の信用をしてはいけないと言う点です。

前科ありとも言えてしまうzenlogicですが、同時期に別のレンタルサーバーでも軽い障害があったようです。

なので、どこを使っているからといって安心してはいけません。

もちろん落ちないほうが良いですが、落ちた後の復旧の早さやサポートなどがしっかりしているサーバーサービスを選ぶのが重要だなと感じました。

特にECサイトやアフィリエイトに使っているサーバーなどの、直接お金を生み出しているサイトではこのあたりが重要だと思います。

値段が少し高くても世界的に展開しているAWSやAzureなども検討しても良いかな?と思いました。

国内でも名前の知れているサーバーを使うなど。

 



 

そして、サーバーのバックアップ機能だけでなく、自分でもバックアップをとっておくということが大事です。

レンタルサーバー自体は基本的にバックアップを取る機能があるとは思いますが、今回のようにコントロールパネルにログイン出来なかったり、バックアップすらも飛んでしまうことがあればどうしようもありません。

週1でも別の場所にバックアップを取っておけば少なくともそれまでのデータはなんとかなります。

そして意外とツイッターを見てて多いのが、サーバー上にしかソースが無いので移転できないといった方が多いということです。

どうやって開発してるのかも謎ですが、それソース飛んだら実質サービス終了になっちゃいますよね?



さいごに

この記事は今後リアルタイムで更新出来たらなと思っています。

Webで食べていこうとしている私のように学ぶことは少なからずある人は多いと思うのでしっかりチェックしていきましょう。