障害報告
及び 提案書
五月女商会様
2013年3月2日(土)
チーム2
はじめに
五月女商会のサイトにおいてページのアクセス障害、及びサーバーへのssh障害が発生しておりました。
障害発生の経緯と対応について説明いたします。
発生事象
1. Webサイトへのアクセスについて時折エラーページになる。
2. webサーバーへのsshアクセスができない。
3. サイトの一部画像が正常に表示されていない。
4. サイトのアクセスログについてDBへの書き出しが正常に動作していなかった。
原因
1 NGINXで動作するように修正されていたが、本日のNiftyクラウドの障害でノードが再起動された際にNGINXの起動がなされず、修正前のApacheで起動されていた。
2 上記障害で再起動が発生した際にsshdが起動しなかった。
3、4 NGINXで動作用のプログラムがApacheで動作していたため正常に動作していなかった。
対処
2についてノードの再起動をNiftyのコンソールから実行(14:32)
1について16:00までに暫定対処を実施
■暫定対処
・アクセス過多時にhttpdプロセスがハングする事象が確認できたのでhttpdへの最大アクセス数の制限を実施
65535→256(15:50)→128(16:30)
・16:00~のCM放送時は目視確認を行い、ハングアップ時は手動で対処
恒久対処
nginx + php-fcgiで動作するように設定。
再起動時にApacheではなくNGINXで起動するように修正(17:20)
Call to undefined function imageCreateFromJpeg() が出ておりphp側でlibjpegがロードされてなかったのでコンパイルしてロードするように変更してます。
CM放映時のアクセスについて
総アクセス数 2651 (16:00~16:59)
img,css,jsなどアクセスは含みません。
ログ集計をDBに出すプログラムの不備がありましたのでアプリに対するログは正確に取得できませんでした。Apacheのアクセスログから集計した値になります。
提案
■サーバ構成の見直しについて
・今後のアクセス増に対応するため、WebサーバとDBサーバを分ける事でアクセス過多時にのみノードの追加を行うなどの対応が可能になります。
アプリケーションの修正が必要です。
現状はBatchサーバにDBを移行することでコスト増を防ぐことが可能
・DBのバックアップ取得
■プロセス監視の導入
・プロセス監視の仕組みを導入し、異常を検知できるようにする(例:monitdなど)
※ニフティクラウドの監視機能を利用することも可能
■セキュリティについて
・セキュリティを強化するため、お客様情報に関わる画面をSSL化する