WEBサービス開発グループ 共通開発チーム 石井です。
当チームでは自社サービスのWEBサイト約50サイトとサーバ約1,000台の管理をしており、その稼動監視をご紹介します。
監視方法はいくつかありますが、今回は、サイトが機能するかを客観的に監視するツール「Pingdom」を紹介し、それと連動するシステムについて説明します。
ツールを活用することで、障害の検知、記録、一次対応の自動化ができます。
WEBサービス開発グループでは、ツールを活用することで、障害の検知、記録、一次対応の自動化をしています。
Pingdomについて
WEBサイトを外部から監視するツールです。
「Uptimeチェック」は簡単な死活監視で、HTTP,HTTPS,SMTP,POP3,IMAPはプロトコルレベルで監視でき、それ以外のプロトコルは、簡単なやりとりであれば監視できます。
「Transactionチェック」は、一定のシナリオに基づいた監視、例えば、ページを表示してID,パスワードを入力してログインボタンを押し遷移したページの内容をチェックする、といった動作が監視できます。
異常を検知した場合は、メール,SMSなどで通知することができます。
Pingdomとの連動について
1. Pingdomでダウンを検知したらサーバアプリを再起動する
これは、Pingdomからの通知メールをGmailに送り、そのメールをGmail APIで取得して該当のメールがあったらコマンドを実行するようにします。
- Gmail API https://developers.google.com/gmail/api/
2. Pingdomでダウンを検知したらJIRAにチケットを起票する
JIRAにはメールでチケットを起票する機能があり、1のメールを取得するように設定します。
- メールから、課題とコメントを生成する https://ja.confluence.atlassian.com/adminjiraserver071/creating-issues-and-comments-from-email-802592933.html
JIRAからは、POPかIMAPで取得できますので、Gmail側でPOPまたはIMAPでのアクセスを有効にしてJIRAを設定します。これで起票されたチケットに担当者がコメントし、ダウンから復旧までの経過を追うことができます。
まとめ
このようにして、いくつかのツールを連動させてダウンからの復旧を早めたり、経過を記録することが簡単にできます。