« 更新と検索を重視する情報共有手段として使いたいWiki | トップページ | 様々な用途でバーコードを活用しよう »

サービス監視と実際の発見

社内ヘルプデスクでサービスの監視をする事があります。システムを使って自動で監視を行い、何らかの現象が発生した時に発報させる、という事はよくある事です。たとえば、ネットワークのトラヒックが閾値を超えた場合であるとか、サーバの応答がない事が確認できた場合であるとか。方法は色々ありますが、最近はメールが多いでしょうか。勿論、重要なシステムの場合はパトランプや警告音という感じの方法を採用する事もあるでしょう。

この手のシステムによる監視で気をつけなければいけない事が、3つあります。

1.監視するシステムが動いているかどうかの監視
2.発報時にどうすれば良いかの明確化
3.監視間隔の把握

1番は監視するシステム自身が止まっていると監視出来ない、という、当たり前と言えば当たり前の事です。しかし、実際にはメールシステムが変更になって監視システムからの発報メールが届かなくなっていたであるとか、パトランプの線が外れていて有事の際に鳴らなかったとか、そういう状態になる可能性は必ず含まれています。最終的にそれらを確認出来るのは人間しかいませんから、日々の運用の中で監視するシステムが動いているかどうかを監視する役割を設定しておく事を忘れてはいけません。

2番は有事の際の備えをどこまでしておくかです。せっかく発報しても、その先どうすれば良いのかが分からなければどうしようもありません。特に、発報メールの宛先をメーリングリストにしてしまい、「よく分からないけど受信してるだけ」という人ばかりになってしまって、結局その内容が理解出来ないという状況になれば、せっかくの監視も無意味になってしまいます。必ず何がどうなった時にはどうする、という所を明確にしておきましょう。

3番は意外と陥りやすい罠です。監視するシステムの監視がリアルタイムではなく、何分間隔という場合がよくあります。そのため、実際に障害が発生した場合、発見は監視するシステムより先に利用者や社内ヘルプデスクのメンバであったりします。特に、社内ヘルプデスクが直接使わないシステムの障害を利用者が先に見つけてコールになった際、監視間隔を認識せずに「管理するシステムでは何も検知していません」という結論を出してしまわないように注意が必要です。

当たり前と言えば当たり前ですが、当たり前の事をきちんとやってこその社内ヘルプデスクです。日頃の準備はきっちり行っておきましょう。

次回もよろしくお願いします。

|

« 更新と検索を重視する情報共有手段として使いたいWiki | トップページ | 様々な用途でバーコードを活用しよう »

全体」カテゴリの記事

コメント

@niftyさんの記事にはいつもお世話になっております。
2番は有事の際の備えをどこまでしておくかです。せっかく発報しても、その先どうすれば良いのかが分からなければどうしようもありません。特に、発報メールの宛先をメーリングリストにしてしまい、「よく分からないけど受信してるだけ」という人ばかりになってしまって、結局その内容が理解出来ないという状況になれば、せかっくの監視も無意味になってしまいます。必ず何がどうなった時にはどうする、という所を明確にしておきましょう。

の文章がせっかくがせかっくになってます。

投稿: | 2015年10月22日 (木) 13時26分

ご指摘ありがとうございます。修正いたしました。何年も気づかず放置してしまい、お恥ずかしい限りです。

投稿: 服部敦彦 | 2015年10月22日 (木) 13時36分

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/1140870/30784188

この記事へのトラックバック一覧です: サービス監視と実際の発見:

« 更新と検索を重視する情報共有手段として使いたいWiki | トップページ | 様々な用途でバーコードを活用しよう »