ITSM - IT Service Management / article

Expert tips for better incident management

数日前、娘の先生が私に電話をかけてきました。これは良くないことに決まっています。「今日、学校で私たちにちょっとした問題が起きました」と言われ、私は身構えました。先生の言う「私たち」というのは、「あなたのお子さん」を意味し、問題には常に破傷風の注射が関係します。

結果、他の子どもには治療が必要ないことがわかりました。しかし、これであることを思いました。IT では、毎日インシデントに直面します。私たちの目標はそれらを最小限に抑えることですが、それは正確にどういうことを意味するのでしょうか? インシデントの解決についてはよく耳にしますが、それにはもっと多くのことが関係します。インシデント (および根本の問題) の検出と修正は、悪影響を最小限に抑えることの一部でしかありません。

では、他に何をするべきでしょうか? アトラシアンで多くのエキスパートに聞いてみました。ここでは、そこから得られたインシデント管理を向上するための推奨事項をいくつか紹介します。

切り分けて攻略することでインシデントをより速く解決する

このヒントは、アトラシアンの IT チームの直の声であり、ほとんどの一般的なサービス管理フレームワークでは十分に注目されていません。誰もが、インシデントが報告されるとすぐに、修正するために自分自身の仮説またはアイデアを考えます。しかし、最適なアイデアを採用するにはどうすればよいでしょうか?

最も早い時点で調査を複数の個別のワークストリームに分割することを推奨します。これにより、理論を証明または反証して、取るべき行動指針を迅速に決定できます。

当社の IT リードの 1 人である Jim は、インシデントはさまざまな多くの障害が累積した結果として発生することがあるため、単一の「根本原因」があるという考えは思い込みであることが多いと指摘します。複数の人がいくつかの可能性を究明することで、解決までの時間を短縮でき、全体像を見ることができます。

追加のヒントとして、各ワークストリームがチームの他のメンバー、特にインシデントマネージャーと密接に調整されていることを確認します。これは自然と次のヒントにつながります (私が何をしたかを確認してください)...

明確な役割を割り当て、協力して作業する

インシデントが非常に大きな問題に見える場合でも、常に冷静さを保ってください。このシリーズのパート 1 で述べたように、大騒ぎしても何も解決ないどころか、むしろ弊害になることが多いです。代わりに、各自の責任が明確になるよう、役割がしっかりと定義されていることを確認します。

優秀なインシデントチームは次の役割で構成されます。小規模な組織では、1 人の人が複数の役割を果たすことはよくあります。その場合は重要な役割が網羅されていて、責任が明確であることを確認してください。

  • インシデントマネージャー — インシデントチームを構築し、プロセス全体でチームの舵取りをします。
  • サービスオペレーションエンジニア — 初期評価を実行し、修正を実装します。
  • 対象分野のエキスパート — 障害を引き起こした欠陥を診断し、修正と回避策を提案します。
  • リリースマネージャー — ソフトウェア製品の新バージョンの緊急リリースを迅速かつ安全に行います。
  • 内部コミュニケーションマネージャー — 関係する社内スタッフとのコミュニケーションを処理します。
  • 外部コミュニケーションマネージャー—顧客とのコミュニケーションを処理します (おそらく上記すべての役割の中で、最も魅力のない役割でしょう。彼らのデスクにドーナツとコーヒーが切れることがないようにしてください)

そして外部のコミュニケーションと言えば...(ほら、またやってしまいました!)

顧客から知らされるのではなく、こちらから通知する

どんな性質のインシデントでもそれに対応しているときは、自然と問題の解決に集中し、組織の外部または内部の数百人または数千人の顧客とコミュニケーションすることは忘れてしまいますしかし、顧客が何かが機能していないことに気付き、問題を把握しようと試みて、最終的に機能停止の疑いを報告するために電話をかけたとします。顧客が数時間、問題の特定に時間を費やした後に「すでに問題があることを把握し、その解決に取り組んでいます」という答えが返ってきたら、これほど顧客にとってイライラさせられることはありません。

積極的に IT インシデントについてやり取りすることで、あなたが注意を払い、掌握していることを示す

アトラシアンでは、以下を推奨します。

監視システムをまだ設置していない場合は、課題を事前に検出するために監視システムを設置します。

特に大きなインシデントに、内部および外部のコミュニケーションマネージャーを割り当て、効果的かつ積極的な顧客とのコミュニケーションに責任を持つ人を明確にします。

Establishing a dedicated channel for publishing or broadcasting known issues or outages–and even calling your top customers proactively for outages that affect them. Check out our very own Atlassian Cloud System Status as one example. We also publish service status pages for BitBucket, Hipchat, and just about all of our other cloud services.

重要な項目を常に追跡する

Most of you reading this are already using some form of service desk software, even if it’s homegrown. Whether you are using Jira Service Desk or not, it’s critical that you aren’t just using free-form data entry fields to capture the details of each ticket.

定期的な分析を実行し、はるかに大きい問題の兆候を示すパターンを探すことができるように、直感的で意味のあるカテゴリーを使用してすべてのインシデントを分類することをお勧めします。カテゴリーに依存しすぎないように注意してください。ついやり過ぎてしまうことがあります。

最も重要な点は、インシデント管理は終着点ではないことを忘れないこと

インシデント管理とサービスの復元は非常に重要ではありますが、それは最終目的地ではありません。ビジネス全体の真の目標は、過去のインシデントを振り返って学び、問題をトータルで防ぎ、技術的負債を修正するスタッフとリソースを割り当てることで、完璧なアジャイル化を実現することです。

最後に、手短に重要な点をいくつかまとめます。

自分とチームのペースでやる。迅速さは確かに大切です。しかし、ストレスで自ら心不全を引き起こしては意味がありません。すべての決断をよく考え、必要に応じて再検討し、信頼する人に確認してもらいましょう。

修正を測定する計画を立てる。期待される結果または成果は何ですか? 無事修正できたときに何を達成するかを事前に定義して、成功した (成功しなかった) かどうかがわかるようにします。

大胆に行う。優柔不断は停滞につながります。チームのスキルに頼って、自分の判断を信頼しましょう。そして最後に、準備をして決断をすることと、軽率な独断とを混同しないでください。きっとうまく行きます。

著者について

Nick Wright

サービスオペレーションマネージャー、アトラシアン

チーム、そして私は、アトラシアンのクラウドアプリケーションとインフラストラクチャが確実に最高の状態で機能するように努めています。急成長を続けながら、これを実現する方法をぜひ共有したいと思っています。ニュージーランド出身であるという言語的なハンデはありますが、フィッシュアンドチップスをきちんと発音できますよ。プライベートでは、サイクリング、ゲーム、妻と可愛い幼い娘と時間を過ごしています。 

さらに詳しく
Jira Service Desk logo

より多くの問題をさらに素早く解決

無料トライアル