閉じる

アトラシアンインシデントハンドブック

概要

現在、技術サービスチームは、24 時間 365 日の可用性を維持することを期待されています。

機能停止や故障のような障害が起こったときに、チームはすぐに対応し、サービスを復旧させる必要があります。このプロセスはインシデント管理と呼ばれています。インシデント管理は会社の規模に関わらず、現在進行中の複雑な課題です。

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

インシデントへの対応

インシデントが検出されたときの対応プロセスとステップ。

インシデントの事後分析

誰も責めることのない事後分析、根本原因の特定と修復作業の計画立案を行う方法。

インシデントハンドブックの概要

このガイドの対象者は?

このハンドブックは、24 時間 365 日の可用性を要求する顧客のインターネットサービスを担当している開発または運用チームの所属メンバー向けに作成されています。

インシデントとは?

アトラシアンでは、インシデントをサービスの中断や質の低下を引き起こす、緊急対応が必要なイベントとして定義しています。ITIL または ITSM の実施基準に従うチームでは、「メジャーインシデント」という用語を使用することがあります。

インシデントが解決済みとなるのは、影響を受けたサービスが通常の機能を再開したときです。機能の完全復元に必要なタスクのみが対象となります。 

インシデントの事後分析はインシデントの発生後に実施するものであり、その根本原因を特定し、インシデントが再発する前に確実に対処するための行動を割り当てます。

インシデントの価値観

1 つのインシデント管理プロセスでは、すべての起こりうるシチュエーションを取り上げることはできません。そのため、ここでは価値観という形で一般的なガイドラインを示します。アトラシアンの企業としての価値観と同様に、私たちのインシデントの価値観は次のようにデザインされています。

  • スタッフとチームがインシデントと事後分析に自主的な意思決定を行えるように導きます。 

  • インシデントを特定および管理し、そこから教訓を得る方法について、チーム間で一貫した文化を構築します。

  • インシデントの特定、解決、反省の各部分に取り組むべき姿勢をチーム間で一致させます。

ステージ インシデントの価値感 関連するアトラシアンの価値観 解釈
1. 検出 顧客より先にインシデントを検出

Build with Heart and Balance

顧客より先にインシデントを検出するための十分な監視およびアラートシステムを備えているのが、バランスの取れたサービスです。 

最高の監視システムは、問題がインシデントになる前に警告してくれます。

2. 応答 躊躇せずエスカレート 

チームとして
動く

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

いつもすべての答えがわかるとは限りません。ですから、エスカレートを躊躇しないでください。

3. 復旧 問題が発生した場合に迅速に解決 顧客をないがしろにしない

顧客はサービスが停止した原因は気にしません。気にするのは、私たちがどれだけ早くサービスを復旧させられるかです。

インシデントの早期解決に全力を尽くすことで、顧客への影響を最小限にすることができます。 

4. 学ぶ 誰かのせいにしない Open Company, No Bullshit インシデントは、サービス運営の一部です。私たちは、チームに責任を負わせるのではなく、責任を持たせることでサービスを向上します。
5. 改善 同じインシデントを繰り返さない 自分自身が変化の原動力になる

根本原因と、すべてのインシデントクラスの再発を防ぐ変更事項を特定します。

具体的な変更事項を、具体的な日付までに提供することをコミットします。

 

必要なツール

本書で説明するインシデント管理プロセスでは、アトラシアン固有のいくつかのツールを使います。これらは、必要に応じて別のものに置き換えることができます。

  • インシデントトラッキング - すべてのインシデントは、事後分析の完了を追跡するために作成されたフォローアップ課題と一緒に、Jira 課題として追跡されます(Jira Ops のリリース前、アトラシアンは大幅にカスタマイズされた Jira Software を使用していました)。

  • チャットルーム - リアルタイムのテキストコミュニケーションチャンネルは、チームでインシデントを診断して解決するための基盤となります。

  • ビデオチャット - 多くのインシデントで、Blue Jeans のようなチームビデオチャットは、複数のアプローチについて議論し、同意するのに役立ちます。

  • アラートシステム - OpsGenie などのツールを使って待機ローテーションとエスカレーションを管理します。

  • ドキュメント作成ツール - Confluence を使用してインシデント状況のドキュメントを作成し、事後分析をブログで共有します。

  • Statuspage - Statupage を使用して内部の関係者や顧客に状況を伝えれば、すべての人が最新情報を入手できます。

インシデントの追跡

すべてのインシデントは、事後分析の完了を追跡するために作成されたフォローアップ課題と一緒に、Jira 課題として追跡されます。本書に記載のプロセスは、Jira Ops の作成に影響を与えた、大幅にカスタマイズされた Jira Software を参考にしています。そのため、このプロセスは、現在 Jira Ops で利用可能な機能とは完全には一致しません。

インシデント課題は、通常、カスタマーチケットに応じてサポートエンジニアが作成するか、インシデントのモニタリングアラートに気がついた開発者が作成します。私たちは、問題が大きくなるまで待つのではなく、何か懸念があれば課題を作成するようにスタッフに促しています。

Jira には、インシデントの解決段階まで追跡し、インシデント対応中のすべての重要な行動を記録するためのシンプルなワークフローがあります。

インシデントマネージャー

インシデントごとに、当該インシデントに対する全責任と権限を持つインシデントマネージャー(IM)を配置します。インシデントマネーシャーがインシデント課題の担当者となります。インシデントマネージャーには、インシデントを解決するのに必要な行動を取る権限が与えられています。組織内の任意のスタッフを呼び出し、可能な限り迅速にサービスを復元させることにインシデントに関わるメンバーを集中させる権限も含まれます。 

インシデントマネージャーは、インシデントに関わる個人ではなく役割です。インシデント中に役割を明確にするメリットは、スタッフが交換可能になることです。スタッフ全員が特定の役割で何をすべきかを知っていれば、どのようなインシデントでもその役割を担当することができます。

このガイドへのご意見、ご提案

心よりお待ちしています。お気軽にincident-handbook@atlassian.comまでフィードバックをお寄せください。

インシデントへの対応

インシデントが検出されたときの対応プロセスとステップ。

インシデントの事後分析

誰も責めることのない事後分析、根本原因の特定と修復作業の計画立案を行う方法。

インシデント管理プロセスの実行を助けるツールをお探しですか?