お知らせ
Kontentがディザスタリカバリを処理する方法
By Juraj Komlosi
ヘッドレスCMSでも、どこでも問題が発生する可能性があります。 SaaSを使用している場合、Webサイトが常にオンになっていることをどのように確認できますか?
この記事では、ディザスタリカバリプランとは何か、その責任者、およびそれがSaaSサービスの重要な部分である理由について説明します。
Kentico Kontentは、マルチテナントソリューションです。 1つのリソース障害により、多くのお客様が停止する可能性があります。あれは事実です。私たちはこれらの結果をよく認識しており、しっかりとした災害復旧計画を策定する主な動機でもありました。私たちとあなたのビジネスを継続的に継続するために。
災害復旧計画
効果的なディザスタリカバリ計画を作成するには、最初にチームとすべてのメンバーの責任を確立する必要があります。 Kentico Kontentでは、チームは次のようになります。
- 最高情報セキュリティ責任者(CISO)-災害復旧プロセス全体に責任を負います
- エンジニアリング担当副社長-開発プロセスを担当
- 第3レベルのサポート-災害が発生した場合に適切な措置を講じる責任があります
- DevOps-インフラストラクチャの問題で開発者をサポートする責任があります
適切な人々のグループがあれば、次のことについて考え始めることができます。
- 資産の在庫
- 私たちはどのような資産を所有していますか?
- リスクアセスメント
- それらはどれほど重要ですか?
- どのような脅威が障害を引き起こす可能性がありますか?
- それが実際に起こった場合はどうすればよいですか?
これらの質問のそれぞれを詳しく見てみましょう。
資産の在庫
私たちはどのような資産を所有していますか?答えは、最も重要なデータを定義する必要があります。私たちの場合、それらには次のものが含まれます。
- コンテンツアイテム
- コンテンツモデル
- サブスクリプション情報
- 課金情報
- およびその他のデータ
したがって、災害復旧イベントが発生した場合にどのリソースを復元する必要があるかがわかります。
- Cosmos DB
- Azure SQL
- AzureStorageなど
リストを定期的に確認することが重要です。実装の変更は、災害復旧計画の対象となる可能性があります。これは、2週間ごとに新しい機能をリリースするKenticoKontentに強く当てはまります。
リスクアセスメント
資産インベントリが完了したら、リスク評価に進みます。リソースごとに、潜在的な脅威を特定し、発生する前に分析します。常に同じ質問をします。「私たちのビジネスが対処しなければならない可能性のある最悪のシナリオは何ですか?」
私たちのリストには、とりわけ、次の非常に一般的なシナリオが含まれています。
- ユーザーエラー
誰もが間違いを犯し、その影響は小さな不便から複数のユーザーに影響を与える大きな問題まで大きく異なります。 - リソース障害
Kentico Kontentは、MSAzureインフラストラクチャに依存しています。リソースに障害が発生した場合はどうなりますか?重要なサービスが中断される可能性があります。 - プロダクションコードのバグ
完璧なコードはありません。本番コードのバグは、顧客のデータに影響を与えたり、データに不整合を生じさせたり、完全に削除したりする可能性があります。 - 自然災害
山火事、地震、ハリケーンなどの自然発生は、データセンターに深刻な被害をもたらす可能性があります。
所有している資産とそれらに何が起こる可能性があるかがわかったら、次の合理的な質問は、「最初に何を復元する必要があるか」です。
それはすべて、資産の重要度に依存します。各データ所有者と話し合った後、各リソースとそれに保存されているデータがビジネスにとって実際にどれほど重要であるかを判断する必要があります。 RTOとRPOに基づいて、特定のリソースに異なるディザスタリカバリ制御のセットが適用されます。
RTOとRPOを定義する
ビジネス継続性とディザスタリカバリ戦略を定義する2つの重要な指標があります。
- リカバリ時間目標(RTO)
RTOは、災害後、運用が正常に戻るまでのビジネスの存続期間の観点から測定されます。たとえば、Amazonがダウンした場合、顧客が他の場所で注文を探し始めるまで、どれくらいの期間、Amazonがオフのままになる可能性がありますか? - 目標復旧時点(RPO)
RPOは、失われるデータの最大許容量の測定値です。簡単に言えば、これは最後にバックアップを作成したときの新しいデータの量です。 Amazonが24時間ごとにバックアップを行った場合、災害により前日に行われたすべての新規注文が一掃される可能性があります。
理想的な世界では、RTOとRPOの両方をできるだけ短くする必要があります。実際には、資産を取得し、その重要度と予算に応じて回復に優先順位を付ける必要があります。
DR計画のテストと実践
すべてのパイロット、医師、消防士などが定期的にトレーニングを受ける必要があるのと同様に、適切なディザスタリカバリ計画を検証して定期的にテストする必要があります。毎年、上記で説明した資産インベントリから最も重要な資産、最も可能性の高い脅威を取得し、災害からどれだけ迅速に回復できるかを確認します。シミュレートします:
- 顧客のデータのごく一部のみが影響を受ける場合の部分的なデータ破損
- お客様のデータのほとんどが影響を受ける場合の完全なデータ破損
- たとえば、CosmosDBが利用できない場合のリソース障害
- 一部のAzureデータセンターがダウンしている場合のデータセンターの障害
しかし、それはハードスキルだけではありません。ディザスタリカバリを成功させるには、コミュニケーション、他のチームとの協力、プレッシャーの下で正しい意思決定を行うことも重要です。これらのソフトスキルは、ディザスタリカバリ計画の不可欠な部分であり、従業員トレーニングの重要な要素です。
今後の計画
SaaSベンダーであることは大きな責任です。すべてのサービスを実行し続け、災害の影響を許容可能なレベルに最小化する責任。説明されているすべてのアクティビティは、優れたサービスを継続的に提供し、すべてのクライアントを不要な混乱から保護するのに役立ちます。