2022/5/17

クラウドネットワークの耐障害性に手を抜かないでください

※ 2022/3/1 時点の Don't Cut Corners on Cloud Network Resiliency の翻訳記事となります。

1.はじめに

Alkiraネットワーククラウドサービスは、クラウド内およびクラウド向けに構築されています。パブリッククラウドプロバイダーでホストされているワークロードをオンボードし、他のクラウドワークロード、オンプレミスブランチ、データセンター、およびグローバルに分散しているユーザーと接続できるプラットフォームを企業に提供します。したがって、Alkiraを活用する企業は、重要なトラフィックのほとんどが、インフラストラクチャを通過することになります。その結果、Alkiraのチームは、完全に安全で可用性が高く、さまざまな障害シナリオで回復できるように構築されていることを確認するために、並外れた進歩を遂げています。

Alkiraネットワーククラウドサービスは、グローバルに分散されたAlkira Cloud Exchange Points(CXP)のネットワークに基づいており、ハイパースケールのパブリッククラウドインフラストラクチャ内に展開されます。 Alkira CXPは、高帯域幅、低遅延のインフラストラクチャを介して相互接続されています。顧客は、ユーザー、ブランチの場所、クラウドワークロードを地理的に最も近いAlkira CXPに接続し、効率が低く予測が難しいインターネットトランスポートを介してラストマイルアクセスを短縮することで、アプリケーション全体のパフォーマンスを向上させることができます。

インフラストラクチャの可用性に関して、Alkiraは、稼働時間SLA(サービスレベル契約)、RTO(目標復旧時間)、およびRPO(目標復旧時点)を顧客に約束します。さらに、Alkiraサービスは、コミットされたSLAを超えて、ネットワークの可用性を強化する機能も提供します。このブログでは、ソリューションの両方の側面と、顧客がそれらを活用する方法について説明します。

2.クラウドネットワークの復元力:
ポータルの可用性(制御および管理プレーン)

インフラストラクチャを高可用性にする3つの要素があります。1つ目は、単一障害点が発生しないように、アーキテクチャに十分な冗長性を組み込むことです。2つ目は、アプリケーションをプロアクティブに監視して、通知を受け取ることができるようにすることです。最後に、万が一問題が発生し、障害が起きた場合にトラフィックをバックアップパスに切り替える、フェイルオーバーメカニズムを実装することです。

Alkiraポータルは、パブリッククラウドインフラストラクチャ内でホストされます。パブリッククラウドインフラストラクチャでは、システムのさまざまなレイヤーに、複数のレベルのクラウドネットワークの耐障害性と冗長性が組み込まれています。クラスタリングとロードバランサーは、特定の機能に対して、複数のノードを持つように実装されているため、単一障害点はありません。アプリケーションを実行するために必要なノードは、データセンターや、クラウドサービスプロバイダー内の完全な地域障害に耐えるために、さまざまなアベイラビリティーゾーンとリージョンにまたがっています。

この高レベルの冗長性に加えて、インフラストラクチャはネットワークの耐障害性を考慮して設計されています。さらに、クラウドサービスプロバイダーネットワーク内で障害が発生した場合に、お客様へのサービスへの影響を最小限に抑えるために、緊急時対応計画が実施され、定期的にテストされています。

データのバックアップはすべてのノードに対して毎日実行されるため、障害が発生した場合は、コミットされた目標復旧時間(RTO)および目標復旧時点(RPO)内で簡単に復旧できます。事業継続計画と災害復旧計画が定義されており、毎年レビューおよびテストされます。テストは、文書化された計画と手順が設計どおりに機能し、テスト中に問題が特定された場合にすぐに更新されることを確認するのに役立ちます。事業継続計画と災害復旧計画の対象は次のとおりです。

  • ビジネスへの影響と重要度の分析
  • 本番環境に関連する緊急事態への対応手順
  • 失われたデータの復元
  • 緊急時の継続的なセキュリティ
  • 緊急アクセス手順

アーキテクチャの観点から、システムは、アプリケーションへのアクセスがデータプレーンから完全に切り離されるように設計されています。ポータルに問題が発生した場合でも、顧客のトラフィックとそのネットワークに影響はありません。影響を受けるのは、現在のネットワークに変更または更新を行う機能だけです。

3.Alkira CXPの可用性(データプレーン)

Alkiraクラウドエクスチェンジポイント(CXP)は、冗長性のためにさまざまなアベイラビリティーゾーンにデプロイされます。ユーザー、ブランチ、およびワークロードからのすべての接続は、各アベイラビリティーゾーンのCXPにマルチホーム化されます。このように、単一障害点が発生することはなく、アベイラビリティーゾーンが停止した場合でも、トラフィックは冗長接続を介して他のアベイラビリティーゾーンにシームレスに流れ続けるため、お客様のネットワークに影響を与えることはありません。



これにより、クラウドサービスプロバイダー内のアベイラビリティーゾーンの障害が処理され、コネクタを構成するためのデフォルトのオプションになります。ただし、これは、アベイラビリティーゾーンに障害が発生した場合にのみ機能します。クラウドサービスプロバイダーの地域に影響を与える停止が発生した場合、複数のアベイラビリティーゾーンに接続している場合でも、お客様のネットワークは影響を受けます。

リージョンの障害はまれですが、実際に発生し、アプリケーションの可用性とユーザーの接続に影響を与える可能性があります。 Alkiraを使用すると、クラウドリージョンの障害にも耐えられるように、ネットワークを設計することもできます。 Alkiraは、クロスリージョン冗長性のためにCXPフェイルオーバーをセットアップする機能を提供します。この場合、コネクタの設定中にCXPフェールオーバーオプションを有効にすることができます。構成が完了すると、別のリージョンのCXPを使用してバックアップ接続が作成されます。デフォルトでは、バックアップ接続は無効になり、CXPフェイルオーバーがトリガーされると有効になります。



最後に、CXPは任意のハイパースケールクラウドサービスプロバイダーに導入できるため、Alkiraは、クラウド間冗長性とクラウド間フェイルオーバーを顧客に提供できます。企業は、さまざまなクラウドサービスプロバイダーでCXPをホストするようにネットワークを設計できるため、一方のクラウドプロバイダーが停止した場合でも、ユーザーとアプリケーションのトラフィックはもう一方のプロバイダーを経由できます。

さいごに

このブログでは、企業がさまざまなタイプの障害シナリオに対する保護を提供するために、すぐに利用できるオプションについて説明しました。さらに、デフォルトオプションに加えて構成できる機能があり、ネットワークの可用性をさらに強化および改善できます。ただし、これらのオプションに関連するコストがあるため、これらの機能をどの程度活用したいかについては、お客様のビジネス要件によって異なります。たとえば、リージョン間フェイルオーバーを実現するには、常に各リージョンに1つずつ、合計2つの並列インフラストラクチャを実行する必要があります。

したがって、結論として、Alkiraを使用すると、さまざまな種類の障害に耐えられるように最大限の冗長性と復元力を備えたネットワークを設計できますが、ビジネス要件に照らしてそれらを綿密に評価する必要があります。

元記事の著者:Misbah Rehman
MisbahはAlkira社のテクニカルマーケティングチームを率いています。ネットワークの分野で10年以上の経験があり、サービスプロバイダ規模のネットワークとソリューションの構築と管理に情熱を注いでいます。これまでのキャリアでは、エンジニアリング、セールス、テクニカルマーケティングなど、様々な技術的な職種を担当してきました。Alkiraに入社する前は、Ciscoのエンタープライズビジネスユニットのテクニカルマーケティング担当シニアマネージャーとして、Tier 1サービスプロバイダに技術的なリーダーシップを提供し、Viptela SDWANソリューションを使用したマネージドサービスの構築を支援していました。Misbahはコロラド大学ボルダー校で電気通信の修士号を取得しています。