ベアメタル・インスタンスのコンピュート・ヘルス・モニタリング

ベアメタル・インスタンスのコンピュート・ヘルス・モニタリングは、ベア・メタル・インスタンスのハードウェアの問題に関して通知を提供する機能です。ヘルス・モニタリング機能を使用して、ベア・メタル・インスタンスのハードウェア(CPU、マザーボード、DIMM、NVMeドライブなどコンポーネントを含む)のヘルスをモニターできます。通知を使用して問題を識別し、積極的にインスタンスを再デプロイして可用性を改善できるようになります。

ヘルス・モニタリング通知は、エラーが発生してから1営業日以内にテナント管理者に電子メールで送信されます。この警告を使用すると、潜在的なハードウェア障害に先立って行動し、インスタンスを正常なハードウェアに再デプロイしてアプリケーションへの影響を最小限に抑えることができます。

また、モニタリング・サービスで使用可能なインフラストラクチャ・ヘルス・メトリックを使用して、ハードウェアの問題に基づいたアラーム 通知を作成することもできます。

エラーメッセージとトラブルシューティング

この項では、最も一般的なヘルス・モニタリング・エラー・メッセージに関する情報を示し、ベア・メタル・インスタンスに対して試すことができるトラブルシューティング方法を提案します。

データ・センター環境で、このホストに影響しているイベントが検出されました

フォルト・クラス: DC_ENVIRONMENT

詳細: DC_ENVIRONMENTは、データ・センターの問題であり、システムの問題ではありません。通常、問題は電源または温度に関連しており、ライブ修復も可能です。

このタイプの問題を引き起こす可能性のある問題の例として、サーバーでのファン障害、電源ユニットの障害、またはデータセンターでの空調障害などがあります。

GPUの障害が検出されました

フォルト・クラス: GPU

詳細:このエラーは、インスタンスの作成中または実行中に、インスタンスで少なくとも1つの失敗したグラフィック処理ユニット(GPU)が検出されたことを示します。

トラブルシューティング・ステップ:

次のトラブルシューティング・オプションのいずれかを試してください:

  • ハードウェアの健全性をチェックする一連のコマンドを実行するOCI HPC/GPU診断ツールdr-hpcをインストールします。
    wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
    sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
    cd /opt/oci-hpc/oci-dr-hpc/
    ./oci-dr-hpc run-health-checks
  • dcgm診断ツールを実行します。(「NVIDIA GPUデバッグ・ガイドライン」を参照)
    dcgmi diag -r [1,2,3]
  • NVIDIAデバッグ・ログを収集し、grepでログ内のエラーを確認します。
    sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
RDMAの障害が検出されました

フォルト・クラス: RDMA

詳細:このエラーは、少なくとも1つのRDMAネットワークインタフェースカード(NIC)が機能低下しているか、障害があることを示します。

トラブルシューティング・ステップ:

次のトラブルシューティング・オプションのいずれかを試してください:

  • ハードウェアの健全性をチェックする一連のコマンドを実行するOCI HPC/GPU診断ツールdr-hpcをインストールします。
    wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
    sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
    cd /opt/oci-hpc/oci-dr-hpc/
    ./oci-dr-hpc run-health-checks
  • NICのMellanoxデバッグ・コマンドを実行します。
    sudo su
    mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }')   for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done
1つ以上のCPUで障害が検出されました

フォルト・クラス: CPU

詳細: このエラーは、プロセッサまたは1つ以上のコアの障害がインスタンスで発生したことを示します。インスタンスにアクセスできなくなるか、使用可能なコアが想定より少なくなることがあります。

トラブルシューティング・ステップ:

インスタンスの起動中または最近の再起動中にメモリー・サブシステムで障害が検出されました

フォルト・クラス: MEM-BOOT

詳細: このエラーは、インスタンスの起動または再起動中にインスタンスの1つ以上のDIMMで障害が検出されたことを示します。障害が発生したDIMMはすべて無効になっています。

トラブルシューティング・ステップ: インスタンス内のメモリーの合計量が想定より少なくなります。これがアプリケーションに影響する場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換することをお薦めします。

インスタンスのメモリー容量を確認するには:

  • Linuxベース・システムでは、次のコマンドを実行します:

    awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
  • Windowsベース・システムでは、リソース・モニターを開きます:

想定値はコンピュート・シェイプに記載されています。

メモリー・サブシステムで障害が検出されました

フォルト・クラス: MEM-RUNTIME

詳細: このエラーは、インスタンスのDIMMでクリティカルでないエラーが1つ以上検出されたことを示します。インスタンスが過去72時間以内に予期せずに再起動された可能性があります。

トラブルシューティング・ステップ:

  • インスタンスが過去72時間以内に予期せずに再起動されると、1つ以上のDIMMが無効になっている可能性があります。インスタンスの合計メモリー容量を確認するには:

    • Linuxベース・システムでは、次のコマンドを実行します:

      awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal 
    • Windowsベース・システムでは、リソース・モニターを開きます:

    インスタンスの合計メモリーが想定より少ない場合は、1つ以上のDIMMで障害が発生しています。これがアプリケーションに影響する場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換することをお薦めします。

  • インスタンスが予期せずに再起動されていなかったとしても、再起動のリスクが増大しています。次回の再起動時に1つ以上のDIMMが無効になる可能性があります。ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換することをお薦めします。

インスタンス管理コントローラの障害が検出されました

フォルト・クラス: MGMT-CONTROLLER

詳細: このエラーは、インスタンスの管理に使用されるデバイスで障害が発生した可能性があることを示します。コンソール、CLI、SDKまたはAPIを使用して、インスタンスの停止、起動またはリブートを行えない可能性があります。この機能は、オペレーティング・システムの標準コマンドを使用すればインスタンスで引き続き使用可能です。インスタンスへのコンソール接続を作成できなくなる場合もあります。インスタンスを終了することはできます。

トラブルシューティング・ステップ:このような制御が失われてアプリケーションに影響する場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換することをお薦めします。

PCIサブシステムの障害が検出されました

フォルト・クラス: PCI

詳細: このエラーは、インスタンスの1つ以上のPCIデバイスで障害が発生したか、高いパフォーマンスで動作していないことを示します。

トラブルシューティング・ステップ:

インスタンス・ネットワーク・インタフェース・カード(NIC)で障害が検出されました

フォルト・クラス: PCI-NIC

詳細: このエラーは、インスタンス内の1つ以上のインスタンス・ネットワーク・インタフェース・カード(NIC)デバイスで障害が発生したか、高いパフォーマンスで動作していないことを示します。

重要

PCI-NICフォルト・クラスは、非推奨です。同様の機能を使用するには、PCIフォルト・クラスに移行する必要があります。

トラブルシューティング・ステップ: ネットワークを介してインスタンスに接続できない場合は、NICで障害が発生した可能性があります。コンソールまたはCLIを使用してインスタンスを停止してからインスタンスを起動します。ステップについては、インスタンスの停止、起動または再起動を参照してください。

引き続きネットワークを介してインスタンスに接続できない場合でも、コンソール接続を使用して接続できることがあります。シリアル・コンソールへのローカル接続またはVNCコンソールへの接続のステップに従ってコンソール接続を確立し、インスタンスを再起動します。それでもインスタンスにアクセスできない場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換する必要があります。

インスタンス・ソフトウェア定義ネットワーク・インタフェースで障害が検出されました

フォルト・クラス: SDN-INTERFACE

詳細: インスタンスに接続できない場合、またはネットワークの問題が発生している場合、ソフトウェア定義のネットワーク・インタフェース・デバイスで障害が発生した可能性があります。

トラブルシューティング・ステップ: インスタンスを再起動すると問題が一時的に解決する可能性がありますが、ライブ、再起動および手動移行: コンピュート・インスタンスの新しいホストへの移動のステップを使用してインスタンスを置換することをお薦めします。