Monitoramento de Integridade do Serviço Compute para Instâncias Bare Metal

O monitoramento de integridade do serviço Compute para instâncias bare metal é um recurso que fornece notificações sobre problemas de hardware com suas instâncias bare metal. Com o recurso de monitoramento de integridade, você pode monitorar a integridade do hardware de suas instâncias bare metal, incluindo componentes como CPU, placa-mãe, DIMM e unidades NVMe. Você pode usar as notificações para identificar problemas, permitindo que você reimplante de forma proativa suas instâncias para melhorar a disponibilidade.

As notificações de monitoramento de integridade são enviadas por e-mail ao administrador tenant até um dia útil após a ocorrência do erro. Essa advertência ajuda você a tomar uma medida antes de qualquer possível falha de hardware e reimplantar suas instâncias para um hardware íntegro a fim de minimizar o impacto nos seus aplicativos.

Você também pode usar as métricas de integridade da infraestrutura disponíveis no serviço Monitoring para criar alarmes e notificações com base em problemas de hardware.

Mensagens de Erro e Solução de Problemas

Esta seção contém informações sobre as mensagens de erro de monitoramento de integridade mais comuns e fornece sugestões de diagnóstico e solução de problemas para você experimentar em uma instância bare metal.

Foi detectado um evento no ambiente do data center que está impactando esse host

Classe de falha: DC_ENVIRONMENT

Detalhes: DC_ENVIRONMENT é um evento que é um problema do data center e não um problema do sistema. Normalmente, o problema é relacionado à energia ou temperatura e também é reparável ao vivo.

Alguns exemplos de problemas que podem causar esse tipo de problema são falha do ventilador em um servidor, falha da unidade de fonte de alimentação ou falha de ar condicionado no data center.

Foi detectada uma falha na GPU

Classe da falha: GPU

Detalhes: Esse erro indica que pelo menos uma unidade de processamento gráfico (GPU) com falha foi detectada na instância durante a criação ou execução da instância.

Etapas de diagnóstico e solução de problemas:

Tente qualquer uma das seguintes opções de solução de problemas:

Instale a ferramenta de diagnóstico dr-hpc de HPC/GPU do OCI, que executa uma série de comandos que verificam a integridade do hardware.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Execute as ferramentas de diagnóstico dcgm. (Consulte Diretrizes de Depuração de GPU da NVIDIA)
```
dcgmi diag -r [1,2,3]
```

Colete os logs de depuração NVIDIA e grep para erros nos logs.

sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis

Foi detectada uma falha no RDMA

Classe da falha: RDMA

Detalhes: Esse erro indica que pelo menos uma placa de interface de rede (NIC) RDMA está degradada ou com falha.

Etapas de diagnóstico e solução de problemas:

Tente qualquer uma das seguintes opções de solução de problemas:

Instale a ferramenta de diagnóstico dr-hpc de HPC/GPU do OCI, que executa uma série de comandos que verificam a integridade do hardware.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Execute comandos de depuração Mellanox para o NIC.

sudo su
mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }')   for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done

Uma falha foi detectada em uma ou mais CPUs

Classe da falha: CPU

Detalhes: Este erro indica que um processador ou um ou mais núcleos falharam na instância. A instância pode não estar acessível ou pode haver menos núcleos disponíveis do que o esperado.

Etapas de diagnóstico e solução de problemas:

Se a instância não puder ser acessada, você deverá substituí-la usando as etapas descritas em Live, Reboot e Migração Manual: Movendo uma Instância de Computação para um Novo Host.
Se a instância estiver disponível, verifique se há o número esperado de núcleos:
- Em sistemas baseados no Linux, execute o seguinte comando:
```
nproc --all
```
- Em sistemas baseados no Windows, abra o Monitor de Recursos.
Compare a contagem de núcleos com os valores esperados documentados em Formas de Computação. Se o número de núcleos for menor do que o esperado e essa redução afetar seu aplicativo, recomendamos que você substitua a instância usando as etapas descritas em Live, Reboot, and Manual Migration: Moving a Compute Instance to a New Host.

Uma falha no subsistema de memória foi detectada durante a inicialização da instância ou uma reinicialização recente

Classe da falha: MEM-BOOT

Detalhes: Esse erro indica que um ou mais DIMMs com falha foram detectados na instância enquanto a instância estava sendo inicializada ou reinicializada. Todos os DIMMs com falhas foram desativados.

Etapas de resolução de problemas: O volume total de memória da instância será inferior ao esperado. Se isso afetar seu aplicativo, recomendamos que você substitua a instância usando as etapas descritas em Ativo, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.

Para verificar o volume de memória na instância:

Em sistemas baseados no Linux, execute o seguinte comando:

awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal

Em sistemas baseados no Windows, abra o Monitor de Recursos.

Os valores esperados são documentados em Formas de Computação.

Foi detectada uma falha no subsistema de memória

Classe da falha: MEM-RUNTIME

Detalhes: Esse erro indica que um ou mais erros não críticos foram detectados em um DIMM da instância. A instância pode ter sido reinicializada inesperadamente nas últimas 72 horas.

Etapas de diagnóstico e solução de problemas:

Se a instância tiver sido reinicializada inesperadamente nas últimas 72 horas, um ou mais DIMMs podem ter sido desativados. Para verificar o volume total de memória na instância:
- Em sistemas baseados no Linux, execute o seguinte comando:
```
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal 
```
- Em sistemas baseados no Windows, abra o Monitor de Recursos.
Se a memória total na instância for inferior ao esperado, é porque um ou mais DIMMs apresentaram falha. Se isso afetar seu aplicativo, recomendamos que você substitua a instância usando as etapas descritas em Ativo, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.
Se a instância não foi reinicializada inesperadamente, há um risco maior de isso acontecer. Durante a próxima reinicialização, é possível que um ou mais DIMMs sejam desativados. Recomendamos que você substitua a instância usando as etapas descritas em Live, Reboot, and Manual Migration: Moving a Compute Instance to a New Host.

Foi detectada uma falha no controlador de gerenciamento de instâncias

Classe da falha: MGMT-CONTROLLER

Detalhes: Este erro indica que um dispositivo usado para gerenciar a instância pode ter falhado. Talvez você não consiga usar a Console, a CLI, SDKs ou APIs para interromper, iniciar ou reinicializar a instância. Essa funcionalidade ainda estará disponível dentro da instância usando os comandos padrão de sistema operacional. Talvez também não seja possível criar uma conexão de console com a instância. Você ainda poderá encerrar a instância.

Etapas de solução de problemas: Se essa perda de controle afetar seu aplicativo, recomendamos que você substitua a instância usando as etapas descritas em Ativo, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.

Foi detectada uma falha no subsistema PCI

Classe da falha: PCI

Detalhes: Esse erro indica que um ou mais dos dispositivos PCI da instância falharam ou não estão operando no pico de desempenho.

Etapas de diagnóstico e solução de problemas:

Se não for possível estabelecer conexão com a instância pela rede, a NIC pode ter falhado. Use a Console ou a CLI para interromper a instância e, em seguida, inicie a instância. Para obter as etapas, consulte Parando, Iniciando ou Reiniciando uma Instância.

Se você ainda não conseguir estabelecer conexão com a instância por meio da rede, poderá conectar-se a ela usando uma conexão de console. Siga as etapas em Estabelecendo uma Conexão Local com a Console Serial ou Estabelecendo Conexão com a Console VNC para estabelecer uma conexão da console e, em seguida, reinicialize a instância. Se a instância permanecer inacessível, você deverá substituí-la usando as etapas descritas em Ativo, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.
Um dispositivo NVMe pode ter falhado.

Em sistemas baseados no Linux, execute o comando sudo lsblk para obter uma lista dos dispositivos NVMe anexados.

Em sistemas baseados no Windows, abra o Disk Manager. Verifique a contagem de dispositivos do NVMe em comparação com o número esperado de dispositivos nas Formas de Computação.

Se você determinar que falta um dispositivo NVMe na lista de dispositivos da instância, recomendamos que substitua a instância usando as etapas descritas em Ativo, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.

Foi detectada uma falha na placa de interface de rede (NIC) da instância

Classe de falha: PCI-NIC

Detalhes: Esse erro indica que um ou mais dos dispositivos NIC (placa de interface de rede) da instância falharam ou não estão operando no desempenho máximo.

Importante

A classe de falha PCI-NIC está obsoleta. Migre para a classe de falha PCI para obter uma funcionalidade semelhante.

Etapas de solução de problemas: Se você não consegue estabelecer conexão com a instância pela rede, a NIC pode ter falhado. Use a Console ou a CLI para interromper a instância e, em seguida, inicie a instância. Para obter as etapas, consulte Parando, Iniciando ou Reiniciando uma Instância.

Se você ainda não conseguir estabelecer conexão com a instância por meio da rede, poderá conectar-se a ela usando uma conexão de console. Siga as etapas em Estabelecendo uma Conexão Local com a Console Serial ou Estabelecendo Conexão com a Console VNC para estabelecer uma conexão da console e, em seguida, reinicialize a instância. Se a instância permanecer inacessível, você deverá substituí-la usando as etapas descritas em Ativo, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.

Foi detectada uma falha na interface de rede definida pelo software da instância

Classe de falha: SDN-INTERFACE

Detalhes: Se você não puder estabelecer conexão com a instância ou se estiver tendo problemas de rede, o dispositivo de interface de rede definido por software poderá ter uma falha.

Etapas de solução de problemas: Embora a reinicialização da instância possa resolver temporariamente o problema, recomendamos que você substitua a instância usando as etapas em Migração ao Vivo, Reinicialização e Manual: Movendo uma Instância de Computação para um Novo Host.

Documentação do Oracle Cloud Infrastructure

Monitoramento de Integridade do Serviço Compute para Instâncias Bare Metal

Mensagens de Erro e Solução de Problemas