Métricas de Integridade da Infraestrutura

Você pode monitorar a integridade, a capacidade e o desempenho da infraestrutura de suas instâncias de máquina virtual (VM) e bare metal de computação usando métricas, alarmes e notificações.

Este tópico descreve as métricas emitidas pelo namespace de métricas oci_compute_infrastructure_health.

Recursos: instâncias do serviço Compute.

Visão Geral das Métricas: oci_compute_infrastructure_health

As métricas de integridade da infraestrutura de computação ajudam a monitorar o status e a integridade das instâncias de computação.

  • Status de integridade da instância (ativo/down): A métrica instance_status permite verificar se uma instância de VM está disponível (ativa) ou indisponível (down) quando no estado em execução. Se a instância ficar indisponível por mais de 30 minutos, entre em contato com o suporte.
  • Status de manutenção da instância: A métrica maintenance_status permite monitorar se uma instância de VM ou bare metal está programada para manutenção de infraestrutura planejada.
  • Status de integridade da infraestrutura bare metal: A métrica health_status ajuda você a monitorar a integridade da infraestrutura das instâncias bare metal, incluindo componentes de hardware, como CPU e memória.

Com base no valor das métricas, você pode mover as instâncias afetadas para o hardware íntegro de forma proativa, minimizando com isso o impacto em seus aplicativos.

Política de IAM Necessária

Para monitorar recursos, você deve ter o tipo necessário de acesso em uma política  gravada por um administrador, seja usando a Console ou a API REST com um SDK, uma CLI ou outra ferramenta. A política deve fornecer acesso aos serviços de monitoramento, bem como aos recursos que estão sendo monitorados. Caso tente executar uma ação e receba uma mensagem de que não tem permissão ou que não está autorizado, confirme com o administrador o tipo de acesso que você tem e em qual compartimento  trabalhar. Para obter mais informações sobre autorizações do usuário para monitoramento, consulte Políticas do Serviço IAM (Monitoring).

Métricas Disponíveis: oci_compute_infrastructure_health

As métricas listadas na tabela a seguir estão automaticamente disponíveis para suas instâncias. Você não precisa ativar o monitoramento na instância para obter essas métricas.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Dependendo da métrica, as seguintes dimensões estão disponíveis:

faultClass

O tipo de problema de hardware:

  • CPU: Foi detectada uma falha em uma ou mais CPUs.
  • MEM-BOOT: Uma falha no subsistema de memória foi detectada durante a inicialização da instância ou uma reinicialização recente.
  • MEM-RUNTIME: Foi detectada uma falha no subsistema de memória.
  • MGMT-CONTROLLER: Foi detectada uma falha no controlador de gerenciamento de instâncias.
  • PCI: Foi detectada uma falha no subsistema PCI.
  • PCI-NIC: Uma falha na placa de interface de rede (NIC) da instância foi detectada.

    Importante

    A classe de falha PCI-NIC está obsoleta. Migre para a classe de falha PCI para obter uma funcionalidade semelhante.
  • SDN-INTERFACE: Uma falha na interface de rede definida pelo software da instância foi detectada.

Para obter sugestões de solução de problemas e mais informações sobre esses problemas de hardware, consulte Monitoramento de Integridade do Serviço Compute para Instâncias Bare Metal.

resourceDisplayName
O nome amigável da instância.
resourceId
O OCID  da instância.
maintenanceDueTime

A hora inicial programada da janela de manutenção de 24 horas, no formato definido pela RFC3339.

computeMaintenanceAction

A ação que o Oracle Cloud Infrastructure executará em uma instância durante um evento de manutenção programado:

  • REBOOT: A instância é migrada do host físico que precisa de manutenção para um host íntegro. Se a migração ao vivo não for possível, a instância será reinicializada migrada.
  • REBUILD_IN_PLACE: A instância é interrompida, reconstruída no mesmo hardware físico e reinicializada. Um período de indisponibilidade de várias horas ocorre durante o processo de manutenção.
recommendedAction

A ação que você pode executar antes do evento de manutenção programado, para poder controlar como e quando seus aplicativos enfrentarão períodos de indisponibilidade.

Métrica Nome para Exibição da Métrica Unidade Descrição Dimensões
health_status Status de Integridade da Infraestrutura problemas

O número de problemas de integridade de uma instância. Qualquer valor diferente de zero indica um defeito na integridade.

Esta métrica só está disponível para instâncias bare metal.

faultClass

resourceDisplayName

resourceId

instance_status Status da Instância Contagem

O status de uma instância em execução. Um valor 0 indica que a instância está disponível (ativada). Um valor 1 indica que a instância não está disponível (inativa) por causa de um problema de infraestrutura. Se a instância for interrompida, a métrica não terá um valor.

Esta métrica só está disponível para instâncias de VM.

resourceDisplayName

resourceId

maintenance_status Status de Manutenção Contagem

O status de manutenção de uma instância. Um valor 0 indica que a instância não está programada para um evento de manutenção de infraestrutura. Um valor 1 indica que a instância está programada para um evento de manutenção de infraestrutura.

Esta métrica está disponível para instâncias de VM e bare metal.

maintenanceDueTime

computeMaintenanceAction

recommendedAction

resourceDisplayName

resourceId

Usando a Console

Para exibir métricas de integridade de infraestrutura para uma única instância de computação
  1. Abra o menu de navegação e clique em Compute. No serviço Compute, clique em Instâncias.
  2. Clique na instância em que você está interessado.
  3. Em Recursos, clique em Métricas.
  4. Na lista Namespace de métricas, selecione oci_compute_infrastructure_health.

    A página Métricas exibe um conjunto padrão de gráficos para a instância atual.

Para obter mais informações sobre o monitoramento de métricas e o uso de alarmes, consulte Serviço Monitoring. Para obter informações sobre notificações de alarmes, consulte o serviço Notifications.

Para exibir métricas de integridade da infraestrutura de todas as instâncias de computação de um compartimento
  1. Abra o menu de navegação e clique em Observabilidade e Gerenciamento. No serviço Monitoring, clique em Métricas do Serviço.
  2. Selecione um compartimento.
  3. Para Namespace de métricas, selecione oci_compute_infrastructure_health.

    A página Métricas do Serviço é atualizada dinamicamente para mostrar gráficos para cada métrica emitida pelo namespace de métricas selecionado.

Para obter mais informações sobre o monitoramento de métricas e o uso de alarmes, consulte Serviço Monitoring. Para obter informações sobre notificações de alarmes, consulte o serviço Notifications.