Métricas de Integridade da Infraestrutura

Você pode monitorar a integridade, a capacidade e o desempenho da infraestrutura de suas instâncias de máquina virtual (VM) e bare metal de computação usando métricas, alarmes e notificações.

Este tópico descreve as métricas emitidas pelo namespace de métricas oci_compute_infrastructure_health.

Recursos: instâncias do serviço Compute.

Visão Geral das Métricas: oci_compute_infrastructure_health

As métricas de integridade da infraestrutura de computação ajudam a monitorar o status e a integridade das instâncias de computação.

Status de integridade da instância (ativo/down): A métrica instance_status permite verificar se uma instância de VM está disponível (ativa) ou indisponível (down) quando no estado em execução. Se a instância ficar indisponível por mais de 30 minutos, entre em contato com o suporte.
Status de manutenção da instância: A métrica maintenance_status permite monitorar se uma instância de VM ou bare metal está programada para manutenção de infraestrutura planejada.
Status de integridade da infraestrutura bare metal: A métrica health_status ajuda você a monitorar a integridade da infraestrutura das instâncias bare metal, incluindo componentes de hardware, como CPU e memória.

Com base no valor das métricas, você pode mover as instâncias afetadas para o hardware íntegro de forma proativa, minimizando com isso o impacto em seus aplicativos.

Política de IAM Necessária

Para monitorar recursos, você deve ter o tipo necessário de acesso em uma política gravada por um administrador, seja usando a Console ou a API REST com um SDK, uma CLI ou outra ferramenta. A política deve fornecer acesso aos serviços de monitoramento, bem como aos recursos que estão sendo monitorados. Caso tente executar uma ação e receba uma mensagem de que não tem permissão ou que não está autorizado, confirme com o administrador o tipo de acesso que você tem e em qual compartimento trabalhar. Para obter mais informações sobre autorizações do usuário para monitoramento, consulte Políticas do Serviço IAM (Monitoring).

Métricas Disponíveis: oci_compute_infrastructure_health

As métricas listadas na tabela a seguir estão automaticamente disponíveis para suas instâncias. Você não precisa ativar o monitoramento na instância para obter essas métricas.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Dependendo da métrica, as seguintes dimensões estão disponíveis:

faultClass

O tipo de problema de hardware:

CPU: Foi detectada uma falha em uma ou mais CPUs.
MEM-BOOT: Uma falha no subsistema de memória foi detectada durante a inicialização da instância ou uma reinicialização recente.
MEM-RUNTIME: Foi detectada uma falha no subsistema de memória.
MGMT-CONTROLLER: Foi detectada uma falha no controlador de gerenciamento de instâncias.
PCI: Foi detectada uma falha no subsistema PCI.
PCI-NIC: Uma falha na placa de interface de rede (NIC) da instância foi detectada.

Importante

A classe de falha PCI-NIC está obsoleta. Migre para a classe de falha PCI para obter uma funcionalidade semelhante.
SDN-INTERFACE: Uma falha na interface de rede definida pelo software da instância foi detectada.

Para obter sugestões de solução de problemas e mais informações sobre esses problemas de hardware, consulte Monitoramento de Integridade do Serviço Compute para Instâncias Bare Metal.

resourceDisplayName

O nome amigável da instância.

resourceId

O OCID da instância.

maintenanceDueTime

A hora inicial programada da janela de manutenção de 24 horas, no formato definido pela RFC3339.

computeMaintenanceAction

A ação que o Oracle Cloud Infrastructure executará em uma instância durante um evento de manutenção programado:

REBOOT: A instância é migrada do host físico que precisa de manutenção para um host íntegro. Se a migração ao vivo não for possível, a instância será reinicializada migrada.
REBUILD_IN_PLACE: A instância é interrompida, reconstruída no mesmo hardware físico e reinicializada. Um período de indisponibilidade de várias horas ocorre durante o processo de manutenção.

recommendedAction

A ação que você pode executar antes do evento de manutenção programado, para poder controlar como e quando seus aplicativos enfrentarão períodos de indisponibilidade.

REBOOT: Você pode reinicializar proativamente a instância antes do horário de manutenção programado. Quando você faz a migração com reinicialização de uma instância para manutenção, ela é interrompida no host físico que precisa de manutenção e, em seguida, é reiniciada em um host íntegro.


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Dimensões
`health_status`	Status de Integridade da Infraestrutura	problemas	O número de problemas de integridade de uma instância. Qualquer valor diferente de zero indica um defeito na integridade. Esta métrica só está disponível para instâncias bare metal.	`faultClass` `resourceDisplayName` `resourceId`
`instance_status`	Status da Instância	Contagem	O status de uma instância em execução. Um valor 0 indica que a instância está disponível (ativada). Um valor 1 indica que a instância não está disponível (inativa) por causa de um problema de infraestrutura. Se a instância for interrompida, a métrica não terá um valor. Esta métrica só está disponível para instâncias de VM.	`resourceDisplayName` `resourceId`
`maintenance_status`	Status de Manutenção	Contagem	O status de manutenção de uma instância. Um valor 0 indica que a instância não está programada para um evento de manutenção de infraestrutura. Um valor 1 indica que a instância está programada para um evento de manutenção de infraestrutura. Esta métrica está disponível para instâncias de VM e bare metal.	`maintenanceDueTime` `computeMaintenanceAction` `recommendedAction` `resourceDisplayName` `resourceId`

Usando a Console

Para exibir métricas de integridade de infraestrutura para uma única instância de computação

Abra o menu de navegação e clique em Compute. No serviço Compute, clique em Instâncias.
Clique na instância em que você está interessado.
Em Recursos, clique em Métricas.
Na lista Namespace de métricas, selecione oci_compute_infrastructure_health.

A página Métricas exibe um conjunto padrão de gráficos para a instância atual.

Para obter mais informações sobre o monitoramento de métricas e o uso de alarmes, consulte Serviço Monitoring. Para obter informações sobre notificações de alarmes, consulte o serviço Notifications.

Para exibir métricas de integridade da infraestrutura de todas as instâncias de computação de um compartimento

Abra o menu de navegação e clique em Observabilidade e Gerenciamento. No serviço Monitoring, clique em Métricas do Serviço.
Selecione um compartimento.
Para Namespace de métricas, selecione oci_compute_infrastructure_health.

A página Métricas do Serviço é atualizada dinamicamente para mostrar gráficos para cada métrica emitida pelo namespace de métricas selecionado.

Usando a API

Para obter informações sobre como usar a API e assinar solicitações, consulte a documentação da API REST e Credenciais de Segurança. Para obter informações sobre SDKs, consulte SDKs e a CLI.

Use as seguintes APIs para monitoramento:

API do Serviço Monitoring para métricas e alarmes
API do Serviço Notifications para notificações (usado com alarmes)