Mesures d'état d'infrastructure

Vous pouvez surveiller l'état, la capacité et les performances de l'infrastructure de vos instances Bare Metal et de machine virtuelle de calcul à l'aide de mesures, d'alarmes et de notifications.

Cette rubrique décrit les mesures émises par l'espace de noms de mesure oci_compute_infrastructure_health.

Ressources : instances Compute.

Présentation des mesures : oci_compute_infrastructure_health

Les mesures d'état de l'infrastructure de calcul vous aident à surveiller le statut et l'état des instances de calcul.

  • Statut d'état d'instance : la mesure instance_status permet de vérifier si une instance de machine virtuelle est disponible (démarrée) ou non disponible (arrêtée) lorsqu'elle est en cours d'exécution. Si l'instance est indisponible pendant plus de 30 minutes, contactez le support technique.
  • Statut de maintenance d'instance : la mesure maintenance_status permet de surveiller la programmation d'une instance de machine virtuelle ou Bare Metal pour une maintenance d'infrastructure planifiée.
  • Etat d'infrastructure Bare Metal : la mesure health_status permet de surveiller l'état de l'infrastructure pour les instances Bare Metal, ce qui inclut les composants matériels tels que l'UC et la mémoire.

En fonction de la valeur des mesures, vous pouvez déplacer proactivement les instances affectées vers du matériel en bon état de fonctionnement et minimiser ainsi l'impact sur vos applications.

Stratégie IAM requise

Pour surveiller les ressources, vous devez disposer du type d'accès requis dans une stratégie écrite par un administrateur, que vous utilisez la console ou l'API REST avec un kit SDK, l'interface de ligne de commande ou un autre outil. La stratégie doit vous donner accès aux services de surveillance, ainsi qu'aux ressources surveillées. Si vous essayez d'effectuer une action et qu'un message indique que vous n'y avez pas d'autorisation ou non, contactez l'administrateur pour déterminer le type d'accès qui vous a été accordé et le compartiment dans lequel vous devez travailler. Pour plus d'informations sur les autorisations utilisateur liées à la surveillance, reportez-vous à Stratégies IAM.

Mesures disponibles : oci_compute_infrastructure_health

Les mesures répertoriées dans le tableau suivant sont automatiquement disponibles pour vos instances. Vous n'avez pas besoin d'activer la surveillance sur l'instance pour obtenir ces mesures.

Vous pouvez également utiliser le service Monitoring pour créer des requêtes personnalisées.

Selon la mesure, les dimensions  suivantes sont disponibles :

faultClass

Type de problème matériel :

  • CPU : une panne a été détectée dans des UC.
  • MEM-BOOT : une panne dans le sous-système de mémoire a été détectée lors du lancement de l'instance ou d'un redémarrage récent.
  • MEM-RUNTIME : une panne a été détectée dans le sous-système de mémoire.
  • MGMT-CONTROLLER : une panne a été détectée dans le contrôleur de gestion d'instances.
  • PCI : une panne a été détectée dans le sous-système PCI.
  • PCI-NIC : une panne a été détectée dans la carte d'interface réseau d'instance.

    Important

    La classe de panne PCI-NIC est en phase d'abandon. Vous devez migrer vers la classe de panne PCI pour obtenir des fonctionnalités similaires.
  • SDN-INTERFACE : une panne a été détectée dans l'interface réseau définie par logiciel de l'instance.

Pour obtenir des suggestions de dépannage et plus d'informations sur ces problèmes matériels, reportez-vous à Surveillance de l'état de Compute pour les instances Bare Metal.

resourceDisplayName
Nom convivial de l'instance.
resourceId
OCID  de l'instance.
maintenanceDueTime

Heure de début programmée de la fenêtre de maintenance de 24 heures, au format défini par la norme RFC 3339.

computeMaintenanceAction

Action qu'Oracle Cloud Infrastructure effectue sur une instance lors d'un événement de maintenance programmé :

  • REBOOT : l'instance est migrée de l'hôte physique nécessitant une maintenance vers un hôte en bon état. Si la migration en direct n'est pas possible, l'instance est migrée au redémarrage.
  • REBUILD_IN_PLACE : l'instance est arrêtée, reconstruite sur le même matériel physique et redémarrage. Le processus de maintenance provoque un temps d'inactivité de plusieurs heures.
recommendedAction

Action que vous pouvez effectuer avant l'événement de maintenance programmé, afin que vous puissiez contrôler les circonstances du temps d'inactivité de vos applications.

  • REBOOT : vous pouvez redémarrer l'instance de manière proactive avant l'heure de la maintenance programmée. Lorsque vous migrez une instance au redémarrage à des fins de maintenance, l'instance est arrêtée sur l'hôte physique nécessitant cette maintenance, puis redémarrée sur un hôte en bon état.
Mesure Nom d'affichage de mesure Unité Description Dimensions
health_status Etat de l'infrastructure Problèmes

Nombre de problèmes d'état pour une instance. Toute valeur différente de zéro indique un défaut d'état.

Cette mesure est disponible pour les instances Bare Metal uniquement.

faultClass

resourceDisplayName

resourceId

instance_status Statut d'instance Nombre

Statut d'une instance en cours d'exécution. La valeur 0 indique que l'instance est disponible (démarrée). La valeur 1 indique que l'instance n'est pas disponible (arrêtée) en raison d'un problème d'infrastructure. Si l'instance est arrêtée, la mesure ne possède aucune valeur.

Cette mesure est disponible uniquement pour les instances de machine virtuelle.

resourceDisplayName

resourceId

maintenance_status Statut de la maintenance Nombre

Statut de maintenance d'une instance. La valeur 0 indique qu'aucun événement de maintenance d'infrastructure n'est programmé pour l'instance. La valeur 1 indique qu'un événement de maintenance d'infrastructure est programmé pour l'instance.

Cette mesure est disponible pour les instances de machine virtuelle et Bare Metal.

maintenanceDueTime

computeMaintenanceAction

recommendedAction

resourceDisplayName

resourceId

Utilisation de la console

Procédure de visualisation des mesures d'état d'infrastructure pour une instance de calcul unique
  1. Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Instances.
  2. Cliquez sur l'instance qui vous intéresse.
  3. Sous Ressources, cliquez sur Mesures.
  4. Dans la liste Espace de noms de mesure, sélectionnez oci_compute_infrastructure_health.

    La page Mesures affiche un ensemble de graphiques par défaut pour l'instance en cours.

Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, reportez-vous à Présentation de Monitoring. Pour plus d'informations sur les notifications relatives aux alarmes, reportez-vous à Présentation de Notifications.

Procédure de visualisation des mesures d'état d'infrastructure pour toutes les instances de calcul d'un compartiment
  1. Ouvrez le menu de navigation et cliquez sur Observability and Management. Sous Surveillance, cliquez sur Mesures de service.
  2. Sélectionnez un compartiment.
  3. Pour Espace de noms de mesure, sélectionnez oci_compute_infrastructure_health.

    La page Mesures de service est mise à jour de façon dynamique afin d'afficher les graphiques de chaque mesure émise par l'espace de noms de mesure sélectionné.

Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, reportez-vous à Présentation de Monitoring. Pour plus d'informations sur les notifications relatives aux alarmes, reportez-vous à Présentation de Notifications.