Infrastruktur-Zustandsmetriken

Sie können Zustand, Kapazität und Performance der Infrastruktur für Ihre Compute-VM- und -Bare-Metal-Instanzen mit Metriken, Alarmen und Benachrichtigungen überwachen.

In diesem Thema werden die Metriken beschrieben, die vom Metrik-Namespace oci_compute_infrastructure_health ausgegeben werden.

Ressourcen: Compute-Instanzen.

Überblick über Metriken: oci_compute_infrastructure_health

Mit den Metriken zum Zustand der Compute-Infrastruktur können Sie den Status und Zustand von Compute-Instanzen überwachen.

  • Instanzstatus (up/down): Mit der Metrik instance_status können Sie prüfen, ob eine VM-Instanz verfügbar (up) oder nicht verfügbar (down) ist, wenn sie den Status "Wird ausgeführt" hat. Wenn die Instanz länger als 30 Minuten nicht verfügbar ist, wenden Sie sich an den Support.
  • Instanzwartungsstatus: Mit der Metrik maintenance_status können Sie überwachen, ob eine VM-Instanz oder eine Bare-Metal-Instanz für eine Infrastrukturwartung geplant ist.
  • Zustandsstatus der Bare-Metal-Infrastruktur: Mit der Metrik health_status können Sie den Zustand der Infrastruktur für Bare-Metal-Instanzen überwachen, einschließlich Hardwarekomponenten wie CPU und Arbeitsspeicher.

Basierend auf dem Wert der Metriken können Sie betroffene Instanzen proaktiv auf fehlerfreie Hardware verschieben und so die Auswirkungen auf Ihre Anwendungen minimieren.

Erforderliche IAM-Policy

Um Ressourcen zu überwachen, muss Ihnen der erforderliche Zugriffstyp in einer von einem Administrator geschriebenen Policy erteilt werden, unabhängig davon, ob Sie die Konsole oder die REST-API mit einem SDK, einer CLI oder einem anderen Tool verwenden. Die Policy muss Ihnen Zugriff auf die Monitoringservices sowie auf die überwachten Ressourcen geben. Wenn Sie versuchen, eine Aktion auszuführen, und eine Meldung erhalten, dass Sie keine Berechtigung haben oder nicht autorisiert sind, wenden Sie sich an den Administrator, um herauszufinden, welcher Zugriffstyp Ihnen erteilt wurde und in welchem Compartment Sie arbeiten müssen. Weitere Informationen zu Benutzerautorisierungen für die Überwachung finden Sie unter IAM -Policys.

Verfügbare Metriken: oci_compute_infrastructure_health

Die in der folgenden Tabelle aufgeführten Metriken sind automatisch für Ihre Instanzen verfügbar. Sie müssen kein Monitoring für die Instanz aktivieren, um diese Metriken abzurufen.

Mit dem Service Monitoring können Sie auch benutzerdefinierte Abfragen erstellen.

Je nach Metrik stehen folgende Dimensionen  zur Verfügung:

faultClass

Die Art des Hardwareproblems:

  • CPU: In mindestens einer CPU wurde ein Fault ermittelt.
  • MEM-BOOT: Beim Starten der Instanz oder bei einem der letzten Neustarts wurde ein Fault im Speichersubsystem ermittelt.
  • MEM-RUNTIME: Im Arbeitsspeicher-Subsystem wurde ein Fault ermittelt.
  • MGMT-CONTROLLER: Im Instanzverwaltungscontroller wurde ein Fault ermittelt.
  • PCI: Im PCI-Subsystem wurde ein Fault ermittelt.
  • PCI-NIC: Ein Fault in der Netzwerkkarte (NIC) der Instanz wurde erkannt.

    Wichtig

    Die Faultklasse PCI-NIC ist veraltet. Migrieren Sie zur Faultklasse PCI, um eine ähnliche Funktionalität zu erhalten.
  • SDN-INTERFACE: Ein Fault in der von der Instanzsoftware definierten Netzwerkschnittstelle wurde erkannt.

Vorschläge zur Fehlerbehebung und weitere Informationen zu diesen Hardwareproblemen finden Sie unter Compute-Zustandsmonitoring für Bare-Metal-Instanzen.

resourceDisplayName
Der benutzerfreundliche Name der Instanz.
resourceId
Die OCID  der Instanz.
maintenanceDueTime

Die geplante Startzeit des 24-Stunden-Wartungsfensters im von RFC3339 definierten Format.

computeMaintenanceAction

Die Aktion, die Oracle Cloud Infrastructure während eines geplanten Wartungsereignisses mit einer Instanz ausführt:

  • REBOOT: Die Instanz wird vom physischen Host, der gewartet werden muss, zu einem fehlerfreien Host migriert. Wenn eine Livemigration nicht möglich ist, wird die Instanz neu gestartet.
  • REBUILD_IN_PLACE: Die Instanz wird gestoppt, auf derselben physischen Hardware neu erstellt und neu gestartet. Während des Wartungsprozesses kommt es zu einer Ausfallzeit von mehreren Stunden.
recommendedAction

Die Aktion, die Sie vor dem geplanten Wartungsereignis ausführen können, um zu steuern, wie und wann Ihre Anwendungen nicht verfügbar sind.

  • REBOOT: Sie können die Instanz vor der geplanten Wartungszeit proaktiv neu starten. Wenn Sie eine Instanz zur Wartung neu starten, wird die Instanz auf dem physischen Host gestoppt, der gewartet werden soll, und dann auf einem fehlerfreien Host neu gestartet.
Metrik Metrikanzeigename Einheit Beschreibung Dimensionen
health_status Infrastrukturzustandsstatus Probleme

Die Anzahl der Zustandsprobleme für eine Instanz. Jeder Wert ungleich Null deutet auf einen Zustandsfehler hin.

Diese Metrik ist nur für Bare-Metal-Instanzen verfügbar.

faultClass

resourceDisplayName

resourceId

instance_status Instanzstatus Anzahl

Der Status einer aktiven Instanz. Der Wert 0 gibt an, dass die Instanz verfügbar (hochgefahren) ist. Der Wert 1 gibt an, dass die Instanz aufgrund eines Infrastrukturproblems nicht verfügbar (heruntergefahren) ist. Wenn die Instanz gestoppt ist, enthält die Metrik keinen Wert.

Diese Metrik ist nur für VM-Instanzen verfügbar.

resourceDisplayName

resourceId

maintenance_status Wartungsstatus Anzahl

Der Wartungsstatus einer Instanz. Der Wert 0 gibt an, dass für die Instanz kein Infrastrukturwartungsereignis geplant ist. Der Wert 1 gibt an, dass für die Instanz ein Infrastrukturwartungsereignis geplant ist.

Diese Metrik ist sowohl für VM- als auch für Bare-Metal-Instanzen verfügbar.

maintenanceDueTime

computeMaintenanceAction

recommendedAction

resourceDisplayName

resourceId

Konsole verwenden

So zeigen Sie Infrastrukturzustandsmetriken für eine Compute-Instanz an
  1. Öffnen Sie das Navigationsmenü, und klicken Sie auf Compute. Klicken Sie unter Compute auf Instanzen.
  2. Klicken Sie auf die gewünschte Instanz.
  3. Klicken Sie unter Ressourcen auf Metriken.
  4. Wählen Sie in der Liste Metrik-Namespace die Option oci_compute_infrastructure_health aus.

    Auf der Seite "Metriken" wird eine Standardgruppe von Diagrammen für die aktuelle Instanz angezeigt.

Weitere Informationen zu Monitoringmetriken und zur Verwendung von Alarmen finden Sie in Überblick über Monitoring. Informationen zu Benachrichtigungen für Alarme finden Sie unter Überblick über Benachrichtigungen.

So zeigen Sie Infrastrukturzustandsmetriken für alle Compute-Instanzen in einem Compartment an
  1. Öffnen Sie das Navigationsmenü, und klicken Sie auf Observability and Management. Klicken Sie unter Monitoring auf Service-Metriken.
  2. Wählen Sie ein Compartment aus.
  3. Wählen Sie unter Metrik-Namespace die Option oci_compute_infrastructure_health aus.

    Die Seite Servicemetriken wird dynamisch aktualisiert und zeigt Diagramme für jede vom ausgewählten Metrik-Namespace ausgegebene Metrik an.

Weitere Informationen zu Monitoringmetriken und zur Verwendung von Alarmen finden Sie in Überblick über Monitoring. Informationen zu Benachrichtigungen für Alarme finden Sie unter Überblick über Benachrichtigungen.