Calcul hautes performances

Le calcul hautes performances (HPC) effectue des calculs et traite les données plus rapidement que le calcul traditionnel. Le calcul hautes performances utilise des serveurs Bare Metal, la mise en réseau de clusters à latence ultra-faible, des options de stockage hautes performances et des systèmes de fichiers parallèles. Cette infrastructure permet un traitement parallèle pour les charges de travail gourmandes en calcul telles que l'intelligence artificielle, le deep learning, l'analyse de données, les simulations scientifiques et toute autre charge de travail très intensive.

Introduction au calcul hautes performances

Vous pouvez créer une instance HPC à noeud unique avec le workflow de création d'instance standard. Si vous souhaitez utiliser plusieurs instances de calcul hautes performances dans un groupe de réseaux RDMA, vous pouvez les créer via un réseau de cluster avec des pools d'instances ou des clusters de calcul.

Utilisation des réseaux de cluster RDMA

Les réseaux de cluster RDMA (Remote Direct Memory Access) sont des groupes d'instances optimisées, de GPU ou de calcul hautes performances connectées à un réseau à très faible latence et à bande passante élevée. Chaque noeud du cluster est une machine Bare Metal située à proximité des autres noeuds. Un réseau RDMA (Remote Direct Memory Access) entre des noeuds fournit une latence exprimée en microsecondes à un chiffre, ce qui est comparable aux clusters de calcul hautes performances sur site.

Les réseaux de cluster sont conçus pour des charges globales de calcul parallèles très exigeantes. Par exemple :

  • Simulations de mécanique des fluides numérique pour la modélisation aérospatiale ou automobile
  • Modélisation financière et analyse des risques
  • Simulations médicales
  • Conception et analyse de trajectoire pour l'exploration de l'espace
  • Intelligence artificielle et charges globales Big Data

Oracle Cloud Infrastructure propose deux types de réseau de cluster. Dans les deux cas, les réseaux sont des groupes d'instances Bare Metal connectées à un réseau à très faible latence.

  • Les réseaux de cluster avec des pools d'instances vous permettent d'utiliser des pools d'instances pour gérer des groupes d'instances identiques dans le groupe réseau RDMA. Si vous voulez une capacité prévisible pour un nombre spécifique d'instances identiques gérées en tant que groupe, utilisez des réseaux de cluster avec des pools d'instances.
  • Les clusters de calcul vous permettent de gérer les instances du cluster individuellement. Lorsque vous créez un cluster de calcul, vous créez un groupe réseau RDMA vide. Une fois le groupe créé, vous pouvez lui ajouter des instances ou en supprimer. Si vous souhaitez gérer les instances du réseau RDMA indépendamment les unes des autres ou utiliser différents types d'instance dans le groupe réseau, utilisez des clusters de calcul.

Modules d'extension de l'agent Oracle Cloud pour le calcul hautes performances

Oracle Cloud Infrastructure propose un module d'extension d'agent cloud spécifique pour les instances Bare Metal HPC afin de simplifier la configuration et l'authentification des réseaux HPC, et fournit une surveillance spécialisée pour le calcul hautes performances.

Le plug-in HPC est disponible pour le calcul hautes performances dans toutes les régions commerciales.

Formes et images prises en charge pour le calcul hautes performances
Forme Images prises en charge Paramètre par défaut
MODÈLE:BM.GPU.A10.4 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recommandé sur OCA 1.37.0 ou supérieur
BM.GPU.A100 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recommandé sur OCA 1.37.0 ou supérieur
MODÈLE:BM.GPU.H100.8 Ubuntu 20.04+, OL7, OL8 Activé sur OCA 1.37.0 ou supérieur
BM.GPU4.8 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recommandé sur OCA 1.37.0 ou supérieur
BM.HPC2.36 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recommandé sur OCA 1.37.0 ou supérieur
BM.Optimized3.36 Ubuntu 20.04+, OL7, OL8 Activé sur OCA 1.37.0 ou supérieur
Les sous-modules du module d'extension HPC peuvent être activés ou désactivés individuellement :
  • Configuration automatique
    • Applique les paramètres d'adaptateur réseau recommandés sur les formes GPU
    • Applique les paramètres Mellanox Connect-X recommandés sur les formes GPU
    • Attribue des adresses IP aux interfaces réseau RDMA en fonction du VCN principal
  • Authentification et configuration RDMA
    • Configure les interfaces réseau RDMA avec les recommandations QoS et MTU
    • Configure et gère l'authentification réseau RDMA requise
  • Surveillance des GPU et RDMA
    • Emet des mesures de performances RDMA et GPU supplémentaires

Pour activer le module d'extension HPC sur une instance Bare Metal existante, vous devez créer ou migrer l'instance existante vers l'agent Oracle Cloud version 1.35.0 ou supérieure. Pour plus d'informations, reportez-vous à Agent Oracle Cloud.

Activation des mesures GPU et RDMA

Lorsque vous installez l'agent Oracle Cloud et activez le module d'extension de surveillance HPC, les mesures GPU et RDMA sont automatiquement activées. OCI envoie les mesures à l'espace de noms du client et les facture à la location.

Pour déterminer si ces mesures entraîneront des frais supplémentaires, reportez-vous à Tarification de l'évaluation.

Pour obtenir la liste détaillée des mesures HPC, reportez-vous à Mesures d'instance Compute.