Advanced Simulation for Resource Management - Publications from users of the SILECS research infrastructure Accéder directement au contenu
Thèse Année : 2020

Advanced Simulation for Resource Management

Simulation avancée pour la gestion de ressources des superordinateurs

Résumé

High-Performance Computing (HPC) provides the computational power dedicated to solving complex problems of our society.HPC computers are large scale and distributed infrastructures composed of several thousands of computing cores.The management of theses systems is left to unique software: the Resources and Jobs Management System (RJMS).The objective of the RJMS is multiple: Managing the physical infrastructure, and handling the user requests to access to the computing power.The scheduling algorithm is the cornerstone of the RJMS, it decides where and when the user's jobs will be executed.Scheduling is a difficult problem; to manage large scale platforms RJMS needs to dispose of efficient yet scalable scheduling heuristicsEvaluating and testing new scheduling algorithms is crucial before releasing it in production.Any failure can have a dramatic impact on the HPC platform leading to wasted time, energy, and resources.The lack of a platform dedicated experiments and tests compels RJMS designers and HPC center's administrators to use different tools and methodologies to evaluate new algorithms.In the first part of this dissertation, we present and evaluate a new scheduling heuristics with job redirection.The evaluation is done using a large simulation campaign, it results that by redirecting jobs can improve the efficiency of the scheduling.In the second part, we focus on and extend the tools and methodologies available to experiment with RJMS.This part is twofold: Firstly, we propose to extend scheduling simulations with job models to simulate network contention between jobs.Secondly, we propose new tools that enable experiment with production RJMS without the need for an HPC platform.This dissertation aims to broaden the experimental landscape of tools and methodologies to experiment with RJMS and therefore help the release in the production of new scheduling algorithms.
Les superordinateurs sont des systèmes mutualisant la puissance de milliers de coeurs de calculs dédiés à la résolution des problèmes compliqués de notre société.Le gestionnaire de ressources est un système distribué et complexe chargé de la gestion de ses ressources de calculs.Son rôle est multiple: Gérer la plateforme physique et traiter les requêtes d'accès des utilisateurs au superordinateur.La pierre angulaire du gestionnaire de ressources est son algorithme d'ordonnancement des requêtes des utilisateurs.L'ordonnancement est un problème difficile; pour gérer efficacement un superordinateur le gestionnaire de ressources doit disposer d'heuristiques d'ordonnancement efficaces permettant de prendre des décisions pertinentes sur des milliers de ressources de calculs.Évaluer et tester de nouvelles heuristiques est fondamental avant de pouvoir les utiliser dans un système en production.Toute panne induite par une nouvelle politique peut avoir des conséquences importantes sur la qualité de service du superordinateur.Il est ainsi nécessaire de disposer d'outils et méthodes dédiés à l'évaluation des algorithmes d'ordonnancement.La première partie de ce document présente un nouvel algorithme d'ordonnancement, ainsi que son évaluation par le biais de la simulation.L'algorithme en question repose sur la possibilité de rediriger les programmes des utilisateurs en cours d'exécution.L'évaluation est réalisée par le biais d'une large campagne de simulation, et montre que rediriger des programmes permet d'améliorer les performances de l'ordonnancement.L'objectif principal de la seconde partie de ce document est de proposer et développer de nouveaux outils et méthodes pour l'évaluation des gestionnaires de ressources.Cette seconde partie est elle même divisée en deux arcs: Nous proposons dans un premier temps d'étendre les techniques de simulations d’algorithmes d'ordonnancement avec des modèles dédiés aux programmes permettant ainsi la simulation d'interférences réseaux entre les différents programmes.Dans un second temps, nous proposons deux nouvelles approches pour créer des expériences sur un seul ordinateur, en se basant directement sur de vrais gestionnaires de ressources.L'objectif de ces travaux est d'étendre le paysage expérimental des outils et méthodologies nécessaires à l'évaluation de nouveaux algorithmes d'ordonnancement.
Fichier principal
Vignette du fichier
FAURE_2020_archivage.pdf (3.81 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03155702 , version 1 (02-03-2021)

Identifiants

  • HAL Id : tel-03155702 , version 1

Citer

Adrien Faure. Advanced Simulation for Resource Management. Computer Arithmetic. Université Grenoble Alpes [2020-..], 2020. English. ⟨NNT : 2020GRALM056⟩. ⟨tel-03155702⟩
208 Consultations
302 Téléchargements

Partager

Gmail Facebook X LinkedIn More