Gestion des données, infrastructures de stockage

Bonnes pratiques

En bref

  • faire un DMP (demander de l’aide à sos-calcul-gricad@univ-grenoble-alpes.fr ou à la cellule data de l’UGA ;
  • documenter les données ;
  • designer un membre permanent responsable des données pour chaque projet ;
  • utiliser les répertoires de stockages partagés par projet ;
    • /silenus/PROJECTS/ sur Dahu et Bigfoot ;
    • /bettik/PROJECTS/ sur Dahu, Bigfoot et Luke.
  • ne pas stocker des données de projet dans son répertoire personnel, surtout pour les membres temporaires ;
  • utiliser des espaces de stockage adaptés.

Recommandations

Quelques règles générales concernant la gestion des données s’appliquent tout particulièrement aux infrastructures de stockage des données des moyens de calcul de GRICAD.

En particulier, il est fortement recommandé d’utiliser les espaces de stockage communs aux projets disponibles sur les différents clusters, détaillés ci-après. Cette pratique est généralement préférable car elle accorde plus de souplesse et d’efficacité au sein d’un projet. Elle est surtout très importante dans le cas de collaborateurs temporaires, stagiaires, doctorants etc pour qui les données contenues dans le répertoire personnel seront effacées après l’expiration du compte PERSEUS.

Ces espaces de stockage communs par projets, tels que proposés sur les infrastructures de calcul GRICAD offrent l’avantage de gérer correctement les droits d’accès, en les autorisant automatiquement à tous les membres du groupe mais en les refusant aux personnes qui ne sont pas membres du projet, ce qui évite d’avoir à faire cette opération soi-même puisque, par défaut, les données sont autorisées en lecture à toutes les personnes ayant un accès un accès sur les clusters.

La rédaction d’un DMP, même si elle peut paraître contraignante et chronophage, permet de valoriser les données produites dans le cadre d’un projet de recherche et est donc très rapidement rentable, même pour de petits projets. Par ailleurs, GRICAD et la Cellule Data de l’UGA peuvent vous accompagner sur la création de ce DMP.

Il est important de penser à la vie de la donnée, au delà de la durée de la participation à un projet d’un collaborateur temporaire, stagiaire, doctorant ou post-doctorant, et de penser à ce qu’il en adviendra après la fin de la collaboration et la fermeture du compte PERSEUS qui les rendra inaccessibles si elles ne sont pas correctement gérées. À ce titre, un accompagnement sur ce sujet de la part des responsables de projets est très important pour ces utilisateurs qui ne connaissent pas nécessairement la structure des systèmes de stockage mis en place sur les clusters de calcul. Pour assurer au mieux cette fonction n’hésitez pas à nous solliciter en écrivant à sos-calcul-gricad@univ-grenoble-alpes.fr afin que nous puissions vous guider ou vous conforter dans vos usages actuels.

Infrastructures de stockage des données

Merci de noter qu’il n’y a AUCUNE SAUVEGARDE mise en oeuvre par GRICAD, à cause des importants volumes et débits de données sur les infrastructures de calcul.

Il y a différentes infrastructures de stockage disponibles pour les utilisateurs des clusters de calcul de GRICAD :

Scratch distribué haute performance

Stockage dans le nuage

Stockage pour la fouille de données

Stockage global par cluster

  • Dossiers personnels des clusters
    • Ces dossiers personnels sont de taille limité par rapport aux nombre d’utilisateurs des clusters. Ils ne sont pas destinés à stocker des données ;
    • Le code opérationnel peut y être stocké ;
    • Pour les données, utilisez les autres espaces de stockage disponibles.

Scratchs locaux

  • Certains noeuds du cluster Luke disposent d’espaces scratch locaux. Ces espaces sont dédiés à des projets ayant des besoins spécifiques qui ne peuvent être traités via les autres solutions existantes.

SUMMER

  • Il est possible, sur les clusters Luke et Dahu, de monter des volumes de stockage SUMMER en tant que partages NFS. Si vous disposez de volumes SUMMER que vous souhaitez faire monter sur nos clusters, merci de sos-calcul-gricad@univ-grenoble-alpes.fr. Pour les volumes déjà montés sur les clusters, merci de vous orienter vers les équipes ou les responsables de projets propriétaires de ces espaces.

Ces différentes infrastructures servent des usages spécifiques pour lesquels elles sont optimisées en offrant caractéristiques adaptées.

Comme il n’y a aucune sauvegarde des données, nous vous encourageons vivement à vous tourner vers des solutions qui vous sont accessibles pour sécuriser vos données.

Pour les codes il est fortement recommandé d’utiliser un système de versionnement, de préférence avec un haut degré de tolérance aux pannes. GRICAD propose un tel service via gricad-gitlab.

Pour les données de calcul qui stockées sur les infrastructures de calcul GRICAD il est fortement recommandé d’utiliser un system de sauvegarde au sein de votre laboratoire ou un service institutionnel tel que SUMMER


Sûreté des données

Bien que nos infrastructures sont concues pour être aussi tolérantes aux pannes que possible dans la limite des technologies disponibles et des contraintes opérationnelles, leur taille fait que des défaillances matérielles ne peuvent être entièrement exclues et il est par conséquent impossible d’éviter une potentielle perte de données. Il n’y aussi aucune sauvegarde et donc aucune protection contre une erreur de manipulation humaine. Pour toutes ces raisons vous êtes très vivement recommandés de prendre des mesures de protection et de sécurisation appropriées.