CATI Cloud Computing (3C)

CATI Cloud Computing (3C)

L’objectif du projet CATI Cloud Computing est de proposer une solution mutualisée de calcul accessible aux membres du CATI (ainsi qu’aux autres CATIs intéressés). Pour cela nous envisageons d’acquérir des serveurs de calcul équipés de GPUs qui seront intégrés à l’infrastructure de calcul de France Grilles. La mise en place de cette infrastructure, son utilisation pour des besoins identifiés dans le CATI CODEX et la collaboration avec FranceGrilles nous permettront de monter en compétences dans le domaine du cloud computing.

Notre projet porte sur 1) la mise en place d’une infrastructure de type cloud computing permettant de faciliter le traitement de données scientifiques ; 2) la montée en compétences pour son utilisation au sein du CATI CODEX et 3) la mise à disposition et le partage d’expériences avec d’autres CATIs.

Contexte et enjeux

La biologie et ses applications, de l’agronomie au phénotypage (végétal ou animal) deviennent des sciences productrices de données massives et par là exigent des outils pour stocker et analyser ces données. Le CATI CODEX s’appuie sur l’infrastructure nationale France Grilles (http://www.france-grilles.fr) pour asseoir ses possibilités de stockage et de traitement.

Concernant la partie stockage, la DTN a déjà accordé un financement au CATI CODEX (appel à projet CATI 2015) afin de mettre en place une infrastructure de stockage distribué. Cette solution est maintenant complètement opérationnelle (38 323 517 fichiers, 99To hébergés, 56 comptes utilisateurs, 16 unités INRAE bénéficiaires) et pleinement intégrée à l’infrastructure de stockage France Grilles.

Concernant la partie calcul, les données sont encore souvent traitées sur des postes de travail ou sur des serveurs isolés dans les unités (quand ils existent). Dans un contexte où les unités peuvent de moins en moins s’occuper en interne de ressource de calcul, il faut donc aujourd’hui se projeter et s’orienter vers des moyens déportés mutualisés.

Objectifs

L’objectif de notre projet est de proposer une solution mutualisée de calcul accessible aux membres du CATI (ainsi qu’aux autres CATIs intéressés). Pour cela nous envisageons d’acquérir des serveurs de calcul qui seront intégrés à l’infrastructure de calcul de France Grilles.
La mise en place de cette infrastructure, son utilisation pour des besoins identifiés dans le CATI CODEX et la collaboration avec FranceGrilles nous permettront de monter en compétences dans le domaine du cloud computing.

Nous partagerons cette expérience avec d’autres CATIs intéressés (livret blanc, journée d’animation, ouverture de l’infrastructure aux autres CATIs).

Apports et valeur ajoutée

  • Une souplesse adaptée aux projets scientifiques;
  • une solution adaptée au deep learning;
  • une solution mutualisée;
  • une solution partagée;
  • une solution intégrée;
  • une collaboration déjà établie avec France Grilles.

Mise en œuvre

La solution proposée s’appuie sur OpenStack, un ensemble de logiciels open source portés par la fondation OpenStack. Cette technologie est utilisée par un grand nombre de fournisseurs public ou privés (Red Hat, Suse, Cisco, Dell, IBM, OVH, Orange, ...).
La mise en place de cette pile logicielle peut s’avérer complexe c’est pourquoi nous proposons d’intégrer nos ressources matérielles à l’infrastructure cloud de France Grilles qui est déjà en production. FranceGrilles a pris en charge la configuration d’OpenStack.

Le projet a permis de financer l'achat de 2 serveurs R740 disposant de 448 Go de RAM, 24 cœurs CPU, 2 GPUs et 3.2To de disques SSD à accès rapide. Ces serveurs sont hébergés sur le datacenter de FranceGrilles afin d'être au plus prés de leur infrastructure. L'administration et la maintenance des serveurs est assurée par l'équipe projet CATI 3C.

Les ressources sont accessibles depuis le service FG-Cloud

Pour obtenir un accès vous pouvez adresser votre demande par mail à l'équipe projet (cati-cloud-computing@groupes.renater.fr)

Exemple d'applications

Phénotypage des plantes, développement d'un module de segmentation végétation/sol

L'UMR CAPTE a développé un module DeepLearning permettant de discriminer la végétation du sol sur les données acquises par différents systèmes d’acquisition et différents capteurs. Le modue a été entrainé sur 5000 images segmentées.

Un container Docker GPU a ensuite été déployé sur le cloud afin de détecter la végétation sur de nouvelles images.

resultatSegmentation
Exemple de donnée ( Phénomobile/LiDar) traitée par le docker sur le serveur GPU.