Gestion des risques chez Globenet

, par John Livingston

Ce document vise à expliciter les mesures prises ou à prendre par Globenet en réponse à certains risques.

Un risque se définit par la combinaison d’un danger, c’est à dire un événement redouté, et sa probabilité d’occurrence. La gestion des risques consiste à minimiser les risques en les évaluant et en mettant en place des solutions pour réduire leur impact.

Risques matériels

Datacenters inaccessibles

Définition du risque : les équipements de Globenet sont situés dans des Datacenters qui peuvent devenir inaccessibles temporairement ou définitivement, de manière prévisible ou non.

Mesures mises en place :

  • Nous avons une baie principale au datacenter Equinix PA3 (Aubervilliers), où se situent tous nos services.
  • Nous avons également un serveur de sauvegarde dans un autre datacenter (TH2, également à Paris). En cas d’inaccessibilité du Datacenter PA3, nous pouvons reconstruire les services à partir des sauvegardes de la veille, au prix d’une coupure des services pour une durée indéterminée.
  • Note : PA3 et TH2 étant situés tous les deux en Île-de-France, en cas de blackout au niveau de la région, nos services ne seront pas accessibles.

Problèmes électriques

Définition du risque : limiter les coupures de service en cas de panne électrique. Limiter également le risque de panne matérielle consécutive aux coupures ou choc électriques.

Mesures mises en place :

  • La quasi totalité des machines de notre baie principale disposent d’une double arrivée électrique (le Datacenter a lui-même deux arrivées électriques).
  • Le Datacenter est également équipé de batteries de secours et d’un groupe électrique.
  • Les machines disposant d’une seule alimentation sont connectées sur un STS (Système de Transfert Statique) lui-même connecté aux deux arrivées.

Pannes de réseaux

Définition du risque : en cas de panne du réseau (équipement défectueux en amont, coupure d’un câble, travaux...) les services peuvent être inaccessibles de l’extérieur.

Mesures mises en place :

  • Notre réseau nous est fourni par l’association Gitoyen.
  • Nous disposons de deux arrivées réseau, et avons deux serveurs passerelles en entrée de réseau par lesquels tout le trafic avec l’extérieur transite. Le réseau bascule automatiquement d’une passerelle à l’autre si l’une d’elle perd le réseau ou est coupée.

Pannes de composants informatiques

Définition du risque : l’infrastructure de Globenet est composée de matériel ayant une durée de vie limitée. Les pannes de pièces (disques durs, alimentations, ventilateurs, ...) peuvent être fréquentes, d’autant que nous privilégions l’utilisation de matériel reconditionné à des fins écologiques.

Mesures mises en place :

  • Tous nos serveurs utilisent du RAID pour leur stockage : RAID 1 ou RAID 10 (2 disques redondants).
  • Au sein d’une grappe RAID (que ce soit HDD ou SSD), nous mixons les références et âges de disques, pour minimiser les risques de casse ou de bugs simultanés.
  • Les machines virtuelles (VMs) et services que nous fournissons sont sur des clusters Ganeti [1], ce qui permet :
    • une redondance : si une machine crashe, le service redémarre sur un autre nœud du cluster ;
    • si une maintenance est nécessaire, nous pouvons migrer le service sur un autre nœud sans coupure
  • Le nombre de nœuds (machines physiques) des clusters Ganeti est d’au moins 3 par cluster, et dimensionné de sorte à pouvoir perdre une machine sans devoir couper de service.
  • Nous gardons à disposition, dans la mesure du possible, toujours au moins une ou deux machines de secours : ce sont des machines inutilisées et éteintes, que l’on peut mobiliser au prix d’une intervention au Datacenter (auquel nous avons accès h24 7/7).

[1] Ganeti est un outil de gestion de clusters (ensembles de machines physiques) de machines virtuelles.
Chaque VM est sur un nœud (une machine physique du cluster) primaire et un nœud secondaire. Le nœud primaire est celui sur lequel la machine tourne, le secondaire est celui qui prend le relais si le nœud primaire tombe en panne.

Bugs logiciels

Définition du risque : un bug logiciel peut rendre un service indisponible voire impliquer une perte de données. Cette indisponibilité et cette perte de données, contrairement à une panne matérielle, peut se propager à l’ensemble de nos serveurs.

Mesures mises en place :

  • Chaque service que nous fournissons est sauvegardé quotidiennement dans un autre Datacenter, de même que nos hébergements mutualisés (web, mail, listes de mails, etc.).
  • Nous offrons à nos hébergé·es (VM et colocations de serveurs) un espace de sauvegarde qu’iels peuvent utiliser à leur convenance, via le logiciel Borg.
  • Nos services de sauvegarde ne sont accessibles que sur un réseau privé, ce qui diminue la surface d’attaque.
  • Nous proposons également ce service de backup en tant que service dédié. Ce dernier est accessible depuis un réseau public, via clé SSH (seul l’accès au service Borg est possible).

Axes d’amélioration :

  • Nous pourrions ajouter un système de sauvegarde « à froid », qui sauvegarderait les données de manière immuable, pour éviter les attaques de type « malware ».
  • Nous pourrions également réfléchir à proposer le mode « append-only » de Borg (ie : des sauvegardes où on ne peut qu’ajouter des données, et pas en effacer).
  • Dans tous les cas, l’utilisation de ce mode doit être un choix laissé aux hébergé⋅es.

Risques liés aux autres prestataires et tierces-parties

Définition du risque : Globenet fait appel à un certain nombre de prestataires et tierces-parties pour fournir ses services : registraire (Gandi), certificats X.509 (Let’s Encrypt). De plus, nous utilisons certains logiciels libres développés par d’autres structures (GitLab, Ansible, Debian, AlternC, ...). Des pannes, blocages, ou vulnérabilités de ces outils impacteraient les services de Globenet.

Mesures mises en place :

  • Nous essayons de limiter le nombre de prestataires que nous utilisons et évitons de verrouiller fortement nos choix technologiques.
  • Nous tenons une veille technique afin de réagir au plus vite.

Risques humains

Erreur d’administration

Définition du risque : une erreur d’administration des services peut aboutir à une interruption de services et à une perte de données sur l’ensemble de nos serveurs. Elle peut également générer beaucoup de stress pour la personne en charge de l’administration.

Mesures mises en place :

  • Les données de nos services sont périodiquement sauvegardées via le logiciel Borg sur une période de 60 jours sur un site distant (TH2).
  • La configuration de nos services est effectuée via Ansible/Debops. Les changements de ces configurations sont archivés dans un dépôt git, hébergé sur notre service Gitlab. Il est donc possible de revenir sur une version antérieure et/ou d’analyser les modifications.
  • En cas d’erreur, la personne en charge de l’administration ne doit pas hésiter à demander un accompagnement ou à passer la main pour limiter les risques d’aggravation de la situation et ne pas avoir à supporter seul⋅e cette situation stressante.

Absence d’astreinte

Définition du risque : que ce soit dans les datacenters au niveau matériel, ou dans les services informatiques, au niveau logiciel, de nombreuses organisations mettent en place des astreintes. Autrement dit, une ou plusieurs personnes identifiées doivent se rendre disponibles sur des périodes données pour pouvoir intervenir rapidement sur les serveurs.

Mesures mises en place :

  • Globenet étant autogéré par des bénévoles, nous ne pouvons nous permettre de mettre en place de telles astreintes. La gestion de l’association nous prend déjà beaucoup de notre temps libre.
  • Toutefois, dans les faits nous sommes généralement rapides à réagir en cas de problème, de par le nombre d’admins système et autres bénévoles ayant accès aux boîtes mails de support. Les admins sont en mesure de résoudre quasiment tous les problèmes à distance, et ont accès aux Datacenters H24 7/7.

Perte d’expertise

Définition du risque : l’infrastructure que nous avons déployée demande des connaissances avancées en informatique détenues par une fraction, parfois très réduite, des membres de l’association. Il en va de même pour les mots de passe des machines et services. Si cette fraction venait à ne plus être disponible pour l’association (accident, départ...), les autres membres pouraient ne plus être en mesure d’assurer certains services, mettant en péril leur pérennité.

Mesures mises en place :

  • Nous essayons d’avoir toujours au moins deux personnes en mesure de réaliser chaque tâche.
  • Nous essayons de documenter (via un wiki) et d’automatiser/standardiser notre infrastructure (via Ansible et l’uniformité de nos solutions logicielles).
  • Nous effectuons une veille pour rester à jour sur les risques encourus (problèmes de sécurité, etc.).
  • En cas de départ, nous faisons le nécessaire pour assurer la passation des connaissances (ou à défaut, changer les technologies en amont).
  • Nous apportons également une réelle réflexion avant d’introduire de nouvelles technologies dans notre infrastructure, afin de limiter les connaissances nécessaires à l’administration des services.
  • Concernant les mots de passe, ceux-ci sont partagés entre les admins système de l’association (et uniquement entre elleux) et chiffrés via le protocole PGP.

Risques financiers

Définition du risque : ne plus avoir suffisamment de fonds pour payer nos frais de fonctionnement.

Mesures mises en place :

  • Les services sont payés en grande partie par les hébergé·es et le reliquat est assuré par des dons et cotisations des membres.
  • Globenet ne dépend d’aucune subvention publique.
  • L’équipe est intégralement bénévole. Nous nous assurons d’adapter nos tarifs si besoin, et de toujours avoir un fond de roulement suffisant.
  • Nous faisons un rapport financier tous les ans lors des assemblées générales, qui nous permet de témoigner de la santé financière de l’association.

Risques juridiques ou administratifs

Définition du risque : Globenet ou l’un⋅e de ses hébergé⋅es pourraient être l’objet de poursuites juridiques. Globenet ou l’un⋅e de ses hébergé⋅es pourraient également être la cible de réquisitions ou de perquisitions.

Mesures mises en place :

  • Nous faisons une veille juridique concernant les contraintes afférentes aux hébergeurs.
  • Nous mitigeons aussi ce risque via la cooptation qui permet de contrôler notre croissance et les personnes qui nous rejoignent.
  • Nous sommes également en contact avec des avocat⋅es spécialisé⋅es, afin d’être en mesure de réagir rapidement le moment venu. Notre réseau d’associations amies comprend également plusieurs structures spécialisées dans les risques juridiques.
  • Nous nous engageons à ne pas répondre à d’éventuelles demandes sans nous être assuré·es auparavant dans la mesure du possible de leur légitimité et des recours envisageables.

Malveillance

Risque de dévoiement idéologique de l’association

Définition du risque : Risque d’entrisme ou de noyautage

Mesures mises en place :

  • Un manifeste exprimant clairement les positions politiques de l’association.
  • Des statuts et un réglement intérieur honteusement repompés.
  • Un fonctionnement par consensus.
  • La façon dont le Collège Solidaire est composé (cooptation et validation en AG) nous protège également.

Attaque informatique

Définition du risque : une attaque informatique, venant d’un·e admin système ou d’une personne extérieure, peut aboutir à l’indisponibilité de nos services, à une perte de données, ou à la fuite de ces dernières.

Mesures mises en place :

  • Pour se protéger d’un·e admin malveillant·e, le groupe d’admins existant ne recrute de nouvelles personnes que sur cooptation.
  • Pour se protéger d’une personne extérieure, nous maintenons notre système à jour et nous avons mis en place plusieurs mesures techniques (chiffrement, bastion SSH, pare-feux, etc.).
  • Les accès physiques aux baies où sont nos machines sont restreints.
  • Nous privilégions l’usage de Debian, réputé pour sa fiabilité, comme système d’exploitation pour nos services, qui sont également isolés via l’usage de machines virtuelles distinctes.

Vol du matériel

Définition du risque : une personne entrant par effraction chez nos hébergeurs, ou chez un⋅e admin sys. Cet événement peut impacter la disponibilité de nos services, l’intégrité de nos données, mais aussi la confidentialité de ces dernières.

Mesure mise en place :

  • La restriction des accès physiques. Une partie de nos machines sont chiffrées, rendant les données inaccessibles en cas de vol. Avec une extension prévue sur l’ensemble de nos machines à terme.
  • Nos sauvegardes hors site sont également chiffrées, via le protocole Borg.
  • Concernant le vol de l’ordinateur d’un⋅e admin sys, celleux-ci doivent mettre en place les bonnes pratiques nécessaires pour limiter les risques (passphrases fortes, clés matérielles, chiffrement, etc.)