Qu’est-ce que la donnée ?

Avant de parler de stockage, arrêtons-nous un instant sur la donnée elle-même. La donnée est la représentation d’une information. On distingue deux types de données :

  • La donnée analogique est représentée sous forme d’onde, avec une infinité de valeurs : c’est un signal continu. Les supports physiques permettant d’enregistrer des données analogiques sont par exemple une cassette audio ou vidéo, ou encore un vinyle.
  • La donnée numérique, à l’inverse, ne peut être codée que grâce à deux valeurs : 0 ou 1. Par exemple, c’est la technologie utilisée sur les CD : le laser va lire s’il y a un « trou » (0) ou non (1) sur la platine, et l’interpréter en conséquence. C’est ce qui est essentiellement utilisé en informatique, et c’est le stockage de ce type de données auquel nous allons nous intéresser dans cet article.

Les technologies de stockage

Avant tout, précisons que nous laissons de côté le stockage « read-only » (lecture seule, comme par exemple les CD et DVD non-réinscriptibles), pour nous concentrer sur le stockage « read-write » (lecture – écriture).

Il existe trois grandes technologies modernes pour le stockage réinscriptible de données numériques :

La bande magnétique

stockage bande magnetiqueLa bande magnétique peut sembler désuète, mais elle est encore utilisée. Son avantage est que la donnée restera intacte tant que le support est bien conservé. Cependant le temps d’accès à cette donnée est particulièrement long (récupération de la bande, traitement de la donnée…). C’est pourquoi les bandes magnétiques ne sont aujourd’hui plus utilisées que pour de l’archivage. Elles conservent des données dont les entreprises ont rarement, voire jamais besoin, et pour lesquelles un long délai de récupération n’est pas un problème.

Le disque dur

Il existe deux technologies de disque dur, bien différentes l’une de l’autre :

  • Stockage disque mécaniqueDisque dur mécanique : le fonctionnement de ces disques est à rapprocher de celui d’un lecteur de vinyles. La donnée est enregistrée sur un plateau circulaire (« trou » ou « pas trou » pour 0 ou 1), et une tête se déplace pour lire ou modifier la donnée recherchée. Cela implique des mouvements physiques, et limite la vitesse de lecture. L’inconvénient de ces disques, au-delà de leur performance limitée, est le risque de casse, comme pour tout mécanisme physique. Par exemple, si l’on éteint une machine pour la première fois depuis 1 an, il est possible que le mécanisme, non habitué à être refroidi, se grippe. Leur avantage, cependant, est qu’ils offrent les plus grandes capacités de stockage sur le marché : il existe des disques durs mécaniques de 10 To.
  • Disque dur SSD : ces disques se basent sur la technologie ROM RW (Read-Only Memory ReWrite), qui utilise l’électricité pour accéder à ou modifier une donnée. Cette technologie est donc beaucoup plus rapide que la précédente ; les seules opérations qui ralentissent les disques sont celles permettant de rendre la donnée permanente, même en cas d’absence d’électricité. Leur capacité de stockage est cependant moins importante que celle des disques mécaniques, même si cet écart tend à se réduire (en 2015, des disques durs SSD de 6 et même de 8 To ont été présentés sur le marché !)

La RAM

Stockage RAMLa RAM correspond à la mémoire vive, volatile d’une machine. Le traitement des données utilise, là aussi, l’électricité ; cependant, le RAM est encore plus rapide qu’un disque SSD car elle n’est pas ralentie par des opérations rendant la donnée permanente. C’est pourquoi elle est utilisée seulement par des programmes pour héberger des données temporaires : une fois la machine, et donc le courant, coupé, plus rien ne maintient la donnée, qui est perdue.

Ce sont donc les disques durs qui sont la technologie la plus adaptée pour le stockage de données. Ils offrent un choix large, adapté à toutes les situations : c’est ce que nous allons voir.

Les disques durs

Dans chaque machine ou ordinateur (sauf exception), se trouve un disque dur interne. On connaît également les disques durs externes, une technologie également accessible aux particuliers. Cependant, ce ne sont pas les mêmes disques, ni les mêmes technologies qui sont utilisées, selon l’usage du disque et sa localisation !

Les disques durs internes

Stockage nappeUn disque dur interne doit être relié à la carte mère de la machine. Pour cela, une nappe (bus en anglais, cf image ci-contre) le lie à une carte contrôleur, dont le rôle est d’être un relais, un traducteur, entre la carte mère et les autres composants de la machine. Actuellement, la majorité de ces nappes utilise l’un des deux formats suivants :

  • Le SATA (Serial Advanced Technology Attachment) est le format standard actuel utilisé pour les disques durs, mécaniques comme SSD, Peu cher, il offre de bonnes capacités de stockage, mais ne permet pas l’utilisation de nappes de plus de 1m de long.
  • Le SAS (Serial Attached SCSI) est surtout réservé à un usage professionnel. En effet, il est particulièrement performant et bien adapté à la production, car il limite les risques de perte de données. Ce dernier point est dû à l’utilisation de commandes SCSI, qui permet une bonne reprise sur erreur et un bon reporting. Il fonctionne également avec des ports doubles, ce qui limite les besoins d’équipement additionnel ; ces ports, d’ailleurs, peuvent lire et écrire de la donnée en parallèle, ce qui n’est pas possible en SATA. Avec ce format, il est également possible d’utiliser des nappes jusqu’à 10m de long.

Ces formats évoluent légèrement avec le temps, même si les changements qu’ils impliquent sont mineurs. Ils permettent de transférer 3 à 6 GB/s de données, une vitesse supérieure à celle offerte par la majorité des disques mécaniques : ce sont ces derniers qui vont fixer un plafond de performance. Ce n’est pas le cas des disques SSD, qui se sont rapidement trouvés limités par la vitesse des nappes. Cela a entraîné la création d’un nouveau standard, nommé NVME, pour les disques SSD : ils sont branchés directement sur la carte mère et communiquent via le protocole PCI-E, seul compris par la carte mère. Cela permet de retirer l’étape intermédiaire de la carte contrôleur, et donc de gagner en performance.

Les disques durs externes

Pour relier un disque externe à une machine, deux voies sont possibles : la liaison physique, ou bien la liaison par réseau. Les disques reliés physiquement à une machine sont notamment utilisés par le grand public. Il faut noter qu’en réalité, les protocoles utilisés par la machine en interne ne changent pas ! Le fait que les disques soient externes ne fait que rajouter un intermédiaire : le contrôleur externe où se branche le périphérique. Il existe deux catégories de disque externe :

  • Stockage disque externeDisque USB : ce sont les plus connus ! Leurs performances sont moyennes : en effet, le contrôleur USB où le disque dur est branché devra convertir les données du format USB au format SATA ou SAS. L’USB3, cependant, commence à atteindre de bonnes performances (400 MB/s aujourd’hui, 800 MB/s prévus avec USB3.1).
  • Disque E-SATA (External-SATA) : ce disque, comme son nom l’indique, envoie directement les données en format SATA, ce qui signifie qu’aucune conversion de données n’est nécessaire au branchement du disque. Il est donc plus performant que les disques USB.

Là où est la réelle différence, c’est qu’avec les disques reliés à une machine par l’intermédiaire du réseau. C’est ce qu’utilise NBS System pour ses clients.

Les disques durs reliés via réseau

La raison pour laquelle NBS System utilise des disques durs externes reliés à ses serveurs par réseau est principalement le gain de place. Pour avoir une densité maximale sur nos équipements, la meilleure solution est la mutualisation des équipements de stockage dans des espaces dédiés. Nous n’avons donc pas un disque dur par client, placé à côté de son serveur, mais plutôt un ensemble de disques réunis en un lieu. Cela permet de mieux jouer avec les espaces, afin de limiter les espaces vides. Cette configuration nous permet également d’organiser nos espaces de stockage en RAID. Le RAID consiste à associer ensemble plusieurs disques durs, soit dans une optique de performance (en répartissant par exemple les données d’un même projet sur 2 disques durs, pour un traitement deux fois plus rapide), soit pour limiter les risques de pertes (redondance des données sur plusieurs disques).

Les protocoles réseau

Pour servir les clients, ces disques doivent cependant être reliés aux serveurs correspondants ! Pour cela, plutôt que d’avoir une multitude de câbles, place au réseau. Il existe deux protocoles qu’il est possible d’utiliser dans cette optique :

  • Stockage cable ethernetFiber Channel : c’est un protocole spécialisé permettant une connexion à haut débit entre un ordinateur et son espace de stockage. Il offre de bonnes performances (jusqu’à 16GB/s), mais a surtout l’intérêt de limiter les risques : en effet, il offre une garantie de latence et d’intégrité unique. Il est cependant très cher et nécessite une infrastructure dédiée (switchs et cartes adaptés au format) : il est donc utilisé uniquement par certains professionnels, après une étude soignée !
  • Ethernet : un nom plus connu… ce protocole, contrairement à Fiber Channel, est un simple protocole réseau de transmission de paquets, pour de nombreux usages. Il est accessible par tous, puisqu’il est peu cher et que son utilisation ne nécessite que de compétences techniques moyennes, et qu’il offre de bonnes performances (1 Gbps en domestique, de 10 à 100 Gbps pour les professionnels).

NBS System, pour relier ses espaces de stockage avec ses serveurs, utilise le protocole Ethernet. Cela nous permet de bénéficier d’une architecture réseau simple, avec un seul type d’équipement. Là encore, on choisit la mutualisation !

Des équipements spécifiques

Le réseau est donc utilisé pour transporter des données depuis l’espace de stockage aux serveurs. Cependant, avec la mutualisation, il est inutile d’avoir un disque par client : on a donc plusieurs disques, chacun contenant les données de plusieurs clients. Il faut donc bien séparer les données selon à qui elles appartiennent ! C’est pourquoi les disques contiennent plusieurs volumes, qui représentent des groupements de données. Dans ces volumes, les informations sont organisées selon un File System, ou système de fichier : ce terme indique « une façon de stocker les informations et de les organiser dans des fichiers ». Il en existe plusieurs : NTFS, FAT32 (Microsoft), ext3 et ext4 (Linux), ZFS (Solaris / FreeBSD), et beaucoup d’autres.

Ce fonctionnement est universel : cependant, pour construire un espace de stockage, on peut choisir parmi deux modes de fonctionnement : le SAN, et le NAS. Leur différence se trouve dans la manière d’exposer ces volumes.

Le SAN

Le SAN, ou Storage Area Network, est une technique permettant de donner l’illusion qu’un espace de stockage local est présent sur une machine, c’est-à-dire que les volumes exposés seront considérés par la machine comme des disques durs branchés physiquement. Cela est dû au fait qu’en utilisant le SAN, la donnée n’est pas exposée directement : c’est le volume entier qui va être présenté à la machine, comme un bloc.

On utilise généralement le protocole ISCSI (internet Small Computer System Interface) pour faire transiter les données en SAN. C’est un dérivé du protocole SCSI (comme le SAS), qui permet d’utiliser le réseau (notamment, le protocole TCP/IP). Ce protocole va assembler les données en paquets, et les lier à des commandes SCSI. A l’arrivée, les paquets sont désassemblés, et ce sont les commandes SCSI qui vont donner l’illusion que le disque est physiquement branché à la machine.

Le gros avantage du SAN est qu’il laisse une certaine liberté aux administrateurs. En effet, étant donné que le volume lui est transmis directement, plutôt que les données, la machine destinataire ne sait pas ce qu’il contient : c’est à elle de déterminer avec quel File System sont stockées les données. Elle a donc également la possibilité de changer ce File System : l’admin peut maîtriser l’organisation de ces données. Autre point positif, étant donné qu’un volume est considéré comme un disque dur physique par la machine, il est possible de les organiser en RAID.

StockageLes inconvénients de cette techniques sont cependant liés, eux aussi, à cette caractéristique qu’ont les machines de traiter les volumes transmis en SAN comme des machines physiques. D’une part, une déconnexion non prévue entre l’espace de stockage et la machine (panne, coupure de réseau…) ne sera pas bien gérée par cette dernière : comme lorsqu’on débranche une clé USB sans en notifier son ordinateur, il y a des risques de perte de données, de détérioration de matériel… D’autre part, il est impossible de travailler à plusieurs en même temps sur un même volume, puisque ce dernier est « envoyé » à la machine : c’est comme s’il n’était plus disponible sur l’espace de stockage.

Le NAS

Avec un NAS, ou Network Access Storage, la donnée est exposée directement : ici, c’est l’équipement de stockage qui gère directement le File System pour traiter la donnée, avant de l’envoyer. Le NAS utilise généralement les protocoles NFS (Network File System) ou SMB pour faire transiter les données. Ils permettent de partager des données entre des systèmes, via le protocole réseau TCP/IP.

Avec cette technique, on perd la liberté offerte par le SAN : puisque c’est l’équipement de stockage qui gère le File System, les administrateurs des serveurs n’ont pas la main dessus. Ils ne peuvent pas changer ce File System, et doivent se contenter de celui utilisé par l’équipement. NBS System, par exemple, utilise des NetApps pour son stockage en SAN : les machines reçoivent donc nécessairement des données stockées et organisées avec WAFL. De même, il est impossible de faire du RAID en NAS, puisque les volumes ne sont pas considérés par les serveurs comme des équipements physiques.

Cependant, le NAS offre également des avantages : cette technique utilise pleinement les capacités du réseau, notamment sa résilience. Cela signifie que s’il y a une coupure, la machine va simplement attendre que l’équipement soit de nouveau accessible, et reprendra le traitement. Il n’y a donc aucun risque de perte de données ou de détérioration de l’équipement.

On peut également travailler à plusieurs en même temps sur un même volume en NAS. C’est un point positif,  même si les écritures concurrentes peuvent toujours poser problème. En revanche, un grand nombre d’utilisateurs en parallèle sur un même espace peut impacter les performances de l’équipement : il lui faut gérer le File System et traiter les données pour chaque utilisateur, ce qui est lourd…

Autre problème avec le NAS : il est impossible de faire du cache de disque. Cette technique consiste à mobiliser de la RAM non utilisée sur une machine pour mettre en cache des données du disque. Ainsi, les requêtes concernant ces données peuvent être traitées plus rapidement, et on gagne en performance. Cela allège également la charge du disque. Mais cette technique est uniquement possible avec un disque dur physique, ce qui n’est pas le cas d’un volume envoyé en NAS. Cependant, chez NBS System, nous avons trouvé un moyen pour pouvoir profiter de ce cache : sur nos NAS, nous mettons des images contenant les données d’un volume, et c’est cela qui va être envoyé à la machine. Elle transforme alors le fichier en volume, et le considère comme un disque dur externe. Cela nous permet également d’organiser en RAID les volumes transmis en NAS.

Le stockage offre donc une multitude de possibilité, toutes complémentaires. Du personnel au professionnel, des solutions adaptées à chaque besoin et contrainte existent !

Retrouvez tous nos articles sur le thème de l’infrastructure.

Sources  techniques : Denis Pompilio et Benoît Depail

Lucie Saunois
Lucie Saunois
Passionnée d'informatique, en particulier de sécurité, depuis qu'elle a rejoint l'OT Group en 2015, Lucie se spécialise dans la vulgarisation technique pour permettre à tous d'appréhender ces sujets parfois complexes.