Ce récit va parler de réseau informatique en fibre optique, de prestataires à tous les échelons, d'absence de matériel de rechange, d'absence de plateforme de test complète et d'enfermement dans des certitudes. Les joies de l'informatique réunies, en somme.
Je suis l'un des administrateurs réseaux d'un petit MAN c'est-à-dire un réseau informatique à l'échelle d'une ville regroupant plusieurs acteurs différents. Fibre noire (ça veut dire que c'est nous, les membres du réseau, qui éclairons la fibre, qui possédons le matériel qui le fait, la fibre nous est louée nue). Tout est niveau 2. Topologie en anneau pour la résilience avec RRPP comme protocole d'empêchement des boucles réseau.
Le prestataire mandaté pour intervenir sur les fibres optiques nous prévient d'une coupure dans le cadre de travaux de voirie. Le jour dit, à l'heure dite, deux liaisons fibres tombent (cessent de fonctionner, plus de signal reçu de part et d'autre), comme prévu. Quelques heures plus tard, les deux liaisons remontent. L'une retombe 45 minutes plus tard. L'autre reste opérationnelle. Le créneau horaire prévu pour la maintenance est dépassé de plusieurs heures et la fibre est toujours éteinte… Je previens le prestataire.
Le lendemain, en attendant le prestataire en déplacement, je regarde plus attentivement : l'interface d'un des switchs de terminaison de la liaison HS est up, l'autre est down. Ça me paraît évident : le prestataire a touché au jarretièrage (c'était prévu dans le cadre de la coupure) et a dû brancher, par erreur, notre paire de fibres avec une autre. Si le switch à l'autre bout a des tranceivers optiques avec des spécifications techniques identiques aux nôtres (laser/WDM, LR/ER, etc.), alors la liaison optique devient opérationnelle, c'est logique.
Pour les novices, qu'est-ce que le jarretièrage ? On n'installe pas une fibre optique entre un site géographique A et un site géographique B d'un seul tenant. On fait plusieurs arrêts dans des points stratégiques. Ce n'est pas pour régénérer le signal lumineux qui s'atténue avec la distance, il n'y a pas de matériel actif en ces points. Sur chaque site (généralement une armoire de rue), il y a un bandeau de brassage qui expose les 144 fibres qui viennent d'un tronçon, les 144 qui viennent d'un autre tronçon, etc. Le jarretièrage, ça consiste à relier la paire de fibre d'un tronçon à une autre avec un bout de fibre (dé)clipsable (pas de soudure). Le but est d'obtenir une grande flexibilité : en cas de travaux, on peut rediriger sur un autre tronçon (en faisant attention à la distance puisque la lumière, comme le signal électrique, s'atténue avec la distance) ; si demain, je ne souhaite plus me raccorder au site géographique B mais au site géographique C, il suffira très probablement de déplacer quelques jarretières et de tronçons optiques en tronçons optiques, je serai raccordé sans avoir à effectuer des travaux de voirie pour poser une fibre directe entre B et C. Un exemple illustré ? Le point de mutualisation (PM) d'un immeuble d'habitations est un bon exemple de panneau de brassage : on branche la fibre qui dessert un appartement sur la fibre d'un opérateur (Orange, SFR, etc.) en fonction du choix de l'occupant du logement. Ce branchement s'effectue avec une jarretière. C'est donc du jarretièrage.
Le prestataire fibre effectue des qualifications (des mesures de diagnostic), mais pas de bout en bout (pas d'une extrémité à l'autre de la liaison) et, pire, il ne mesure pas depuis la même armoire de rue (là où on effectue le jarretièrage, voir ci-dessus) : il mesure entre notre premier site géographique et une première armoire de rue, puis entre notre deuxième site et une deuxième armoire plus en amont… Il me dit qu'il a bien une continuité optique, donc ça ne doit pas venir de la fibre. Comme je n'ai pas une qualification de bout en bout, je continue de douter. En tout cas, à la fin de ses manipulations, les deux switchs voient la fibre down… Y avait-il malgré tout un problème de jarretièrage ? Cette question restera sans réponse.
Je me dis que, peut-être, le prestataire a inversé TX (l'émission) et RX (la réception) dans l'armoire de rue dans laquelle était prévue l'intervention. Ainsi, le laser émis par chaque switch n'arrive pas sur le récepteur de l'autre, mais sur l'émetteur, et donc, forcément, ça ne fonctionne pas. Je décide donc d'inverser TX/RX sur le bandeau de brassage de mon site géographique. Absence de résultat.
Après coup, je peux affirmer que les hypothèses ci-dessus sont fumeuses, car, si j'en crois le prestataire, le jour de la maintenance, il a débauché après avoir remis le jarretièrage dans son état initial, donc 45 minutes plus tard, quand la liaison fibre est tombée à nouveau, il n'était plus sur place, donc innocent. Mais, à ce moment-là de l'histoire, je n'avais pas pris en compte ce point.
Je me dis que, peut-être, un transceiver a cessé de fonctionner. Les switchs identifient bien le transceiver et son absence quand il est retiré, mais ça, ça qualifie seulement le circuit électronique, pas l'émetteur/récepteur optique. Allons-y pour changer les deux transeivers (un à chaque extrémité de la liaison). Évidemment, on n'a pas de matériel de rechange sous la main. Imagine : du 10 Gbps, sur une distance entre 10 km et 40 km (ER), avec le format de transceiver XFP. En interne de nos sites géographiques, nous utilisons majoritairement du 1 Gbps, sur de courtes distances (donc SX/LX), avec des transceivers au format SFP+. Pour le MAN, nous avons bien un contrat de maintenance matérielle avec un autre prestataire afin de permettre un remplacement à flux tendu (sans stock inutilisé de notre côté). Sauf que le contrat ne prévoit pas de fournir des transceivers de test, il faut démontrer une panne matérielle (exemple : le transceiver n'est plus détecté par le switch). Bref, on se démerde comme on peut, on tombe d'autres liaisons fibre aux caractéristiques similaires afin d'emprunter leurs tranceivers. Résultat : la liaison fibre ne monte pas.
Le lendemain, le prestataire fibre intervient à nouveau à ma demande et, cette fois-ci, il effectue une mesure de bout en bout (de mon premier site géographique jusqu'au deuxième). Cette fois-ci, c'est indiscutable : il y a une continuité optique et l'émetteur d'un site est bien raccordé sur le récepteur de l'autre et inversement.
Je me dis que le port d'un des switchs est foireux : poussière, faux contact, etc., mais je peine à me convaincre puisque chaque switch identifie bien son transceiver…
Je me dis que c'est l'un des switchs qui foire. Je veux raccorder la fibre sur des switchs de test (pas raccordés du tout à la production). Sauf que nous n'en avons pas sur le deuxième site géographique… Allez, jouons avec le feu en utilisant un switch de prod'… Hé bah non, on n'a pas le format de transceiver qui va bien… Sur mon site géographique, je raccorde quand même la fibre sur un switch de test (l'autre extrémité est toujours le switch de prod') : la liaison monte instantanément. Donc le problème est sur mon site géographique. Cool, ça simplifie les choses.
Est-ce le switch qui foire ou la jarretière entre le bandeau de brassage et le switch (car j'en ai posé une nouvelle pour raccorder le switch de test) ? Je retire le transceiver du switch de test et je l'insère dans le switch de prod', en utilisant la même jarretière. La liaison reste down. C'est donc le switch… ou son module.
Ben oui, afin d'avoir plus de ports SFP+ (oui, de ce côté-là, le format des transceiver n'est pas XFP mais SFP+), nous avons ajouté des modules. Je ne crois pas trop en la panne du module car l'autre port de ce module fonctionne très bien pour une autre liaison optique. Je pourrais chercher si une commande permet de redémarrer seulement le module, mais ça serait vain. L'administration des switchs est déléguée à un troisième prestataire. J'ai donc seulement un accès en lecture, impossible de passer des instructions permettant une modification de la configuration ou de l'état du switch… Faire appel à ce prestataire est exclu : il est aux abonnés absents depuis plusieurs mois… C'est pour cette raison que je n'ai pas pu tester avec un autre port libre du switch : je n'ai pas les droits pour up logiciellement une interface (une interface réseau a au moins trois états : éteinte logiciellement (et donc physiquement), allumée logiciellement mais éteinte matériellement (c’était le cas de la liaison que je cherchais à réparer), et allumée logiciellement et matériellement donc opérationnelle)…
Depuis le début, je parle d'un switch, mais il fait partie d'une pile de deux switchs. Après un examen minutieux, je me rends compte que je peux redémarrer, sans impact, le switch qui porte cette liaison fibre grâce à la redondance (deux switchs par site géographique, topologie réseau en anneau + protocole RRPP). Allons-y pour un redémarrage électrique. Le switch démarre… … … et la liaison fibre redevient opérationnelle !
Bref, dans le doute, reboot. Un adminsys winwin aurait été plus brillant que moi pour réparer cette panne.