Résumé : si tu utilises le pare-feu proposé par la solution de virtualisation Proxmox (c'est juste une surcouche à Netfilter / iptables) avec une politique "REJECT" (jeter les paquets non désirés en prévenant leur émetteur), que tes VMs accèdent au réseau via un bridge GNU/Linux et que, par intermittence, tes tentatives de connexion (SSH, par exemple) à une machine virtuelle à très faible trafic se terminent sans raison apparente en « connection refused », il est possible que le filtrage Proxmox activé sur une autre VM rejette la connexion à cause d'un bridge qui n'a plus la VM légitime dans sa table de commutation (le trafic est alors dupliqué, par le bridge, à l'ensemble des VMs, et le pare-feu côté hyperviseur rejette illégitimement la connexion entrante).
C'est l'occasion de réviser les bases : table ARP, table de commutation, durées de rétention des entrées de chaque table (ARP Linux = potentiellement plusieurs heures), comportement d'un switch / bridge quand sa table MAC est incomplète, rappel que toute machine peut clôturer une connexion qui ne lui est pas destinée mais qui lui parvient, etc.
Solutions possibles : politique de filtrage "DROP" (par défaut dans Proxmox) ou harmoniser la durée de rétention des tables ARP et MAC (si on le peut, car un switch physique n'est pas forcément paramétrable) ou fournir aux VMs un accès au réseau via un routage IP / niveau 3 (plus de bridge / niveau 2) ou ajouter un filtrage niveau 2 (ebtables) complexe.
Soit un serveur dans une machine virtuelle sur un hyperviseur Proxmox. Depuis une machine distante, on supervise son port SSH avec Picomon, un outil de supervision léger qui utilise lui-même check_ssh de nagios/monitoring-plugins, une valeur sûre. Une vérification tous les quarts d'heure.
Surprise : parfois, la vérification retourne une erreur « connection refused ». Lancé sur la machine de supervision, tcpdump voit un paquet TCP avec le drapeau RST en réponse au SYN initial. Ça ne devrait pas puisqu'il n'y a aucun changement côté serveur (sshd est toujours lancé) ni aucun filtrage temporaire de type fail2ban ni cookies TCP (activés par Linux quand il y a trop de paquets TCP avec le drapeau SYN qui entrent sur la machine, car c'est le signe d'une potentielle attaque par saturation des états TCP) ni…
Même s'il y a une grande part d'aléatoire (en apparence…), le problème est reproductible avec le client OpenSSH (ssh sous GNU/Linux et *BSD) et telnet. Depuis plusieurs points du réseau, tous chez des Fournisseurs d'Accès à Internet différents. Le problème est donc du côté de la destination, du serveur.
Le problème est toujours le même : parfois, un telnet / ssh termine en « connection refused » puis toutes les tentatives suivantes sont fructueuses… jusqu'à temps que le problème revienne. Nous avons même réussi à enchaîner 6 « connection refused » avant d'établir une connexion. Mais c'est arrivé une seule fois, donc il ne faut pas trop en tenir compte.
Côté machine virtuelle, un tcpdump capture un SYN entrant sur la VM et des SYN+ACK sortants. Ce n'est donc pas la VM légitime qui émet le TCP RST reçu par le client (Picomon, client ssh, etc.).
L'hyperviseur se trouvant derrière un accès à Internet de particulier, la première piste est un NAT / pare-feu trop agressif qui ferme prématurément les états liés à la connexion. Nous n'y croyons pas, car on parle de connexions pas encore établies. Même incrédulité concernant une éventuelle utilisation du port de NAT entrant par d'autres usages : il y a très très très très peu de trafic sur cet accès à Internet donc plein de ports libres pour NAT-er les connexions sortantes (SNAT, Source NAT). Même pas de torrent au moment des faits !
De plus, la configuration du DNAT (Destination NAT, NAT entrant) est correcte : une seule règle concernant ce port + règle qui ne varie pas dans le temps + une seule adresse IP définie comme destination finale / IP à substituer à l'IP de destination.
Proxmox propose des fonctions de filtrage réseau. Ce filtrage est effectué sur l'hyperviseur (les interfaces TAP de la VM filtrée sont ajoutées à un nouveau bridge, qui est lui-même connecté au bridge principal des VM de l'hyperviseur via une paire d'interfaces de type veth). Le filtrage est appliqué sur la veth côté bridge principal. Il y a aucune règle de filtrage définie pour cette machine virtuelle, mais nous choisissons de désactiver le filtrage côté Proxmox et de redémarrer la VM. Le problème persiste.
Le routage IP ? Il n'y a pas de routage à l'intérieur du réseau local : le routeur du réseau est dans le même réseau que la machine virtuelle. Dans le même segment réseau.
La résolution ARP (IP vers MAC) ? Le routeur du réseau est un OpenWRT. L'observation de la sortie d'un arp -an ne montre rien de suspect. Enfin, si : elle montre plusieurs adresses IPs pour une même adresse MAC, ce qui fera douter l'un de nous. Mais plusieurs adresses IP associées à une même adresse MAC, donc à une même machine, c'est parfaitement normal. Ce qui a semé le doute, c'est que l'IP supplémentaire n'est pas censée être affectée à qui que ce soit, et qu'elle est passée d'une adresse MAC à une autre au cours de nos observations. Probablement une personne disposant d'une machine virtuelle sur l'hyperviseur qui jouait pendant qu'on observait.
Cette obversation de la table ARP du routeur permet également d'invalider notre deuxième hypothèse : un conflit d'adresse IP ou d'adresse MAC. Deux VMs utilisant la même IP / MAC, l'une sans démon SSH en cours d'exécution, l'autre avec, provoquerait aussi ce comportement.
La table de commutation du bridge ? Sur l'hyperviseur, les machines virtuelles accèdent à Internet via un bridge. Un bridge GNU/Linux, c'est un commutateur virtuel minimaliste. Il a donc une table de commutation qui dit sur quel port (donc à quelle VM) il doit envoyer le trafic destiné à telle adresse MAC. Pour la visualiser : brctl showmacs <NOM_BRIDGE>.
Hum… À chaque fois que le problème se produit, la table MACs ne contient pas l'adresse MAC de la VM de destination.
À chaque fois que l'on vide la table de commutation du bridge à la mano, on reproduit le problème.
Cool, on passe d'un problème pseudo-aléatoire à un problème reproductible à la demande, c'est un pas essentiel. \o/
Mais… D'où l'absence d'une correspondance MAC / port sur un switch génère un paquet TCP RST ?! Cette histoire devrait terminer en timeout (+ réémission des SYN / SYN+ACK).
Sauf que… Que fait un switch quand il n'a pas d'association entre une MAC et un port ? Il émet le paquet sur tous ses ports. Dans le cas présent, toutes les machines virtuelles de l'hyperviseur reçoivent le TCP SYN initial.
Oui, et alors ? Puisqu'il n'y a pas leur adresse MAC (ni celle de broadcast ni celles normalisées pour le multicast) dans le champ destination de la trame ethernet, la carte réseau de chaque machine virtuelle va ignorer le paquet, sauf la machine légitime, qui va y répondre et re-peupler ainsi la table de commutation, non ? Ce n'est pas aussi simple que cela, nous y reviendrons à la fin, mais cette subtilité n'est pas le sujet pour l'instant.
Si le pare-feu """"Proxmox"""" est désactivé pour la VM problématique, il ne l'est pas pour les autres VMs, dont, pour rappel du paragraphe précédent, leur interface réseau côté hyperviseur reçoit le trafic émis par le bridge sur tous ses ports. Nous regardons la liste des règles de filtrage : si aucune n'est déclenchée, une règle jette les paquets en prévenant l'émetteur (« REJECT» dans la terminologie Netfilter / iptables). Cette politique est notre choix (Proxmox propose toutes celles de Netfilter / iptables).
Après vérification, nous avons une seule VM filtrée sur cet hyperviseur. tcpdump sur l'une de ses interfaces veth nous confirme que c'est bien la règle de filtrage sur cette interface qui génère un paquet TCP RST. \o/
Nous remplaçons « REJECT» par « DROP » (jeter les paquets sans prévenir l'émetteur) dans la politique de filtrage. Plus moyen d'avoir l'erreur à la main, et plus d'alerte Picomon durant quelques cycles. Puis, à nouveau, « connection refused ».
Mince. On n'a donc pas identifié l'origine de la panne, pense l'un de nous. L'autre dit "nan mais c'est normal. Y'a un switch physique entre le routeur du réseau et les hyperviseurs, donc lui aussi il diffuse sur tous ses ports une fois l'association périmée à son niveau, et, sur l'autre hyperviseur, il y a aussi un bridge et des VMs avec des règles de filtrage similaires". C'est donc le même problème. On change la politique de sécurité (REJECT -> DROP) sur TOUTES les autres VM filtrées du cluster Proxmox. On attend 24 h : pas d'alertes Picomon et impossible de reproduire le problème à la main. \o/
Changer la politique de filtrage Proxmox de « REJECT » à « DROP ».
Harmoniser la durée de rétention d'une entrée dans la table MAC des switchs avec celle d'une entrée dans la table ARP du (ou des) routeur. Dans notre cas, cela signifie augmenter la durée de rétention d'une entrée dans la table de commutation d'un bridge GNU/Linux. Cela se fait dans /sys/class/net/<NOM_BRIDGE>/bridge/ageing_time + configuration sysctl pour rendre le changement permanent.
Fournir aux VMs un accès au réseau via du routage IP / niveau 3. Plus de bridge / de niveau 2.
Filtrer ce qui entre sur la VM au niveau 2 (ebtables) afin que le paquet envoyé à toutes les VMs par le switch atteigne jamais iptables. Mais c'est pénible : "si l'adresse MAC de destination n'est ni celle de broadcast ni celle de la VM, alors filtrer", cela fait deux règles par VM sans compter ce qu'on n'a pas identifié, c'est relou.
Forcément, on se pose des questions.
"Nan mais normalement, quand le routeur du réseau reçoit le premier paquet SYN, il effectue une résolution ARP. La réponse de la VM met à jour la table de commutation des switchs sur le chemin donc notre problème ne devrait pas arriver".
Oui… Sauf si le routeur a encore la réponse, datant d'un précédent échange, dans sa table ARP.
D'un côté, la durée de vie par défaut d'une entrée dans la table MAC d'un bridge GNU/Linux est de 5 minutes. C'est le manuel qui le dit et cela se vérifie avec cat /sys/class/net/<NOM_BRIDGE>/bridge/ageing_time. Nous n'avons pas trouvé l'info dans la datasheet du switch physique, mais nos observations laissent supposer une durée de vie de 5 à 10 minutes.
D'un autre côté, la durée de vie d'une entrée dans la table ARP de Linux est… un vrai bordel à déterminer. Après un délai pseudo-aléatoire (borné par les calculs /proc/sys/net/ipv4/neigh/default/base_reachable_time / 2 et 3 * (/proc/sys/net/ipv4/neigh/default/base_reachable_time /2), l'état de l'entrée passe de « REACHABLE » à « STALE ». Une entrée ARP dans l'état « STALE » est toujours utilisable (Linux pourra confirmer l'association en effectuant une résolution ARP après-coup ou en se contentant d'avoir reçu du trafic provenant de la machine). Pour sortir de cet état « STALE » (donc pour disparaître), l'entrée doit remplir quatre conditions cumulatives :
/proc/sys/net/ipv4/route/gc_timeout) ;/proc/sys/net/ipv4/neigh/default/gc_thresh1). Sur un tout petit réseau, ce seuil, de 128 entrées par défaut, est jamais atteint ;/proc/sys/net/ipv4/neigh/default/gc_stale_time) ;/proc/sys/net/ipv4/neigh/default/gc_interval). D'après nos observations, une entrée ARP non utilisée existe encore une heure après son ajout automatique. Soit bien au-delà des 5 à 10 minutes de la purge de la table MAC de nos switchs (physiques ou virtuels).
Sources de tout ce paragraphe : 1, 2 (cette source parle du cache de la table de routage IPv4 de Linux… qui n'existe plus mais la structure de données perdure donc la réflexion semble rester pertinente).
Donc, si, c'est parfaitement crédible que le routeur n'effectue pas une résolution ARP préalable.
Les switchs sur le chemin qui "oublient" l'existence de la VM est tout aussi crédible : 1) il s'agit d'un serveur (donc absence de trafic parasite permanent que l'on retrouve sur une station de travail type mDNS, SMB, etc.) ; 2) il s'agit d'un bastion SSH, ce qui occasionne très très peu de trafic, d'autant qu'il est accessible sur le net via un port non-standard et qu'un fail2ban rode.
"Nan mais la VM légitime répond TCP SYN+ACK donc le TCP RST illégitime ne devrait pas être pris en compte par le client SSH.
Oui, mais non. Si le SYN+ACK parvient au client avant le RST, l'implémentation TCP va incrémenter ses compteurs internes et générer le dernier ACK de la poignée de main TCP. Le RST reçu après sera invalide car son numéro de séquence ne correspondra pas au compteur interne, donc, en effet, il sera ignoré et la connexion ne sera pas interrompue.
Mais, le pare-feu qui émet le RST est sur l'hyperviseur, pas dans une VM. Sa réponse parvient forcément plus rapidement au client que celle que la VM légitime (moins d'empilement de couches, de copies dans des structures de données, de timers, etc.). De plus, le RST ferme les états dans les pare-feux et NAT situés entre le serveur et le client, donc les SYN+ACK émis (et réémis) par la VM légitime arriveront jamais jusqu'au client SSH.
"Nan mais notre diagnostic est incorrect, car, s'il était vrai, cela signifie qu'un pare-feu configuré avec une politique « REJECT » dans une VM chez n'importe quel hébergeur provoquerait ce genre d'effet secondaire sur des clients à faible trafic".
Normalement, le pilote de la carte réseau transmet au système uniquement les trames ethernet dont l'adresse MAC de destination correspond à la sienne. Sauf quand la carte réseau est en mode promiscuous. Donc un pare-feu à l'intérieur d'une VM ne verrait pas les paquets qu'un switch aurait diffusé sur tous ses ports et n'enverrait donc pas de TCP RST en retour.
tcpdump -p (-p = désactivation du mode promiscuous, ce que /var/log/kern.log confirme) lancé dans une VM capture les paquets que le switch diffuse à toutes les VMs. En revanche, une règle de filtrage sur ces paquets ne produit aucun effet (compteurs iptables -L -n -v toujours à zéro). D'après notre test, il s'agit du comportement du pilote virtio_net. Le pilote e1000e ne fait pas remonter les paquets tant qu'on n'active pas le mode promiscuous.Ensuite, la latence causée par la remontée du paquet jusqu'à la VM puis la descente du TCP RST entrerait en compétition ardue avec la réponse légitime. Dans notre cas, la réponse illégitime gagne la course car la compétition se joue entre un pare-feu sur l'hyperviseur et une réponse émise par un noyau Linux dans une VM.
Enfin, il faut remplir plusieurs conditions pour déclencher ce bazar, dont certaines sont peu communes chez les hébergeurs justement conscients des risques : VMs raccordées au réseau via un bridge (très peu courant) + filtrage sur l'hyperviseur + politique de filtrage de type rejet en prévenant l'émetteur (dite « REJECT ») alors que les préconisations sont de jeter silencieusement les paquets venant de l'extérieur afin de donner le moins d'indices possibles à un attaquant (c'est d'ailleurs la politique par défaut proposée par Proxmox) + durée de la rétention ARP supérieure à la durée de rétention de la table de commutation des switchs sur le chemin (alors que les hébergeurs ont plutôt du matos aux durées de rétention harmonisées plutôt qu'un routeur logiciel GNU/Linux) + machine émettant et recevant peu de trafic.
Debug et écriture de ce shaarli en collaboration avec Johndescs.
Sur un système GNU/Linux, un bridge, c'est un commutateur / switch virtuel minimaliste.
Il a donc une table de commutation / table MAC.
Pour la lire, c'est facile : brctl showmacs <NOM_BRIDGE>.
Pour la vider intégralement / flush / clear, brctl ne propose pas d'outil. On peut passer par sysfs : echo 1 | sudo tee /sys/class/net/<NOM_BRIDGE>/bridge/flush pour vider toute la table du bridge ou echo 1 | sudo tee /sys/class/net/<NOM_BRIDGE>/brif/<NOM_INTERFACE>/flush pour purger les seules entrées relatives à une interface membre du bridge. Source.
Soit un événement professionnel annuel avec des conférences. Chaque année, une organisation de la communauté se porte volontaire pour organiser cet événement.
Forcément, cette année, il sera dématérialisé. L'organisateur choisi d'utiliser Microsoft Teams et Google YouTube.
Notre DSI insiste pour qu'on mette à disposition de l'organisateur notre plate-forme BBB, notre plate-forme Pod, notre Rocket Chat, etc. Deux arguments : Teams c'est le Mal ; Mettre en avant notre savoir-faire BBB+Pod+Rocket (ce qui se reformule en : "protéger mon cul de DSI en montrant que notre taff n'est pas vain et que ma décision passée de ne pas externaliser est la bonne").
Personnellement, je trouve déplacé le comportement de notre DSI. Autant que celui du libriste moyen qui va promouvoir et proposer avec insistance d'utiliser OSM, Mastodon, GNU/Linux, Framabidule, etc. Habituellement, cette personne-là se fait rembarrer en mode "occupe-toi de ton cul, j'utilise ce que je veux !" (j'ai de l'expérience en la matière :) ). Pourquoi ce qui est vrai à l'échelle individuelle ne le serait pas à l'échelle d'organisations ? Ainsi, je pense que nous avons dû passer pour des relous et des prétentieux (ces temps-ci, nous n’avons pas été les seuls à monter des infrastructures BBB, Pod, etc.). D'autant qu'avec nous dans ses pattes, l'organisateur a forcément plus de boulot (il va devoir nous causer, organiser son projet avec nous en plus, coordonner encore plus de personnes, vérifier qu'on livre bien ce qu'on a promis à la date convenue, effectuer des allers-retours techniques si la livraison ne convient pas ou s'il y a des bugs, etc.).
Notre plateforme Pod a jamais été vraiment utilisée par nos usagers et nous n'avons pas effectué de tests de charge. J'ai insisté pour qu'on en fasse, pour qu'on étudie a minima le passage à l'échelle : le temps m'a jamais été débloqué. Comme d'habitude, il faut faire les choses à moitié et laisser tout en plan… On nomme ça le pragmatisme. On a fait des trucs sans savoir pourquoi, sans usage concret derrière, et vu que c'est bâclé, notre savoir-faire est minimal et ma frustration est maximale. Vu l'absence d'usage de notre Pod, il aurait été plus profitable de faire péter un coup les chefs de nos usagers et de rien mettre en place.
Il est décidé d'aller consulter les gus qui ont codé Pod. C'est bien connu qu'un gus qui ne connaît pas les spécifications de notre infrastructure (nombre de serveurs, CPU, RAM) ni la configuration des différents composants logiciels (nginx, ffmpeg, django, etc.) pourra affirmer avec certitude combien de visionneurs nous pourrons avoir sur notre plateforme. :)))) On n'est plus à une incohérence près.
Là où ça devient comique : ce blabla est prévu sur… Zoom ! Donc, on veut sauver l'événement des griffes de Microsoft Teams en organisant (une partie de) la contre-offensive sur Zoom ! Genius! FA-BU-LEUX. Nous sommes de « classe mondiale, peut-être même les champions du monde ! ». C'est désespérant.
Comme d'habitude, cette énième incohérence, ce non-sens avec les idées que l'on porte (ou que l'on prétend porter) ne semble pas déranger mes collègues. C'est ce qui arrive quand on réfléchit tout, y compris sa propre vie, en mode projet : il faut juste abattre du travail, atteindre des jalons, peu importe comment on les atteint. Tout est une tâche comme une autre. Il faut l'achever le plus simplement possible sans trop se poser de questions afin de justifier son salaire. Où est le sens ?! On s'en moque. C'est désespérant… Mais chacun fait bien ce qu'il veut de sa vie.
Je n'ai pas participé à la petite causerie sur Zoom. La sauterie se fera sûrement sans moi. Merci bien.
J'ai déjà déblatéré sur La Poste qui paume 10 % des accusés de réception des LRAR que j'envoie ou qui met 3-4 semaines pour me retourner ledit carton, mais il y a pire (quand il s'agit de faire toujours plus de merde, l'humain se surpasse toujours).
Parlons hôpital public.
À la demande d'un médecin, je prends rdv pour une IRM dans un hôpital public. Pour prendre le rdv, il faut téléphoner, insister, encore et encore, des jours durant, à toute heure ouvrée (en supposant que le site web de l'hosto est à jour), car personne décroche. Ça fait plus de 6 mois que c'est comme ça.
J'obtiens finalement un rdv 2 mois plus tard. Il faut le confirmer 3 jours avant. Je tente de le faire mais… personne décroche ! J'ai essayé chaque jour. À toutes les heures ouvrées. Impossible. Qui a donné cette consigne idiote de confirmer le rdv alors que le secrétariat n'arrive déjà pas à gérer la prise de rdv ?! Qui sont ces secrétaires qui appliquent des consignes qu'elles savent idiotes et intenables ?! Elles sont fonctionnaires, donc inamovibles en cas d'insubordination !
Je me rends au rdv.
Il n'était pas utile de le confirmer. Les fameuses règles qui changent tous les deux jours, putain que c'est relou.
On me dit que ce rdv n'était pas à 18 h 15 mais à 17 h 15. Je suis sûr d'avoir noté correctement l'horaire, d'autant que la secrétaire m'avait téléphoné pour me proposer un créneau plus proche (que j'ai refusé car j'ai estimé ne pas être dans une situation critique), donc on avait re-échangé l'horaire.
On me dit que l'on va me donner le numéro de téléphone pour que je prenne rdv car le secrétariat ferme à 17 h. Pourquoi es-tu physiquement dans le local nommé « secrétariat », alors, connasse ?! Ça te coûterait quoi de noter un rdv ?!
J'expose que j'ai pu joindre personne par téléphone les 3 derniers jours afin de confirmer mon rdv donc que c'est cocasse de me demander de reprendre rdv par téléphone. Elle me coupe la parole pour me dire « et ça sonnait occupé, hum, désolée ». Le ton était celui du jemenfoutisme, comme celui d'un psy ou d'un politicien, ce ton qui veut dire "je vois, je vois, c'est ballot, mais c'est comme ça, ça arrive, on peut rien faire, ces choses-là sont immuables". Et, non, ça ne sonnait pas occupé, ça sonnait jemenfoutisme, ça sonnait dans le vide, connasse !
Dans l'ascenseur retour, il y a une affiche de la FHF « Si vous attendez, c'est qu'on préfère regarder des photos ». À cet instant précis, la moutarde m'est montée au nez : j'ai jamais autant souhaité la disparition du service public ! Je suis vos règles à la con, je n'ai pas ce que je désire, vous vous moquez de moi avec vos réponses en carton, et en plus vous me narguez ?! Pour qui vous prenez-vous, enfoirés ?!
Cette anecdote date de plus d'un mois. Je n'ai pas repris rdv. Je ne le ferai pas : marre de me faire maltraiter. Quand mon problème sera sérieux, le médecin prescripteur me fera un mot pour griller la file d'attente, puis, en regardant l'IRM, il me dira « aïe, il aurait fallu agir plus tôt ». Monde de crevures.
Pour ceux qui se demandent pourquoi je n'ai pas confirmé le rdv par email : l'hôpital utilise le service antispam de Mailcontrol et le service emails de Microsoft. Non merci. Sans compter que si les secrétaires ne répondent pas au téléphone, j'imagine que les emails doivent aussi passer à la trappe.
ça fait un peu peur de voir la portée et l'influence de Qanon et des sites facebookistes, j'aimerais bien savoir qui est à l'origine de ça,
Réponse : la connerie. La seule chose équitablement partagée entre tous les êtres humains sans distinction de race, de sexe, de genre, de richesse, etc. :)
La connerie, c'est un autre nom pour désigner la diversité. Il n'existe pas de réponse universelle, même aux questions / problèmes que l'on juge évidents (juger quelque chose comme étant évident, c'est un point de vue). Chacun de nous teste des choses. Certaines vont marcher, d'autres pas. Ces tests ont des conséquences sur un individu, un groupe d'individus, de gros morceaux de l'espèce ou l'espèce entière. Sélection naturelle. Rien dit que l'espèce humaine doit continuer à vivre. Nous sommes une expérience, comme tant d'autres espèces l'ont été.
qui tire les ficelles
La connerie humaine.
comment fonctionne cette chambre d'àcho qui propage les andouilleries évidentes ou moins évidentes pour diviser et opposer
Elle fonctionne grâce à la connerie humaine. Tous biaisés par nature (voir ci-dessus) donc tous coupables, surtout ceux qui croient détenir un bout de réponse à un problème (comme le réchauffement climatique).
(Réponse perso au titre, j'ai pas lu le contenu) Parce que le sommeil est la meilleure partie de la vie, exception faite de la mort. Personne vient t'emmerder quand tu dors (sauf si t'es assez idiot pour dormir en présence d'un autre être vivant, humain ou non). Personne attend quoi que ce soit de toi. Personne te presse. Personne te juge. Pas besoin de réfléchir. Pas de déception. Le bonheur total. La paix intégrale.
‒ Il existe une technique pour séduire les femmes. Encore plus efficace que de l'argent, une belle voiture ou un bel appartement et ça s'appelle : le féminisme.
[…]
‒ C'est un cours complet, très documenté, pour aider tous les hommes qui connaissent une crise de leur virilité. Alors oui, le cours coûte cher, mais très vite on s'y retrouve puisqu'on rencontre que des femmes qui refusent qu'on leur paye l'addition.
[…]
‒ On commence par rassurer tous les hommes qui ont peur de l'engagement en leur rappelant qu'il n'y a pas de meilleur plan cul qu'une féministe qui ne veut pas d'enfant.
[…]
‒ J'enseigne des techniques de séduction basées sur une inversion des rôles pour donner l'illusion aux femmes qu'elles sont actives et qu'elles vont rencontrer l'âme sœur.
(femme qui court après un homme marchant dans la rue) ‒ Monsieur, vous avez fait tomber votre (regarde le livre) Virginie Despentes, wahou !
‒ Pardon, j'étais trop occupé avec la liste des courses de ce soir.
‒ Vous allez à la Biocoop ?
‒ Ouais.
‒ Moi aussi. On peut y aller ensemble ?
‒ Allez !
‒ Ouais ?
[…]
‒ Je dis toujours aux nouveaux que si la femme qu'ils fréquentent commence à douter de leur sincérité, dans le combat féministe en relevant quelques petites contradictions, comme par exemple leur manque d'attrait pour les pois sous les bras, ils peuvent toujours mettre fin à la conversation en lui demandant son avis sur le port du voile.
‒ L'acte sexuel ne passerait pas forcément par une pénétration. Pénétration qui est d'ailleurs un terme que vous devriez remplacer par circlusion. C'est une pénétration active, c'est la femme qui vous cicl… (homme qui se barre du cours). Courage les gars, plus longtemps vous tenez, moins il y aura de concurrence.
‒ Quand les femmes apprennent l'existence de ce cours, c'est sûr qu'elles nous accusent d'opportunisme, de n'avoir aucun scrupule à mentir pour leur plaire, de présenter une version idéalisée de nous-mêmes qui va forcément décevoir le lendemain. C'est sûr. Mais, là-dessus, on a rien inventé : ça s'appelle la drague.
:D :D :D :D
Je découvre le mot « circlusion » que même mon correcteur orthographique ne connaît pas.
Sur un puppet master 6.X, je crée un nouvel environnement en reprenant la structure d'un environnement qui fonctionne sur un puppet master 5.X. Il fonctionne. Jusqu'à ce que j'essaye d'inclure un module depuis le manifest principal. L'agent puppet 5.5.X me retourne alors l'erreur suivante :
Error: Could not retrieve catalog from remote server: Error 500 on SERVER: Server Error: Unacceptable location. The name '<NOM_MODULE>' is unacceptable
in file '/etc/puppetlabs/code/environments/<CENSURE>/site/modules/<NOM_MODULE>/manifests/init.pp' (file: /etc/puppetlabs/code/environments/<CENSURE>/site/modules/<NOM_MODULE>/manifests/init.pp, line: 3, column: 1) on node <CENSURE>
L'écrasante majorité des résultats d'une recherche web pointent sur un renforcement de la convention de nommage des fichiers et classes Puppet. La version 6.X ne laisse plus passer les écarts.
Je vérifie plusieurs fois : je respecte la convention de nommage imposée par Puppet.
En effet, voici mon arborescence :
/etc/puppetlabs/code/environments/envi
- modules
- manifests
- site.pp
- site
- modules
- modu
- manifests
- init.pp (qui contient la classe « modu »)
- profils
- manifests
- pro.pp (qui contient la classe « profils::pro »)
- roles
- manifests
- ro.pp (qui contient la classe « roles::ro »)
Et mon modulepath (dans environment.conf) : site:site/modules:modules. Ce fichier est bien pris en compte comme nous le montre la commande suivante :
$ puppet config print modulepath --section server --environment envi
/etc/puppetlabs/code/environments/envi/site:/etc/puppetlabs/code/environments/envi/site/modules:/etc/puppetlabs/code/environments/envi/modules
Ainsi, un « include modu » depuis manifests/site.pp devrait fonctionner. Or, ça génère l'erreur mentionnée au début de ce shaarli.
En revanche, aucun problème avec un « include profils::pro » depuis manifests/site.pp.
Je te passe le debug : l'ordre dans le modulepath est important. Avec une valeur « site:site/modules:modules », Puppet cherche la classe d'abord dans le dossier site. « include profils::pro.pp » fonctionne puisque profils/manifests/pro.pp est bien dans le dossier site. En revanche, « include modu » ne fonctionne pas car, si site/modules/modu/manifests/init.pp existe, on ne peut pas l'inclure avec « include modu » sans outrepasser la convention de nommage. Il est d'autant plus difficile de parvenir à ce constat sur l'invalidité du modulepath puisque le message d'erreur de Puppet indique qu'il a trouvé le module (or, un path sert à trouver quelque chose…)
En changeant la valeur du modulepath pour site/modules:modules:site, cela fonctionne, car le chemin « site/modules » est examiné d'abord et que site/modules/modu/manifests/init.pp existe et respecte la convention de nommage. Dans le cas de « include profils::pro.pp », rien est trouvé dans site/modules, ni dans modules/, donc la recherche se termine dans site/ et cela fonctionne car site/profils/manifests/pro.pp est trouvé.
Cela fonctionne aussi si le modulepath a pour valeur modules:site/modules:site. Ce dernier est d'ailleurs le plus logique : on cherche d'abord dans les modules externes puis dans les modules maison, puis dans les profiles et les rôles maison.
Au taff, on utilisait Jabber. Puis on a migré vers Mattermost (Slack-like libre et auto-hébergeable) il y a 3 ans. Puis vers RocketChat (car API + tout le taff d'intégration avec d'autres outils était déjà fait).
Forcément, le tout-sur-le-web m'emmerde. J'aime bien avoir des usages différents sur des protocoles différents. C'est comme ça qu'a été conçu Internet. Je trouve ça propre et facile à expliquer (sans ça, les Moldus ne font plus la différence entre un webmail, c'est-à-dire une interface de présentation, et un service, l'email dans le cas présent, et ne pigent pas qu'on peut découpler un service d'emails du logiciel pour le consulter, ce qui entretient la centralisation chez quelques acteurs genre Google qui met une icône GMail sur Android). Chaque usage son protocole, car chaque usage a des besoins techniques différents. Ça permet aussi du filtrage applicatif moins invasif (bloquer un port sans lire le contenu de la communication versus lire le contenu pour découvrir un service / usage interdit).
Jabber est fédéré (chaque personne / entité peut avoir son serveur, et les serveurs communiquent entre eux) là où Mattermost / RocketChat est centralisé (tout le monde doit être connecté au même serveur). Dans le cas d'une messagerie instantanée professionnelle, on s'en fiche : il y a un seul serveur pour toute l'entité, chaque employé ne va pas installer son serveur. Idem pour les groupes de discussions inter-entités / inter-professions : pour simplifier la vie de tout le monde, tous les salons de discussion seront sur le même serveur, généralement maintenu par une association / consortium inter-pro. Que ce serveur soit un RocketChat ou un ejabberd change rien.
Mais je dois avouer que Jabber a perdu la bataille de la simplicité d'utilisation.
Rien à installer (sauf un navigateur web) pour Mattermost / RocketChat versus un client à trouver / installer pour Jabber (il y a 5-6 ans, j'avais cherché une interface web simple d'administration et d'utilisation, laisse tomber…). Au début, je pensais que, dans une société où on veut tout, tout de suite, forcément, la recherche d'un client ça passe mal, mais, au final, le quidam installe bien un logiciel (une appli, qu'il dit) par usage (banque, bouffe, transport, soin, etc.) sur son smartphone, donc l'argument devrait être nul, mais non…
Les clients Jabber sont capricieux. Gajim qui bouffe parfois 100 % de CPU sans s'arrêter quand tu retrouves ta connexion au réseau. Gajim qui refuse de se connecter sur un serveur Jabber alors qu'il fonctionne sur un autre ordinateur avec le même compte Jabber. Pidgin qui galère sur l'authentification lors de l'ajout d'un compte. Salons parfois pas persistants dans le roster (liste des contacts+salons) avec Gajim, etc. J'ai jamais eu d'emmerdes avec Mattermost (auth via GitLab). Quelques personnes (dont moi) ont eu des problèmes d'authentification sur notre RocketChat (plugin SAML) lors de la première connexion sans qu'on sache WTF.
XMPP, le protocole derrière Jabber, est extensible donc chaque client implémente ce qu'il veut et présente les choses comme il veut. Il y a donc des comportements différents. Les smileys qui, par leur apparence, n'exprime pas exactement la même émotion entre deux clients Jabber. Tel participant a le plugin Gajim qui télécharge automatiquement une image (l'humour est de plus en plus visuel / mème), pas un autre. Récupération automatique du titre d'une page web à partir d'un lien (ce qui est également un vecteur d'attaque…) ou non. Bref, avec Jabber, tous les participants ne voient pas forcément la même causerie. Ce n'est pas le cas avec Mattermost / RocketChat. Notons que, dans une société commerciale, on peut imposer un client Jabber unique, ce qui nuance la portée de ce point, mais c'est encore du taff pour le service informatique (comparer les clients, trouver celui qui répondra à la majorité des besoins, identifier la configuration standard pour l'entité, etc.).
Niveau ergonomie, Mattermost et RocketChat plient le game. En plus de ce que j'ai écrit avant, chaque action possible sur un message (citer, corriger, supprimer) est disponible dans un menu. Les mêmes fonctionnalités avec Jabber dépendent du client (la correction d'un message consiste à ré-émettre le message, c'est donc au client de capter qu'il s'agit d'un message modifié, et il apparaît en double dans l'historique). Sans compter qu'avec Gajim, la correction et la citation se font avec des raccourcis clavier (ctrl+up pour correction, ctrl+maj+up pour citation), paie ta facilité d'utilisation.
Une messagerie tout-sur-le-web permet de récupérer l'historique des conversations. Avec ejabberd, il faut installer un module, MAM, sur le serveur et le bon fonctionnement dépend du client. Avec Gajim, il est fréquent que le client A récupère les échanges qui ont eu lieu avec le client B, mais pas l'inverse. Et, des fois, c'est l'inverse : Gajim B récupère l'historique de Gajim A mais plus l'inverse… Redémarrer Gajim ne suffit pas. Il faut parfois aller dans l'historique de chaque contact pour que l'historique manquant soit récupéré. Il y a vraiment un côté très aléatoire. Rien à redire avec Mattermost. Avec RocketChat, la remontée dans l'historique est lente et périlleuse : un léger scrolle et pouf, il charge 3 mois d'historique, ce qui oblige à scroller dans l'autre sens afin de trouver ses petits (sans compter la fonction « aller au message » qui ne fonctionne pas : ça charge l'historique des messages au compte-gouttes durant de longues minutes… sans t'amener au message recherché)… De même, des jours disparaissent de l'historique, tu passes d'un jour à un autre deux jours plus tard / tôt, comme s'il n'y avait pas eu d'échanges au milieu. Il faut alors vider le cache de son navigateur web.
En prolongement du point précédent, on peut évoquer la réception simultanée d'un même message sur tous les appareils connectés avec un même compte. Ça fonctionne de base avec Mattermost et RocketChat. XMPP propose les ressources, les priorités, etc., le client avec la plus haute priorité reçoit le message, si plusieurs clients ont une priorité identique, le serveur XMPP peut envoyer le message à tous les clients (ce que faisait ejabberd en 2011, j'ai pas trouvé plus récent) ou au dernier connecté ou au dernier actif ou autre critère de son choix (RFC 6121). Il y a même une norme interne à XMPP pour pallier cette incertitude : XEP message carbons. Donc, en pratique, la réception d'un même message sur tous les appareils d'un utilisateur ne fonctionne pas avec Jabber (avec ejabberd et Gajim, tantôt un message entrant est envoyé à toutes les ressources, tantôt à la dernière active, à priorité égale).
Mattermost et surtout RocketChat propose des fonctionnalités orientées travail collaboratif / société commerciale comme la classification automatique des personnes en fonction d'un groupe LDAP, l'ajout automatique à un salon en fonction d'un groupe LDAP, une ramification fine des conversations (canal, sous-canal / discussion), etc.
Depuis plusieurs mois, j'utilise quelques extensions Firefox supplémentaires par rapport à mon tas d'extensions :
Je recommande l'utilisation de ces extensions. Les trois premières peuvent être installées chez des novices car elles m'ont posé aucun problème.
Si tu me lis, tu sais que les certificats x509 ont plusieurs failles conceptuelles. La plus grande est que n'importe quelle autorité de certification (Let's Encrypt, DigiCert, etc.) reconnue par un logiciel peut signer / légitimer un certificat x509 pour n'importe quel nom Internet. Exemple : impots.gouv.fr achète ses certificats x509 auprès de la société commerciale Certigna. Pourtant, rien empêche Let's Encrypt de signer un certificat valide pour impots.gouv.fr (en réalité, il y a quelques mécanismes timides : DNS CAA, DANE TLSA, Certificate Transparency, etc.).
Ces """"faux"""" certificats peuvent être utilisés pour créer un faux site web impots.gouv.fr ou pour intercepter les communications entre un citoyen et impots.gouv.fr.
Or, quand on regarde les autorités de certification qui sont enregistrées dans le catalogue de certificats d'autorité d'un navigateur web, il y a de quoi s'interroger :
Je ne conteste pas l'utilité de toutes ces autorités… pour les citoyens et les professionnels concernés. Mais, je ne suis pas concerné par tout ça : je ne consulte pas ces sites web-là, je ne suis pas citoyen de ces États-là, etc. TeliaSonera est un important transitaire Internet. Il est donc en bonne position pour intercepter des communications. Google est hégémonique. Je ne consulte pas de sites web Atos. Etc. Malgré ça, ces autorités peuvent émettre des certificats pour les sites web que je visite. C'est là tout le problème.
On peut donc retirer les autorités de certification que l'on n'utilise pas pour un gain variable en sécurité. Environ nul pour un ordinateur qui reste à domicile. Intéressant pour un ordinateur personnel qui utilise des points d'accès Wi-Fi gratuits ou pour un ordinateur professionnel qui se déplace chez les clients (et leurs équipements d'interception du trafic TLS) ou pour un séjour dans des pays autoritaires (et leurs équipements d'interception du trafic TLS).
En 2019, Aeris a publié sa liste des autorités de certification x509 qui lui suffisent pour aller sur les sites web qu'il veut. Comme elle n'est plus disponible, je la recopie ici :
COMODO ECC Certification Authority
Certplus Class 2 Primary CA
Certinomis - Root CA
Baltimore CyberTrust Root
Amazon Root CA 1
DigiCert Global Root CA
DigiCert Assured ID Root CA
DCertigna
Deutsche Telekom Root CA 2
COMODO RSA Certification Authority
Entrust Root Certification Authority - G2
DST Root CA X3
DigiCert Global Root G2
DigiCert High Assurance EV Root CA
GlobalSign Root CA
GlobalSign Root CA - R2
GlobalSign Root CA - R3
GeoTrust Primary Certification Authority - G2
GeoTrust Global CA
Go Daddy Root Certificate Authority - G2
Izenpe.com
QuoVadis Root CA 2
QuoVadis Root CA 2 G3
Starfield Root Certificate Authority - G2
SSL.com Root Certification Authority ECC
SSL.com Root Certification Authority RSA
T-TeleSec GlobalRoot Class 2
USERTrust RSA Certification Authority
USERTrust ECC Certification Authority
Certum Trusted Network CA
Depuis sept mois, j'utilise la liste réduite suivante :
Baltimore CyberTrust Root
Buypass Class 2 Root CA
Comodo RSA Certification Authority
Comodo ECC Certification Authority
Dhimyotis Certigna
Digicert Global Root CA
Digicert Global Root G2
Digicert Global Root G3
Digicert Assured ID Root CA
Digicert High Assurance EV Root CA
Entrust Root Certification Authority - G2
Entrust Root Certification Authority - EC1
GlobalSign Root CA
GlobalSign Root CA - R2
GlobalSign Root CA - R3
Go Daddy Root Certificate Authority - G2
HARICA TLS RSA Root CA 2021
HARICA TLS ECC Root CA 2021
ISRG Root X1
QuoVadis Root CA 2 G3
Starfield Services Root Certificate Authority - G2
Starfield Root Certificate Authority - G2
UserTrust ECC Certification Authority
UserTrust RSA Certification Authority
ÉDIT DU 21/08/2021 : ajout de QuoVadis Root CA 2 G3. FIN DE L'ÉDIT.
ÉDIT DU 28/09/2022 : ajout de Entrust Root Certification Authority - EC1. FIN DE L'ÉDIT.
ÉDIT DU 22/01/2024 : DST Root CA n'est plus empaqueté, donc je le retire de la liste + j'ai ajouté Digicert Global Root G3. FIN DE L'ÉDIT.
ÉDIT DU 27/06/2025 : ajout de Digicert High Assurance EV Root CA. FIN DE L'ÉDIT.
MODIF du 08/01/2026" : ajout de HARICA TLS RSA Root CA 2021 et HARICA TLS ECC Root CA 2021. FIN DE MODIF**.
Comment expliquer la différence entre ma liste et celle d'Aeris ? J'ai un usage très routinier du web. Je consulte peu de nouveaux sites web.
Dans Firefox : menu « Édition », « Préférences », « Vie privée et sécurité », « Afficher les certificats » (tout en bas), onglet « Autorités ». Je clique sur chaque certificat d'autorité puis sur « Modifier la confiance… » puis je décoche la case « Ce certificat peut identifier des sites web » puis « OK ».
De mémoire, il est vain de supprimer les certificats d'autorité car ils reviennent automatiquement.
Aeris retire sa confiance envers les autorités de certification en utilisant la commande certutil :
certutil -d ~/.mozilla/firefox/XXXXXXXX.default/ -L ;certutil -d ~/.mozilla/firefox/XXXXXXXX.default/ -M -n '<NOM_CERTIFICAT' -t ',,'Avantage de la ligne de commande : scriptable / automatisable.
Inconvénients de la ligne de commande :
certutil ne renvoient pas la même information en ce qui concerne la confiance accordée à un certificat (confiance accordée d'un côté, refusée de l'autre). Incohérence entre les deux outils que je n'explique pas.Dans Thunderbird, je retire toutes les autorités de certification sauf celles qui signent les certificats des serveurs emails que j'utilise. En clair, j'ai deux autorités au lieu de plusieurs dizaines. ÉDIT DU 24/09/2022 : il faut être plus prudent si 1) tu affiches tes emails en HTML ; 2) tu utilises OpenPGP (chiffrement des emails) car la recherche de clés utilise le protocole VKS qui est transporté chiffré au-dessus de TLS, donc il faut laisser actif le certificat x509 racine de celui du serveur de clés keys.openpgp.org, c'est-à-dire « ISRG Root X1 » (Let's Encrypt). FIN DE L'ÉDIT.
Il faudrait aussi nettoyer /etc/ssl/certs et les autres catalogues de certificats (celui utilisé par les applications Java, par exemple). Ça ne me semble pas être prioritaire : en dehors de Firefox / Thunderbird, peu de mes logiciels communiquent avec l'extérieur ou alors pour effectuer des tests (cas de wget, curl, openssl s_client, etc.).
TL;DR :
/etc/ssl/openssl.cnf (à la fin) ;
L'un de nos prestataires met à jour, vers Debian 10, un serveur placé sous sa totale responsabilité. C'est notre premier serveur Debian 10. Depuis ce moment-là, nos sauvegardes Bacula de ce serveur ne se font plus.
Les journaux du directeur Bacula indiquent :
<CENSURE>-dir JobId XXXX: Warning: bsock.c:107 Could not connect to Client: <CENSURE>-fd on <CENSURE>:9102. ERR=Connection refused
<CENSURE>-dir JobId XXXX: Fatal error: bsock.c:113 Unable to connect to Client: <CENSURE>-fd on <CENSURE>:9102. ERR=Connection refused
Sur la machine à sauvegarder Debian 10, le file daemon de Bacula n'est pas démarré. Une erreur empêche de le démarrer :
<CENSURE>-fd: openssl.c:68 Error loading certificate file: ERR=error:140AB18E:SSL routines:SSL_CTX_use_certificate:ca md too weak
OpenSSL = implémentation de TLS. « md » = message digest = fonction de condensation / hachage. Nous utilisons une autorité de certification x509 interne / privée / maison. Avant signature, les certificats émis / clients sont signés avec SHA-1. Cette fonction cryptographique est très fortement dépréciée car elle n'offre plus un niveau de sécurité acceptable. C'est l'un des changements entre Debian 9 Stretch et Debian 10 Buster.
Pour autoriser l'utilisation de SHA-1, il suffit de mettre en commentaire la ligne CipherString = DEFAULT@SECLEVEL=2 du fichier /etc/ssl/openssl.cnf. La solution durable sera de remplacer notre autorité de certification x509 maison par une nouvelle utilisant des algorithmes de signature plus récents.
Désormais, le file daemon de Bacula démarre. bconsole depuis le director fonctionne. Tout va bien. Enfin, on le croit…
La nuit suivant la réparation sus-rapportée, la sauvegarde de ce serveur Debian 10 ne se fait toujours pas. Le journal du directeur Bacula consigne :
<CENSURE>-sd JobId XXXX: Fatal error: bsock.c:569 Packet size=XXXXXX too big from "client:<CENSURE>:9103. Terminating connection.
<CENSURE>-sd JobId XXXX: Fatal error: Error creating JobMedia records: 1000 OK VolName=Inc-2881 VolJobs=1 VolFiles=0 VolBlocks=3 VolBytes=193738 VolABytes=0 VolHoleBytes=0 VolHoles=0 VolMounts=35 VolErrors=0 VolWrites=289795 MaxVolBytes=0 VolCapacityBytes=0 VolStatus=Used Slot=0 MaxVolJobs=1 MaxVolFiles=0 InChanger=0 VolReadTime=0 VolWriteTime=320926443 EndFile=1 EndBlock=3432546605 VolType=1 LabelType=0 MediaId=2881 ScratchPoolId=0
<CENSURE>-dir JobId XXXX: Error: getmsg.c:185 Malformed message: Jmsg JobId=XXXX type=4 level=1611790411 <CENSURE>-fd JobId XXXX: Error: bsock.c:388 Wrote 2134 bytes to Storage daemon:<CENSURE>:9103, but only 0 accepted.
<CENSURE>-dir JobId XXXX: Error: getmsg.c:185 Malformed message: Jmsg JobId=XXXX type=3 level=1611790411 <CENSURE>-fd JobId XXXX: Fatal error: backup.c:843 Network send error to SD. ERR=Connection reset by peer
<CENSURE>-dir JobId XXXX: Error: getmsg.c:185 Malformed message: Jmsg JobId=XXXX type=4 level=1611790411 <CENSURE>-fd JobId XXXX: Error: bsock.c:271 Socket has errors=1 on call to Storage daemon:<CENSURE>:9103
<CENSURE>-dir JobId XXXX: Fatal error: bsock.c:569 Packet size=XXXXXX too big from "Client: <CENSURE>-fd:<CENSURE>:9102. Terminating connection.
<CENSURE>-dir JobId XXXX: Fatal error: No Job status returned from FD.
Hum… Problème de communication entre la machine à sauvegarder et le serveur de stockage Bacula (storage daemon).
J'avoue, j'ai cru à une erreur TLS (genre version minimale de TLS imposée par Debian 10 = TLS 1.2 alors que le storage daemon ne sait pas parler cette version). Mais j'ai la même erreur sur une machine virtuelle Debian 10 montée à l'arrache dans laquelle je configure Bacula pour ne pas utiliser TLS.
Une recherche sur le web donne un diagnostic convergeant : Bacula Packet size too big | deranfangvomen.de, Bacula - Users - Packet size too big from client, Bacula Frequently Asked Questions.
Un démon de stockage en version 5.X (Debian 8) est incompatible avec un file daemon en version 9.X (Debian 10).
Solution à court terme : downgrader les paquets Bacula sur la machine Debian 10. Pour ce faire, il faut ajouter les dépôts Stretch dans /etc/apt/sources.list (ne pas oublier le dépôt security), apt-get upate, apt-get install bacula-fd=7.4.4+dfsg-6+deb9u2 bacula-common=7.4.4+dfsg-6+deb9u2.
Solution à long terme : installer une deuxième architecture Bacula pour nos machines >= Debian 10. L'infra actuelle continuera de s'occuper de nos serveurs < Debian 10…
Sur notre serveur FOG (Free and Opensource Ghost), le processus « FOGTaskScheduler » prend 100 % du CPU en permanence depuis des jours.
Redémarrage du service FOGScheduler : inefficace.
J'ai lu le code source viteuf : il s'agit d'une implémentation de CRON (tâches récurrentes planifiées) qui prend les tâches à exécuter dans la table « scheduledTasks » de la base de données.
Dans notre cas, plus d'une dizaine de tâches étaient enregistrées. Cinq étaient activées. Toutes sont des tâches de type WakeOnLan. À ma connaissance, nous n'allumons pas automatiquement les machines du parc à heure fixe. De plus, certaines tâches étaient agressives car planifiées toutes les minutes.
J'ai supprimé toutes les entrées de la table « scheduledTasks » (DELETE FROM scheduledTasks;) et j'ai redémarré le service concerné (systemctl restart FOGScheduler).
Le processus FOGTaskScheduler ne prend plus 100 % du CPU en permanence. \o/ En revanche, aucune amélioration de la lenteur de l'interface web quand on lance le déploiement d'une image disque…
Avec SSH, on veut autoriser uniquement root à se connecter à distance (afin d'administrer la machine), mais on veut que tous les utilisateurs du système puisse se connecter en local.
En effet, Hadoop est lancé par nos utilisateurs avec leur compte personnel et celui-ci effectue des connexions SSH locales pour lancer ses différents composants.
Réponse :
Il faut ajouter cela dans /etc/ssh/sshd_config :
AllowUsers root
Match Address 127.0.0.1,::1
AllowUsers *
Puis recharger la configuration de SSH : systemctl reload ssh.
Notons qu'avant la version 8.4 d'OpenSSH, à cause d'un bug, il n'est pas possible de déposer ce bout de configuration dans le dossier /etc/ssh/sshd_config.d.
Depuis sa version 8.2, il est possible d'inclure de la configuration additionnelle dans sshd_config. Genre Include /etc/ssh/sshd_config.d/*.conf.
C'est très pratique pour du déploiement automatique de configurations avec Puppet, Ansible, etc. car ça permet de déposer un fichier avec la configuration additionnelle plutôt que de compléter l'unique fichier de configuration à coup de concat ou de file_line (avec Puppet).
Par contre, avec les versions 8.2 et 8.3, un bug empêche l'utilisation de la directive de configuration « Match » dans un bout de configuration inclus. Cela est corrigé dans la version 8.4 d'OpenSSH.
Depuis mon VPN FDN (FDN est un Fournisseur d'Accès à Internet associatif), je veux renouveler mon abonnement à NextInpact, journal sur le numérique et le droit afférant. L'intermédiaire de paiement par carte bancaire est Payzen. Dans le cadre de 3-D Secure, Payzen affiche une pop-up qui, in fine, me redirige vers ma banque pour la saisie d'un code à usage unique.
Cette pop-up, dont l'URL est « https://natixispaymentsolutions-3ds-vdm.wlp-acs.com/acs-challenge-browser-service/challenge/challengeRequest/browserBase », ne s'affiche pas.
Je désactive une à une mes extensions Firefox (uBlock Origin, uMatrix, Privacy Badger, LocalCDN, SmartReferer, NoScript, etc.). Ça ne fonctionne pas mieux. J'utilise Chromium avec un profil vierge (pas d'extension, pas de configuration personnalisée) : même absence de résultat. Dans les deux cas, le « délai de la réponse » est « dépassé ».
Regardons ça.
$ host natixispaymentsolutions-3ds-vdm.wlp-acs.com
natixispaymentsolutions-3ds-vdm.wlp-acs.com is an alias for natixispaymentsolutions-3ds-vdm.as8677.net.
natixispaymentsolutions-3ds-vdm.as8677.net has address 160.92.41.82
$ telnet 160.92.41.82 443
Trying 160.92.41.82...
telnet: Unable to connect to remote host: Connection timed out
D'après Wireshark, mon telnet reçoit aucune réponse à son TCP SYN. Il ne s'agit donc pas d'un problème de MTU, mais de joignabilité du service.
Ce que confirme mtr :
$ mtr -n -r -c1 -T -P 443 160.92.41.82
Start: 2021-02-20T14:54:48+0100
HOST: <CENSURE> Loss% Snt Last Avg Best Wrst StDev
1.|-- 80.67.179.1 0.0% 1 16.9 16.9 16.9 16.9 0.0
2.|-- 80.67.169.42 0.0% 1 16.5 16.5 16.5 16.5 0.0
3.|-- 80.67.168.210 0.0% 1 16.8 16.8 16.8 16.8 0.0
4.|-- 37.77.34.14 0.0% 1 18.3 18.3 18.3 18.3 0.0
5.|-- 193.253.13.205 0.0% 1 22.1 22.1 22.1 22.1 0.0
6.|-- 193.252.98.122 0.0% 1 18.6 18.6 18.6 18.6 0.0
7.|-- 193.252.230.34 0.0% 1 19.5 19.5 19.5 19.5 0.0
8.|-- 160.92.6.57 0.0% 1 28.5 28.5 28.5 28.5 0.0
9.|-- ??? 100.0 1 0.0 0.0 0.0 0.0 0.0
Mes paquets se perdent à l'entrée du réseau de Worldline France Hosting, qui héberge le site web.
Notons que j'ai bien effectué un test en TCP (« -T ») et sur un port forcément ouvert (« -P 443 » = HTTPS) afin de ne pas obtenir un faux positif lié au blocage très fréquent d'ICMP dans ce milieu-là (même si c'est une connerie car des pans d'ICMP sont inoffensifs et utiles pour dépanner, comprendre l'origine d'une panne, retourner une erreur, etc.).
$ telnet 160.92.41.82 443
Trying 160.92.41.82...
Connected to 160.92.41.82.
Escape character is '^]'.
Ha, tiens, ça fonctionne.
$ mtr -n -r -c1 -T -P 443 160.92.41.82
Start: 2021-02-20T14:59:16+0100
HOST: viki.guiguishow.info Loss% Snt Last Avg Best Wrst StDev
1.|-- 51.77.212.1 0.0% 1 0.3 0.3 0.3 0.3 0.0
2.|-- 192.168.143.254 0.0% 1 0.2 0.2 0.2 0.2 0.0
3.|-- 10.224.71.126 0.0% 1 0.4 0.4 0.4 0.4 0.0
4.|-- 10.224.68.50 0.0% 1 0.4 0.4 0.4 0.4 0.0
5.|-- 10.69.96.102 0.0% 1 0.4 0.4 0.4 0.4 0.0
6.|-- 10.17.193.104 0.0% 1 0.7 0.7 0.7 0.7 0.0
7.|-- 10.73.8.114 0.0% 1 0.3 0.3 0.3 0.3 0.0
8.|-- 10.95.48.8 0.0% 1 1.5 1.5 1.5 1.5 0.0
9.|-- 94.23.122.137 0.0% 1 3.9 3.9 3.9 3.9 0.0
10.|-- 10.200.0.0 0.0% 1 3.4 3.4 3.4 3.4 0.0
11.|-- ??? 100.0 1 0.0 0.0 0.0 0.0 0.0
12.|-- 62.115.124.118 0.0% 1 3.5 3.5 3.5 3.5 0.0
13.|-- 62.115.121.5 0.0% 1 26.3 26.3 26.3 26.3 0.0
14.|-- 62.115.153.109 0.0% 1 3.8 3.8 3.8 3.8 0.0
15.|-- 160.92.6.39 0.0% 1 3.8 3.8 3.8 3.8 0.0
16.|-- 160.92.6.54 0.0% 1 13.6 13.6 13.6 13.6 0.0
17.|-- 160.92.6.10 0.0% 1 16.6 16.6 16.6 16.6 0.0
18.|-- 160.92.41.82 0.0% 1 16.4 16.4 16.4 16.4 0.0
On remarque que le routage est différent.
OVH utilise l'un de ses transitaires, l'opérateur Telia.
Gitoyen (l'opérateur associatif duquel FDN est membre) passe par Hopus / Orange.
À ce stade, j'ai utilisé la fonctionnalité proxy SOCKS / transfert dynamique de ports de SSH (ssh -D) tout en configurant mon Firefox pour l'utiliser, et, hop, j'ai pu renouveler mon abonnement NextInpact.
$ telnet 160.92.41.82 443
Trying 160.92.41.82...
Connected to 160.92.41.82.
Escape character is '^]'
Ça fonctionne également.
$ mtr -n -r -c1 -T -P 443 160.92.41.82
Start: 2021-02-20T15:09:14+0100
HOST: <CENURE> Loss% Snt Last Avg Best Wrst StDev
1.|-- 192.168.1.1 0.0% 1 0.5 0.5 0.5 0.5 0.0
2.|-- ??? 100.0 1 0.0 0.0 0.0 0.0 0.0
3.|-- 193.253.91.46 0.0% 1 3.2 3.2 3.2 3.2 0.0
4.|-- 193.252.160.150 0.0% 1 2.2 2.2 2.2 2.2 0.0
5.|-- 193.251.126.18 0.0% 1 7.7 7.7 7.7 7.7 0.0
6.|-- 193.252.99.102 0.0% 1 9.2 9.2 9.2 9.2 0.0
7.|-- 193.252.98.122 0.0% 1 8.7 8.7 8.7 8.7 0.0
8.|-- 193.252.230.34 0.0% 1 10.7 10.7 10.7 10.7 0.0
9.|-- 160.92.6.57 0.0% 1 11.6 11.6 11.6 11.6 0.0
10.|-- 160.92.6.10 0.0% 1 13.3 13.3 13.3 13.3 0.0
11.|-- 160.92.41.82 0.0% 1 15.0 15.0 15.0 15.0 0.0
On remarque que l'on transite aussi par les routeurs 160.92.6.57, 193.252.230.34, 193.252.98.122, comme depuis mon VPN FDN. Mais, ici, ça fonctionne. Curieux.
Ça ressemble quand même à un problème localisé, pas général. Dois-je signaler la panne à mon FAI (FDN) ? Est-ce de sa responsabilité ? Pas sûr du tout.
Je pourrais les solliciter sur les listes de diffusion… ou utiliser RIPE Atlas. Faisons ça.
Je crée deux mesures :
Paramètres communs aux deux mesures :
Probe selection :
Résultats des mesures :
TLS :
Si l'on fait une mesure TLS depuis la France entière (et pas uniquement depuis l'opérateur Gitoyen), on constate que 797 sondes sur 874 (91 %) parviennent à établir une session TLS, 75 n'y parviennent pas (« handshake failure ») et 2 sondes ne parviennent pas à joindre la cible (timeout). Voir la mesure numéro 29125405.
Afin de tester le chemin retour (qui est rarement identique au chemin aller), j'aurais bien effectué une mesure ping / traceroute depuis Worldline vers ma station de travail, mais aucune sonde Atlas est présente dans le réseau de Worldline.
Il ne s'agit pas d'une panne généralisée, car l'écrasante majorité des sondes Atlas et des machines que j'ai sous la main parviennent à joindre le site web.
Pire, les autres abonnés de mon FAI parviennent à joindre le site web, y compris un autre VPN qui est dans le même réseau que moi. Nous suivons le même itinéraire pour atteindre l'hébergeur du site web, donc, a priori, il n'y a pas de problème à ce niveau-là.
Comment expliquer ce problème lié à mon adresse IP ?
curl et wget ainsi que des dizaines de telnet et de mtr TCP et je n'ai pas été bloqué.
Au moment de publier ce shaarli (le 23/02, 6 jours après le premier constat), j'accède de nouveau à ce site web depuis mon VPN FDN :
$ mtr -n -r -c1 -T -P 443 160.92.41.82
Start: 2021-02-23T10:53:57+0100
HOST: <CENSURE> Loss% Snt Last Avg Best Wrst StDev
1.|-- 80.67.179.1 0.0% 1 22.1 22.1 22.1 22.1 0.0
2.|-- 80.67.169.42 0.0% 1 18.3 18.3 18.3 18.3 0.0
3.|-- 80.67.168.210 0.0% 1 16.8 16.8 16.8 16.8 0.0
4.|-- 37.77.34.14 0.0% 1 21.7 21.7 21.7 21.7 0.0
5.|-- 193.253.13.205 0.0% 1 16.7 16.7 16.7 16.7 0.0
6.|-- 193.252.98.122 0.0% 1 19.2 19.2 19.2 19.2 0.0
7.|-- 193.252.230.34 0.0% 1 19.9 19.9 19.9 19.9 0.0
8.|-- 160.92.6.57 0.0% 1 28.2 28.2 28.2 28.2 0.0
9.|-- ??? 100.0 1 0.0 0.0 0.0 0.0 0.0
10.|-- 160.92.41.82 0.0% 1 35.1 35.1 35.1 35.1 0.0
On constate que j'emprunte le même chemin, à l'intérieur des réseaux d'Orange et de Worldline, que la machine hébergée sur un abonnement fibre Orange, ce qui est cohérent. L'hypothèse d'un problème de routage (sur le chemin retour) s'effrite encore plus.
On constate également que je me trompe ci-dessus : mes paquets ne se perdaient pas à l'entrée du réseau de Worldline, mais au contraire, à ma destination dans ce réseau. Cela conforte l'hypothèse d'un banissement temporaire type fail2ban.
Bizarre… Je viens d'effectuer des centaines de requêtes GET et POST et je ne suis pas bloqué…
Au final, je ne saurai pas ce qui s'est passé… Les ninjas de l'informatique ne savent pas tout…
Manuelle Nöhr-Kaam, la première présidentiable « ni de droite ni de gauche » à être de gauche.
On met un pognon de dingue dans les dividendes, et les bourgeois ne sont toujours pas satisfaits. Les pauvres restent toujours plus pauvres et les riches toujours plus riches.
[…]
Dans l'hôtellerie, les cafés et la restauration, dans le bâtiment, il n'y a pas un endroit où je vais où je ne vois pas des gens qui cherchent un travail correctement payé. Je traverse la rue, j'augmente les salaires, je traite décemment mon personnel, je respecte le droit du travail et je vous en trouve, des salariés !
[…]
Vous me connaissez, je suis pour la laïcité, et, en même temps, pour le respect des traditions chrétiennes de la France. Je cite la Bible, Deutéronome 23.30 : « tu ne prêteras à usure à ton frère ni de l'argent, ni du grain, ni quelque autre chose que ce soit ». Le premier acte de mon quinquennal sera donc d'interdire les prêts à intérêts ‒ taux 0 pour tout le monde ‒ et de socialiser la création monétaire pour qu'elle ne dépende plus du crédit bancaire.
[…]
On peut comprendre l'envie de croissance des entreprises polluantes… et en même temps, on ne peut pas mettre ça au même niveau que le besoin de survie écologique de l'espèce humaine.
\o/
Version rap de comptines enfantines.
:'D :'D :'D :'D
‒ On lui reprochait d'être trop mou face à la Covid, du coup Emmanuel Micro a décidé de frapper un grand coup :
‒ Pour faire face au virus, j'ai décidé d'employer la méthode forte. Une méthode éprouvée et utilisée par nombre d'entreprises en cas de crise. Nous allons organiser dès la semaine prochaine un grand plan de départs volontaires. Ainsi, tous les grolandais qui le souhaiteront, quel que soit leur âge, quel que soit leur sexe, quels que soient leurs revenus, se verront remettre non pas un vaccin, mais une pilule de cyanure ainsi que des indemnités compensatoires finançant intégralement, et je dis bien intégralement, l'ensemble de leurs frais d'obsèques. Je le dis à celles et ceux qui feront ce choix courageux du départ : merci. En allégeant nos efforts, vous permettrez aux premiers de cordée que nous sommes de continuer vers les sommets. Je vous remercie.
:D :D :D :D
Couplé à un contrôle strict des naissances, ça devrait botter l'cul du Covid (et de l'espèce humaine, mais c't'un geste écolo).
Boot Repair, un énième outil magique censé réparer les problèmes de démarrage d'un système GNU/Linux.
J'ai testé : je suis déçu, comme avec les autres outils magiques de ce genre-là.
Contexte : un ordinateur portable Ubuntu tombé sur le sol durant son fonctionnement qui, depuis, affiche le shell grub rescue.
Boot sur un live USB Boot Repair + utilisation en mode kikoo (clic sur « Réparation recommandée »). L'outil affiche qu'il « restaure GRUB » et d'autres bricoles. Le journal ne montre pas d'erreurs.
Par acquit de conscience, je lance un fsck sur les partitions ext4 présentes sur le disque dur. Pas mal d'erreurs (superblock endommagé, inodes manquants, etc.). De mon expérience, ce genre d'erreurs signalent un sérieux problème voire de la perte de fichiers. fsck demande s'il faut ignorer ceci, ré-écrire cela, et comme il y a de nombreuses erreurs, je fini par craquer et lancer le mode automatique (fsck -y).
Reboot : ho, un winwin 7 sans passer par le menu GRUB. (Ubuntu a été installé à côté de winwin et GRUB a été configuré pour ne pas afficher son menu).
Reboot sur Boot Repair + nouvelle utilisation en mode kikoo. Cette fois-ci, l'outil annonce qu'il réinstalle GRUB (sur le bon disque dur), qu'il effectue un update-grub2, etc.
Je pense que la partition système Ubuntu était suffisamment abîmée pour qu'il ne la détecte pas lors du premier lancement, ce qui l'a conduit à penser que le système principal était winwin et qu'Ubuntu était un reliquat, et donc qu'il était mieux de virer GRUB.
Reboot : toujours winwin.
Reboot sur Boot Repair. mount la partition Ubuntu + mount -o bind /proc /sys /dev /dev/pts + chroot + grub-install + umount + reboot. Le menu GRUB apparaît.
Bref : rien vaut la méthode manuelle habituelle.
Pour être honnête, la méthode manuelle a aussi foiré.
En effet, le menu GRUB affiche une entrée « Debian GNU/Linux » (wtf ?! Il s'agit d'un Ubuntu !) et deux entrées winwin 7.
L'entrée Debian nous conduit a une erreur « /boot/grub/i386-pc/video_cirrus.mod not found ». Si l'on presse la touche « entrée » comme proposé, on a un kernel panic…
Un chroot + update-grub2 génère bien un grub.cfg avec autant d'entrées dans le menu GRUB qu'il y a de versions du noyau présentes dans la partoche Ubuntu, mais, quand on reboot, le menu GRUB affiche une seule ligne. Mais ça change rien : le démarrage reste bloqué sur l'absence de video_cirrus.mod.
Ces deux incohérences laissent à penser que l'on ne démarre pas sur le bon GRUB (peut-être est-il installé à plusieurs endroits ?).
Peut-être qu'une réinstallation du paquet grub2 aurait fait le job ?