@Oros :
Là où j'ai besoin d'aide c'est de trouver si dans le lot, il y en a où l'erreur était temporaire ou s'ils ont changé d'URL.
Je m'en suis occupé.
Au début, on a 208 shaarlis marqués invalides.
Combien y a-t-il de domaines non associées avec une IPv6 ou une IPv4 ? Boucle for
+ commande `host'.
Quel contenu est pointé par ces 78 URLs ? Allons-voir avec wget --quiet --max-redirect=0 --connect-timeout=10 --tries=1 -O -
(un seul essai, on tente d'établir la connexion TCP durant 10 secs maximum, on refuse les redirections HTTP). Quand on a une réponse, on grep
« pubDate » afin de nous assurer qu'il s'agit d'un flux RSS (et de voir la date du dernier shaarli publié).
wget -4
sur cette liste : on récupère aucun shaarli, donc c'est tout des shaarlis disparus ;11 sortent en 5 : erreur x509. On utilise wget --no-check-certificate
. 9 URL passent en code retour 8. 2 URLs sont des shaarlis OK avec un certificat x509 invalides ;
37 sortent en 8 : erreur HTTP. + les 9 URL du point précédent. 46 URL en tout. Ça peut être une redirection. On utilise wget
sans interdire la redirection + grep 'Emplacement' | tail -n 1
pour choper l'URL de destination et l'ajouter à la liste.
wget | grep 'erreur'
. On a 16 URLs OK, 30 erreurs (404, 403, 410, 500).
Au final, dans la liste https://github.com/Oros42/shaarlis_list/blob/master/shaarlis_HS.json , seuls les shaarlis suivants fonctionnent et peuvent être ajoutés à la rivière :
Les shaarlis suivants ont besoin d'un ajustement avant de rejoindre la rivière :