Notice: A session had already been started - ignoring session_start() in /home/travaux/www/includes/class.flyspray.php on line 732 FS#22 : Défaillance filesystem unité mail

DNS

Travaux et projets techniques du service DNS
| Liste des tâches |

FS#22 - Défaillance filesystem unité mail

Concerne le projet: DNS
Ouverte par Mr Super User (brain) - Friday, 14 March 2008, 10:16 GMT+2
Dernière édition par Mr Super User (brain) - Friday, 14 March 2008, 17:02 GMT+2
Type de tâche Dégradation
Catégorie Mutualisés
Etat Terminée
Assignée à Mr Super User (brain)
Mutualises (mutualises)
Système d'exploitation All
Sévérité Critique
Priorité Normale
Basée sur la version 1.0
Due pour la version Non décidé
Date d'échéance Non décidé
Pourcentage achevé: 100%
Votes 1
Privée Non

Détails

Nous rencontrons un problème sur l'une des unités mail mutualisée : une défaillance du système de fichier ReiserFS a été détectée.
Cette tâche dépend de

Commentaire de Mr Super User (brain) - Friday, 14 March 2008, 10:32 GMT+2
  • Champ changé: Pourcentage achevé: (0% → 50%)
Impossible de reprendre la main via les procédures d'exception prévues - Une intervention physique est en cours.
Commentaire de Mr Super User (brain) - Friday, 14 March 2008, 10:36 GMT+2
  • Champ changé: Pourcentage achevé: (50% → 70%)
Nous avons repris la main sur l'unité mail concernée. Une vérification approfondie du système de fichiers est en cours.
Commentaire de Mr Super User (brain) - Friday, 14 March 2008, 10:40 GMT+2
Des inodes défectueux ont été trouvés. L'arbre reiserFS va devoir être reconstruit.
Commentaire de Mr Super User (brain) - Friday, 14 March 2008, 10:42 GMT+2
Checking internal tree../ 3 (of 3)/131 (of 135)/144 (of 163)bad_directory_item: block 459159: The directory item [1351487 1351488 0x2fb46500 DIR (3)] has the entry (25) "1205483652.M892936P25514_311.mail.digital-network.net,S=2350:2," with a not legal state (0), (4) expected /132 (of 135)bad_internal: vpf-10320: block 458859, items 20 and 21: The wrong order of items: [1351487 1351490 0x7a3f3180 DIR (3)], [1351487 1351488 0x30e85380 DIR (3)]
the problem in the internal node occured (458859), whole subtree is skipped finished
Comparing bitmaps..vpf-10640: The on-disk and the correct bitmaps differs.
Bad nodes were found, Semantic pass skipped
1 found corruptions can be fixed only when running with --rebuild-tree
Commentaire de Mr Super User (brain) - Friday, 14 March 2008, 10:48 GMT+2
Les principales étapes ont été effectuées. L'analyse sémantique du système de fichiers est en cours.
Commentaire de Mr Super User (brain) - Friday, 14 March 2008, 12:17 GMT+2
En parallèle nous avons effectué plusieurs vérifications hardware, et le RAID du filer de l'unité web est dégradée. Aucune interruption supplémentaire n'est à prévoir, la reconstruction du RAID est en cours. En parallèle l'analyse sémantique du système de fichiers se poursuits : Il s'agit d'une analyse longue dans le cas des serveurs d'emails, car ces derniers stockes plusieurs centaines de milliers à plusieurs millions de messages.
Commentaire de Mr Super User (brain) - Friday, 14 March 2008, 13:26 GMT+2
Le RAID a été reconstruit correctement. Le système de fichier est toujours en cours de réparation. Il s'agit d'une opération longue, du à la nécessité de vérifier des millions de fichiers (chaque email est un fichier)
Commentaire de Mr Super User (brain) - Friday, 14 March 2008, 16:19 GMT+2
Origine du problème : pendant que la réparation a lieu, nous avons cherché l'origine du problème. Il semblerait qu'un client aie subit une attaque relativement lourde, en effet nous enregistrons vers son compte, plus de 7.000.000 d'emails envoyé pour ce seul début de matinée. Ces emails sont envoyés probablement par des machines zombie, puisque l'on a dénombré plusieurs dizaines de milliers d'adresses ip. Des dispositions particulières ont été prises par rapport aux informations recueillies. L'arbre reiserFS, de son coté, est toujours en cours de réparation.
Commentaire de Mr Super User (brain) - Friday, 14 March 2008, 16:47 GMT+2
Le filesystem a été réparé. Nous effectuons une dernière vérification avant la remise en route des services
Commentaire de Mr Super User (brain) - Friday, 14 March 2008, 19:52 GMT+2
Le service a été relancé et était parfaitement fonctionnel aux environ de 17H00

Chargement...