Type de tâche: Amélioration
Catégorie: tous les plans
Etat: En cours
Nous mettons php 5.3 à jour sur la dernière version (5.3.10)
En test sur cluster012.
Type de tâche: Incident
Catégorie: logs
Etat: Plannifiée
Le site de logs est inaccessible pour le moment. Un filer a crashé.
Commentaires:
Date: Thu, 02 Feb 2012 11:36:33 +0100
Les logs sont à nouveau accessibles. Nous allons bouger les données du filer fautif prochainement.
Type de tâche: Maintenance
Catégorie: 300gp
Etat: Finie
Une carte de répartition de charge de ce cluster présentent un problème.
Des ralentissements sont constatés dans les accès aux sites présents sur ce cluster.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Suite à des problèmes de stabilité sur plusieurs serveurs, nous procédons à une mise à jour du kernel sur une série de serveurs MySQL. Une coupure de quelques minutes par serveur est à prévoir le temps du reboot.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le serveur a redémarré après un changement de disque.
Une intervention est en cours pour rétablir le service.
Commentaires:
Date: Mon, 30 Jan 2012 14:40:46 +0100
Visiblement le driver de la carte réseau qui a planté :
e1000g0: DL_UNITDATA_REQ failed: DL_BADADDR
Nous cherchons la cause.
Date: Mon, 30 Jan 2012 14:55:11 +0100
Le service est à nouveau disponible.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le serveur mysql5-17.60gp présente des instabilités a cause d'une défaillance de la RAM.
Nous le migrons en urgence dans le PCC.
Commentaires:
Date: Fri, 27 Jan 2012 17:21:10 +0100
Le serveur ne démarre plus, nous le remplacons par un spare directement
Date: Fri, 27 Jan 2012 17:59:58 +0100
Le service est up, nous laissons les disques se resynchroniser, et nous prévoyons une migration dans le pcc prochainement.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous allons doubler le nombre de connexions simultanées autorisées par base de données sur l'ensemble du parc des serveurs mutualisés MySQL.
L'opération nécessite un redémarrage de Mysql et entrainera donc une coupure de quelques minutes sur l'ensemble des serveurs.
Les redémarrages seront effectués de nuit tout au long de la semaine.
Fin des opérations prévue au plus tard pour le vendredi 27 Janvier 2012.
Commentaires:
Date: Wed, 18 Jan 2012 15:40:23 +0100
Finalement nous avons décidé d'augmenter davantage les limites.
Les nouvelles limites seront donc :
30 connexions simultanées sur les serveurs standards (sql perso et sql pro)
10 connexions simultanées sur les serveurs de modules en 1 clic
Date: Fri, 20 Jan 2012 00:58:59 +0100
Nous redémarrons le premier groupe de serveurs.
Date: Fri, 20 Jan 2012 03:36:16 +0100
Les serveurs suivants ont été mis à jour :
- mysql5*.perso
- mysql5*.pro
- mysql5*.business
- mysql5*.premium
- mysql5*.60gp
- mysql5*.90
Date: Fri, 20 Jan 2012 23:30:28 +0100
Deuxième série !
Date: Sat, 21 Jan 2012 02:28:35 +0100
Les serveurs suivants ont été mis à jour :
- mysql5*.240
- mysql5*.720
- mysql5*.media
- mysql5*.xxl
- mysql5*.start
- mysql5*.1000gp
Date: Thu, 26 Jan 2012 21:09:32 +0100
Suite et fin cette nuit !
Date: Thu, 26 Jan 2012 23:57:24 +0100
Nous commençons à redémarrer les serveurs.
Date: Fri, 27 Jan 2012 01:59:31 +0100
Certains serveurs n'ont pas bien redémarré, le problème est en cours de correction.
Date: Fri, 27 Jan 2012 02:07:32 +0100
Les 3 serveurs qui n'ont pas bien redémarré sont :
sql25.modules
sql27.modules
sql29.modules.
Le problème a été corrigé, les serveurs font un check des données et démarreront dès que le check sera terminé.
Date: Fri, 27 Jan 2012 02:15:05 +0100
le serveur sql27.modules est up
Date: Fri, 27 Jan 2012 02:18:42 +0100
Tous les serveurs sont ups
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Nous allons procéder à la mise à jour de plusieurs serveurs webs de phpmyadmin.ovh.net
Aucune coupure n'est à prévoir pendant la durée de l'opération.
Le début de la maintenance est prévu pour le 26 janvier à 10h.
Commentaires:
Date: Thu, 26 Jan 2012 11:34:13 +0100
La mise à jour des serveurs web phpmyadmin.ovh.net est reporté
Date: Thu, 26 Jan 2012 12:01:21 +0100
Apres vérification, la mise à jour des serveurs webs peux reprendre.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Cette nuit nous allons procéder au basculement de 19 serveurs MySQL sur l'infrastructure Pcc
Nous en profitons pour passer les serveurs de MySQL version 5.0 à MySQL version 5.1
Une coupure de 20-30 minutes est à prévoir au moment du basculement.
Les serveurs concernés sont :
mysql5-2.bdb
mysql5-3.bdb
mysql5-4.bdb
mysql5-12.bdb
mysql5-14.bdb
mysql5-18.bdb
mysql5-22.bdb
mysql51-32.bdb
mysql51-33.bdb
mysql5-46.90
mysql5-61.90
mysql5-63.90
mysql5-10.perso
mysql5-15.perso
mysql51-34.perso
mysql5-6.perso
mysql5-9.perso
mysql5-5.pro
mysql5-2.premium
Le début de la maintenance est prévu à partir de 0h30
Commentaires:
Date: Thu, 26 Jan 2012 00:30:49 +0100
Nous commencons l'intervention.
Date: Thu, 26 Jan 2012 00:39:20 +0100
Nous migrons actuellement les serveurs suivant : mysql5-2.bdb mysql5-3.bdb mysql5-4.bdb mysql5-12.bdb mysql5-14.bdb mysql5-18.bdb
Date: Thu, 26 Jan 2012 01:09:08 +0100
Le serveurs précédants ont été migrés correctement. Nous continuons avec les serveurs :
mysql5-22.bdb
mysql51-32.bdb
mysql51-33.bdb
mysql5-46.90
mysql5-61.90
mysql5-63.90
Date: Thu, 26 Jan 2012 01:39:10 +0100
Migration terminé pour les serveurs précédants. Nous terminons en migrant ceux la: mysql5-10.perso mysql5-15.perso mysql51-34.perso mysql5-6.perso mysql5-9.perso mysql5-5.pro mysql5-2.premium
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
On constate des erreurs au niveaux de la RAM de ce serveur, nous intervenons pour la remplacer.
Une brève coupure est a prévoir.
Type de tâche: Incident
Catégorie: 720plan
Etat: Finie
Le serveur ne répond plus, nous intervenons.
Les sites hébergés sur /homez.334 sont impactés.
Commentaires:
Date: Mon, 23 Jan 2012 06:43:48 +0100
Le serveur a un problème matériel, nous le remplacons par un spare.
Type de tâche: Maintenance
Catégorie: 60gp
Etat: Finie
nous allons couper le service pour une maintenance.
Commentaires:
Date: Fri, 20 Jan 2012 16:17:07 +0100
nous démarrons.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
les sites installes sur ce filer renvoient des erreurs 404
nous travaillons sur le probleme
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Cette nuit nous allons procéder au basculement de 11 serveurs MySQL sur l'infrastructure Pcc
Nous en profitons pour passer les serveurs de MySQL version 5.0 à MySQL version 5.1
Une coupure de 20-30 minutes est à prévoir au moment du basculement.
Les serveurs concernés sont :
mysql5-44.90
mysql5-8.60gp
mysql5-16.90
mysql5-10.90
mysql5-5.240
mysql5-3.media
mysql5-4.240
mysql5-4.60gp
mysql5-8.90
mysql5-12.60gp
mysql5-29.90
Commentaires:
Date: Thu, 19 Jan 2012 00:07:53 +0100
Nous débutons la tache de maintenance.
Date: Thu, 19 Jan 2012 00:33:20 +0100
mysql5-44.90
mysql5-8.60gp
Migrés
Date: Thu, 19 Jan 2012 01:37:12 +0100
Tout est migré, tout est up.
Nous avons passé les connexions simultanées à 30 sur ces serveurs
cf : http://travaux.ovh.net/?do=details&id=6273
Type de tâche: Maintenance
Catégorie: logs
Etat: Finie
Les statistiques urchin6 antérieures à août 2011 sont indisponibles pour certains domaines. Le raid a perdu deux disques et nous préfèrons jouer la sécurité.
scrub: resilver in progress for 26h50m, 24.53% done, 82h35m to go
Retour à la normale dans 4 jours environ.
Type de tâche: Maintenance
Catégorie: logs
Etat: Finie
nous avons ajouté un nouveau serveur de fichiers pour stocker les logs bruts compressés.
Certains logs du mois de décembre seront indisponibles le temps que nous synchronisions les données entre l'ancien et le nouveau serveur de fichiers.
Type de tâche: Maintenance
Catégorie: 90plan
Etat: Finie
Dans la nuit du mardi 17/01 au mercredi 18/01 nous allons redémarrer le serveur pour une opération de maintenance.
Une coupure de 5 à 10 minutes est à prévoir.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Cette nuit nous avons reçu des attaques SYN flood à partir
de la Chine sur les IP de gateway de mutualisé qui servent
à faire communiquer les sites de nos clients avec les
services exterieurs hébergés ailleurs.
Nous avons bloqué l'attaque en bloquant les SYN de l'exterieur
sauf pour le port 80. Normalement il n'y a pas de problemes
sauf pour les services qui utilisent les syn cookies (sauf le
port 80 toujours).
On nous remonte les problemes sur de services sur les ports
non standard.
L'attaque est finie. On va enlever les protections.
Commentaires:
Date: Mon, 16 Jan 2012 13:45:58 +0100
fixé
Date: Mon, 16 Jan 2012 13:52:29 +0100
l'attaque continue.
on a changé les IP de gateway.
fixé.
Type de tâche: Incident
Catégorie: 90plan
Etat: Finie
Le serveur ne répond plus, nous intervenons.
Les sites hébergés sur /homez.23 sont impactés.
Commentaires:
Date: Sun, 15 Jan 2012 17:25:01 +0100
Nous avons été contraint de redémarrer le serveur. Il n'y avait plus de RAM disponible, nous cherchons la cause (soft) du problème.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Dans la nuit du jeudi 12/01 au vendredi 13/01 nous allons ajouter des disques SSD dans tous les serveurs de stockage de l’infrastructure virtualisée de l’hébergement mutualisé afin d'améliorer les performances.
Une dizaine de basculements de stockage HA sont prévus afin de pouvoir positionner certains paramètres qui nécessitent un redémarrage des serveurs.
Le HA va permettre de faire les basculements et les paramétrages en transparence.
Commentaires:
Date: Fri, 13 Jan 2012 00:28:07 +0100
Nous démarrons les interventions.
Date: Fri, 13 Jan 2012 02:51:08 +0100
Interventions terminées. Aucun dommage collatéral !
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Cette nuit nous allons basculer 18 serveurs MySQL sur l'infrastructure Pcc
Nous en profitons pour passer les serveurs de MySQL version 5.0 à MySQL version 5.1
Une coupure de 20-30 minutes est à prévoir au moment du basculement.
Les serveurs concernés sont :
mysql5-9.720
mysql5-38.90
mysql5-7.720
mysql5-14.90
mysql5-21.bdb
mysql5-5.60gp
mysql5-19.bdb
mysql5-57.90
mysql5-12.xxl
mysql5-20.240
mysql5-14.240
mysql5-32.90
mysql5-20.90
mysql5-4.perso
mysql5-64.90
mysql5-2.300gp
mysql5-12.media
mysql5-1.business
Commentaires:
Date: Fri, 13 Jan 2012 00:27:55 +0100
Et c'est parti, on démarre les opérations.
Date: Fri, 13 Jan 2012 00:57:16 +0100
Les trois serveurs suivants ont été migrés.
mysql5-9.720
mysql5-38.90
mysql5-7.720
Date: Fri, 13 Jan 2012 01:28:51 +0100
mysql5-14.90
mysql5-21.bdb
mysql5-5.60gp
mysql5-19.bdb
mysql5-57.90
mysql5-12.xxl
Migrés.
Date: Fri, 13 Jan 2012 02:18:08 +0100
mysql5-20.240
mysql5-14.240
mysql5-32.90
mysql5-20.90
mysql5-4.perso
mysql5-64.90
mysql5-2.300gp
mysql5-12.media
mysql5-1.business
Migrés !
Tout est up, de retour à la normale.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Dans la nuit du jeudi 12/01 au vendredi 13/01 nous allons déplacer les serveur suivants :
filerz130.xxl.ha.ovh.net
filerz131.60gp.ha.ovh.net
filerz133.240.ha.ovh.net
Une coupure de 5 minutes par serveur est à prévoir.
Les sites hébergés sur les montages /homez.130 , /homez.131 et /homez.133 seront impactés.
Commentaires:
Date: Fri, 13 Jan 2012 00:27:40 +0100
Nous démarrons les interventions.
Date: Fri, 13 Jan 2012 01:47:07 +0100
Les déplacements sont effectués. Aucun problème à signaler.
Type de tâche: Maintenance
Catégorie: 240plan
Etat: Finie
Nous déplaçons plusieurs comptes pour alléger le serveur.
Les déplacements sont transparents pour les clients.
Commentaires:
Date: Wed, 11 Jan 2012 15:11:20 +0100
Les déplacements sont terminés.
Type de tâche: Amélioration
Catégorie: sqlprive
Etat: Finie
Nous effectuons une maintenance sur ce serveur, nous allons devoir le redémarrer.
Une coupure de quelques minutes est à prévoir.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Dans la nuit du mardi 10/01 au mercredi 11/01 nous allons intervenir sur une partie du stockage de l'environnement virtualisé de l’hébergement mutualisé.
Une latence de quelques secondes pourrait être observée le temps de basculer divers éléments de stockage.
Commentaires:
Date: Wed, 11 Jan 2012 00:20:45 +0100
Nous préparons l'intervention.
Le basculement est prévu à 00h30.
La majorité des machines virtuelles présentes sur ce stockage ont été déplacées sur un autre stockage.
Date: Wed, 11 Jan 2012 01:23:56 +0100
L'opération s'est déroulée sans problème.
Nous profitons de l'intervention pour désactiver une option de write cache sur le controleur dans l'optique d'ajouter des SSD sous peu pour améliorer les performances.
Date: Wed, 11 Jan 2012 01:38:33 +0100
L'intervention est terminée.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Une attaque est en cours sur le port SSH.
Il peut donc y avoir des perturbations sur le fonctionnement des accès SSH et SFTP sur les hébergements mutualisés.
Le service est toujours accessible sur les adresses ssh.clusterNNN.ovh.net (le numéro de votre cluster est indiqué dans votre manager, section hébergement)
Seul l'accès via votre nom de domaine ou l'IP principale du cluster est affecté.
Commentaires:
Date: Sun, 08 Jan 2012 22:59:40 +0100
Pour plus de précisons ou si vous avez des questions, vous pouvez vous rendre sur notre forum : http://forum.ovh.com/showthread.php?t=76263
Type de tâche: Incident
Catégorie: tous les start
Etat: Finie
Le serveur ne ping plus.
Une intervention est en cours.
Les sites hébergés sur /homez.149 sont impactés.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le filer a perdu un disque. Le disque a été remplacé et le raid est en cours de reconstruction.
Des ralentissements peuvent avoir lieu sur les sites hébergés sur ce filer pendant la reconstruction.
Type de tâche: Incident
Catégorie: sqlprive
Etat: Finie
Le serveur ne répondait plus, il a été redémarré.
Le service est à nouveau disponible.
Type de tâche: Incident
Catégorie: sqlprive
Etat: Finie
Le serveur ne répondait plus, il a été redémarré.
Le service est à nouveau disponible.
Type de tâche: Incident
Catégorie: 240plan
Etat: Finie
Le serveur ne ping plus.
Une intervention est en cours.
Les sites hébergés sur /homez.353 sont impactés.
Commentaires:
Date: Thu, 05 Jan 2012 10:56:01 +0100
Il y a eu une surcharge qui a impacté le filer quelques secondes. La cause a été identifiée.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Prévue ce soir à 22h.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
Le filerz est instable, nous cherchons l'origine du problème.
Commentaires:
Date: Tue, 03 Jan 2012 05:57:30 +0100
Nous redémarrons le filerz, nous n'avons plus accés.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Suite à un problème de climatisation dans une de nos salles, ces trois serveurs sont actuellement indisponibles.
Une intervention est en cours.
Commentaires:
Date: Sat, 31 Dec 2011 07:59:58 +0100
Le serveur mysql51-29.bdb est à nouveau accessible.
Date: Sat, 31 Dec 2011 08:05:46 +0100
Le serveur mysql5-20.perso est à nouveau accessible
Date: Sat, 31 Dec 2011 08:07:45 +0100
Le server18.sqlprive est en cours de démarrage.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le serveur est actuellement indisponible. Une intervention est en cours.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous mettons à jour PEAR sur l'ensemble des serveurs webs.
Il n'y a pas de coupure à prévoir pendant la mise à jour.
La version installée est : 1.9.4
Commentaires:
Date: Fri, 23 Dec 2011 11:59:06 +0100
Etat d'avancemenet : Mise à jour PEAR sur les webs : 100% done Mise à jour packages sur les webs : 100% done Mise à jour sur les serveurs crons : 100% done Mise à jour sur les serveurs SSH : 100% done
Date: Fri, 23 Dec 2011 13:31:27 +0100
Mise à jour sur les serveurs SSH : 100% done
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le filer est indisponible , une intervention est en cours.
Les sites hébergés sur /homez.420 sont impactés.
Commentaires:
Date: Fri, 23 Dec 2011 18:14:12 +0100
Le service est à nouveau disponible.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Cette nuit nous allons basculer plusieurs serveurs MySQL sur l'infrastructure Pcc
Nous en profitons pour passer les serveurs de MySQL version 5.0 à MySQL version 5.1
Une coupure de quelques minutes est à prévoir au moment du basculement.
Commentaires:
Date: Tue, 20 Dec 2011 13:17:22 +0100
L'intervention se poursuit dans la nuit du 20 au 21 Décembre 2011
Date: Thu, 22 Dec 2011 23:59:13 +0100
Nous continuons la procédure cette nuit, avec 22 serveurs migrés.
Une interruption de quelques minutes est à prévoir, progressivement sur chaque serveur.
Date: Fri, 23 Dec 2011 14:39:48 +0100
Certains serveurs ont un problème de configuration. Nous allons de voir les rebooter pour mettre à jour.
Date: Fri, 23 Dec 2011 15:47:13 +0100
Les serveurs pour lesquels le problème avait un impact sensible ont été corrigés. Les autres fonctionnent correctement, il s'agira juste de peau-finage pour ceux-là et l'opération sera donc effectuée de nuit.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous allons augmenter le nombre de connexions simultanées sur les anciennes offres 60gp et 240plan, passant de 3 à 10 connexions simu.
La maintenance aura lieu dans la nuit de jeudi à vendredi.
Une courte indisponibilité du service mysql pourra être observée.
Commentaires:
Date: Fri, 16 Dec 2011 00:06:56 +0100
Nous allons démarrer les interventions.
Date: Fri, 16 Dec 2011 01:50:45 +0100
La maintenance est terminée.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Nous venons de corriger un bug sur le système de gestion des quotas des bases de données sur les serveurs bdb (bases grandes capacités)
Ne tenez pas compte des mails de dépassement de quotas reçus pour ces serveurs le 15/12/2011
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
L'installation de modules sur starter ne fonctionne pas.
Commentaires:
Date: Wed, 14 Dec 2011 18:55:53 +0100
Le problème est résolu.
Type de tâche: Incident
Catégorie: 90plan
Etat: Finie
Nous constatons des ralentissements sur le filer.
Une intervention est en cours.
Les sites hébergés sur /homez.143 sont impactés.
Commentaires:
Date: Wed, 14 Dec 2011 13:39:28 +0100
Nous allons ajouter un CPU sur le filer, une indisponibilité de quelques minutes est à prévoir.
Date: Wed, 14 Dec 2011 14:29:32 +0100
L'intervention est terminée. La charge a été divisée par 4.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous effectuons une modification de la configuration de mysql sur les sqlprivé afin d'améliorer la vitesse de connexion aux bases de données.
Commentaires:
Date: Mon, 12 Dec 2011 17:07:01 +0100
L’intervention est terminée.
Type de tâche: Incident
Catégorie: 720plan
Etat: Finie
Il y a eu une montée en charge sur le cluster qui a provoqué un ralentissement des sites pendant 30 minutes.
Le problème a été identifié et est résolu.
Type de tâche: Maintenance
Catégorie: sqlprive
Etat: Finie
Nous allons migrer ces 2 serveurs vers l'infrastructure Pcc.
L'opération aura lieu demain matin mercredi 07/12 à 10h.
De breves coupures sont a prevoir pendant ce basculement.
Les clients ayant des ip commençant par 10.0.201 et 10.0.220 seront impactés.
Les commandes de reboot, dump, .. dans le manager seront indisponibles pendant la maintenance.
Commentaires:
Date: Wed, 07 Dec 2011 11:07:04 +0100
L'intervention est reportée à demain matin jeudi 08/12 vers 10h en raison de la maintenance sur le refroidissment (http://travaux.ovh.net/?do=details&id=6141)
Date: Thu, 08 Dec 2011 10:57:47 +0100
Les migrations sont en cours.
Date: Thu, 08 Dec 2011 14:28:09 +0100
La migration de server1.sqlprive est terminée.
Date: Thu, 08 Dec 2011 15:01:14 +0100
La migration de server20.sqlprive est terminée.
La maintenance est terminée.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le serveur ne répond plus, une intervention est en cours.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
Le filer ne répond plus. Nous cherchons l'origine du problème.
Commentaires:
Date: Wed, 30 Nov 2011 21:10:37 +0100
Le service est rétabli.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Maintenance prévue à 01h00 mercredi 30 novembre 2011.
Mise en place des derniers fix de sécurité windows.
Prévoir un reboot des hébergements windows.
Type de tâche: Incident
Catégorie: mediaplan
Etat: Finie
Le filer ne répond plus , nous intervenons.
Les sites hébergés sur /homez.86 sont impactés.
Commentaires:
Date: Mon, 28 Nov 2011 13:56:51 +0100
Le serveur est UP. Nous remontons les logs.
Type de tâche: Maintenance
Catégorie: sqlprive
Etat: Finie
Nous allons migrer les serveurs server14.sqlprive et server32.sqlprive dans le Pcc.
De breves coupures sont a prevoir pendant ce basculement.
Les clients ayant des ip commençant par 10.0.214 et 10.0.232 seront impactés.
La maintenance est planifiée le jeudi 24/11 et se terminera dans la journée.
Les commandes de reboot, dump, .. dans le manager seront indisponibles pendant la maintenance.
Commentaires:
Date: Thu, 24 Nov 2011 12:02:04 +0100
La migration de server32.sqlrpive est terminée.
Aucun incident à signaler.
La migration de server14.sqlprive est toujours en cours.
Date: Thu, 24 Nov 2011 15:04:28 +0100
La migration de server14.sqlprive est terminée. Fin de la maintenance.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
php 5.4 est disponible en beta sur le cluster 12. Pour l'activer : "SetEnv PHP_VER 5_4" dans le fichier .htaccess
(php 5.3 est activable en mettant "SetEnv PHP_VER 5_3" dans le fichier .htaccess sur tous les hébergements)
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Nous allons coupé le service pour le basculer sur un autre système.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Cette nuit nous allons faire des modifications sur le système interne de backup d'une partie de l'infrastructure mutualisée, afin de diminuer l'impact des backups sur les performances des serveurs tout en maintenant le niveau de sécurité des données.
L'intervention pourrait entrainer des ralentissements sur plusieurs services le temps de l'intervention.
Le début de l'intervention est prévu pour 00h30 le 22 Novembre 2011, pour une durée estimée de 2 heures.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: En cours
Nous avons coupé le système d'historique des crontab afin de l'améliorer.
Type de tâche: Incident
Catégorie: logs
Etat: Finie
Le filer a planté et ne démarre plus , une partie des logs bruts sont indisponibles.
Nous remplaçons le serveur par un spare.
Commentaires:
Date: Mon, 21 Nov 2011 16:08:53 +0100
Le service est rétabli.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
Le serveur ne répond plus.
Nous intervenons.
Commentaires:
Date: Fri, 18 Nov 2011 09:23:38 +0100
Le service est à nouveau disponible. Nous cherchons l'origine du freeze.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
ACE4 du routeur p19-55 ne semble pas fonctionner
correctement. mais n'a pas planté. reset de
connexion. pareil.
on reload la carte.
Commentaires:
Date: Sat, 19 Nov 2011 02:32:20 +0100
la carte fonctionne à nouveau correctement. donc
elle a planté. bug hardware ou bug software ?
on va devoir programmer un changement de toutes
les cartes ACE20 par les nouvelles ACE30 afin
d’éviter les problèmes hardware mais est-ce
que ça évitera les problèmes software ? ACE30
est jeune. le nouveau software aussi, alors
entre ... bon j’arrête de réfléchir à voix
haute.
fixé
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Des soucis de connexion sont rencontres sur le serveur sql mysql51-28.pro
Nous intervenons.
Commentaires:
Date: Thu, 17 Nov 2011 16:35:16 +0100
Le problème est résolu. Une erreur de configuration était à l'origine du problème.
Type de tâche: Incident
Catégorie: mediaplan
Etat: Finie
Le filer est down. On regarde pourquoi.
Commentaires:
Date: Mon, 14 Nov 2011 00:41:31 +0100
Un probleme reseau sur le filer (cable pourri). Nous avons forcé le reboot. Quelques problemes lors du boot. Le filer revient dans 5 minutes.
Date: Mon, 14 Nov 2011 19:39:51 +0100
Une resynchronisation est en cours :
scrub: resilver in progress for 10h9m, 44.08% done, 12h53m to go
Nous migrons plusieurs comptes pour alléger le filer.
Une courte indisponibilité peut être observée lors de la migration.
Date: Tue, 15 Nov 2011 12:15:23 +0100
La resynchronisation est terminée :
scrub: resilver completed after 26h4m with 0 errors on Tue Nov 15 11:34:24 2011
Les migrations sont toujours en cours et devraient s'étaler sur la journée.
Date: Thu, 17 Nov 2011 01:00:18 +0100
Les migrations sont terminées.
Type de tâche: Incident
Catégorie: sqlprive
Etat: Finie
Nous devons rebooter le serveur suite à un problème technique.
Commentaires:
Date: Wed, 16 Nov 2011 15:09:46 +0100
Retour du service prévu sous 10 minutes.
Date: Wed, 16 Nov 2011 15:18:27 +0100
Le serveur est up. Les instances sql privées sont en cours de démarrage.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Cette nuit nous allons faire des opérations d'optimisation sur les serveurs SQL et SQL privés.
Des microcoupures de quelques secondes sont possibles pendant l'intervention.
Commentaires:
Date: Wed, 09 Nov 2011 19:22:04 +0100
Il y aura une coupure supplémentaire de quelques minutes pour les serveurs suivants : server13.sqlprive server17.sqlprive server22.sqlprive server36.sqlprive
Date: Tue, 15 Nov 2011 00:27:29 +0100
Nous allons faire une coupure de quelques minutes sur les serveurs suivants: server5.sqlprive server24.sqlprive server26.sqlprive server31.sqlprive mysql51-7.premium mysql51-28.pro
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Une maintenance est prévue aux alentours de 00h30 afin de résoudre le problème de driver mysql.
Seul le serveur winweb1.ovh.net sera impacté.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Nous avons basculé les données vers un serveur sans zfs qui n'est pas du tout stable sous linux et donc sans snapshots.
Type de tâche: Maintenance
Catégorie: tous les start
Etat: Plannifiée
Nous allons intervenir sur ces 2 serveurs dans la nuit du mardi 08/11 au mercredi 09/11.
filerz331.start => changement d'un CPU
Fault class : fault.cpu.intel.nb.fsb
Problem in : hc://:product-id=System-Product-Name:chassis-id=System:server-id=filerz331/motherboard=0/chip=0
faulted but still in service
FRU : hc://:product-id=System-Product-Name:chassis-id=System:server-id=filerz331/motherboard=0/chip=0
faulty
Description : Front Side bus between CPU and northbridge Refer to
http://sun.com/msg/INTEL-8000-WS for more information.
Response : System panic or reset by BIOS
filerz109.start => changement de la carte mère ou remplacement par un spare
Fault class : fault.cpu.intel.nb.ie
Affects : hc:///motherboard=0
faulted but still in service
FRU : "MB" (hc://:product-id=System-Product-Name:chassis-id=System:server-id=filerz109/motherboard=0)
faulty
Description : Northbridge has detected an internal error Refer to
http://sun.com/msg/INTEL-8001-43 for more information.
Response : System panic or reset by BIOS
Les sites hébergés sur /homez.331 et /homez.109 seront impactés quelques minutes le temps des interventions.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Nous allons procéder à un changement de configuration de plusieurs serveurs MySQL qui va nécessiter un redémarrage dans la nuit du 3 au 4 Novembre 2011.
Il y aura une coupure de quelques minutes pour les serveurs concernés.
Commentaires:
Date: Fri, 04 Nov 2011 03:07:11 +0100
Nous commençons l'intervention
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous allons upgrader la RAM sur ce serveur afin d'améliorer les performances.
Commentaires:
Date: Mon, 17 Oct 2011 11:39:14 +0200
Une coupure de quelques minutes est à prévoir au moment de l'intervention (de nuit)
Date: Mon, 17 Oct 2011 22:59:40 +0200
Nous démarrons l'intervention. A la fin de l'upgrade de RAM nous allons déplacer les données sur un autre datastore. Cette seconde intervention n'entrainera pas de coupure.
Date: Mon, 17 Oct 2011 23:03:42 +0200
Nous coupons le serveur
Date: Mon, 17 Oct 2011 23:08:02 +0200
Le serveur est en cours de démarrage
Date: Mon, 17 Oct 2011 23:09:27 +0200
Le serveur est à nouveau accessible. Nous lançons le changement de datastore. Le serveur restera accessible pendant l'opération.
Date: Tue, 25 Oct 2011 18:20:57 +0200
Le serveur présente toujours des problèmes de performance. Nous allons déplacer une partie des bases sur un autre serveur cette nuit. Le changement sera transparent pour les utilisateurs concernés, juste le nom du serveur dans le manager changera (ainsi que pour phpmyadmin, il faudra utiliser le nom qui apparaitra dans le manager)
Type de tâche: Incident
Catégorie: sqlprive
Etat: Finie
Une climatisation défectueuse rend le serveur instable. Nous cherchons l'origine du problème.
Commentaires:
Date: Tue, 25 Oct 2011 05:27:15 +0200
Nous remplaçons le serveur pas un spare
Date: Tue, 25 Oct 2011 05:39:17 +0200
Les backups sont en cours de restauration.
Date: Tue, 25 Oct 2011 07:36:47 +0200
Nous remettons les disques de données dans le chassis d'origne et nous changeons des composants. On commence par la RAM.
Date: Tue, 25 Oct 2011 08:13:53 +0200
Nous remettons le serveur dans sa baie.
Date: Tue, 25 Oct 2011 08:29:21 +0200
Le serveur est UP, mais les zones ne démarrent pas, nous regardons pourquoi.
Date: Tue, 25 Oct 2011 08:33:15 +0200
Les zones (serveurs Sql Privés) sont en cours de démarrage.
Date: Tue, 25 Oct 2011 08:47:39 +0200
L'intégralité de la RAM n'est pas entièrement détecté par le chassis produisant des ralentissements. Nous allons basculer les zones du serveur vers le PCC.
Date: Tue, 25 Oct 2011 10:46:04 +0200
La migration est en cours.
Date: Tue, 25 Oct 2011 14:09:57 +0200
La situation est stabilisée, il ne devrait plus y avoir de ralentissements. Nous terminons la migration.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Il fonctionne à présent !
Type de tâche: Maintenance
Catégorie: sqlprive
Etat: Finie
Cette nuit nous allons effectuer une opération de maintenance sur les sql privés qui sont sur pcc. Une coupure de qqs minutes aura lieu pour chaque serveur.
Commentaires:
Date: Tue, 25 Oct 2011 16:04:24 +0200
Liste des serveurs concernés : server11 server13 server15 server17 server22 server24 server26 server30 server31 server33 server36 server4 server5
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
Un disques défaillant a bloqué les lectures/écritures sur le filerz.
Il n'a pas été possible d'isoler le disque de façon soft, on a été obligé de declipser le disque physiquement pour débloquer la situation.
Le filerz a été indisponible par intermittence entre 15h et 15h30.
Les sites hébergés sur /homez.466 ont été impactés.
Un nouveau système d'identification 'visuel' des disques défaillant va nous permettre de gérer ces situations plus rapidement à l'avenir.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
l'hébergement est actuellement indisponible. nous investiguons.
Commentaires:
Date: Thu, 20 Oct 2011 12:42:43 +0200
Le service est revenu mais est anormalement lent.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Suite à l'incident survenu ces derniers jours (cf: http://travaux.ovh.net/?do=details&id=5917), Nous avons mis en place une carte de répartition de charge supplémentaire sur ces deux clusters.
Nous allons procéder prochainement au remplacement de la carte qui a posé problème. Il ne devrait pas y avoir de coupure de service pendant l'opération.
Commentaires:
Date: Wed, 19 Oct 2011 23:04:09 +0200
C'est parti. Nous allons changer sous peu la carte défectueuse.
Date: Wed, 19 Oct 2011 23:18:19 +0200
Oct 19 23:07:38 p19-55-6k.fr.eu 782: Oct 19 22:07:14 GMT: %OIR-SP-6-REMCARD: Card removed from slot 4, interfaces disabled
Oct 19 23:07:55 p19-55-6k.fr.eu 783: Oct 19 22:07:30 GMT: %OIR-SP-6-REMCARD: Card removed from slot 6, interfaces disabled
Oct 19 23:13:19 p19-55-6k.fr.eu 784: Oct 19 22:12:55 GMT: %DIAG-SP-6-RUN_COMPLETE: Module 4: Running Complete Diagnostics...
Oct 19 23:13:19 p19-55-6k.fr.eu 785: Oct 19 22:12:55 GMT: %DIAG-SP-6-DIAG_OK: Module 4: Passed Online Diagnostics
Oct 19 23:13:20 p19-55-6k.fr.eu 786: Oct 19 22:12:56 GMT: %OIR-SP-6-INSCARD: Card inserted in slot 4, interfaces are now online
Oct 19 23:14:09 p19-55-6k.fr.eu 787: Oct 19 22:13:46 GMT: %SVCLC-5-FWTRUNK: Firewalled VLANs configured on trunks
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Les cartes de répartition de charge de ces deux clusters présentent un problème.
Des ralentissements sont constatés dans les accès aux sites présents sur ces deux clusters.
Commentaires:
Date: Sun, 16 Oct 2011 15:44:08 +0200
Des soucis sont toujours constatés sur ces 2 plans. Nous investiguons.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Nous devons redémarrer le serveur pour une courte opération de maintenance.
Le service sera indisponible quelques minutes.
Commentaires:
Date: Mon, 26 Sep 2011 18:37:48 +0200
La maintenance est terminée , nous avons du redémarrer à nouveau le service.
Date: Tue, 04 Oct 2011 11:32:36 +0200
Le serveur a freezé, nous l'avons relancé. Nous cherchons l'origine du problème.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
nous allons effectuer une maintenance sur le serveur. Une légère coupure de service est à prévoir.
Commentaires:
Date: Mon, 17 Oct 2011 23:07:30 +0200
Voilà c'est fini.
Type de tâche: Amélioration
Catégorie: 20gp
Etat: Finie
il n'est actuellement plus possible de créer de base sql pour les offres perso. Le problème sera réglé dans 5 minutes !
Le message d'erreur est le suivant : "No available SQL server for #PLAN# (2)".
Type de tâche: Incident
Catégorie: sqlprive
Etat: Finie
Le serveur hébergeant les Sql Privé ayant une ip commençant par 10.0.250 est en cours de reboot.
Tout devrait revenir d'ici quelques minutes.
Commentaires:
Date: Fri, 14 Oct 2011 11:40:25 +0200
Nous avons rencontré une complication au moment du reboot. Le temps de rétablissement sera plus long que prévu. Nous mettons tout en œuvre pour rétablir le service au plus vite.
Date: Fri, 14 Oct 2011 11:46:11 +0200
Le serveur est UP. Les SQL Privés sont en cours de démarrage.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
On a un probleme sur le mutu. On cherche.
Commentaires:
Date: Wed, 12 Oct 2011 00:43:51 +0200
les serveurs web de plusieurs clusters se sont declarés down. On cherche pourquoi.
Date: Wed, 12 Oct 2011 00:48:43 +0200
Un filer est tombé. Habituellement quand ça arrive, un script protege les serveurs web. Le script n'est pas prevu pour gerer la panne de ce filer. Pourquoi ??
Date: Wed, 12 Oct 2011 00:56:38 +0200
up.
on patch immediatement les outils pour gerer
ce filer aussi. il nous sert pour partager
les outils interne et donc il est monté sur
l'ensemble de l'infra. un mega SPOF non
protegé.
Date: Wed, 12 Oct 2011 01:29:20 +0200
Dans les prochains jours on va enlever ce montage inutiles et remplacer par une solution fiable. Il n'est pas question d'avoir de pannes connes qui impactent autant de sites même à minuit.
Date: Wed, 12 Oct 2011 04:12:51 +0200
Le patch est en cours d'installation sur tous les serveurs
Date: Wed, 12 Oct 2011 10:00:20 +0200
L'installation du patch est terminée.
Date: Wed, 12 Oct 2011 12:04:21 +0200
La modification du systeme pour virer ce filer inutile est en cours. ca va prendre 1 semaine pour le demonter de plus de 10000 serveurs ... quelle connerie !
Type de tâche: Maintenance
Catégorie: sqlprive
Etat: Finie
Le serveur 15 rencontre un ralentissement suite à la défaillance d'un disque, nous préparons la migration vers le pcc
Commentaires:
Date: Mon, 10 Oct 2011 23:30:45 +0200
Il y a eu un problème pendant la maintenance et quelques serveurs se sont retrouvés désactivés. Le problème a été corrigé. C'est la première fois que ce type de problème apparait durant ce genre d'opération. Nous allons enquêter pour déterminer l'origine du problème et faire en sorte que cela ne se reproduise plus.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le filerz est instable. Nous cherchons l'origine du problème.
Commentaires:
Date: Sat, 08 Oct 2011 14:00:38 +0200
La ram du serveur est HS. Nous changeons les barrettes rapidement.
Date: Sat, 08 Oct 2011 14:54:31 +0200
Nous rencontrons des difficultés avec le redémarrage du filerz. Nous cherchons l'origine du problème.
Type de tâche: Maintenance
Catégorie: logs
Etat: Finie
Nous intervenons sur un serveur de stockage de logs.
Les logs brut du mois en cours seront indisponibles pendant 5 minutes.
Commentaires:
Date: Fri, 07 Oct 2011 11:26:03 +0200
Maintenance terminée.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
nous allons effectuer une maintenance sur le serveur. Une légère coupure de service est à prévoir.
Commentaires:
Date: Thu, 06 Oct 2011 14:06:25 +0200
C'est parti !
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le serveur a eu une défaillance au niveau d'un disque dur qui a provoqué un crash du système.
Le problème est résolu. MysQL est en cours de check des données et sera à nouveau disponible une fois le check terminé.
Type de tâche: Incident
Catégorie: 1000gp
Etat: Finie
Le serveur est instable et a redémarré 2 fois. Nous cherchons la cause.
TIME EVENT-ID MSG-ID SEVERITY
Oct 03 17:37:17 f3906226-9603-6883-ae83-aa4503e40168 PCI-8000-8S Critical
Host : filerz106
Platform : X6DVA Chassis_id : 1234567890
Product_sn :
Fault class : fault.io.pci.device-interr 67%
fault.io.pci.bus-linkerr 33%
Affects : dev:////pci@0,0/pci8086,3595@2/pci8086,32a@0,2/pci1000,30e0@1
dev:////pci@0,0/pci8086,3595@2/pci8086,32a@0,2
faulted but still in service
FRU : "MB" (hc://:product-id=X6DVA:server-id=filerz106:chassis-id=1234567890/motherboard=0)
faulty
Description : An unrecoverable problem has been detected on the specified bus
or on the specified transmitting device.
Refer to http://sun.com/msg/PCI-8000-8S for more information.
Response : One or more device instances may be disabled
Impact : Possible loss of services provided by the device instances
associated with this fault
Commentaires:
Date: Mon, 03 Oct 2011 21:54:17 +0200
Nous avons un doute sur une des cartes PCI qui pourrait être mal clipsée ou le bus qui pourrait être endommagé. On va profiter des maintenances de cette nuit pour investiguer.
Date: Tue, 04 Oct 2011 01:08:16 +0200
Le serveur a été checké de A à Z.
Il y avait un léger jeu sur une des cartes PCI.
On surveille le serveur.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Une maintenance est prévue dans la nuit de lundi 03/10 à mardi 04/10 sur filerz467.media et filerz7.mail.
Il s'agit de remplacer ram et cpu sur les 2 serveurs.
Une indisponibilité de quelques minutes pourra être observée.
Commentaires:
Date: Tue, 04 Oct 2011 02:05:43 +0200
Les interventions se sont deroulées sans problèmes.
Type de tâche: Incident
Catégorie: 300gp
Etat: Finie
Le serveur sql4.300gp est actuellement indisponible. Une intervention est en cours.
Commentaires:
Date: Sat, 01 Oct 2011 19:55:17 +0200
Le serveur a perdu un CPU. L'intervention matérielle est terminée. Le serveur a été rebooté et est en train de faire un check des disques.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous allons désactiver les algorithmes de chiffrement SSL considérés comme étant faibles (inférieurs à 128 bits) sur l'intégralité des hébergements mutualisés et sur tous les sites corporate d'OVH.
Ceci va renforcer la sécurité en s'assurant qu'aucun navigateur ne négocie de session SSL sur un algorithme faible : tous les navigateurs supportent des algorithmes de 128 bits ou plus depuis de nombreuses années.
Pas d'interruption de service à prévoir.
Commentaires:
Date: Tue, 27 Sep 2011 14:55:25 +0200
Les algorithmes faibles suivants ont été désactivés :
DES-CBC-SHA (56 bits)
EXP-DES-CBC-SHA (40 bits)
EXP-RC4-MD5 (40 bits)
Type de tâche: Amélioration
Catégorie: sqlprive
Etat: Finie
Nous allons migrer le serveur server5.sqlprive dans le Pcc
De breves coupures sont a prevoir pendant ce basculement.
Fin de basculement prevu pour fin de journee.
Les commandes de reboot, dump, .. dans le manager seront indisponibles pendant ce temps.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Suite au redémarrage d'un serveur de stockage de logs l'accés aux logs est perturbé.
Une intervention est en cours pour corriger le problème.
Commentaires:
Date: Tue, 27 Sep 2011 09:54:59 +0200
L’accès est rétabli.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous réinstallons cette version de php avec le pcre intégré qui est plus récent que celui par défaut sur les hébergements.
Type de tâche: Amélioration
Catégorie: sqlprive
Etat: Finie
Nous allons migrer le serveur server26.sqlprive dans le Pcc
De breves coupures sont a prevoir pendant ce basculement.
Fin de basculement prevu pour fin de journee.
Les commandes de reboot, dump, .. dans le manager seront indisponibles pendant ce temps.
Type de tâche: Maintenance
Catégorie: sqlprive
Etat: Finie
Nous allons couper plusieurs serveurs sql privés pendant quelques minutes cette nuit (nuit du 16 au 17 aout) afin de procéder à une mise à jour au niveau des contrôleurs de disques durs.
Commentaires:
Date: Tue, 16 Aug 2011 15:43:58 +0200
Suite à la découverte de risques de complications pendant l'opération, celle-ci est reportée jusqu'à ce qu'une nouvelle procédure soit mise en place.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le serveur SQL ne répond plus. Une intervention est en cours.
Commentaires:
Date: Mon, 19 Sep 2011 19:37:44 +0200
Le serveur SQL est en cours de démarrage.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le filer hébergeant les sites installés sur /homez.332 est actuellement indisponible.
Une intervention est en cours.
Commentaires:
Date: Mon, 19 Sep 2011 11:00:26 +0200
Le problème est corrigé.
Un disque était resté "collé" lors d'un remplacement.
/pci@0,0/pci8086,2940@1c/pci1000,3140@0/sd@9,0 (sd2):
SYNCHRONIZE CACHE command failed (5)
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Nous allons mettre à jour plusieurs serveurs de stockage de l'infrastructure virtualisée.
La mise à jour optimise les processus de snapshot que nous lançons toutes les heures.
Pas de coupure à prévoir, les serveurs de stockage sont redondés.
Commentaires:
Date: Fri, 12 Aug 2011 10:50:55 +0200
Il y a eu un problème imprévu lors de la maintenance, ayant entrainé l’indisponibilité temporaire de quelques serveurs. La cause du problème a été identifiée, mais le reste de l'intervention sera effectué en horaire nocturne par précaution.
Date: Mon, 15 Aug 2011 00:28:05 +0200
Nous poursuivons les mises à jour.
Date: Mon, 15 Aug 2011 01:41:55 +0200
Les mises à jour se sont bien déroulées. Nous surveillons le comportement de l'infrastructure avec cette mise à jour. Après validation nous déploierons la mise à jour sur l'autre moitié de l'infrastructure.
Type de tâche: Incident
Catégorie: 240plan
Etat: Finie
Le serveur qui héberge les sites sur /homez.353 est indisponible suite à une erreur humaine lors du remplacement d'un disque HS.
Une intervention est en cours , retour à la normal dans quelques minutes.
Commentaires:
Date: Wed, 14 Sep 2011 17:26:25 +0200
Le problème est résolu.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Suite à un problème électrique 2 serveurs de stockage sont indisponibles.
Une intervention est en cours.
Les sites hebergés sur /homez.141 et /homez.467 sont impactés.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Un processus de backup est bloqué, nous devons redémarrer le serveur.
Une indisponibilité de quelques minutes est à prévoir.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous allons basculer tous les serveurs zfs vers du reiserfs (ancien système). Nous commençons par mysql51zfs-42.bdb & mysql51zfs-43.bdb
une courte coupure est à prévoir.
Commentaires:
Date: Thu, 01 Sep 2011 16:22:49 +0200
mysql51zfs-42.bdb & mysql51zfs-43.bdb basculés.
Date: Thu, 01 Sep 2011 16:45:15 +0200
mysql51zfs-43.perso basculé.
Date: Thu, 01 Sep 2011 17:14:33 +0200
mysql51zfs-42.perso basculé.
Date: Thu, 01 Sep 2011 17:31:46 +0200
mysql51zfs-10.business, mysql51zfs-6.premium, mysql51zfs-7.premium, mysql51zfs-9.business, mysql51zfs-9.business basculés.
Date: Thu, 01 Sep 2011 17:45:37 +0200
mysql51zfs-27.pro, mysql51zfs-28.pro basculés.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Suite à un bug de securité sur le request Range
nous l'avons desactivé. Dés que le bug est patché
nous allons le reactiver.
Commentaires:
Date: Wed, 31 Aug 2011 17:09:27 +0200
Réactivé sur cluster012/015/013. Les autres suivront demain !
Date: Thu, 01 Sep 2011 16:59:08 +0200
Réactivé sur tous les autres clusters.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Mise à jour vers php 5.3.8 sur cluster012 pour le moment. Les autres clusters suivront.
Commentaires:
Date: Mon, 29 Aug 2011 15:41:55 +0200
En cours sur cluster014 & cluster010.
Date: Wed, 31 Aug 2011 17:07:48 +0200
Tous les autres clusters sont à jour.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: En cours
Suite à des derniers attaques nous avons reçu sur
l'hébergement mutualisé, nous avons ajouté une
protection qui permet de se proteger contre cette
attaque precise.
L'attaque consiste à ouvrir beaucoup de connexion
simultanées (donc ce n'est pas du synflood) puis
la connexion ne fait rien et attend le timeout.
Nous avons été déjà protegé contre cette attaque
mais visiblement les gens en face ont trouvé le
moyen de by-pass(er) les protections actuels.
nous avons donc ajouté une limitation en terme
de nombre de connexion qu'une IP peut faire sur
l'hébergement mutualisé. Et nous l'avons fixé à
50 connexions simu à partir d'une IP. Puis nous
avons whitelisté quelques IP (google, etc).
Si une IP a atteint la limite de 50 connexions
simultanés, le firewall n'ouvert pas de nouvelles
connexions pendant 2 secondes. Au bout de 2 secondes
il reevalue la situation puis il prend à nouveau
une decision: soit c'est en dessus de 50 connexions
et il ouvert la connexion, soit c'est mis en standby
pour les 2 secondes encore.
class-list any
0.0.0.0 /0 lid 1
slb template policy ip_limit
class-list name any
class-list lid 1
conn-limit 150
over-limit-action lockout 2 log 1
Commentaires:
Date: Sat, 27 Aug 2011 11:50:35 +0200
p19-77-a10#sh class-list any Name: any Total single IP: 0 Total IP subnet: 31 Content: 65.52.0.0 /16 66.102.2.0 /24 66.102.3.0 /24 66.102.4.0 /24 66.102.0.0 /20 66.102.10.0 /23 66.102.12.0 /23 66.249.66.0 /24 66.249.67.0 /24 66.249.68.0 /24 66.249.69.0 /24 66.249.71.0 /24 66.249.72.0 /24 66.249.64.0 /19 66.249.82.0 /24 66.249.84.0 /24 66.249.85.0 /24 67.195.0.0 /16 74.125.76.0 /24 74.125.78.0 /24 77.88.30.0 /24 81.52.143.0 /24 95.108.158.0 /24 0.0.0.0 /0 lid 1 157.55.0.0 /16 193.47.80.0 /24 193.252.118.0 /24 193.252.149.0 /24 193.253.141.0 /24 207.46.0.0 /16 213.251.189.0 /24
Type de tâche: Incident
Catégorie: 300gp
Etat: Finie
Nous recevons depuis quelques jours par petit moment une
attaque. Nous avons isolé l'IP en attandant de recevoir
la grosse attaque et valider les protections en place.
Il est fort possible qu'on recoit l'attaque finale. On
est donc à fond dessus pour trouver le bon parametrage
pour se proteger contre ce type d'attaque precis.
Commentaires:
Date: Fri, 26 Aug 2011 12:54:00 +0200
Nous avons trouvé une solution temporaire.
On a fait la demande à A10 de nous developper
2 fonctionalités qui vont bloquer ce genre
d'attaques. On va voir la reponse.
Date: Sat, 27 Aug 2011 11:12:44 +0200
Nous avons mis les nouvelles protections contre ces attaques. http://travaux.ovh.net/?do=details&id=5731
Date: Sat, 27 Aug 2011 11:15:46 +0200
Tiens, nous recevons l'attaque. Les protections fonctionne
parfaitement bien
C'est le bonheure totale. Tout le monde
est heureux, on se prend dans les bras, on ouvert les bouteilles
de champagnes, la musique demarre et tout le monde se met à
danser.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Un incident au niveau du réseau des hébergements mutualisés entraine de forts ralentissements sur l'accès aux sites.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Nous avons quelques montées en charge de 2 switchs principaux
de l'hébergement mutualisé. Nous pensons à de bugs. On va
mettre à jour ces 2 switchs.
Il se peut que la mise à jour provoque de coupure dans le
service sur ovh.* et l'hébergement mutualisé.
Commentaires:
Date: Wed, 24 Aug 2011 00:15:38 +0200
Compatibility check is done: Module bootable Impact Install-type Reason
Date: Wed, 24 Aug 2011 00:31:16 +0200
p19-53 mis à jour.
p19-54 en cours
p19-61 en cours
Date: Wed, 24 Aug 2011 00:39:09 +0200
p19-54 mis à jour p19-64 en cours
Date: Wed, 24 Aug 2011 03:24:36 +0200
p19-53/54
p19-61/62
p19-63/64
p19-65/66
p19-67/68
p19-69/70
mis à jour. on va voir si c'est plus stable. si ce n'est pas
le cas, il faudra qu'on change le hardware pour supporter
plus de mac adresse. le matos a une limitation de 16000 mac
mais il tousse déjà avec 10000 ... :(
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le serveur mysql5-24.bdb est actuellement indisponible. Une intervention est en cours.
Commentaires:
Date: Fri, 19 Aug 2011 14:47:49 +0200
Le nouveau serveur a démarré sur les disques, mais ne ping pas. Un admin fait le diagnostique.
Type de tâche: Incident
Catégorie: tous les start
Etat: Finie
Le serveur est instable , nous le remplaçons par un spare.
Commentaires:
Date: Tue, 16 Aug 2011 17:29:41 +0200
La maintenance prend plus de temps que prévu. Les racks de disque ne sont pas adaptés au spare, on change les racks, 18 disques.
Date: Tue, 16 Aug 2011 17:48:07 +0200
Le service est UP.
Type de tâche: Maintenance
Catégorie: sqlprive
Etat: Finie
Le server11 pourrait présenter des instabilités. Par prévention, nous allons le migrer dans la nuit. De brèves coupures sont a prévoir pendant ce basculement.
Fin de basculement prévu demain en fin de matinée.
Les commandes de reboot, dump, .. dans le manager seront indisponibles le temps de l'opération.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Les certificats mutualisés sur 90plan 240plan 720plan ont été révoqués par l'authorité de certification, car les nouveaux certificats délivrés n'ont pas été correctement installés par le robot.
Nous corrigeons manuellement.
Type de tâche: Incident
Catégorie: 1000gp
Etat: Finie
Le serveur est instable, nous basculons sur un spare.
Commentaires:
Date: Wed, 10 Aug 2011 18:11:44 +0200
Le serveur est basculé , nous surveillons l'activité.
Type de tâche: Incident
Catégorie: sqlprive
Etat: Finie
Le serveur ne ping plus. Une intervention est en cours.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Un ou plusieurs process occupaient toute la RAM rendant progressivement le service inaccessible.
Nous avons été contraints de redémarrer le serveur.
Commentaires:
Date: Mon, 08 Aug 2011 14:50:29 +0200
Le serveur est à nouveau indisponible. Une intervention est en cours.
Date: Mon, 08 Aug 2011 14:58:04 +0200
Le serveur est up. Un sql privé corrompu semble être à l'origine du blocage. Nous allons le désactiver et le réactiver sur un autre serveur physique, à part.
Date: Mon, 08 Aug 2011 18:50:14 +0200
La migration du serveur sql Privé impacté semble avoir résolu le problème. Nous déplaçons toutefois l'ensemble des serveurs Sql Privé restants sur un nouveau stockage par mesure de précaution.
Date: Tue, 09 Aug 2011 10:42:52 +0200
Nous commençons les basculements. Une coupure de quelques minutes est à prévoir. Le manager sera indisponible pour les serveurs concernés, le temps du basculement.
Date: Tue, 09 Aug 2011 14:59:48 +0200
Tous les sql privés ont été migrés. Nous finalisons le basculement.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Certains serveurs MySQL montrent des problèmes intermittents de latence entrainant des indisponibilités occasionnelles sur les sites les utilisant.
Le problème est en cours de traitement.
Commentaires:
Date: Thu, 04 Aug 2011 10:41:02 +0200
Nous avons fait plusieurs modifications sur l'infra pour corriger ce problème. Nous suivons l'activité des serveurs pour voir si le problème est bien corrigé.
Type de tâche: Maintenance
Catégorie: logs
Etat: Finie
L'accès aux statistiques est momentanément indisponible car nous ajoutons des filers au système.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
La carte raid est defactueuse.
Nous avons changer le serveur par un spare.
Type de tâche: Incident
Catégorie: sqlprive
Etat: Finie
Le serveur ne répond pas.
Nous diagnostiquons le problème et réparons.
Type de tâche: Incident
Catégorie: tous les start
Etat: Finie
Un problème de configuration des serveurs du cluster014 entraine une indisponibilité des sites. Le problème sera corrigé dans quelques minutes.
Type de tâche: Incident
Catégorie: 240plan
Etat: Finie
La RAM est défectueuse. Nous la changeons.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
La RAM est défectueuse. Nous la changeons.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Mis à jour sur cluster012. Les autres clusters suivront la semaine prochaine.
Commentaires:
Date: Mon, 04 Jul 2011 17:57:12 +0200
Ioncube mis à jour sur tous les clusters.
Date: Fri, 22 Jul 2011 16:47:57 +0200
Fait sur cluster010.
Date: Tue, 26 Jul 2011 15:13:37 +0200
En cours sur le reste des clusters.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous allons modifier un paramètre sur l’infrastructure de stockage de l’hébergement mutualisé et des emails.
Cette modification a pour but de fluidifier les opérations de lecture/écriture ainsi que de garantir l'intégrité des échanges NFS (au niveau protocole) entre les serveurs web et les serveurs de stockage.
La prise en compte de ce paramètre provoquera une indisponibilité d'une quinzaine de secondes sur chaque serveur de stockage.
Cette modification sera faite de nuit dans la semaine du 07/03 au 11/03.
Commentaires:
Date: Wed, 06 Apr 2011 16:46:23 +0200
Les performances ne sont pas au rendez-vous sur la partie mutualisée.
Nous revenons sur les paramètres d'origine.
Nous allons tester le comportement sur le stockage des emails.
Type de tâche: Incident
Catégorie: sqlprive
Etat: Finie
Nous corrigeons un incident sur un serveur d'administration des sqlprive.
Les fonctionnalités du manager peuvent être perturbées le temps de corriger le problème.
Type de tâche: Incident
Catégorie: 240plan
Etat: Finie
Le serveur ne répond plus, une intervention est en cours.
Commentaires:
Date: Mon, 11 Jul 2011 14:10:34 +0200
Le service est UP.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Le serveur MySQL mysql5z-1.sol (version de test dans le manager) va être migré sur une nouvelle machine pour bénéficier de nouvelles technologies de stockage et de snapshots.
Une coupure de l'ordre de quelques minutes est à prévoir au moment du basculement.
Commentaires:
Date: Thu, 07 Jul 2011 13:51:56 +0200
Nous lançons le basculement.
Type de tâche: Amélioration
Catégorie: sqlprive
Etat: Finie
Nous allons migrer le serveur sql4.sqlprive dans le Pcc
De breves coupures sont a prevoir pendant ce basculement.
Fin de basculement prevu pour fin de journee.
Les commandes de reboot, dump, .. dans le manager seront indisponibles pendant ce temps.
Type de tâche: Incident
Catégorie: 90plan
Etat: Finie
Le certificat SSL conteneur sur 90plan est révoqué.
Cela provoque des alertes dans certains navigateurs (notamment Chrome/Chromium).
Nous allons le remplacer rapidement pour corriger le problème.
Commentaires:
Date: Tue, 05 Jul 2011 13:09:53 +0200
Le nouveau certificat est installé. Il va être pris en compte par les serveurs web du cluster dans les prochaines minutes.
Type de tâche: Maintenance
Catégorie: tous les start
Etat: Finie
Nous allons déplacer le serveur.
Une indisponibilité de 5 minutes pourra être observée.
Type de tâche: Amélioration
Catégorie: sqlprive
Etat: Finie
Nous allons migrer le serveur sql11.sqlprive dans le Pcc
De breves coupures sont a prevoir pendant ce basculement.
Fin de basculement prevu pour fin de journee.
Les commandes de reboot, dump, .. dans le manager seront indisponibles pendant ce temps.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous venons de mettre en place plusieurs mises à jours sur les serveurs webs mutualisés qui ont les effets suivants :
1/ Les problèmes de mises à jour de Wordpress via l'interface admin rencontrés par certains clients ne devraient plus se produire. (Dans le cas contraire, postez un message sur notre forum)
2/ Le système gère mieux les scripts qui consomment beaucoup de CPU et permet à présent au scripts concernés de tourner au dessus de l'utilisation maximale autorisée pendant environ 2 minutes au lieu de 10 secondes précédemment tout en évitant les risques de gène pour les autres utilisateurs.
3/ Le démarrage des scripts PHP a été accéléré par une meilleure gestion des privilèges utilisateurs.
Type de tâche: Incident
Catégorie: mediaplan
Etat: Finie
le serveur est actuellement indisponible, nous intervenons.
Commentaires:
Date: Tue, 28 Jun 2011 11:18:01 +0200
Nous remplaçons les barrettes de RAM défectueuses sur le serveur pour éviter un nouveau crash.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Dans le cadre d'une réorganisation physique d'une salle, nous sommes contraints de déplacer plusieurs serveurs de stockage.
L'intervention aura lieu dans la nuit du jeudi 23/06 au vendredi 24/06.
Les sites hébergés sur les home suivantes seront impactés 5 à 10 minutes :
/homez.441
/homez.105
/homez.409
Ainsi que les comptes emails hébergés sur ces serveurs :
filerz440
filerz408
Merci de votre compréhension.
Commentaires:
Date: Fri, 24 Jun 2011 00:26:17 +0200
Nous démarrons les interventions.
Date: Fri, 24 Jun 2011 04:01:04 +0200
Les déplacements sont terminés.
Il reste filerz408, qui sera déplacé demain soir.
Type de tâche: Incident
Catégorie: xxlplan
Etat: Finie
Indisponible suite à un problème électrique.
Commentaires:
Date: Tue, 21 Jun 2011 17:25:56 +0200
Retour à la normale.
Type de tâche: Incident
Catégorie: 90plan
Etat: Finie
Le filer présente des problèmes de stabilité. Une intervention est en cours.
Commentaires:
Date: Sun, 19 Jun 2011 06:21:46 +0200
Nous avons changé les CPUs et la RAM du serveur. Nous attendons de voir si la situation se stabilise.
Type de tâche: Incident
Catégorie: xxlplan
Etat: Finie
Le serveur a un problème au niveau du raid système.
Commentaires:
Date: Fri, 17 Jun 2011 21:22:42 +0200
on a remplacé par un spare parce que le serveur était hs.
Type de tâche: Amélioration
Catégorie: sqlprive
Etat: Finie
Nous allons migrer le serveur sql13.sqlprive dans le Pcc
De breves coupures sont a prevoir pendant ce basculement.
Fin de basculement prevu pour fin de journee.
Les commandes de reboot, dump, .. dans le manager seront indisponibles pendant ce temps.
Type de tâche: Incident
Catégorie: 20gp
Etat: Finie
Le serveur ne répond plus, une intervention est en cours.
Les sites hébergés sur /homez.161 sont impactés.
Commentaires:
Date: Mon, 06 Jun 2011 15:35:55 +0200
Le serveur ne redémarre plus, nous allons basculer sur un serveur de rechange.
Date: Mon, 06 Jun 2011 15:42:49 +0200
Le spare est en cours de démarrage.
Date: Mon, 06 Jun 2011 15:56:07 +0200
Le serveur est UP, retour progressif à la normale.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous transférons le serveur sur la nouvelle infra. Une coupure de quelques minutes aura lieu au moment du basculement.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
Le cluster 010 présente actuellement des problèmes de stabilité. Une intervention est en cours.
Commentaires:
Date: Fri, 27 May 2011 20:43:42 +0200
Nous avons isolé la partie responsable de l'infrastructure. La majorité des sites impactés sont à nouveau accessibles, hormis ceux hébergés sur homez.60
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Plusieurs serveurs sont indisponibles suite à un problème lors d'une maintenance électrique : http://travaux.ovh.net/?do=details&id=5474
Une intervention est en cours pour remettre en service les serveurs concernés.
Sont impactés les sites hébergés sur :
/homez.331
/homez.44
/homez.47
/homez.48
/homez.49
/homez.51
/homez.53
/homez.63
Ainsi que ces serveurs SQL :
mysql5-17.bdb
mysql5-3.bdb
Commentaires:
Date: Wed, 25 May 2011 17:14:42 +0200
Les serveurs sont UP , retour progressif à la normale.
Type de tâche: Maintenance
Catégorie: 60gp
Etat: Finie
Un module de mémoire s'est mis en défaut sur le serveur et a été mis hors service automatiquement, nous allons le remplacer cette nuit.
Une brève coupure pourra être observée lors du remplacement.
Les sites hébergés sur /homez.383 sont concernés par cette maintenance.
TIME EVENT-ID MSG-ID SEVERITY
May 24 12:17:25 4766b669-91b1-4757-f805-80efa8b254be INTEL-8001-94 Major
Host : filerz383
Platform : System Product Name Chassis_id : System Serial Number
Fault class : fault.memory.intel.dimm_ce
Affects : hc://:product-id=System-Product-Name:chassis-id=System:server-id=filerz383:serial=1801010811012216a5:revision=D1/motherboard=0/memory-controller=0/dram-channel=0/dimm=0/rank=0
faulted but still in service
FRU : "M1" (hc://:product-id=System-Product-Name:chassis-id=System:server-id=filerz383:serial=1801010811012216a5:revision=D1/motherboard=0/memory-controller=0/dram-channel=0/dimm=0)
faulty
Description : The number of correctable errors associated with this memory
module has exceeded acceptable levels. Refer to
http://sun.com/msg/INTEL-8001-94 for more information.
Response : Pages of memory associated with this memory module may have been
removed from service, up to a limit which has now been reached.
Impact : Total system memory capacity has been reduced (where supported).
Action : Schedule a repair procedure to replace the affected memory
module. Use 'fmadm faulty' to identify the memory module.
Commentaires:
Date: Wed, 25 May 2011 02:25:12 +0200
Nous allons démarrer l'intervention.
Date: Wed, 25 May 2011 02:41:28 +0200
Terminée.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
ACE p19-52-ace3 a crashé puis est revenue. Grace au double
load balancing, le trafic a passé par une autre ACE qui
est en parallele et le client n'a pas été impacté.
Commentaires:
Date: Tue, 24 May 2011 06:58:33 +0200
last boot reason: NP 2 Failed : NP Core Reset - Cause Unknown
Toujours la même chose. On n'arrive pas à acheter le TAC
support software + hardware pour les cartes ACE chez Cisco ...
En attendant avec le double load balancing, "ça va".
Type de tâche: Amélioration
Catégorie: sqlprive
Etat: Finie
Les serveurs sql privés hébergés sur server22 sont en cours de migration sur une nouvelle infrastructure.
Une coupure de quelques minutes aura lieu pour chaque serveur sql privé au moment du basculement.
Les fonctions du manager ne seront pas accessibles pour les serveurs sql privé concernés avant la fin du transfert qui est prévue pour demain.
Commentaires:
Date: Tue, 24 May 2011 00:32:09 +0200
Nous finalisons l'opération. Il va y avoir une coupure globale de quelques minutes
Type de tâche: Maintenance
Catégorie: mediaplan
Etat: Finie
Il y a un probleme avec le pool.
Commentaires:
Date: Wed, 11 May 2011 12:07:07 +0200
Suite à une maintenance électrique (http://travaux.ovh.net/?do=details&id=5430) le shelf de stockage s'est mis en défaut.
Les metadatas du pool ont été touchées. Par précaution, nous allons déplacer les comptes sur un nouveau serveur.
L'opération est transparente pour les clients.
Le service est opérationnel pendant cette maintenance.
Les sites hébergés sur /homez.90 sont concernés par cette maintenance.
Date: Mon, 23 May 2011 14:59:32 +0200
Tous les comptes ont été déplacés.
Type de tâche: Amélioration
Catégorie: 1000gp
Etat: Finie
Nous avons mis à jour apache2 sur cluster012.
Au programme :
- mise à jour de apache2 vers 2.2.17,
- mise à jour mod_security,
- passage du mode "prefork" à "worker".
Commentaires:
Date: Tue, 01 Feb 2011 17:20:52 +0100
mise à jour en cours sur cluster014.
Type de tâche: Maintenance
Catégorie: sqlprive
Etat: Finie
Nous allons devoir couper l'accès au serveur pendant environ 30 minutes cette nuit pour procéder à une opération de maintenance.
Commentaires:
Date: Mon, 16 May 2011 14:12:48 +0200
Nous allons procéder autrement et basculer le serveur sur PrivateCloud. La coupure devrait donc durer moins de 5 minute sau moment du basculement.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous prévoyons prochainement une mise à jour du système. Afin que cette mise à jour se passe en douceur pour tous, nous proposons l'accès au nouveau système via le port 84 sur tous les clusters.
Pour tester votre site sur le nouveau système, il faut ajouter :84 à votre nom d'hôte, à savoir :
http://votrenomdedomaine:84/
et comparer avec http://votrenomdedomaine:81/
Merci de nous remonter les différences notables. (marco@ovh.net, tony@ovh.net ou le support)
Si vous utilisez mod_rewrite, vous risquez d'avoir des problèmes pour tester et d'être redirigé vers une url sans :84
Le port 84 n'est disponible que pour les ips françaises (213.186.33.X)
Commentaires:
Date: Tue, 07 Dec 2010 12:51:12 +0100
La mise à jour est en cours sur cluster014 (anciennement start).
Date: Fri, 10 Dec 2010 10:38:29 +0100
La mise à jour est finie sur cluster014.
Date: Tue, 18 Jan 2011 14:40:18 +0100
Nous allons démarré la mise à jour sur cluster010 (anciennement 60gp).
Type de tâche: Amélioration
Catégorie: 60gp
Etat: Finie
Nous testons un système de cache sur les fichiers volumineux sur le cluster010 dans le cadre de l'évolution de la bande passante en illimité.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Certains clients se plaignent que les mises à jour de wordoress
ne se passent pas correctement: la mise à jour est coupée.
Le probleme est dû à la durée de la connexion http/php qui est
necessaire pour effectuer la mise à jour et les timeout idle
c'est à dire pendant le temps où il se passe rien sur la connexion.
les firewall sont reglés avec les timeout idle assez long 60sec
ce qui permet d'éviter que les attaques posent les problemes.
nous avons remis les parametres par défaut la semaine passée
ce qui a provoqué 3 crashs de l'infra dû aux attaques et le
nombre de connexions ouvertes lors de l'attaque.
nous avons personalisé les parametrages et on surveille l'infra.
http://travaux.ovh.net/?do=details&id=5377
Commentaires:
Date: Tue, 03 May 2011 10:52:18 +0200
on passe de idle-timeout 60 à idle-timeout 180
Date: Thu, 05 May 2011 12:02:14 +0200
on l'a ajouté aussi sur l'IPv6.
Date: Sat, 21 May 2011 20:42:18 +0200
suite à la mise à jour de ACOS sur les boitiers AX
nous avons mis les valeurs de timeout par défaut
qui sont de 360 secondes.
si les boitiers ne plantent plus pendant les attaques
alors le probleme est resolu.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous allons commencer les travaux pour mettre en place la
redondance dans la repartition de charge se basant sur
2 AX et 3 ACE pour chaque plan.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
nous venons de basculer tous les plans sur la configuration
finale avec 2 pre-load balanceurs qui jouent le role de
firewall en même temps.
Maintenant nous allons pouvoir mettre en place 3 load balanceurs
active/active/active afin de palier aux eventuels problemes de
load balanceurs.
Commentaires:
Date: Mon, 17 Jan 2011 13:36:07 +0100
Le pre-load balanceur chargait beaucoup au niveau du CPU.
Nous avons remonté ce probleme, une version "engenering"
nous a été compilé. On l'a mis en place.
On vient de passer tout le trafic de mutu sur le 1er
boitier et on regarde le comportement.
Date: Mon, 17 Jan 2011 20:56:31 +0100
Nous avons mis dans la boucle le 2ème boitier pre-load balancing. Puis activer les syn-cookies.
Date: Tue, 18 Jan 2011 00:36:35 +0100
On vient de repasser sur la configuration de base avec une simple carte de repartition de charge. L'idée de tout ceci est de mettre 2 pre-load balanceurs + 3 repartisseurs de charge et avoir du 100% quelques soit les problemes.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Nous allons mettre à jour les 2 load balanceurs
sur P19.
Commentaires:
Date: Sat, 21 May 2011 20:15:55 +0200
p19-72 fait
Date: Sat, 21 May 2011 20:24:57 +0200
p19-77 fait.
Date: Sat, 21 May 2011 20:39:04 +0200
p19-82 et 87 fait
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
nous avons eu une attaque sur le mutu. ce qui a provoqué
un crash d'un de pre-repartisseur de charge. nous l'avons
sorti du routage. puis remis en place. puis redemarré le
2ème pre-repartisseur. la situation est stable. on remet
les bugs à a10 qui nous a vendu les pre-repartisseur pour
fixation de bugs.
Commentaires:
Date: Mon, 16 May 2011 20:41:57 +0200
nouveau crash de l'infra. on la retire de la production.
l'attaque continue.
Date: Tue, 17 May 2011 15:31:34 +0200
nous avons modifié les reglages pour allouer moins de RAM
et eviter le plantage dû à la saturation de la RAM.
nous testons aussi une protection contre les attaques qui
limite à 100 packets par seconde par IP. pour l'instant
l'action est juste "log" pour voir ce que ça fait.
Date: Tue, 17 May 2011 20:04:00 +0200
Nous avons mis la protection en place. Si une IP envoit plus de 200 packets par seconde, il est bloqué pendant 10 secondes.
Type de tâche: Incident
Catégorie: tous les start
Etat: Finie
nous avons eu un probleme hardware sur 4 serveurs
sql de start. C'est fixé.
Type de tâche: Amélioration
Catégorie: tous les start
Etat: Finie
Nous transférons les serveurs mysql5 des hébergements "start" sur notre nouvelle infrastructure d'hébergement, basée sur la technologie "Private Cloud" (plus d'informations sur http://www.ovh.com/fr/private_cloud/ )
Nous en profitons pour passer les serveurs sous MySQL version 5.1
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
Le serveur ne répond plus , une intervention est en cours.
Les sites hébergés sur /homez.332 sont impactés.
Commentaires:
Date: Wed, 04 May 2011 18:02:56 +0200
Le service est à nouveau disponible.
Type de tâche: Incident
Catégorie: 20gp
Etat: Finie
Le serveur a redémarré.
Un des bus PCI ou une carte en elle même semble être en cause, nous prévoyons un remplacement par un spare.
TIME EVENT-ID MSG-ID SEVERITY
May 12 11:19:21 91651a37-e6db-c76d-f1cf-aca164054b15 PCIEX-8000-DJ Major
Host : filerz105
Platform : X6DVA Chassis_id : 1234567890
Fault class : fault.io.pciex.device-noresp max 20%
fault.io.pciex.device-interr max 20%
fault.io.pciex.bus-noresp max 10%
Affects : dev:////pci@0,0/pci8086,3595@2/pci8086,32a@0,2
dev:////pci@0,0/pci8086,3595@2/pci8086,329@0
faulted but still in service
FRU : "MB" (hc://:product-id=X6DVA:chassis-id=1234567890:server-id=filerz105/motherboard=0)
faulty
Description : A problem has been detected on one of the specified devices or on
one of the specified connecting buses.
Refer to http://sun.com/msg/PCIEX-8000-DJ for more information.
Response : One or more device instances may be disabled
Impact : Loss of services provided by the device instances associated with
this fault
Action : If a plug-in card is involved check for badly-seated cards or
bent pins. Otherwise schedule a repair procedure to replace the
affected device(s).
Commentaires:
Date: Fri, 13 May 2011 00:56:41 +0200
Nous démarrons l'intervention.
Date: Fri, 13 May 2011 01:12:18 +0200
Done.
Type de tâche: Incident
Catégorie: mediaplan
Etat: Finie
Le serveur ne répond plus , une intervention est en cours.
Commentaires:
Date: Thu, 12 May 2011 09:49:21 +0200
Nous détectons des erreurs sur le contrôleur disque du serveur.
Nous allons remplacer le contrôleur.
Une indisponibilité de 5 à 10 minutes est à prévoir.
Date: Fri, 13 May 2011 00:31:59 +0200
Nous démarrons l'intervention.
Date: Fri, 13 May 2011 00:48:16 +0200
Done.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
Les opérations de lecture / ecriture sont bloquées sur le serveur.
Nous cherchons la cause du problème.
Les sites hébergés sur /homez.429 sont impactés.
Commentaires:
Date: Mon, 09 May 2011 12:18:17 +0200
Le contrôleur de disque est freezé , redémarrage en cours.
Date: Mon, 09 May 2011 12:23:04 +0200
Cable SAS défectueux, remplacé. Le service est à nouveau accessible.
Type de tâche: Amélioration
Catégorie: 1000gp
Etat: Finie
Nous transférons les serveurs mysql5-1.1000gp et mysql5-2.1000gp sur notre nouvelle infrastructure d'hébergement, basée sur la technologie "Private Cloud" (plus d'informations sur http://www.ovh.com/fr/private_cloud/ )
Nous en profitons pour passer les serveurs sous MySQL version 5.1
Commentaires:
Date: Wed, 04 May 2011 12:18:00 +0200
Nous coupons quelques minutes mysql5-1.1000gp pour procéder au basculement
Date: Wed, 04 May 2011 12:32:05 +0200
basculement terminé pour mysql5-1.1000gp
Date: Thu, 05 May 2011 10:15:09 +0200
Nous coupons quelques minutes mysql5-2.1000gp pour procéder au basculement
Date: Thu, 05 May 2011 10:24:31 +0200
opération terminée pour mysql5-2.1000gp
Type de tâche: Incident
Catégorie: mailplan
Etat: Finie
La machine présente une instabilité.
Commentaires:
Date: Mon, 02 May 2011 11:20:37 +0200
Nous basculons les disques dans un spare.
Date: Mon, 02 May 2011 11:20:54 +0200
Arrêt en cours.
Type de tâche: Maintenance
Catégorie: xxlplan
Etat: Finie
le service est actuellement indisponible.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous allons changer la machine ssh de chaque cluster pour mettre du raid.
Commentaires:
Date: Fri, 22 Apr 2011 11:32:53 +0200
cluster007 fait.
Date: Tue, 26 Apr 2011 11:48:59 +0200
cluster006 fait.
Date: Tue, 26 Apr 2011 11:55:58 +0200
cluster005 fait.
Date: Tue, 26 Apr 2011 12:27:12 +0200
cluster002 fait.
Date: Tue, 26 Apr 2011 12:29:15 +0200
cluster003 fait.
Date: Fri, 29 Apr 2011 18:59:50 +0200
les derniers clusters sont faits.
Type de tâche: Incident
Catégorie: 90plan
Etat: Finie
La machine ne ping plus.
Commentaires:
Date: Fri, 29 Apr 2011 16:56:42 +0200
Nous remplaçons le serveur par un spare
Date: Fri, 29 Apr 2011 17:14:56 +0200
Le spare est en place, le serveur fait un check des données avant de lancer le service.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le filer hébergeant les sites sur /homez.420 est actuellement inaccessible.
Une intervention est en cours.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Un problème technique au niveau du réseau du datacentre p19 provoque actuellement des perturbations sur certains serveurs de l'hébergement mutualisé.
Une intervention est en cours.
Commentaires:
Date: Mon, 25 Apr 2011 16:53:59 +0200
Le réseau est stabilisé. L'intervention sr poursuit, mais il ne devrait plus y avoir de perturbations actuellement.
Date: Tue, 26 Apr 2011 12:05:03 +0200
Il y a encore des problèmes d'instabilité ponctuels. Nos équipes sont en train de corriger le problème.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le serveur présente un problème matériel. Une intervention est en cours.
Commentaires:
Date: Fri, 22 Apr 2011 10:19:04 +0200
Nous avons changé la RAM, nous surveillons l'activité du serveur :
Apr 22 09:44:31 mysql5-20 EDAC MC0: UE row 2, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=6 RDWR=Write RAS=15924 CAS=0 FATAL Err=0x1 (Alert on non-redundant retry or fast reset timeout))
Apr 22 09:44:39 mysql5-20 EDAC MC0: UE row 3, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=2 RDWR=Write RAS=1611 CAS=0 FATAL Err=0x1 (Alert on non-redundant retry or fast reset timeout))
Apr 22 09:44:40 mysql5-20 EDAC MC0: UE row 1, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=0 RDWR=Write RAS=7934 CAS=0 FATAL Err=0x1 (Alert on non-redundant retry or fast reset timeout))
Apr 22 09:44:41 mysql5-20 EDAC MC0: UE row 0, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=0 RDWR=Write RAS=6034 CAS=0 FATAL Err=0x1 (Alert on non-redundant retry or fast reset timeout))
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Suite à la découverte d'un bug dans la gestion des quotas des bases de données, nous lançons une mise à jour massive de tous les quotas SQL.
Certaines bases de données en overquota qui n'étaient pas détectées par le système seront bloquées suite à cette opération.
IMPORTANT : le bug implique uniquement des résultats inférieurs à la réalité. Aucune base ayant été bloquée précédemment ne l'a été par erreur.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
Le serveur est tombé en panne. Nous avons mis les disques dans un spare.
Commentaires:
Date: Thu, 21 Apr 2011 23:46:28 +0200
La RAM est hs dans le spare, c'est la loi des séries !
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
Le serveur a un soucis de refroidissement.
Type de tâche: Amélioration
Catégorie: logs
Etat: Finie
Nous le basculons sur le nouveau système de répartition de charge.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
Le filerz est instable, nous cherchons l'origine du problème.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous allons augmenter la durée maximum d'exécution autorisée pour les scripts PHP sur tous les clusters de 30 secondes à 2 min.
Cela devrait limiter les problèmes rencontrés par certains clients sur les mises à jour ou les installations de CMS.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le serveur sql4.modules a redémarré et est en train de faire un check d'intégrité des données.
Le service sera à nouveau accessible à la fin de cette vérification.
Commentaires:
Date: Wed, 13 Apr 2011 08:41:50 +0200
Nous avons été contraint de redémarrer à nouveau le service. Un check d'integrité des données est en cours.
Date: Wed, 13 Apr 2011 09:48:45 +0200
Retour à la normale.
Date: Wed, 13 Apr 2011 14:14:15 +0200
last boot reason: NP 1 Failed : NP Control Store Parity Error
4 plantages. on va changer la carte.
Type de tâche: Incident
Catégorie: 300gp
Etat: Finie
Le filerz rencontre actuellement quelques problèmes sur sa chaine SAS. Nous allons couper le filerz quelques minutes afin de corriger le problème.
Commentaires:
Date: Sat, 16 Apr 2011 11:18:48 +0200
Le filer est en cours de redémarrage.
Type de tâche: Incident
Catégorie: 240plan
Etat: Finie
Le serveur ne répond plus, une intervention est en cours.
Les sites hébergés sur /homez.402 sont impactés.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
la carte a planté à nouveau.
le systeme fonctionne sur une double AX et une double ACE.
on regarde si le failover a bien pris automatiquement.
Commentaires:
Date: Wed, 13 Apr 2011 13:56:11 +0200
les accès ftp/ssh vers cluster002/clustercluster012/cluster013 sont impactés.
Date: Wed, 13 Apr 2011 19:27:11 +0200
La carte a été mise à jour au niveau du software. C'est pour l'instant stable.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
filerz42.60gp ne répond plus , une intervention est en cours.
Les sites hébergés sur /homez.42 sont impactés.
Commentaires:
Date: Wed, 13 Apr 2011 16:58:35 +0200
Retour à la normale.
Type de tâche: Incident
Catégorie: 90plan
Etat: Finie
Le filer ne répond plus.
Une intervention est en cours.
Commentaires:
Date: Wed, 06 Apr 2011 03:14:41 +0200
Retour à la normale. Nous surveillons l'activité du serveur.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
la carte a crashé
last boot reason: NP 2 Failed : Nitrox Crash Detected
nous avons mis en place un double load balancing
sur cette carte.
Type de tâche: Incident
Catégorie: mediaplan
Etat: Finie
Le serveur qui stocke les sites sur /homez.402 a redémarré pour une raison inconnue.
Une intervention est en cours.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Nous mettons en place les protections de l'hébergement mutualisation
contre les attaques et utilisation abusif. Ces protections consistent
à contenir l'utilisation qu'une IP peut faire sur notre infrastructure
et donc eviter qu'une ou une 100ème d'IP fassent beaucoup de degars.
Commentaires:
Date: Thu, 18 Nov 2010 08:32:49 +0100
Apparament les protections que nous avons mis en place sont entrées en resonnance avec utilisation d'AX. On va chercher pourquoi. A cause de probleme de SSL sur cluster003/240plan nous avons repassé ce cluster sur AX. D'où le probleme.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous testons un patch sur cluster012 pour améliorer la vitesse d'exécution de certains scripts PHP. Il n'y a normalement pas de perturbations à prévoir.
En cas de problème, n'hésitez pas à contacter le service client.
Type de tâche: Maintenance
Catégorie: tous les plans
Etat: Finie
Nous lançons un recalcul des logs du mois de mars pour de nombreux domaines commençant par la lettre L et par la lettre T
Pendant l'opération de recalcul, il peut y avoir, pour les domaines concernés, des perturbations temporaires dans l'accès aux logs Urchin6
Type de tâche: Incident
Catégorie: tous les start
Etat: Finie
Le filer hébergeant les sites sur homez.154 présente des problèmes de charge inhabituels depuis plusieurs dizaines de minutes. Nous suspectons un problème de CPU. Le remplacement des processeurs est en cours.
Commentaires:
Date: Fri, 25 Mar 2011 03:30:26 +0100
Le filer refuse de démarrer. Nous allons basculer sur un spare.
Type de tâche: Incident
Catégorie: 60gp
Etat: Finie
Le serveur a redémarré, un des CPU est en cause , nous allons le remplacer.
Les sites hebergés sur /homez.332 sont impactés.
Fault class : fault.cpu.intel.nb.fsb
Problem in : hc://:product-id=X7DCA-L:server-id=filerz332:chassis-id=0123456789/motherboard=0/chip=0
faulted but still in service
FRU : hc://:product-id=X7DCA-L:server-id=filerz332:chassis-id=0123456789/motherboard=0/chip=0
faulty
Commentaires:
Date: Mon, 21 Mar 2011 16:58:42 +0100
Le CPU est remplacé, nous suivons l'activité du serveur.
Type de tâche: Incident
Catégorie: mediaplan
Etat: Finie
Le serveur a redémarré pour une raison inconnue.
Les sites hebergés sur /homez.402 sont impactés.
Une intervention est en cours.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
la carte ACE1 a replanté. elle est revenue.
last boot reason: NP 1 Failed : SRAM Parity Error Chan 1
Type de tâche: Maintenance
Catégorie: 60gp
Etat: Finie
Nous constatons des ralentissements pour les sites hebergés sur /homez.406.
Une intervention est cours.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le répartiteur de charge numéro 3 est en cours de redémarrage.
Commentaires:
Date: Wed, 16 Mar 2011 12:28:29 +0100
Les sites sur les clusters 002 012 et 013 sont actuellement indisponibles
Date: Wed, 16 Mar 2011 12:45:22 +0100
last boot reason: NP 2 Failed : NP Process Crashed
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Des ralentissements sur les opérations liées aux modules sont actuellement constatés.
Nous intervenons.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Les installations des commandes d'hébergements mutualisés ont pris un peu de retard. Tout devrait être réglé dans la journée.
Type de tâche: Incident
Catégorie: 90plan
Etat: Finie
Le serveur ne répond plus, une intervention est en cours.
Les sites hébergés sur /homez.33 sont impactés.
Commentaires:
Date: Mon, 14 Mar 2011 12:25:47 +0100
Le service est à nouveau disponible.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Le filer de données était freezé. Nous l'avons redémarré. Les services sont UP.
Commentaires:
Date: Sun, 13 Mar 2011 15:12:21 +0100
Le filer est encore instable, nous cherchons l'origine du problème
Date: Sun, 13 Mar 2011 15:21:48 +0100
Nous changeons le chassis par un spare.
Date: Sun, 13 Mar 2011 15:32:43 +0100
Le changement par un spare est terminé. Les servies sont UP.
Type de tâche: Incident
Catégorie: tous les plans
Etat: Finie
Il y a un problème au niveau du répartiteur de charge.
Type de tâche: Amélioration
Catégorie: tous les plans
Etat: Finie
Nous allons procéder au remplacement du serveur sql1.modules par une nouvelle machine.
Une coupure de quelques minutes aura lieu lors de la dernière étape du basculement.
Type de tâche: Amélioration
Catégorie: tous les start
Etat: Finie
Nous allons remplacer le serveur sql.start par une nouvelle machine. L'opération entrainera une coupure de quelques minutes au moment du basculement.
Type de tâche: Maintenance
Catégorie: mediaplan
Etat: Finie
Le filer ne répond plus.
Nous intervenons.
Commentaires:
Date: Fri, 11 Feb 2011 12:56:00 +0100
Le serveur a redémarré pour une raison encore inconnue.
Le service est en cours de redémarrage.
Retour à la normale dans 5 minutes.
Date: Fri, 11 Feb 2011 15:45:53 +0100
Une défaillance sur un des bus PCI semble être à l'origine du problème.
Un remplacement du serveur est planifié.
Fault class : fault.io.pci.device-interr 67%
fault.io.pci.bus-linkerr 33%
Affects : dev:////pci@0,0/pci8086,3595@2/pci8086,32a@0,2/pci1000,30e0@1
dev:////pci@0,0/pci8086,3595@2/pci8086,32a@0,2
FRU : "Slot6" (hc://:product-id=X6DVA:chassis-id=1234567890:server-id=filerz85/motherboard=0/hostbridge=0/pciexrc=0/pciexbus=1/pciexdev=0/pciexfn=2/pcibus=2/pcidev=1) 67%
"MB" (hc://:product-id=X6DVA:chassis-id=1234567890:server-id=filerz85/motherboard=0) 33%
faulty
Télécharger le programme d'Assistance Actupro
: 