PROJET AUTOBLOG


Zythom

Site original : Zythom
⇐ retour index

Mise à jour

Mise à jour de la base de données, veuillez patienter...

25 ans dans une startup - billet n.37.5

dimanche 21 octobre 2018 à 19:41
Introduction - billet n.37

Je ne pensais pas que vous seriez aussi nombreux à suivre cette série de billets "25 ans dans une startup" et je vous en remercie.

Quand j'ai commencé la série, j'indiquais dans l'introduction que j'avais fait un point professionnel un peu éprouvant. Je n'ai pas encore abordé ce point dans la série, mais il se trouve que l'une de ses conséquences est en train de se dérouler actuellement, de manière plutôt surprenante pour moi, surtout quand je relis le billet "TeamVieux" (en même temps, je le cherchais un peu).

Comme la série s'approche de sa fin, et donc de l'instant présent, je suis obligé d'attendre que tout rentre dans l'ordre. C'est juste pour moi un mauvais moment à passer.

Je suspends donc la série pour quelques mois. Je vais en profiter pour finir le tome 7 des billets de ce blog et laisser passer l'orage jusque janvier, puis je finirai l'écriture de la série, avec quelques belles surprises à partager (et les explications de tous ces mystères). Enfin, cette série constituera l'essentiel du tome 8. Je rappelle que les tomes 1 à 6 sont disponibles gratuitement en téléchargement sur le blog (sans DRM) dans la rubrique Publications.

2019 sera pour moi une année de grands changements. Le blog va également changer d'orientation. J'en parlerai dans l'épilogue de la série des "25 ans dans une startup". Merci pour votre patience.

A suivre...

Extrait de http://salemoment.tumblr.com/
avec l'aimable autorisation de l'auteur Olivier Ka

Source : https://zythom.blogspot.com/feeds/3083366217508917577/comments/default


25 ans dans une startup - billet n.37

jeudi 18 octobre 2018 à 05:00
Introduction - billet n.36

Pendant la tempête Xynthia de 2010, le service informatique de mon département avait été sinistré. Par solidarité avec les agents concernés, et bien que travaillant dans une entreprise privée (hébergée dans des locaux appartenant au département), j'étais allé leur donner un coup de main, certes modeste en regard des dégâts. Plusieurs d'entre eux avaient apprécié le geste. C'est dans les moments difficiles qu'on a besoin de soutiens.

Il se trouve qu'à ce moment-là, simplement parce que j'étais présent dans les locaux du département, et connu du DSI, j'ai assisté en spectateur externe à plusieurs réunions de gestion de crise, en particulier des réunions liées aux problèmes de communications téléphoniques (tous les réseaux téléphoniques étaient en panne). De cette époque, j'ai gardé dans mon téléphone plusieurs numéros d'urgence, et en particulier les numéros du personnel d'astreinte... Je ne m'en étais jamais servi, et c'est en cherchant dans les contacts de mon téléphone que je suis tombé dessus.

J'en essaye un, puis un autre, et à un moment un agent territorial me répond. Je lui expose mon problème, un peu incrédule sur l'aide qu'il va pouvoir m'accorder. Et là, un petit miracle se produit :

Lui : "C'est l'astreinte technique au téléphone. Je vais faire le nécessaire."

Moi : "Mais comment ça le nécessaire ?"

Lui : "Alors voilà : je vous fais livrer lundi par camion deux groupes électrogènes de forte puissance en container. Ils devraient être en service aussitôt. Ne vous inquiétez pas. L'expert technique du département passera aussitôt pour voir les dégâts et déclencher la remise en état. Bon week-end."

Le lundi, deux énormes containers étaient installés sur le parking et raccordés au réseau électrique de la startup. L'électricité était pleinement rétablie le mardi et tout le monde pouvait travailler.

Je n'en revenais pas.

J'entends souvent dans mon entourage des critiques sur les fonctionnaires. Mes parents étaient tous les deux instituteurs et vivaient pleinement et avec passion leur métier. Je connais donc la valeur et l'implication des agents du service public.

Mais le vivre et le voir à l’œuvre concrètement, cela m'a fait chaud au cœur.

Quelques semaines plus tard, les armoires haute tension étaient remplacées, les assurances versaient les indemnités. Ce cauchemar devenait de l'histoire ancienne.

Il restait à tirer les leçons de cet événement pour hausser le niveau de sécurité.

Billet n.37.5

--------------

Ce récit est basé sur des faits réels, les noms et certains lieux ont été changés.


Source : https://zythom.blogspot.com/feeds/8781401613903371345/comments/default


25 ans dans une startup - billet n.36

mardi 16 octobre 2018 à 05:00
Introduction - billet n.35

Samedi matin, une semaine de 15 août où la France est massivement en vacances, je reçois un coup de téléphone du gardien qui habite dans la startup.

Comme tous les salariés de la startup, je suis en vacances depuis trois semaines et la réouverture des locaux est prévue lundi (dans deux jours). Je suis en train de profiter des dernières heures de calme avant le retour dans mon quotidien professionnel un peu agité. Le gardien est aussi en vacances, mais comme il habite dans la startup, il jette un œil aux locaux en complément de la télésurveillance.

"Zythom, de la fumée sort du local haute tension. J'ai appelé les pompiers qui arrivent. Le courant est coupé dans tout le quartier. Je fais quoi ?"

J'ai les cheveux qui se dressent sur la tête, exactement comme le CAPCOM Jack Lousma quand il fit répéter à l'astronaute Jack Swigert la phrase qui allait devenir célèbre : "Houston, we've had a problem", pendant que sur tous les écrans de contrôle les indicateurs s'affolaient...

Après quelques secondes d'hésitation, je lui réponds :
"Tu gères les pompiers. Tu leur facilites l'accès. Tu fais attention au jus. Tu me tiens au courant."

C'est toujours dans ces moments-là que je fais une mauvaise vanne...

Je raccroche un peu sonné. Je m'assoie. Pendant quelques minutes, je reste immobile. Je me demande quoi faire. Très vite, les réflexes "plan B, plan C, plan D" reprennent le dessus. Je décide d'appeler le propriétaire des bâtiments, c'est-à-dire le conseil départemental. Nous sommes samedi, un week-end qui suit le 15 août... Je sens poindre une difficulté. Surtout que je n'ai pas beaucoup d'éléments. Je décide d'attendre. J'attaque les ongles.

Le gardien me rappelle, et me donne les informations suivantes : "Zythom, c'est bon. Les pompiers sont sur place. L'incendie est maîtrisé. Il s'est éteint tout seul dans le local haute tension. C'est bon. C'est bon. Par contre, les armoires électriques haute tension sont hors d'usage. Les pompiers me disent qu'il y a peu de chance qu'on puisse remettre l'électricité. Je fais quoi ?"

Je lui réponds : "Tu appelles l'astreinte ENGIE avec qui on a un contrat d'intervention sur la haute tension. Tu as le numéro dans ton téléphone, sinon il est affiché dans l'atelier technique, ou dans mon bureau sur la porte de l'armoire. Tu leur dis de rappliquer fissa, et de remettre tout en état : on rouvre lundi. Tiens moi au courant (bis repetita placent)."

Il me rappelle une heure plus tard, alors que j'attaquais avec les dents mes phalanges distales.

"Zythom, c'est bon, les techniciens d'ENGIE sont là. Ils ont remis le courant dans le quartier. Mais pour nous, c'est mort : ce sont nos disjoncteurs haute tension qui ont brûlé. Ils doivent faire un devis et passer commande. Avec ce type d'armoire, il y en a pour des semaines... Je fais quoi ?"

"Tu leur dis de faire un état des lieux complets, et d'activer au plus vite leur chef pour un devis et une commande rapide. Tu vérifies bien la fermeture de l'accès au local haute tension derrière eux, et tu rentres chez toi. Et n'ouvre pas ton congélateur et tu vides ton réfrigérateur en faisant un bon repas ce soir. J'essaye de trouver une solution à distance. Bravo pour ton intervention. Je prends le relais. J'accélère mon retour de vacances, je viens te voir demain dimanche sur place. Je t'appelle avant de venir."

Une fois le téléphone raccroché (même s'il n'y a pas vraiment de crochet), je fais mentalement le point : nous sommes samedi 17 août, il est 16h, la startup n'a plus d'électricité pour les semaines à venir, en dehors de la salle serveurs. Il faut que j'arrive à joindre un décideur du conseil départemental. Lundi nous serons 20 personnes présentes dans les locaux à rembaucher, 100 la semaine suivante et 900 dans quinze jours...

Le temps s'est arrêté. Putain, mais je fais quoi, moi ?

Billet n.37

--------------

Ce récit est basé sur des faits réels, les noms et certains lieux ont été changés.

Quand le temps s'arrête, il est temps de faire une pause (haha). Hum.

Source : https://zythom.blogspot.com/feeds/464180810088648396/comments/default


25 ans dans une startup - billet n.35

jeudi 11 octobre 2018 à 05:00
Introduction - billet n.34

La climatisation avait été oubliée. Elle était restée branchée sur le courant normal.

"C'est qu'on ne met pas aussi facilement une clim sur un onduleur", me dit l'installateur. C'est bien la peine d'avoir une salle serveurs qui tourne à plein régime, si c'est pour cramer les composants des machines en montant à 60°...

Après moultes devis tout aussi élevés les uns que les autres, j'ai fini par choisir de mettre deux climatisations : l'une directement branchée sur le groupe électrogène, et capable de redémarrer toute seule en cas de coupure (il faut 3s pour que le groupe électrogène atteigne sa puissance électrique nominale), et l'autre sur le courant standard.

Chaque clim est capable de maintenir la salle serveurs à une température acceptable. Et pour éviter qu'elles ne fonctionnent en même temps (pour économiser l'énergie et faire durer plus longtemps chaque clim), elles sont réglées sur une température qui diffère d'un degré. Et à chaque contrôle de maintenance des clims, on inverse la différence. Une seule clim fonctionne, et si elle s'arrête (panne mécanique par exemple), l'autre prendra le relais après une élévation de température d'un degré.

Si une panne générale électrique survient, les deux clims s'arrêtent, et celle branchée sur le groupe électrogène redémarrera.

Comme bien sur, en tant que responsable de tous les ennuis techniques et informatiques possibles et imaginables, je suis d'astreinte 24/7 toute l'année, j'ai mis en place un serveur Nagios (maintenant remplacé par un serveur Centreon), et je reçois un email associé à un SMS (envoyé gratuitement par Google via un script GMail) en cas d'alerte.

Une sonde Centreon surveille la température de la salle, et si elle monte trop haut (panne des deux clims par exemple) un processus d'arrêt en douceur des 70 serveurs virtuels, et des machines physiques hôtes, se déclenche. Je peux partir en vacances l'esprit tranquille.

Jusqu'au jour où je reçois un coup de téléphone affolé du gardien. Un truc imprévu nous tombait sur la tête. Et cette fois, c'est grave. Très grave.

Billet n.36

--------------

Ce récit est basé sur des faits réels, les noms et certains lieux ont été changés.

Un truc imprévu (allégorie)
Cliquez pour agrandir l'image
Source : Golem

Source : https://zythom.blogspot.com/feeds/1538600911061127896/comments/default


25 ans dans une startup - billet n.34

mardi 9 octobre 2018 à 05:00
Introduction - billet n.33

On ne plaisante pas avec l'électricité. Toute la salle serveurs est alimentée en courant secouru, c'est-à-dire issu d'onduleurs. Le problème est que de temps en temps, en fait à chaque intervention de maintenance sur les onduleurs, tout saute, et on se retrouve sans aucun serveur, alors que le courant "normal" continue de fonctionner sur tous les postes de la startup.

Évidemment, c'est sur le service informatique que tout le mécontentement se déverse...

Je réfléchis donc à essayer d'améliorer la situation, et me plonge dans les différents types d'onduleurs, les capacités des batteries, les différents contrats de maintenance, etc. Puis, je me souviens qu'il y a une sorte de groupe électrogène vaguement utilisé dans un coin de la startup. Je mène ma petite enquête et je comprends que ce groupe sert uniquement en cas d'incendie : il alimente les moteurs des trappes d'évacuation des fumées. Comme il ne sert jamais, il a un peu été oublié dans son coin.

J'étudie la documentation, et les textes réglementaires. Rien ne s'oppose à ce que j'exploite un peu plus les capacités de cet énorme groupe électrogène. D'abord, je le fais réparer (il doit être chauffé en permanence par une résistance électrique pour le maintenir en température, et éviter une rupture en cas de démarrage et d'exploitation immédiate à pleine charge), puis je trouve une entreprise capable d'en assurer la maintenance. Ensuite, avec une entreprise électrique qualifiée, je fais mettre en place une dérivation pour alimenter tous les onduleurs de la startup. Enfin, je fais valider tout cela par la commission de sécurité qui passe tous les trois ans.

J'ai donc un groupe électrogène qui démarre en cas de coupure de courant, et met environ 3 secondes à fournir un courant de charge pour les onduleurs. Ceux-ci auront immédiatement pris le relais de la coupure, sans micro-coupure, et continueront de tenir leur rôle tant qu'il y aura du carburant dans le groupe électrogène. Au pire, si un jour la demande de courant est trop importante, la capacité des onduleurs de faire fonctionner la salle serveurs aura été passée d'un quart d'heure à plusieurs jours.

Bien sur, j'ai vérifié que les serveurs, les systèmes de stockage et les commutateurs avaient tous au moins deux alimentations, l'une sur le secouru et l'autre sur le courant standard.

A la première panne électrique de secteur, je suis allé voir si tout allait bien en salle serveurs. Tout fonctionnait parfaitement... sauf un détail. Un petit détail qui risquait de ruiner la salle serveurs.

Billet n.35

--------------

Ce récit est basé sur des faits réels, les noms et certains lieux ont été changés.


Source : https://zythom.blogspot.com/feeds/6020356366126364411/comments/default