We are in the process of migrating this forum. A new space will be available soon. We are sorry for the inconvenience.

Tinklo darbai su VSS


oles@ovh.net
08-11-2010, 12:56 AM
Pradedame paskutinę darbų su vss-2-6k fazę.

http://travaux.ovh.com/?do=details&id=4461

Pakeisime konfigūraciją. Po to reikės perkrauti maršrutizatorių. Tai užtruks 15-30 minučių, kol atsinaujins visos paslaugos.

oles@ovh.net
08-05-2010, 11:10 PM
http://travaux.ovh.com/?do=details&id=4440

Labas vakaras,
Roubaix 2 duomenų centre diegiame tinklą, kurio pasiekiamumas būtų 100%. Tam naudosime Cisco 6509 komutatorius VSS konfigūracijoje Kitaip sakant, sukursime 2 atskiras sistemas, veikiančias kaip 1. Naudojant 2 sistemas viskas bus dubliuota, todėl turėtume pasiekti 100% pasiekiamumą.

Realiame pasaulyje susiduriame su daug VSS problemų, kurios iššaukia paslaugų neveikimus ir neatitinka pagrindinės sutarties. Dažniausiai susiduriame su „chroniškomis“ BGP problemomis. Minimaliai pakeitus maršrutizavimo taisykles, maršrutizatoriaus CPU ne trumpiau nei 15 minučių būna apkrautas 100% . Nesvarbu. 2009 pabaigoje vidiniame savo tinkle įdiegėme stiprias apsaugas, kurios izoliuoja vieną serverį nuo kito. Tai atliekama privačiame vlan ir arp proxy. Per daug standartinis sprendimas. Vietoje serverio atsako maršrutizatorius ir užtikrina maršrutizavimą tame pačiame tinkle. Viskas labai saugu. Taigi, maršrutizatorius turi atsakyti visų serverių visiems naudojamiems MAC ir šį procesą valdantis VSS naudoja daug CPU.

Normaliu metus viskas veikia gerai. Tačiau pakanka perskaičiuoti tinklo maršrutizavimo lenteles ir BGP naudoja 100% CPU, tuomet MAC procesai neveikia. To pasekmė: serveriai neatpažįsta MAC ir paslauga neveikia 1, 3 ar 8 minutes, priklausomai nuo BGP lentelių perskaičiavimo svarbos.

Norime pataisyti BGP problemą su specialiais maršrutizatoriais, kurie veikia šiek tiek kitaip. Route reflector. Techninę įrangą turėtume gauti šį mėnesį, tačiau užsakymai blogai registruojami tarp platintojų ir gamintojų... Taigi, geriausiu atveju viską gausime rugsėjo pabaigoje... Nusprendėme nelaukti pristatymo ir pradėti keitimus jau šį savaitgalį.

Tačiau dabar turime MAC problemą. Todėl nutraukėme VSS konfigūravimą ir palikome tia, kas ligšiol gerai veikė: 1 maršrutizatorius vienoje sistemoje. Turime maždaug 30 nepriekaištingai veikiančių maršrutizatorių su „mono“ konfigūracija. Problemo kyla tik dubliuotos konfigūracijos maršrutizatoriuose. Sustabdysime tokias sistemas.

Taigi, nuo ateinančios savaitės, pakeisime VSS konfigūraciją į vienos sistemos.

Viską atliksime 4 etapais:
- Visos duomenų centro linijos, prijungtos prie 2 sistemos, bus perjungtos prie 1. Paslaugų veikimas nenutrūks ir viskas veiks 1-oje sistemoje.
- Visos interneto linijos, prijungtos prie 2 sistemos, bus perjungtos prie 1. Paslaugų veikimas nenutrūks ir viskas veiks 1-oje sistemoje.
- Maitinimo nutraukimas 2-ai sistemai. Jokių sutrikimų, kadangi ji bus nenaudojama.
- 1 sistemos keitimas į „mono“. Reikės perkrauti maršrutizatorių, todėl 15 minučių sutriks paslaugų teikimas. Jeigu viskas eisis gerai, tai padarysime savaitės pabaigoje, 4 valandą ryte.

Atakuosime pirmąjį vss-2, kuris kelia daugiausiai problemų.

Pasiekus 4 etapą su BGP problemų neturėtų būti. Gali būti, kad 2 sistemos konfigūravimo metu problemos bus išspręsto 2-3 etapuose, kadangi viskas pradės veikti 1-oje sistemoje. Tačiau nesame tuo įsitikinę. Bet kuriuo atveju, iki 4 etapo pabaigos viskas bus pataisyta.

Kai bus sutaisytas BGP, manome, kartu išsispręs ir MAC problema. Jeigu BGP blogai veikia dubliuotoje sistemoje, ar negali būti, kad ir kiti procesai blogai veikia joje? Taip pat pamatysime.

Apgailestaujame dėl visų smulkių sutrikimų, kilusių dėl čia paaiškintų priežasčių Roubaix 2 duomenų centre. Visa tai dėl blogo įrangos pasirinkimo. Manėme, kad gamintojas pataisys CPU problemas, tačiau, pasak jo, tai normalu. Tokia techninė įranga daugiau nebetenkina mūsų poreikių. Pakeisime ją. Blogai pasielgėme šioje situacijoje, nereikėjo kreiptis į gamintoją, o iškart ieškoti paprastesnės išeities. Problemų valdymo klaida.

Tęsiant atvirumo temą, tikriausiai pastebėjote ryšio į Londoną, Amsterdamą ir Frankfurtą sutrikimus prieš maždaug 14 dienų. Prieš 14 dienų nutiesėme papildomas linijas Londonas-Amsterdamas ir Paryžius-Frankfurtas. Įdėjome nemažas investicijas, kad paruoštume 100% saugų „backbone“, kuris veiks net atsiradus sutrikimams pačiame pluošte. Papildomų linijų prijungimas išnaudojo visą maršrutizatorių RAM ir nutrūko ryšys su Londonu. Dėl tos pačios priežasties sutriko ryšys su Amsterdamu ir Frankfurtu. Kai „lužta“ maršrutizatorius, po to reikia perskaičiuoti BGP ir atsiranda 100% naudojimas VSS... Štai iš kur problemos Roubaix 2 paslaugoms
Problemą išsprendėme išjungdami MPLS, kadangi jis nėra būtinas, tačiau naudoja 20% RAM. Dabar viskas stabilu.

Norėjome atostogų metu pakeisti visus maršrutizatorius, tačiau dar neturime norimos įrangos, o ta, kurią turime - neveikia. Gavome naujus Cisco Nexus 7000m bet BGP neveikia ir generuoja daug klaidų pranešimų... Nauja įranga ir va... Dar vienas blogas įrangos pasirinkimas. Nusimato dideli ginčai... O tai irgi pristabdys naujų maršrutizatorių siuntimą. Šiuo metu bendraujame su visais gamintojais, kad patikrintume, ką galime naudoti vietoje numatytos įrangos. Nenumatytas trikdis, kuris pristabdė kitų darbų eigą...

Taigi...

Manau, kad po šio įvykio negalime būti labiau atviri.

Linkėjimai,
Octave