5 Výstražné príznaky poruchy kritického zariadenia

Autor: Judy Howell
Dátum Stvorenia: 25 V Júli 2021
Dátum Aktualizácie: 23 V Júni 2024
Anonim
5 Výstražné príznaky poruchy kritického zariadenia - Technológie
5 Výstražné príznaky poruchy kritického zariadenia - Technológie

Obsah


Zobrať:

Zníženie prestojov pomocou dôkladného plánovania vopred môže znamenať rozdiel medzi rastom a poklesom podnikania. To je miesto, kde prichádza priemerný čas medzi zlyhaním.

Nepodceňujte, koľko sa súčasné spoločnosti spoliehajú každý deň na kritické systémy. Preto je jediným zdravým rozumom, že podnik dokáže odhadnúť riziko zlyhania zariadenia. Bez záruk toho, kedy by niektoré zariadenie mohlo zlyhať, musí existovať aspoň presný odhad toho, kedy sa už nemôže považovať za spoľahlivé.

Inak neviditeľné časti zariadenia sa nemusia zdať pre podnikanie kritické, ale keď jeden chladiaci ventilátor zlyhá, spôsobí, že sa generátor vzdá ducha a spôsobí desiatky až stovky tisícov používateľov nákladné problémy na dlhšiu dobu, môžete však Uvidíte, že schopnosť odhadnúť, ktoré komponenty vašej infraštruktúry by mohli zlyhať - a kedy -, má prvoradý význam. To je prípad, keď nastane stredná doba medzi poruchami (MTBF), metóda, na ktorú sa IT odborníci spoliehajú odhady o zlyhaní kritického zariadenia. Tu sa pozrieme na to, čo nakoniec zabije niektoré bežné typy kritického vybavenia a ako môže MTBF pomôcť zachrániť deň.


Čo je MTBF?

Každému vyrobenému IT zariadeniu je pridelené jedinečné číslo modelu. Tí, ktorí zohrávajú určitú úlohu v kritickej infraštruktúre, sa zákazníkom dodávajú s odhadom MTBF. Komplexné výpočty na vypracovanie MTBF pre časť zariadenia sa uskutočňujú počas zdĺhavej fázy testovania v rámci výskumu a vývoja výrobkov a sú relatívne špecifické pre konkrétny model.

Ak hľadáte MTBF pre konkrétne zariadenie, nájdete ho v podrobnom technickom liste dodanom výrobcom. Môžete tiež priamo kontaktovať výrobcu.

smerovanie

Podnikový smerovač obsahuje mnoho častí, niektoré pohyblivé a iné statické. Napájacie jednotky (PSU) a chladiace ventilátory majú pohyblivé časti a ich prvky, ktoré majú tendenciu byť bodmi zlyhania, najmä ak jednotka nie je umiestnená vo vnútri bezprašného dátového centra. Našťastie, s niektorými vstupmi správcu bude väčšina smerovačov hlásená SysLog zariadenie, aby bolo možné označiť všetky zlyhané komponenty.


prepínače

Podobným spôsobom je ďalšou úrovňou podnikovej siete prepínací hardvér. Aj keď sa prepínače podnikovej triedy tiež spoliehajú na fanúšikov, zvyčajne ich je menej ako tých, ktoré sa nachádzajú v šasi routera. Ak sú mechanizmy vírenia ventilátorov neporušené, potom sa chybný prepínač obvykle správa na úrovni softvéru buď neočakávaným vypnutím portu prepínača, alebo častejšie prejavom neobvyklého správania, ako je napríklad vyradenie paketov, spôsobenie rôznych úrovní narušenia prevádzky alebo nesprávna zmena užívateľsky definované nastavenia bez toho, aby sa od nich požadovalo.

Vďaka sieti Cisco inzeruje jeden zo svojich smerovačov MTBF 188 574 hodín pre model Cisco Catalyst 3750G-24TS. Ak vydelíme tento počet 8 765 81277 (počet hodín v roku), zistíme, že tento model má odhad MTBF okolo 21,5 roka. Toto číslo má istotu, keď sa domnievate, že toto zariadenie musí fungovať dobre 24 hodín denne, 7 dní v týždni, hoci v skutočnosti je to jednoducho indikácia jeho spoľahlivosti. Napriek tomu poskytuje používateľom vzdelaný odhad toho, ako dlho sa dá očakávať, že toto zariadenie vydrží.

Odolná sila

Nepretržité napájacie zdroje (UPS) pripojené k veľkému počtu batérií môžu poskytnúť záložnú energiu v rámci podniku počas krátkeho kúzla predtým, ako sa generátory rozpadnú počas výpadku napájania. Určité konkrétne softvérové ​​chyby sa môžu vyskytnúť v rámci UPS, rovnako ako pri akomkoľvek zariadení, ale všeobecne batérie, z ktorých čerpajú energiu, zvyčajne spôsobia najväčšie znepokojenie. Ak sa batéria UPS často vybíja a dobíja, jej kapacita sa zníži rýchlejšie a jej prevádzková doba sa dramaticky skráti. Nie je prekvapením, že je možné, že batérie UPS úplne zlyhajú. UPS sa môže hlásiť cez modemy a siete, keď sa vyskytnú chyby, ale častejšie ako ne, staršie UPS spustia zvukové alarmy, keď sa vyskytne problém.

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Svoje programovacie schopnosti si nemôžete vylepšiť, keď sa nikto nestará o kvalitu softvéru.

Chránené úložisko

Pevné disky, ktoré dnes používame a na ktoré sa veľmi spoliehame, sa za posledných desať rokov stali podstatne spoľahlivejšími. Nie sú však ani zďaleka neomylní a podľa štúdie, ktorej by ste mohli veriť, sa zdá, že fungujú správne dlhšie obdobie v závislosti od mnohých faktorov. (Veľký názor na túto tému nájdete tu na stránke Remarketer.) Ak je povolené podrobné podávanie správ a jednotka poskytuje spätnú väzbu o chybách, potom sú poškodené sektory a zlyhania pri čítaní a zápise kľúčom na zistenie, či je disk v poli úložného priestoru. zlyháva. Ďalším bežným problémom v rámci serverov, ktoré používajú niekoľko diskov pripojených k radiču RAID, je to, že samotný radič zlyhá. Bohužiaľ, niekedy pevné disky prestanú fungovať bez akéhokoľvek varovania, čo je problém, ktorý sa dá spoľahlivo chrániť.

servery

Okrem pohonov zabudovaných do serverov a pohyblivých častí, ako sú napríklad vyššie uvedené chladiace ventilátory a jednotky PSU, môže v hardvérových komponentoch serverov vzniknúť množstvo problémov. Podávanie správ na úrovni softvéru (ktoré sa zvyčajne týka diagnostiky systému BIOS alebo inej nízkoúrovňovej hardvérovej súčasti) je kľúčom k zisťovaniu, keď veci zlyhali alebo, čo je dôležitejšie, vykazujú známky zlyhania. Jedným z problémov, ktorý nemusí byť okamžite zrejmý, je problém, ktorý ovplyvňuje základné dosky. To dáva dokonalý zmysel, že stroje nemajú radi príliš veľa tepla. Ale aj dnes, ak je moderná doska s plošnými spojmi vystavená rýchlej strate tepla - alebo ide z veľmi horúceho na náhle studené - môžu sa objaviť praskliny, čo spôsobí katastrofu zlyhania dosky. Je to otázka, ktorú treba mať na pamäti, najmä ak sa pohybujete medzi budovami v rámci údržbových okien, čo je neodpustiteľný časový rámec.

MTBF: Môže to tiež zlyhať

Rovnako užitočné ako predpovede MTBF je jej dôležitosť pre výpočet úrovní prijateľného rizika s akýmkoľvek zariadením, na ktoré sa musí spoločnosť spoľahnúť. Bohužiaľ, aj napriek všetkým štatistickým uisteniam poskytnutým výrobcom je jediný konkrétny spôsob, ako zaručiť dostupnosť zariadenia, ktoré prevádzkuje kritické systémy, jeho zdvojnásobenie, aby sa umožnilo zlyhanie pri vypršaní časového limitu.

Každý jednotlivý hardvér používaný v podniku sa skladá z mnohých rôznych komponentov, takže skutočný MTBF nie je ani zďaleka triviálny výpočet. Je zrejmé, že je kritické nespočívať v budúcnosti na týchto meraniach pravdepodobnosti podnikania, ale namiesto toho ich používať ako meradlo na prijímanie informovaných rozhodnutí týkajúcich sa postupov na zabezpečenie kontinuity činnosti a obnovy po katastrofe. Koniec koncov, zníženie prestojov pomocou dôkladného plánovania vopred môže znamenať rozdiel medzi úspešným a neúspešným podnikaním.