5 Advarselstegn ved fejl i kritisk udstyr

Video.: SCP Foundation Readings: SCP-1984 Dead Hand | keter | Hostile / k class scenario scp

Indhold

Hvad er MTBF?
routing
Skifter
Resilient Power
Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv
Beskyttet opbevaring
Servere
MTBF: Det kan mislykkes for

Tag væk:

At reducere nedetid gennem omhyggelig forudgående planlægning kan betyde forskellen mellem forretningsvækst og tilbagegang. Thats hvor gennemsnitlig tid mellem fiasko kommer ind.

Undervurder ikke, hvor meget dagens virksomheder er afhængige af kritiske systemer hver eneste dag. Derfor er det kun sund fornuft, at en virksomhed kan måle risikoen for udstyrsfejl. Uden garantier for, hvornår et udstyr kan mislykkes, skal der i det mindste være et nøjagtigt skøn over, hvornår det ikke længere kan betragtes som pålideligt.

Et ellers usynligt udstyr kan måske ikke virke kritisk for en virksomhed, men når en enkelt kølevifte svigter, får en generator til at opgive spøgelset og forårsager titusinde eller endda hundretusinder af brugere dyre problemer i en længere periode, kan du se, at det er af største vigtighed at kunne estimere, hvilke komponenter i din infrastruktur der mislykkes - og hvornår. Thats hvor gennemsnitlig tid mellem fejl (MTBF) kommer ind, den metode, som it-fagfolk er afhængige af at give nøjagtige estimater om, hvornår kritisk udstyr mislykkes. Her ser vi på, hvad der endelig dræber nogle almindelige typer kritisk udstyr, og hvordan MTBF kan hjælpe med at redde dagen.

Hvad er MTBF?

Hvert stykke IT-udstyr, der fremstilles, tildeles et unikt modelnummer. De, der spiller en del i kritisk infrastruktur, leveres til kunder med et MTBF-estimat. De komplekse beregninger til at udarbejde MTBF for et stykke udstyr finder sted i den lange testfase inden for en produktforskning og -udvikling og er relativt specifikke for en bestemt model.

Hvis du søger at finde MTBF til et bestemt udstyr, finder du det i det detaljerede specifikationsark leveret af producenten. Du kan også kontakte producenten direkte.

routing

En enterprise-grade router inkluderer mange dele, nogle flytter og andre er statiske. Strømforsyningsenheder (PSU) og kølevifter har begge bevægelige dele, og det er de elementer, der har tendens til at være svigtpunkter, især hvis enheden ikke er indeholdt i et relativt støvfrit datacenter. Heldigvis med nogle administratorinput rapporterer de fleste routere til en SysLog facilitet, så eventuelle mislykkede komponenter kan markeres.

Skifter

Langs en lignende blodåre er det næste niveau inden for et virksomhedsnetværk skiftehardware. Selvom switches i enterprise-grade også har tendens til at stole på fans, er der normalt færre af dem end dem, der findes i et routerchassis. Hvis fansens hvirvlende mekanismer er intakte, vil en defekt switch normalt opføre sig på softwareniveau enten ved at deaktivere en switchport uventet eller, mere almindeligvis, udvise usædvanlig opførsel, såsom at tabe pakker, forårsage forskellige niveauer af trafikforstyrrelser eller forkert ændre brugerdefinerede indstillinger uden at blive bedt om at gøre det.

Netværksbehemoten Cisco annoncerer en af sine routere som en MTBF på 188.574 timer til Cisco Catalyst 3750G-24TS modellen. Hvis vi deler det med 8.765.81277 (antallet af timer i et år), ser vi, at denne model har et MTBF-estimat på omkring 21,5 år. Dette tal er af en viss tryghed, når du overvejer, at dette udstyr skal fungere 24 timer i døgnet uden fejl, skønt det i virkeligheden ganske enkelt er en indikation af dets pålidelighed. Alligevel giver det brugerne et veluddannet gæt om, hvor længe det udstyr kan forventes at vare.

Resilient Power

UPS (Uinterruptible Power Supplies), der er tilsluttet et stort antal batterier, kan levere backup-strøm i virksomheden i løbet af den korte stave, før generatorer spinder op under et strømafbrydelse. Visse specifikke softwarefejl kan materialiseres i en UPS, som med ethvert udstyr, men generelt vil batterierne, hvorfra de trækker strøm, som regel give anledning til mest bekymring. Hvis et UPS-batteri ofte tændes og genoplades, formindskes dets kapacitet hurtigere, og dens driftstid forkortes dramatisk. Det er ikke overraskende, at det også er muligt for UPS-batterier at mislykkes helt. En UPS kan rapportere over modemer og netværk, når der udvikles fejl, men oftere end ikke, vil ældre UPS'er udløse hørbare alarmer, når et problem først opstår.

Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

Beskyttet opbevaring

De harddiske, vi bruger i dag og er afhængige af i så høj grad, er blevet betydeligt mere pålidelige i løbet af det sidste årti. De er dog langt fra ufejlbarlige, og afhængigt af hvilken undersøgelse du måske tror, ser de ud til at fungere korrekt i en længere periode, afhængigt af et antal faktorer. (Et godt meningsemne om dette kan findes her på Remarketer.) Hvis detaljeret rapportering er aktiveret, og drevet giver feedback om fejl, er korrupte sektorer og læse / skrivefejl nøglen til at opdage, når en disk i en opbevaringsgruppe mislykkes. Et andet almindeligt problem inden for servere, der bruger flere diske, der er forbundet til en RAID-controller, er, at selve controlleren vil mislykkes. Desværre holder harddiske undertiden simpelthen ikke op med at arbejde uden nogen som helst advarsel, et problem, der er svært at pålideligt beskytte mod.

Servere

Bortset fra de drev, der er indbygget i servere og de bevægelige dele, såsom ovennævnte køleventilatorer og PSU'er, kan der også opstå en række problemer inden for serverens hardwarekomponenter. Rapportering på softwareniveau (som normalt henviser til BIOS eller anden lavniveau-hardware-komponentdiagnostik) er nøglen til at opdage, når ting er fejlagtigt eller, endnu vigtigere, viser tegn på, at de ikke fungerer. Et spørgsmål, der måske ikke er umiddelbart indlysende, er det, der påvirker bundkort. Det giver perfekt mening, at maskiner ikke kan lide for meget varme. Men selv i dag, hvis et moderne kredsløbskort udsættes for et hurtigt varmetab - eller går fra at køre meget varmt til pludselig at blive koldt - kan der opstå revner, der får brættet til at mislykkes katastrofalt. Det er et problem at huske på, især hvis du flytter udstyr mellem bygninger inden for en vedligeholdelsesvindue, der er utilgivelig.

MTBF: Det kan mislykkes for

Så nyttige som MTBF-forudsigelser er det vigtigt at beregne niveauer af acceptabel risiko med ethvert udstyr, som en virksomhed skal stole på. Desværre, selv med alle de statistiske forsikringer, som producenterne leverer, er den eneste konkrete måde at garantere tilgængeligheden af udstyr, der kører kritiske systemer, ved at fordoble det for at muliggøre en timeout-failover.

Hvert enkelt hardware, der bruges i virksomheden, består af mange forskellige komponenter, så den sande MTBF er langt fra en triviel beregning. Det er klart, at det er kritisk ikke at hvile en virksomheds fremtid på disse målinger af sandsynlighed, men i stedet bruge dem som et målestok til at tage informerede beslutninger i relation til forretningskontinuitet og procedurer for genopretning af katastrofer. Når alt kommer til alt, kan reduktion af nedetid gennem grundig planlægning muligvis betyde forskellen mellem en succesrig forretning og forretningsfejl.