Mikä on HDFS: n replikointikerroin ja miten se voidaan asettaa?


Paras vastaus

No, replikointikerroin on 3 HDFS: ssä oletuksena . Tässä yksi on alkuperäinen lohko ja kaksi kopiota.

Mutta se voi olla Aseta meidän.

Anna minun selittää sinulle tapa tehdä se.

Katso, siihen on kaksi tapaa. Yksi on käyttämällä komentoa ja muu on suora muutos kohdassa hdfs-site.xml tiedosto.

Ensimmäinen on yksinkertainen, sinun tarvitsee vain kirjoittaa komento seuraavasti:

Voit myös muuta replikointikerrointa tiedostokohtaisesti käyttämällä Hadoop FS -kuorta .

[sawant@localhost ~]$ hadoop fs –setrep –w 3 /my/file

Vaihtoehtoisesti voit muuttaa kaikkien hakemistossa olevien tiedostojen kopiointikertoimen.

[sawant@localhost ~]$ hadoop fs –setrep –w 3 -R /my/dir

as näet yllä olevan komennon, korvaa vain 3 vaatimuksellasi.

Ymmärretään toinen komento…

Avaa hdfs-sivusto .xml . Tämä tiedosto löytyy yleensä Hadoop-asennushakemiston conf / -kansiosta. Muuta tai lisää seuraava ominaisuus kohtaan hdfs-site.xml….

dfs.replication

3

Block Replication

hdfs-site.xml käytetään HDFS: n määrittämiseen. dfs.replication -ominaisuuden muuttaminen hdfs-site.xml -palvelussa muuttaa kaikki HDFS: ään sijoitetut tiedostot.

Korvaa 3 yllä yllä olevalla dfs.replication -ominaisuudella vaatimuksellasi.

Kiitos !!

Vastaus

Todellinen syy valita kolmen replikaatio on, että pienin luku mahdollistaa erittäin luotettavan suunnittelun. Käydään läpi todellinen syy-analyysi.

Harkitse, että menetät tietoja, jos laitteistovirhe on laitteistossa, joka tallentaa jokaisen kopion datasta. Nykyaikaisilla pyörivillä levyillä vikaantumisaste on suhteellisen yksinkertainen ja noin 5\% vuodessa (lukusi voivat olla suurempia tai pienempiä arviointimenetelmästäsi ja ostamastasi laitteistosta riippuen). Jos kaikki viat ovat itsenäisiä (ne eivät ole tosiasiallisesti, koska saat huonoja eriä), se tarkoittaa, että yksittäiset levyt epäonnistuvat noin 1,6 e-9 vika sekunnissa ja viat tulisi jakaa Poisson-jakauman mukaan. Tuhannen levyn datahäviön tulisi olla noin 1000-kertainen tällä nopeudella lyhyinä ajanjaksoina, jos oletat, ettei replikaatiota ole.

Voimme käyttää näitä lukuja laskemaan jotain, jota kutsutaan keskimääräiseksi ajaksi tietojen menetykseen. Yhden levyn tapauksessa sinulla on 95\% mahdollisuus säilyttää tietosi vuoden kuluttua, mutta tuhannen levyn tapauksessa sinulla on merkityksetön mahdollisuus välttää tietojen menetys vuoden kuluttua. En usko, että edes yhden levyn tapaus on rehellisesti hyväksyttävä.

Joten kopioimme tiedot.

Tuhannella levytapauksella on noin 50 vikaa vuodessa, mikä tarkoittaa levyn menetys noin viikossa. Se ei tarkoita, että se tapahtuu tarkoin viikoittain. Se tarkoittaa vain, että keskimääräinen aika levyn vikojen välillä on noin viikko. Levyvian jälkeen meidän on kopioitava tiedot uudelleen, koska emme halua järjestelmää, joka hajoaa ajan myötä. Jos voimme kopioida tiedot uudelleen ennen kuin seuraava levy, joka sisältää tietomme, epäonnistuu, järjestelmämme välttää tietojen häviämisen ensimmäisestä virheestä.

Temppu on kuitenkin se, että yksittäisen levyn välinen aika viat vähenevät järjestelmien koon kasvaessa. Jos suunnittelemme asiat hyvin, uudelleentoistoaika * lyhenee * samassa suhteessa. Palautumisaika riippuu koneiden asemien lukumäärästä ja koneiden välisestä verkon kaistanleveydestä.

Tämä tarkoittaa, että voimme nopeasti arvioida keskimääräisen ajan tietojen häviämiseen. Kahden kopion osalta meidän on laskettava levyn menetysnopeus ja sitten toisen levyn menetyksen todennäköisyys palautuksen aikana tälle menetykselle. Kahden kopion osalta meidän on laajennettava tämä tapaukseen, jossa kaksi asemaa kuolee ensimmäisen aseman palautusajan aikana. Tämän tekee monimutkaisemmaksi, kun poistat levyjä ja sinulla on hienoja palautusstrategioita, jotka yrittävät säilyttää normaalin toiminnan ensimmäisen vian jälkeen, mutta jotka omistavat kaikki resurssit toipumiselle toisen vian jälkeen.

Jos teet matematiikan, yksi kopio tiedoista antaa sinulle erittäin suuren todennäköisyyden (melkein varma, itse asiassa) tietojen menettämisestä suuressa klusterissa.

Kahden kopion tapauksessa sinulla on todennäköisyys kadottaa tietoja, jotka ovat alueella 0,3. \% – 5\% klusteriparametreista riippuen. Tämä ei ole tarpeeksi hyvä useimmille yrityksille, mutta jotkut sovellukset voivat sietää tämän.

Kolmen kopion kohdalla voit yleensä laajentaa tietojen häviämisen todennäköisyyttä ,1\%: iin vuodessa, mikä vastaa keskimääräistä aikaa tietojen häviämiseen 1000 vuotta tai enemmän, jos teet asiat oikein.

Joten se on syy.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *