Mis on Hadoop? Sissejuhatus, Architektuur, ökosüsteem, komponendid

Mis on Hadoop?

Apache Hadoop on avatud lähtekoodiga tarkvararaamistik, mida kasutatakse hajutatud andmetöötluskeskkonnas käivitatavate andmetöötlusrakenduste arendamiseks.

HADOOP-i abil loodud rakendusi käitatakse suurtes andmekogumites, mis on jaotatud tavaarvutite klastrite vahel. Kaubaarvutid on odavad ja laialdaselt saadaval. Need on peamiselt kasulikud suurema arvutusvõimsuse saavutamiseks madalate kuludega.

Sarnaselt personaalarvutisüsteemi kohalikus failisüsteemis asuvatele andmetele asuvad Hadoopis andmed hajutatud failisüsteemis, mida nimetatakse Hadoopi hajutatud failisüsteem. Töötlemismudel põhineb "Andmete asukoht" kontseptsioon, mille kohaselt arvutusloogika saadetakse andmeid sisaldavatesse klastri sõlmedesse (serverisse). See arvutusloogika pole midagi, vaid programmi kompileeritud versioon, mis on kirjutatud kõrgetasemelises keeles, näiteks Java. Selline programm töötleb sisse salvestatud andmeid Hadoop HDFS.

Kas sa tead? Arvutiklaster koosneb mitmest protsessorist (salvestusketas + protsessor), mis on omavahel ühendatud ja toimivad ühtse süsteemina.

Hadoopi ökosüsteem ja komponendid

Allolev diagramm näitab Hadoopi ökosüsteemi erinevaid komponente-

Hadoopi ökosüsteem ja komponendid

Apache Hadoop koosneb kahest alamprojektist –

  1. Hadoop MapReduce: MapReduce on Hadoopis töötavate rakenduste kirjutamise arvutusmudel ja tarkvararaamistik. Need MapReduce'i programmid on võimelised töötlema paralleelselt tohutuid andmeid suurtes arvutussõlmede klastrites.
  2. HDFS (Hadoopi hajutatud failisüsteem): HDFS hoolitseb Hadoopi rakenduste salvestusosa eest. MapReduce rakendused tarbivad HDFS-i andmeid. HDFS loob mitu andmeplokkide koopiat ja levitab need klastri arvutussõlmedesse. See jaotus võimaldab usaldusväärseid ja ülikiireid arvutusi.

Kuigi Hadoop on kõige paremini tuntud MapReduce'i ja selle hajutatud failisüsteemi HDFS-i järgi, kasutatakse seda terminit ka seotud projektide perekonna kohta, mis kuuluvad hajutatud andmetöötluse ja suuremahulise andmetöötluse alla. Muud Hadoopiga seotud projektid aadressil Apache hõlmavad on Hive, HBase, Mahout, Sqoop, Flume ja ZooKeeper.

hadoop Architektuur

hadoop Architektuur
Kõrgetasemeline Hadoop Architektuur

Hadoopil on Master-Slave Archiandmesalvestuse ja hajutatud andmetöötluse tehnoloogia MapReduce ja HDFS meetodid.

NameNode:

NameNode esindas kõiki nimeruumis kasutatavaid faile ja katalooge

DataNode:

DataNode aitab teil hallata HDFS-sõlme olekut ja võimaldab teil plokkidega suhelda

MasterNode:

Põhisõlm võimaldab teil Hadoop MapReduce'i abil andmeid paralleelselt töödelda.

Slave sõlm:

Alamsõlmed on Hadoopi klastri lisamasinad, mis võimaldavad teil keerukate arvutuste tegemiseks andmeid salvestada. Lisaks on kogu alluva sõlmega kaasas Task Tracker ja DataNode. See võimaldab teil protsesse sünkroonida vastavalt NameNode'i ja Job Trackeriga.

Hadoopis saab ülem- või alamsüsteemi seadistada pilves või kohapeal

"Hadoopi" omadused

• Sobib suurandmete analüüsiks

Kuna suurandmed kipuvad olema oma olemuselt hajutatud ja struktureerimata, sobivad HADOOPi klastrid kõige paremini suurandmete analüüsimiseks. Kuna arvutussõlmedesse voolab töötlemisloogika (mitte tegelikud andmed), kulub võrgu ribalaiust vähem. Seda kontseptsiooni nimetatakse andmete lokaalsuse kontseptsioon mis aitab suurendada Hadoopil põhinevate rakenduste tõhusust.

• Skaleeritavus

HADOOP-klastreid saab hõlpsasti igas ulatuses skaleerida, lisades täiendavaid klastri sõlmpunkte ja seega võimaldab see suurandmete kasvu. Samuti ei nõua skaleerimine rakenduse loogikas muudatusi.

• Vea taluvus

HADOOPi ökosüsteemil on säte sisendandmete kopeerimiseks teistesse klastri sõlmedesse. Nii saab klastri sõlme rikke korral andmetöötlust jätkata, kasutades teises klastri sõlmes salvestatud andmeid.

Võrgu topoloogia Hadoopis

Võrgu topoloogia (korraldus) mõjutab Hadoopi klastri jõudlust, kui Hadoopi klastri suurus kasvab. Lisaks jõudlusele tuleb hoolitseda ka kõrge kättesaadavuse ja rikete käsitlemise eest. Selle Hadoopi saavutamiseks kasutab klastri moodustamine võrgu topoloogiat.

Võrgu topoloogia Hadoopis

Tavaliselt on võrgu ribalaius oluline tegur, mida võrgu moodustamisel arvestada. Kuna ribalaiuse mõõtmine võib aga olla keeruline, on Hadoopis võrk kujutatud puuna ja selle puu sõlmede vahelist kaugust (hüppade arvu) peetakse Hadoopi klastri moodustamisel oluliseks teguriks. Siin on kahe sõlme vaheline kaugus võrdne nende lähima ühise esivanema kauguse summaga.

Hadoopi klaster koosneb andmekeskusest, riiulist ja sõlmest, mis tegelikult töid täidab. Siin koosneb andmekeskus püstikutest ja rack koosneb sõlmedest. Protsesside jaoks saadaolev võrgu ribalaius varieerub sõltuvalt protsesside asukohast. See tähendab, et saadaolev ribalaius väheneb, kui me

  • Protsessid samas sõlmes
  • Erinevad sõlmed samal riiulil
  • Sõlmed sama andmekeskuse erinevatel riiulitel
  • Sõlmed erinevates andmekeskustes