Hvad er forskellen mellem big data og Hadoop?

Video.: Big Data vs Hadoop | Big Data and Hadoop Differences | Intellipaat

Indhold

Q:

EN:

Forskellen mellem big data og open source-softwareprogrammet Hadoop er en distinkt og grundlæggende. Førstnævnte er et aktiv, ofte et komplekst og tvetydigt, mens sidstnævnte er et program, der opfylder et sæt af mål og målsætninger for at håndtere dette aktiv.

Big data er simpelthen de store datasæt, som virksomheder og andre parter sammensætter for at tjene specifikke mål og operationer. Big data kan omfatte mange forskellige slags data i mange forskellige formater. For eksempel kan virksomheder muligvis lægge en masse arbejde på at indsamle tusindvis af stykker data om køb i valutaformater, på kundeidentifikatorer som navn eller personnummer eller på produktinformation i form af modelnumre, salgsnumre eller lagernumre. Alt dette eller enhver anden stor masse information kan kaldes big data. Som regel er det rått og usorteret, indtil det sættes gennem forskellige slags værktøjer og håndterere.

Hadoop er et af værktøjerne designet til at håndtere big data. Hadoop og andre softwareprodukter arbejder på at fortolke eller analysere resultaterne af big data-søgninger gennem specifikke proprietære algoritmer og metoder. Hadoop er et open source-program under Apache-licensen, som vedligeholdes af et globalt brugerfællesskab. Det inkluderer forskellige hovedkomponenter, herunder et MapReduce sæt af funktioner og et Hadoop distribueret filsystem (HDFS).

Ideen bag MapReduce er, at Hadoop først kan kortlægge et stort datasæt og derefter udføre en reduktion på dette indhold til specifikke resultater. En reduktionsfunktion kan betragtes som et slags filter for rådata. HDFS-systemet fungerer derefter for at distribuere data over et netværk eller migrere dem efter behov.

Databaseadministratorer, udviklere og andre kan bruge de forskellige funktioner i Hadoop til at håndtere big data på forskellige måder. For eksempel kan Hadoop bruges til at forfølge datastrategier som klynger og målretning med ikke-ensartede data, eller data, der ikke passer pænt i en traditionel tabel eller reagerer godt på enkle forespørgsler.