Cum se instalează Hadoop cu configurare pas cu pas pe Ubuntu

Cuprins:

Anonim

În acest tutorial, vă vom trece prin procesul pas cu pas pentru a instala Apache Hadoop pe o cutie Linux (Ubuntu). Acesta este un proces în 2 părți

  • Partea 1) Descărcați și instalați Hadoop
  • Partea 2) Configurați Hadoop

Există 2 premise

  • Trebuie să aveți Ubuntu instalat și care rulează
  • Trebuie să aveți instalat Java.

Partea 1) Descărcați și instalați Hadoop

Pasul 1) Adăugați un utilizator de sistem Hadoop folosind comanda de mai jos

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Introduceți parola, numele și alte detalii.

NOTĂ: Există posibilitatea unei erori menționate mai jos în acest proces de instalare și instalare.

"hduser nu se află în fișierul sudoers. Acest incident va fi raportat."

Această eroare poate fi rezolvată prin autentificare ca utilizator root

Executați comanda

sudo adduser hduser_ sudo

Re-login as hduser_

Pasul 2) Configurați SSH

Pentru a gestiona nodurile dintr-un cluster, Hadoop necesită acces SSH

Mai întâi, comutați de utilizator, introduceți următoarea comandă

su - hduser_

Această comandă va crea o nouă cheie.

ssh-keygen -t rsa -P ""

Activați accesul SSH la mașina locală utilizând această cheie.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Acum testați configurarea SSH conectându-vă la localhost ca utilizator „hduser”.

ssh localhost

Notă: Vă rugăm să rețineți, dacă vedeți mai jos o eroare ca răspuns la „ssh localhost”, atunci există posibilitatea ca SSH să nu fie disponibil pe acest sistem-

Pentru a rezolva acest lucru -

Purge SSH folosind,

sudo apt-get purge openssh-server

Este o bună practică să purgați înainte de începerea instalării

Instalați SSH utilizând comanda-

sudo apt-get install openssh-server

Pasul 3) Pasul următor este să descărcați Hadoop

Selectați Stabil

Selectați fișierul tar.gz (nu fișierul cu src)

După finalizarea descărcării, navigați la directorul care conține fișierul tar

Introduce,

sudo tar xzf hadoop-2.2.0.tar.gz

Acum, redenumiți hadoop-2.2.0 ca hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Partea 2) Configurați Hadoop

Pasul 1) Modificați fișierul ~ / .bashrc

Adăugați următoarele rânduri la sfârșitul fișierului ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Acum, sursați această configurație de mediu folosind comanda de mai jos

. ~/.bashrc

Pasul 2) Configurări legate de HDFS

Setați JAVA_HOME în fișierul $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Cu

Există doi parametri în $ HADOOP_HOME / etc / hadoop / core-site.xml care trebuie setați-

1. 'hadoop.tmp.dir' - Folosit pentru a specifica un director care va fi utilizat de Hadoop pentru a stoca fișierele sale de date.

2. 'fs.default.name' - Acesta specifică sistemul de fișiere implicit.

Pentru a seta acești parametri, deschideți core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Copiați linia de mai jos între etichete

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Navigați la directorul $ HADOOP_HOME / etc / Hadoop

Acum, creați directorul menționat în core-site.xml

sudo mkdir -p 

Acordați permisiuni directorului

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Pasul 3) Configurare Reducere hartă

Înainte de a începe cu aceste configurații, permiteți setarea căii HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Și Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Apoi introduceți

sudo chmod +x /etc/profile.d/hadoop.sh

Ieșiți din terminal și reporniți din nou

Tastați echo $ HADOOP_HOME. Pentru a verifica calea

Acum copiați fișiere

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Deschideți fișierul mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Adăugați mai jos linii de setare între etichete și

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Deschideți $ HADOOP_HOME / etc / hadoop / hdfs-site.xml ca mai jos,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Adăugați mai jos linii de setare între etichetele și

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Creați un director specificat în setarea de mai sus-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Pasul 4) Înainte de a porni Hadoop pentru prima dată, formatați HDFS folosind comanda de mai jos

$HADOOP_HOME/bin/hdfs namenode -format

Pasul 5) Porniți clusterul Hadoop cu nod unic folosind comanda de mai jos

$HADOOP_HOME/sbin/start-dfs.sh

O ieșire a comenzii de mai sus

$HADOOP_HOME/sbin/start-yarn.sh

Utilizând instrumentul / comanda „jps” , verificați dacă toate procesele legate de Hadoop rulează sau nu.

Dacă Hadoop a început cu succes, atunci o ieșire de jps ar trebui să afișeze NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Pasul 6) Oprirea Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh