În acest tutorial, vă vom trece prin procesul pas cu pas pentru a instala Apache Hadoop pe o cutie Linux (Ubuntu). Acesta este un proces în 2 părți
- Partea 1) Descărcați și instalați Hadoop
- Partea 2) Configurați Hadoop
Există 2 premise
- Trebuie să aveți Ubuntu instalat și care rulează
- Trebuie să aveți instalat Java.
Partea 1) Descărcați și instalați Hadoop
Pasul 1) Adăugați un utilizator de sistem Hadoop folosind comanda de mai jos
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Introduceți parola, numele și alte detalii.
NOTĂ: Există posibilitatea unei erori menționate mai jos în acest proces de instalare și instalare.
"hduser nu se află în fișierul sudoers. Acest incident va fi raportat."
Această eroare poate fi rezolvată prin autentificare ca utilizator root
Executați comanda
sudo adduser hduser_ sudo
Re-login as hduser_
Pasul 2) Configurați SSH
Pentru a gestiona nodurile dintr-un cluster, Hadoop necesită acces SSH
Mai întâi, comutați de utilizator, introduceți următoarea comandă
su - hduser_
Această comandă va crea o nouă cheie.
ssh-keygen -t rsa -P ""
Activați accesul SSH la mașina locală utilizând această cheie.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Acum testați configurarea SSH conectându-vă la localhost ca utilizator „hduser”.
ssh localhost
Notă: Vă rugăm să rețineți, dacă vedeți mai jos o eroare ca răspuns la „ssh localhost”, atunci există posibilitatea ca SSH să nu fie disponibil pe acest sistem-
Pentru a rezolva acest lucru -
Purge SSH folosind,
sudo apt-get purge openssh-server
Este o bună practică să purgați înainte de începerea instalării
Instalați SSH utilizând comanda-
sudo apt-get install openssh-server
Pasul 3) Pasul următor este să descărcați Hadoop
Selectați Stabil
Selectați fișierul tar.gz (nu fișierul cu src)
După finalizarea descărcării, navigați la directorul care conține fișierul tar
Introduce,
sudo tar xzf hadoop-2.2.0.tar.gz
Acum, redenumiți hadoop-2.2.0 ca hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Partea 2) Configurați Hadoop
Pasul 1) Modificați fișierul ~ / .bashrc
Adăugați următoarele rânduri la sfârșitul fișierului ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Acum, sursați această configurație de mediu folosind comanda de mai jos
. ~/.bashrc
Pasul 2) Configurări legate de HDFS
Setați JAVA_HOME în fișierul $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Cu
Există doi parametri în $ HADOOP_HOME / etc / hadoop / core-site.xml care trebuie setați-
1. 'hadoop.tmp.dir' - Folosit pentru a specifica un director care va fi utilizat de Hadoop pentru a stoca fișierele sale de date.
2. 'fs.default.name' - Acesta specifică sistemul de fișiere implicit.
Pentru a seta acești parametri, deschideți core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Copiați linia de mai jos între etichete
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Navigați la directorul $ HADOOP_HOME / etc / Hadoop
Acum, creați directorul menționat în core-site.xml
sudo mkdir -p
Acordați permisiuni directorului
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Pasul 3) Configurare Reducere hartă
Înainte de a începe cu aceste configurații, permiteți setarea căii HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
Și Enter
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Apoi introduceți
sudo chmod +x /etc/profile.d/hadoop.sh
Ieșiți din terminal și reporniți din nou
Tastați echo $ HADOOP_HOME. Pentru a verifica calea
Acum copiați fișiere
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Deschideți fișierul mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Adăugați mai jos linii de setare între etichete
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Deschideți $ HADOOP_HOME / etc / hadoop / hdfs-site.xml ca mai jos,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Adăugați mai jos linii de setare între etichetele
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Creați un director specificat în setarea de mai sus-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Pasul 4) Înainte de a porni Hadoop pentru prima dată, formatați HDFS folosind comanda de mai jos
$HADOOP_HOME/bin/hdfs namenode -format
Pasul 5) Porniți clusterul Hadoop cu nod unic folosind comanda de mai jos
$HADOOP_HOME/sbin/start-dfs.sh
O ieșire a comenzii de mai sus
$HADOOP_HOME/sbin/start-yarn.sh
Utilizând instrumentul / comanda „jps” , verificați dacă toate procesele legate de Hadoop rulează sau nu.
Dacă Hadoop a început cu succes, atunci o ieșire de jps ar trebui să afișeze NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Pasul 6) Oprirea Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh