În acest tutorial, veți învăța -
- Instalarea NLTK în Windows
- Instalarea Python în Windows
- Instalarea NLTK în Mac / Linux
- Instalarea NLTK prin Anaconda
- Set de date NLTK
- Cum să descărcați toate pachetele de NLTK
- Rularea scriptului NLP
- Cum se execută scriptul NLTK
Instalarea NLTK în Windows
În această parte, vom învăța cum să configurați NLTK prin terminal (prompt de comandă în Windows).
Instrucțiunile date mai jos se bazează pe presupunerea că nu aveți python instalat. Deci, primul pas este instalarea python.
Instalarea Python în Windows:
Etapa 1) Du - te la link - ul https://www.python.org/downloads/ , și selectați cea mai recentă versiune pentru Windows.
Notă : dacă nu doriți să descărcați cea mai recentă versiune, puteți vizita fila de descărcare și puteți vedea toate versiunile.
Pasul 2) Faceți clic pe fișierul descărcat
Pasul 3) Selectați Personalizați instalarea
Pasul 4) Faceți clic pe NEXT
Pasul 5) În ecranul următor
- Selectați opțiunile avansate
- Oferiți o locație de instalare personalizată. În cazul meu, un folder pe unitatea C este ales pentru ușurința în operare
- Faceți clic pe Instalare
Pasul 6) Faceți clic pe butonul Închidere odată ce instalarea este finalizată.
Pasul 7) Copiați calea folderului Scripturi.
Pasul 8) În promptul de comandă Windows
- Navigați la locația folderului pip
- Introduceți comanda pentru a instala NLTK
pip3 install nltk
- Instalarea trebuie făcută cu succes
NOTĂ : Pentru Python2 utilizați comandapip2 install nltk
Pasul 9) În meniul Start Windows, căutați și deschideți PythonShell
Pasul 10) Puteți verifica dacă instalarea este corectă furnizând comanda de mai jos
import nltk
Dacă nu vedeți nicio eroare, instalarea este finalizată.
Instalarea NLTK în Mac / Linux
Instalarea NLTK în Mac / Unix necesită pip managerul de pachete python pentru a instala nltk. Dacă pip nu este instalat, vă rugăm să urmați instrucțiunile de mai jos pentru a finaliza procesul
Pasul 1) Actualizați indexul pachetului tastând comanda de mai jos
sudo apt update
Pasul 2) Instalarea pip pentru Python 3:
sudo apt install python3-pip
De asemenea, puteți instala pip utilizând easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Acum este instalat easy_install. Rulați comanda de mai jos pentru a instala pip
sudo easy_install pip
Pasul 3) Utilizați următoarea comandă pentru a instala NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Instalarea NLTK prin Anaconda
Pasul 1) Vă rugăm să instalați anaconda (care poate fi utilizat și pentru a instala diferite pachete) vizitând https://www.anaconda.com/products/individual și selectați ce versiune de python trebuie să instalați pentru anaconda.
Notă: Consultați acest tutorial pentru pași detaliați pentru instalarea anaconda
Pasul 2) În promptul Anaconda,
- Introduceți comanda
conda install -c anaconda nltk
- Examinați actualizarea pachetului, retrogradați, instalați informații și introduceți da
- NLTK este descărcat și instalat
Set de date NLTK
Modulul NLTK are multe seturi de date disponibile pe care trebuie să le descărcați pentru a le utiliza. Mai tehnic se numește corpus . Unele dintre exemple sunt stopwords , Gutenberg , framenet_v15 , large_grammars și așa mai departe.
Cum să descărcați toate pachetele de NLTK
Pasul 1) Rulați interpretul Python în Windows sau Linux
Pasul 2)
- Introduceți comenzile
import nltknltk.download ()
- Se deschide fereastra descărcată NLTK. Faceți clic pe butonul Descărcare pentru a descărca setul de date. Acest proces va dura timp, pe baza conexiunii dvs. la internet
NOTĂ: Puteți modifica locația de descărcare făcând clic pe Fișier> Schimbare director de descărcare
Pasul 3) Pentru a testa datele instalate utilizați următorul cod
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
Rularea scriptului NLP
Vom discuta despre cum va fi executat scriptul NLP pe computerul nostru local. Există multe biblioteci pentru procesarea limbajului natural prezente pe piață. Așadar, alegerea unei biblioteci depinde de potrivirea cerințelor dvs. Iată lista bibliotecilor NLP.
Cum se execută scriptul NLTK
Pasul 1) În editorul de cod preferat, copiați codul și salvați fișierul ca „ NLTKsample.py ”
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Explicatie cod:
- În acest program, obiectivul a fost eliminarea tuturor tipurilor de punctuații din textul dat. Am importat „RegexpTokenizer”, care este un modul NLTK. Îndepărtează toate expresiile, simbolurile, caracterele, numerice sau orice altceva.
- Doar ați trecut Expresia obișnuită la modulul „RegexpTokenizer”.
- Mai mult, am tokenizat cuvântul folosind modulul „tokenize”. Ieșirea este stocată în variabila „filterdText”.
- Și le-am tipărit folosind „print ()”.
Pasul 2) În promptul de comandă
- Navigați la locația în care ați salvat fișierul
- Rulați comanda Python NLTKsample.py
Aceasta va afișa rezultatul ca:
[„Bună ziua”, „Guru99”, „Tu”, „ai”, „construiești”, „a”, „foarte”, „bine”, „site”, „și„, „eu”, „iubesc”, „ vizitând „,„ dvs. ”,„ site ”]