Etichetarea propozițiilor
Etichetarea propoziției într-un sens mai larg se referă la adăugarea de etichete ale verbului, substantivului etc., în contextul propoziției. Identificarea etichetelor POS este un proces complicat. Astfel, etichetarea generică a POS nu este posibilă manual, deoarece unele cuvinte pot avea semnificații diferite (ambigue) în funcție de structura propoziției. Conversia textului sub formă de listă este un pas important înainte de etichetare, deoarece fiecare cuvânt din listă este în buclă și contorizat pentru o anumită etichetă. Vă rugăm să consultați codul de mai jos pentru a-l înțelege mai bine
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
IEȘIRE
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Explicarea codului
- Cod de importat nltk (set de instrumente de limbaj natural care conține submodule precum tokenize de frază și tokenize de cuvânt.)
- Text ale cărui etichete urmează să fie tipărite.
- Tokenizarea frazelor
- Bucla For este implementată în cazul în care cuvintele sunt simbolizate din propoziție și eticheta fiecărui cuvânt este tipărită ca ieșire.
În Corpus există două tipuri de etichetatoare POS:
- Bazat pe reguli
- Etichete POS stocastice
1. Etichetator POS bazat pe reguli: Pentru cuvintele cu semnificație ambiguă, se aplică abordarea bazată pe reguli pe baza informațiilor contextuale. Se face astfel verificând sau analizând semnificația cuvântului precedent sau al cuvântului următor. Informațiile sunt analizate din jurul cuvântului sau din sine. Prin urmare, cuvintele sunt etichetate de regulile gramaticale ale unui anumit limbaj, cum ar fi scrierea cu majuscule și punctuația. de exemplu, etichetatorul lui Brill.
2. Etichetă POS stocastică: în această metodă se aplică diferite abordări precum frecvența sau probabilitatea. Dacă un cuvânt este în mare parte etichetat cu o anumită etichetă în setul de antrenament, atunci în propoziția de testare i se dă acea etichetă specială. Eticheta cuvânt depinde nu numai de propria etichetă, ci și de eticheta anterioară. Această metodă nu este întotdeauna exactă. O altă modalitate este de a calcula probabilitatea apariției unei etichete specifice într-o propoziție. Astfel, eticheta finală este calculată verificând cea mai mare probabilitate a unui cuvânt cu o anumită etichetă.
Modelul Markov ascuns:
Problemele de etichetare pot fi, de asemenea, modelate folosind HMM. Tratează jetoanele de intrare ca fiind o secvență observabilă, în timp ce etichetele sunt considerate stări ascunse și scopul este determinarea secvenței stării ascunse. De exemplu x = x 1 , x 2 , ..., x n unde x este o secvență de jetoane în timp ce y = y 1 , y 2 , y 3 , y 4 ... y n este secvența ascunsă.
Cum funcționează modelul HMM?
HMM folosește distribuția de îmbinare care este P (x, y) unde x este secvența de intrare / secvența de simboluri și y este secvența de etichetă.
Secvența etichetei pentru x va fi argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Am clasificat etichetele din text, dar statisticile acestor etichete sunt vitale. Deci, următoarea parte este numărarea acestor etichete pentru studiu statistic.