Ce este urllib?
urllib este un modul Python care poate fi utilizat pentru deschiderea adreselor URL. Acesta definește funcțiile și clasele pentru a ajuta la acțiunile URL.
Cu Python puteți accesa și prelua date de pe internet, cum ar fi XML, HTML, JSON etc. Puteți utiliza și Python pentru a lucra direct cu aceste date. În acest tutorial vom vedea cum putem prelua date de pe web. De exemplu, aici am folosit o adresă URL video guru99 și vom accesa această adresă URL video folosind Python, precum și să imprimăm fișierul HTML al acestei adrese URL.
În acest tutorial vom învăța
- Cum se deschide URL folosind Urllib
- Cum să citiți fișierul HTML pentru adresa URL în Python
Cum se deschide URL folosind Urllib
Înainte de a rula codul pentru a ne conecta la datele de Internet, trebuie să importăm declarația pentru modulul de bibliotecă URL sau „urllib”.
- Importă urllib
- Definiți funcția principală
- Declarați variabila webUrl
- Apelați apoi funcția urlopen din biblioteca lib URL
- Adresa URL pe care o deschidem este tutorialul guru99 pe YouTube
- Apoi, vom imprima codul rezultatului
- Codul rezultatului este recuperat apelând funcția getcode din variabila webUrl pe care am creat-o
- Vom converti acest lucru într-un șir, astfel încât să poată fi concatenat cu șirul nostru „cod de rezultat”
- Acesta va fi un cod HTTP obișnuit „200”, indicând că solicitarea http este procesată cu succes
Cum să obțineți URL-ul formularului de fișier HTML în Python
De asemenea, puteți citi fișierul HTML folosind „funcția de citire” în Python, iar când rulați codul, fișierul HTML va apărea în consolă.
- Apelați funcția de citire din variabila webURL
- Citirea variabilă permite citirea conținutului fișierelor de date
- Citiți întregul conținut al adresei URL într-o variabilă numită date
- Rulați codul - Va imprima datele în format HTML
Iată codul complet
Exemplu Python 2
## read the data from the URL and print it#import urllib2def main():# open a connection to a URL using urllib2webUrl = urllib2.urlopen("https://www.youtube.com/user/guru99com")#get the result code and print itprint "result code: " + str(webUrl.getcode())# read the data from the URL and print itdata = webUrl.read()print dataif __name__ == "__main__":main()
Exemplu Python 3
## read the data from the URL and print it#import urllib.request# open a connection to a URL using urllibwebUrl = urllib.request.urlopen('https://www.youtube.com/user/guru99com')#get the result code and print itprint ("result code: " + str(webUrl.getcode()))# read the data from the URL and print itdata = webUrl.read()print (data)