Back to Question Center
0

Semalt Expert: Python ja BeautifulSoup. Kaappaa sivustoja helposti

1 answers:

Tietojen analysointi- tai koneoppimushankkeita tehtäessä saatat joutua kaapistamaan verkkosivustoja saadakseen tarvittavat tiedot ja hankkeen loppuunsaattaminen. Python-ohjelmointikielellä on tehokas kokoelma työkaluja ja moduuleja, joita voidaan käyttää tähän tarkoitukseen. Voit esimerkiksi käyttää BeautifulSoup-moduulia HTML-jäsentämiseen.

Tässä tarkastellaan BeautifulSoupia ja selvitetään, miksi sitä käytetään nykyään niin laajalti verkkokaappauksessa .

BeautifulSoup-ominaisuudet

- Se tarjoaa erilaisia ​​menetelmiä navigointinäppäinten helppoon navigointiin, hakuun ja muokkaamiseen. Näin voit helposti piirtää asiakirjan ja ottaa kaiken tarvittavan tarvitsematta kirjoittaa liian paljon koodia - chocolate brown cocktail dresses.

- Se muuntaa lähtevät asiakirjat automaattisesti UTF-8: een ja saapuvat asiakirjat Unicodeen. Tämä tarkoittaa sitä, että sinun ei tarvitse huolehtia koodauksista edellyttäen, että asiakirja on määritellyt koodauksen tai Beautiful Soup voi tunnistaa sen automaattisesti.

- BeautifulSoup pidetään parempana kuin muut suosittujen Python-jäsenten, kuten html5lib ja lxml. Sen avulla voit kokeilla erilaisia ​​jäsentämisstrategioita. Yksi moduulin haittapuoli on kuitenkin se, että se tarjoaa enemmän joustavuutta nopeuden kustannuksella.

Mitä sinun täytyy kaapata verkkosivusto BeautifulSoupilla?

Jotta voit aloittaa työskentelyn BeautifulSoupilla, sinun on asennettava koneellesi Python-ohjelmointiympäristö (joko paikallinen tai palvelinperustainen). Python on yleensä esiasennettu OS X: ssä, mutta jos käytät Windowsia, sinun on ladattava ja asennettava kieli viralliselta verkkosivulta.

Sinun on asennettava BeautifulSoup- ja Request modules -moduulit.

Lopuksi tuttu ja mukava työskennellä HTML-koodauksen ja rakenteen kanssa on ehdottomasti hyödyllinen, koska työskentelet web-lähteiden avulla.

Tuontipyynnöt ja BeautifulSoup-kirjastot

Kun Python-ohjelmointiympäristö on hyvin asetettu, voit luoda uuden tiedoston (esimerkiksi nano).

Pyynnöt-kirjastolla voit käyttää ihmisen luettavaa lomaketta HTTP Python-ohjelmissasi, kun taas BeautifulSoup saa kaavinta tekemään nopeammin. Voit käyttää tuonti-ilmoitusta saadaksesi molemmat kirjastot.

Verkkosivun keruu ja jäsentäminen

Käytä pyyntöjä. get

-menetelmä kerätä verkkosivun URL-osoite, josta haluat poistaa tietoja. Seuraavaksi luo BeautifulSoup-objekti tai jäsentää puu. Tämä kohde ottaa asiakirjan Pyynnöt-argumentilta ja sitten jäsentää sen. Kun kerätyt, jäsennetty ja asetettu BeautifulSoup-objektiksi kerätyt sivut, voit kerätä tarvittavat tiedot.

Halutun tekstin erottaminen jäsennetyltä verkkosivulta

Aina kun haluat kerätä web-tietoja, sinun on tiedettävä, miten nämä tiedot on kuvattu WWW-sivun dokumenttimallimallilla (DOM). Napsauta verkkoselaimessasi hiiren kakkospainikkeella (jos käytössä on Windows) tai napsauta CTRL + (jos käytössä MacOS) jollakin kiinnostuksen kohteena olevista tiedoista. Jos esimerkiksi haluat poistaa tietoja opiskelijoiden kansallisuuksista, napsauta jotakin oppilaan nimeä. Ponnahtaa näkyviin kontekstivalikko, ja siinä näkyy valikkokohta, joka on samanlainen kuin Tarkastele elementti (Firefox) tai Tarkastele (Chrome). Napsauta tarkasteltavaa valikkovaihtoehtoa ja web-kehittäjätyökalut näkyvät selaimessasi.

BeautifulSoup on yksinkertainen mutta tehokas HTML-jäsentely työkalu, jonka avulla voit paljon joustoa, kun kaavinta verkkosivustoja . Kun käytät sitä, älä unohda noudattaa yleisiä kaapimissääntöjä, kuten verkkosivuston käyttöehtojen tarkistamista. tarkistaa sivuston säännöllisesti ja päivittää koodisi sivuston muutosten mukaan. Tämän tiedon hankkiminen verkkosivustot Python ja BeautifulSoup, voit nyt helposti saada web-tiedot tarvitset hankkeen.

December 22, 2017