Semalt - Како да изгребате веб-страници?

Убава супа е библиотека во Питон, широко користена за кршење на веб-страници со создавање парче дрво од документи XML и HTML. Вештачко scraping, техника за вадење податоци од веб-страници и страници, е широко користена во полињата за анализа и управување со податоци. Во повеќето случаи, програмскиот јазик на Пајтон е предуслов во науката за податоци.

Пајтон 3 има алатки за стружење и модули што можете да ги примените во вашиот проект за управување со податоци. Во моментов работи како убава супа 4, овој модул е компатибилен и со Пајтон 3 и Пајтон 2,7. Убавиот модул за супа 4 е исто така способен да создаде парче дрво за не-затворена супа од ознаки. Во овој туторијал, ќе научите како да ја снимите страницата и да ги напишете изнесените податоци на датотека CSV.

Започнување

За да започнете, поставете сервер или локално-базирана околина за кодирање на Python на вашиот компјутер. Исто така, треба да инсталирате модул за убава супа и барања на вашата машина. Познавањето за работа со двата модула е исто така неопходен предуслов. Запознаеноста со означувањето HTML и структурата е исто така дополнителна предност.

Разбирање на вашите податоци

Во овој контекст, реалните податоци од Националната галерија за уметност ќе бидат искористени за да ви помогнеме да разберете како да користите Убава супа 4. Националната галерија за уметност се состои од 120.000 парчиња што се направени од приближно 13.000 уметници. Уметноста е со седиште во Вашингтон, САД.

Екстракција на веб-податоци со убава супа не е толку комплицирано. На пример, ако се фокусирате на буквата Z, означете го и забележете го првото име на списокот. Во овој случај, првото име е Забаlа, Никола. За конзистентност, наведете го бројот на страници и името на последниот уметник на таа страница.

Како да увезувате барања и библиотека со убава супа

За увоз на библиотеки, активирајте ја вашето програмирање на Python 3. Проверете за да бидете сигурни дека сте во истиот директориум со вашето програмско опкружување. Извршете ја следнава команда за да започнете. my_env / bin / активирај.

Создадете нова датотека и започнете со увоз на убави супи и барате библиотеки. Библиотеката со барања ќе ви овозможи да користите HTTP во рамките на вашите програми на Python во читливи формати. Убава супа, од друга страна, работи брзо да ги избрише страниците. Користете bs4 за увоз на убава супа.

Како да се соберат и анализираат веб-страница

Користејќи Барања соберете URL на вашата прва страница. URL-то на првата страница ќе биде доделено на страната со варијабила. Изградете предмет на BeautifulSoup од Барања и парсирајте го предметот од парсерот на Пајтон.

Во овој туторијал, целта е да се соберат врски и имиња на уметниците. На пример, можете да ги соберете датумите и националностите на уметниците. За корисниците на Виндоус, кликнете со десното копче на името на уметникот. Во овој случај, користете Забаlа, Никола. За корисниците на Mac OS, допрете на "CTRL" и кликнете на името. Кликнете на менито „Inspect Element“ што се појавува на вашиот екран за да пристапите до алатките за веб-развивачи. Испечатете ги имињата на уметниците за да направите убава супа брзо парче дрво.

Отстранување на долните врски

За да ги отстраните долните врски на вашата веб-страница, проверете го ДОМ со десен клик на елементот. Identifyе идентификувате дека врските се под табела со HTML. Користејќи убава супа, користете го "методот на распаѓање" за да ги отстраните ознаките од паршното дрво.

Како да се повлече содржина од ознака

Не мора да ја отпечатите целата ознака за врски, користете Убава супа за да отстраните материјал од ознака. Може да имате и УРЛ-адреси поврзани со уметниците со користење на Убава супа 4.

Снимање на избришани податоци во датотека CSV

CSV-датотеката ќе ви овозможи да чувате структурирани податоци во обичен текст, формат што најмногу се користи за листите со податоци. Се препорачува знаење за ракување со обични текстуални датотеки во Пајтон.

Екстракција на веб-податоци се користи за scrap страници и за добивање информации. Бидете внимателни на веб-страниците од кои се информации за екстракција. Некои динамични веб-страници ја ограничуваат екстракцијата на веб-податоците на нивните страници. Да се направи страница со убава супа и Пајтон 3 е едноставно.