Мечты о прошлом: августа 2015

понедельник, 17 августа 2015 г.

HTML парсинг в Python 3.4 при помощи библиотеки BeautifulSoup

import string
from bs4 import BeautifulSoup
from urllib import request

url = "http://www.kinozal.tv/?page=1"

content = request.urlopen(url).read()

soup = BeautifulSoup(content, 'html.parser')
# Теперь в soup находится целиком вся страница номер 1

tag2 = soup.find_all(attrs={"class": "tp1_body"})

# В tag2 содержатся все описания фильмов на данной странице

# вида <div class="tp1_body">
# ... </div>
на каждый фильм

for tt in tag2:
txt = tt.get_text()
print(txt)

# Цикл проходит по всем описаниям фильмов и выделяет текст описаний.

Подписаться на: Комментарии (Atom)