BeautifulSoup

BeautifulSoup

www.crummy.com/.../

BeautifulSoup – самая распространённая библиотека для парсинга на Питоне. Причина популярности – в простоте использования. Предоставляет очевидные пути навигации, поиска и изменения дерева DOM-документа. Библиотека не требует установки, годится для использования GAE

Автор проекта – программист из США Леонард Ричардсон.

В качестве дополнительного модуля есть возможность подключать BeautifulSoup к lxml.

Существует версия, ныне не поддерживаемая автором, для Ruby – Rubyful Soup.

Недостатком библиотеки является не всегда корректная работа не только с невалидным, но и даже с валидным HTML. Впрочем, от версии к версии ситуация улучшается.

См. также: lxml, Grab, html5lib, HTMLParser, pyQuery, xml.dom.minidom, Leaf, mechanize