lxml

lxml

www.lxml.de (Home Page)
www.pypi.python.org/.../ (all version)

lxml – возможно, лучшая библиотека для парсинга на Питоне. Отличается высокой скоростью и мощностью, «условно-проста» в использовании.

Библиотеку развивают и поддерживают эксперты python-сообщества. Поэтому обладает всеми качествами годной либры для парсинга: соответствует стандартам XML, корректна с невалидным HTML-кодом, быстро работает, безопасна и многофункциональна.

lxml совместима с html5lib и BeautifulSoup. Подключение дополнительных модулей позволяет вопользоваться возможностями данных библиотек.

Основной минус состоит в невозможности использования в сервисах и программах со встроенным Питоном, в частности в Google App Engine. Исключается использование в плагинах на Python'e, например для XBMC. Причина кроется в том, что хотя библиотека и предоставляет «питонический» API, основана на C-библиотеках libxml2 и libxslt.

См. также: BeautifulSoup, Grab, html5lib, HTMLParser, pyQuery, xml.dom.minidom, Leaf, mechanize