html5lib

www.github.com/html5lib/
www.pypi.python.org/pypi/html5lib/
www.lxml.de/html5parser.html

html5lib – качественно работающая с «битым» HTML-кодом, библиотека. Встраивается в lxml. Небольшой минус – работает не очень быстро.

См. также: lxml, BeautifulSoup, Grab, HTMLParser, pyQuery, xml.dom.minidom, Leaf, mechanize