Библиотеки
lxml
BeautifulSoup
Grab
html5lib
HTMLParser
pyQuery
xml.dom.minidom
Leaf
mechanize
По количеству хороших библиотек (хотя и не по количеству программистов их использующих) Python уверенно занимает первое место, обгоняя и PHP и Ruby.
- lxml. Самая лучшая, но не самая популярная. Эффективная и мощная, однако непроста в изучении.
- BeautifulSoup. Самая популярная, но не самая лучшая. Простая, увы, не всегда работает корректно.
- Grab. Отличная библиотека, доходчивая документация на русском. Асинхронный многопоточный парсинг прилагается.
Кроме того в Python'е можно найти целый ряд качественных решений по автоматизации работы с сайтами. Среди них:
... и многие другие :)