jsoup

jsoup – open-source Java-библиотека, предназначенная для анализа, извлечения и обработки данных, хранящихся в документах HTML.

Создана в 2009 году Джонатаном Хедли, менеджером по разработке программного обеспечения из Amazon Seattle. Он распространил ее по лицензии MIT, разрешающей лицензии на свободное программное обеспечение, аналогичной лицензии на атрибуцию Creative Commons.

По признанию автора, при написании jsoup он стремился «иметь дело с любыми разновидностями HTML, найденными в дикой природе; от валидных и незапятнанных до недопустимой теговой похлёбки».

jsoup используется в ряде крупных проектов, включая инструмент обработки данных OpenRefine от Google.

Ссылки

jsoup.org

jsoup