htmlcxx
Простой анализатор для C++, работающий даже с невалидными CSS и HTML. Хотя в открытом доступе имеются и другие html-анализаторы, htmlcxx имеет некоторые уникальные отличительные особенноси:
- STL-навигация по дереву DOM, с использованием библиотеки Excelent Tree.hh от Каспера Питерса.
- Можно с тточностью до символа воспроизвести исходный документ из дерева разбора.
- Связанный css-парсер.
- Опциональный разбор атрибутов
- C++ код, похожий на C++ (на самом деле, уже нет)
- Смещения тегов/элементов в исходном документе хранятся в узлах дерева DOM
См. также: