Что понадобится?

Инструменты

Спешу успокоить. Написание парсеров не требует монументальных знаний о используемом языке программированиябудь то PHP, Ruby или Python. Также необязательно иметь академические сведения о сопутствующих технологиях. Однако, кое-что придётся выучить хотя бы на «хорошо» . Перечислим веб-технологии, которые придётся знать каждому, кого интересует профессиональное создание синтаксических анализаторов:

Что понадобится всем

PHP

Что понадобится «пэхапэшникам»

Ruby

Что понадобится «рубистам»

Из эффективных ruby-библиотек отдельного внимания заслуживает Nokogiri, с обширным набором функций, которые могут понадобиться при написания самого сложного парсера. Для решения специфических задач подойдёт Watir, позволяющий получать данные, обновляемые через Ajax-запросы.

Python

Что понадобится «питонщикам»

Парсинг на Pyton'е традиционно ассоциируется с библиотекой lxml. Впрочем она не лишена недостатков – достаточно упомянуть и проблемы с российскими кодировками и отсутствие документации на «великом и могучем». Альтернативным решением является Grab, представляющая из себя даже не библиотеку, а удобный специализированный фреймворк.

См. также: Парсинг: Что? Зачем? Как?, Этапы парсинга, Импорт/экспорт контента, Синтаксический анализ, Экспорт данных