Здравствуйте, уважаемые.

Очередное утро - очередная задача - очередная порция новой информации - очередной FAQ
HTML Parser HTMLEditorKit: даем бой неправильному HTML.
На этот раз взбрело мне в голову ковыряться в содержимом html документа не с помощью RegExp, хотя возможно он был бы менее ресурсозатратным(?), а с помощью более подходящего для этих целей инструмента HTMLEditorKit
Сразу оговорю, чем HTMLEditorKit выгодно отличается, например, от того же SAXParser, он может работать с неправильным html кодом, т.е. скрадывает ошибки, допущенные верстальщиком при написании html кода.

HTMLEditorKit  сравнил с SAXParser не спроста. Дело в том, что оба этих инструмента используют похожую модель обработки данных. Так, что если вы знакомы с SAXParser, то вам не составит труда познать таинства HTMLEditorKit.

Уверенным программистам рекомендую почитать информацию, предоставленную Sun Swing HTML Parser