HTML Parser HTMLEditorKit: даем бой неправильному HTML
Java 20.09.2008Здравствуйте, уважаемые.
Очередное утро - очередная задача - очередная порция новой информации - очередной FAQ
HTML Parser HTMLEditorKit: даем бой неправильному HTML.
На этот раз взбрело мне в голову ковыряться в содержимом html документа не с помощью RegExp, хотя возможно он был бы менее ресурсозатратным(?), а с помощью более подходящего для этих целей инструмента HTMLEditorKit
Сразу оговорю, чем HTMLEditorKit выгодно отличается, например, от того же SAXParser, он может работать с неправильным html кодом, т.е. скрадывает ошибки, допущенные верстальщиком при написании html кода.
HTMLEditorKit сравнил с SAXParser не спроста. Дело в том, что оба этих инструмента используют похожую модель обработки данных. Так, что если вы знакомы с SAXParser, то вам не составит труда познать таинства HTMLEditorKit.
Уверенным программистам рекомендую почитать информацию, предоставленную Sun Swing HTML Parser
22.03.2009 в 19:42
Использую tagsoup для невалидного HTML. В результате получаем Document. а потом java DOM API поможет выдрать все что нужно.