13.08.2008

Очистка html файла от избыточных тегов

Практические все современные текстовые процессоры могут конвертировать файлы любого формата который они поддерживают в html. Однако качество конвертирования оставляет желать лучшего (особенно у MS Word), как правило документы создавался без использования стилей, это приводит к тому, что даже в одном абзаце может применяться несколько стилей. Приблизительно 30-50% объёма такого документа - избыточные теги, описание стилей, которые абсолютно не нужны для передачи смысла документа, а фоматирование всегда можно осуществить с помощью стандартных тегов языка html.

Таким образом имеем задачу: очистить файл в формате html от лишних тегов с минимумом ручных операцый и, очень желательно, с возможностью пакетной обработки.

Порывшись в сети нашел довольно простое решение проблемы - скрипт на Питоне.
скачаный файл переименовываем
mv clean.txt clean.py


пользоваться скриптом очень просто:
python clean.py input.html > output.html

input.html - исходный файл, output.html - файл после работы скрипта.