IT24

Персональный ИТ-блог

Как конвертировать документ Word в HTML-формат

Microsoft Word — один из самых удобных и распространенных текстовых редакторов. Статья, написанная на одном компьютере, будет без проблем открыта на любом другом ПК, где установлен Microsoft Office.

К сожалению, такая совместимость поддерживается только для внутренних вордовских форматов: DOC и DOCX.

Если содержимое файла сохранить в HTML,

Как конвертировать документ Word в HTML-формат. Сохранение файла в Microsoft Word

и вставить полученный код на сайт или блог, то текст из Ворда будет сильно отличаться от стандартного текста, а иногда быть может просто не читаем.

Почему?

Дело в том, что при конвертации DOCX файла в HTML, Ворд прописывает свои CSS-стили, которые отличаются от стилей сайта или блога.

Для примера скачаем первый попавшийся DOCX файл и сохраним его в HTML (см. ниже).

Как конвертировать документ Word в HTML-формат. DOCX файл

Теперь, откроем и посмотрим его в браузере.

DOCX файл, сконвертированный в HTML

На первый взгляд все корректно:

— выравнивание текста по центру и вправо,

— выделение жирным шрифтом — все как и в оригинале.

Посмотрим теперь код HTML-файла.

HTML-файл, сконвертированный Вордом

Видим — класс MsoNormal и много дополнительных стилей, прописанных в каждой строке. Вряд ли все эти стили будут совместимы с родными стилями сайта.

К тому же, даже на такой минимальный по оформлению и объему файл, Ворд нагенирировал 45 Kb кода, хотя в нем текста максимум на 1 kb.

В общем вывод простой — использовать сам Word для конвертации текста в HTML формат не целесообразно и лучше поискать другие приложения.

Небольшие и средние DOCX-файлы лучше всего конвертировать с помощью многочисленных онлайн утилит.

Онлайн конвертеры Word в HTML

Первое из таких приложений —  Convert Word Documents to Clean HTML.

Достаточно вставить текст из вордовского файла, выбрать необходимые опции и нажать: Convert to Clean HTML.

Как конвертировать документ Word в HTML-формат. Convert to Clean HTML

В результате получится такой HTML-код:

Как конвертировать документ Word в HTML-формат. Код, полученный через сайт word2cleanhtml.com

Видно, что все лишние стили убраны. Сохранено выравнивание и жирный шрифт.

Правда, выравнивание сделано не стилями, а с помощью атрибута align, что считается устаревшим и редко сейчас используется.

Следующий HTML-конвертер называется HTML Cleaner.

Принцип работы тот же, только опций для настройки значительно больше. В форму также вставляется текст из Ворда и нажимается Clean HTML.

Результат конвертации виден сразу, переключаться никуда не нужно.

Как конвертировать документ Word в HTML-формат. HTML Cleaner

Выровнять или отформатировать вставленный текст можно с помощью визуального HTML-редактора.

Word to HTML Converter, в отличии от предыдущих конвертеров не имеет каких-то настроек, но преобразует текст из Ворда в HTML также корректно.

Как конвертировать документ Word в HTML-формат. Word to HTML Converter

Как конвертировать документ Word в HTML-формат. Word to HTML Converter

Из всех Word to HTML-конвертеров я предпочитаю именно его.

Во-первых — размер конвертируемого текста никак не ограничивается,
во-вторых — без ошибок конвертируются таблицы,
и в-третьих — вставленная информация, по заявлениям разработчиков, никуда не отправляется, т.к. скрипт выполняется в браузере пользователя, а не на удаленном сервере.

И, действительно, даже при отключенном сетевом адаптере, форма конвертации также работает и не запрашивает интернет-соединение. Поэтому, в отличие от других подобных сервисов, можно быть уверенным, что полученный HTML-код раньше времени в онлайн не попадет.