Сохранение веб-страниц в pdf-файлы
03.07.2011 в Программы
Порой может возникнуть надобность сохранить интернет-страницу на жёсткий диск. Стандартно всё делается просто - через пункт меню "Сохранить как...". На выходе получаем файл html и лежащую рядом почти одноимённую папку, содержащую все файлы страницы. Во многих случаях не слишком удобный "форм-фактор" и гораздо удобнее было бы иметь один файл, соответствующий одному "документу", но содержащий в себе все нужные элементы.
Варианты следующие (совсем маргинальные, вроде копирования вручную содержимого в текстовый процессор и затем сохранения в форматах odt или doc, я рассматривать не буду):
- mht (mime html) - веб-архив. Вроде как именно для этого создавался. Можно получить, сохраняя страницы в IE и Opera. Для Firefox нужно поставить аддон UnMHT
- chm (compiled html) - формат гипертекстовой справочной системы, специально разработанный Microsoft для встроенной помощи Windows. На мой взгляд этот вариант хуже - во-первых, создавался он изначально для конкретной задачи и не совсем той, что тут рассматривается, а во-вторых, со средствами сохранения в него ситуация хуже, да и с чтением не всё гладко на линуксах.
- pdf (portable document format) - хорош кроссплатформенностью и открытостью. Со средствами просмотра всё обстоит прекрасно, насколько знаю, на всех системах. Несолько смущает, что цель у формата тоже несколько другая - прежде всего для электронного представления полиграфической продукции.
Поддерживает ссылки, поиск по тексту, и в отличии от mht поддерживает структурированное содержание.
Давеча при настройке системы на нетбуке поставила там 
