-Поиск по дневнику

Поиск сообщений в akry

 -Подписка по e-mail

 

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 21.08.2007
Записей: 4917
Комментариев: 25572
Написано: 40060

Форматы хранения книг, общая модель

Дневник

Суббота, 12 Февраля 2011 г. 21:42 + в цитатник

Гросс данке Alfizik за обилие информации про формат DjVu, и за развеивание некоторых моих стереотипов. Ниже — моя попытка систематизировать информацию и создать модель, в которой видны области применимости разных форматов. Текст — слегка переработанный комментарий к этому посту.

В статье я буду упоминать «плавающую» и «фиксированную» вёрстку. Под «плавающей» я имею в виду такой формат, при котором во главе угла стоит поток текста, а остальные графические элементы привязаны к тем или иным местам в этом тексте, и при изменении размера окна, шрифта, они автоматически занимают нужную относительную позицию. Пример: практически любая веб-странца, большинство документов MS-Word, хорошо сделанные электронные книги. Фиксированная вёрстка подразумевает сохранение визуального взаиморасположения всех элементов. Пример: все журналы, газеты. У каждого из типов вёрстки есть свои области применения, свои преимущества и недостатки.

Читать далее...
Рубрики:  Идеи и мысли

Метки:  

DjVu?

Дневник

Понедельник, 31 Января 2011 г. 14:05 + в цитатник

UPD. Много полезной информации о DjVu + меня поправили + продолжение разговора. Снимается часть моих возражений (например, про принципиальную невозможность поиска). Остаётся вопрос трудозатрат на OCR и вёрстку для DjVu, в сравнении с PDF. Также у нас с Kindle остаётся принципиальный вопрос про применимость фиксированной, а не плавающей вёрстки (в pdf и djvu) для мобильных устройств и ебуков. Несмотря на то, что вопрос вроде бы не про формат, он отчасти и про формат: DjVu в отличие от PDF, заявлен как принципиально электронный, для чтения с экрана.

В каких областях DjVu обладает значимыми преимуществами перед текстово-картиночными форматами вроде pdf?

Это я читал, но имхо всё сказанное там описывает не формат для чтения, а некий промежуточный вариант. Типа, сосканировал, OCRить лень или нет времени, быстренько завернул в дежавю и скинул друзьям-товарищам. Мол, нате, мучайтесь дальше сами. Ну да, размер якобы маленький (см. ниже). Но и удобство немногим больше, чем у папки со сканами в jpg аналогичных размеров.

Для документов, в которых много картинок и формул, этот формат тоже не очень удобен. Какая плотность формул требуется, чтобы заодно и весь остальной текст переводить в графику? А если формул относительно мало, то ографичивание здорово напортит тексту. Да, формулы там будут неискажёнными. Картинки тоже. Но так ли много документов, состоящих исключительно из монохромных иллюстраций и восьмиэтажных уравнений? Даже если они есть, в любом случае их явно не большинство.

Вот взял я книжку по микроэлектронике. В djvu. Средняя плотность изображений — одно на две-три страницы. Формул ещё меньше. А остальное — потерянный текст. И таких книг среди наблюдаемых мной DjVu, подавляющее большинство.

  • Масштабировать его сложно, потому что графика.
  • Вписать в экран ебука муторно, потому что картинка.
  • Поиска по тексту нет, потому что изображение.
  • Скопировать текст нельзя, потому что рисунок.
  • Разбиение на страницы не по моему экрану, а как сосканировано, потому что растр.

Отоусиэреный PDF без оптимизации занимает 7 Мб, оригинал же — 17 Мб. Что, чёрт возьми, логично — тексты можно очень хорошо жать и хаффманом, и кучей других алгоритмов. А у сжатия картинок без существенных потерь, есть свои ограничения.

Ну и что, кроме лени, этот формат оправдывает?

Процитировать пост: Процитировать в LiveJournal!Процитировать в FaceBook!Процитировать в Twitter!Добавить блог РІ GoogleReader!
Рубрики:  Идеи и мысли

Метки:  

 Страницы: [1]