-Поиск по дневнику

Поиск сообщений в akry

 -Подписка по e-mail

 

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 21.08.2007
Записей:
Комментариев:
Написано: 40042

DjVu?

Понедельник, 31 Января 2011 г. 14:05 + в цитатник

UPD. Много полезной информации о DjVu + меня поправили + продолжение разговора. Снимается часть моих возражений (например, про принципиальную невозможность поиска). Остаётся вопрос трудозатрат на OCR и вёрстку для DjVu, в сравнении с PDF. Также у нас с Kindle остаётся принципиальный вопрос про применимость фиксированной, а не плавающей вёрстки (в pdf и djvu) для мобильных устройств и ебуков. Несмотря на то, что вопрос вроде бы не про формат, он отчасти и про формат: DjVu в отличие от PDF, заявлен как принципиально электронный, для чтения с экрана.

В каких областях DjVu обладает значимыми преимуществами перед текстово-картиночными форматами вроде pdf?

Это я читал, но имхо всё сказанное там описывает не формат для чтения, а некий промежуточный вариант. Типа, сосканировал, OCRить лень или нет времени, быстренько завернул в дежавю и скинул друзьям-товарищам. Мол, нате, мучайтесь дальше сами. Ну да, размер якобы маленький (см. ниже). Но и удобство немногим больше, чем у папки со сканами в jpg аналогичных размеров.

Для документов, в которых много картинок и формул, этот формат тоже не очень удобен. Какая плотность формул требуется, чтобы заодно и весь остальной текст переводить в графику? А если формул относительно мало, то ографичивание здорово напортит тексту. Да, формулы там будут неискажёнными. Картинки тоже. Но так ли много документов, состоящих исключительно из монохромных иллюстраций и восьмиэтажных уравнений? Даже если они есть, в любом случае их явно не большинство.

Вот взял я книжку по микроэлектронике. В djvu. Средняя плотность изображений — одно на две-три страницы. Формул ещё меньше. А остальное — потерянный текст. И таких книг среди наблюдаемых мной DjVu, подавляющее большинство.

  • Масштабировать его сложно, потому что графика.
  • Вписать в экран ебука муторно, потому что картинка.
  • Поиска по тексту нет, потому что изображение.
  • Скопировать текст нельзя, потому что рисунок.
  • Разбиение на страницы не по моему экрану, а как сосканировано, потому что растр.

Отоусиэреный PDF без оптимизации занимает 7 Мб, оригинал же — 17 Мб. Что, чёрт возьми, логично — тексты можно очень хорошо жать и хаффманом, и кучей других алгоритмов. А у сжатия картинок без существенных потерь, есть свои ограничения.

Ну и что, кроме лени, этот формат оправдывает?

Процитировать пост: Процитировать в LiveJournal!Процитировать в FaceBook!Процитировать в Twitter!Добавить блог РІ GoogleReader!
Рубрики:  Идеи и мысли
Метки:  



XoID   обратиться по имени Понедельник, 31 Января 2011 г. 14:43 (ссылка)
Формат однозначно уныл и гавенен.
Ответить С цитатой В цитатник
Перейти к дневнику

Понедельник, 31 Января 2011 г. 15:23ссылка
Сейчас разметил в FineReader блоки — формулы и картинки. Час на 750 страниц. А читается с ебука в миллион раз лучше.
Alfizik   обратиться по имени Понедельник, 31 Января 2011 г. 16:00 (ссылка)
akry, скажем так в некоторых моментах Вы предвзяты, в некоторых моментах ошибаетесь, а в некоторых Вам попались неудачные примеры.
Формат DjVu прекрасен и замечателен, но как любой формат он дает хорошие результаты если его применять в нужном месте и что важнее всего правильно.

Теперь постараюсь по пунктам:
- Масштабировать
Масштабировать djvu файлы нисколько не сложно, во всяком случае я проблем никогда не испытывал (а читаю книги в djvu я часто), возможно Вы пользовались неподходящей программой? Благо их множество, советую воспользоваться - WinDjView, есть еще DjVuReader и др., но имхо лучше WinDjView.
Пример юзанья

- Вписать в экран
Я так понимаю это из той же опера что и масштабировать, см. выше.

- Поиска
А вот тут бабушка надвое сказала )) На самом деле довольно распространенное заблуждение, точнее сказать большинство претензий к формату DjVu основывается на вот такой безалаберности тех кто делает djvu книжки (руки им бы оторвать).
Все дело в том, что формат DjVu предусматривает наличие текстового слоя, с возможностью искать по тексту и копировать этот текст из djvu, все как в pdf :)
Но большинство горе делателей djvu-книжек или не знают этого или из лени не добавляют текстовый слой, а потом люди мучаются или делают неверный вывод, что djvu это неудобно.
Кстати в любую djvu-книгу при желании можно добавить текстовый слой и самому, это не сложно и не очень долго.
Если интересно спрашивайте, могу подробно рассказать.

- Скопировать текст нельзя
Как сказано выше можно :)

- Разбиение на страницы не по моему экрану, а как сосканировано, потому что растр.
Опять же смотрите самый первый пункт и попробуйте WinDjView, наверняка Вам понравиться.

- Отоусиэреный PDF без оптимизации занимает 7 Мб, оригинал же — 17 Мб. Что, чёрт возьми, логично — тексты можно очень хорошо жать и хаффманом, и кучей других алгоритмов. А у сжатия картинок без существенных потерь, есть свои ограничения.
Скорее всего Вам попалась "кривая" djvu-книга, коих из-за горе недоделывателей все еще к сожалению много. Из своего опыта могу сказать, что в подавляющем большинстве случаев, кроме редких исключений, DjVu-формат всегда компактнее PDF, если речь конечно идет о преобразовании отсканированого бумажного варианта.

Надо понимать, что формат DjVu идеален для перевода в цифровой формат бумажных книг в котором много трудно подающихся автоматическому OCR (или практически не подающихся) элементов: формулы, схемы и т.п. То есть это книги по математике, химии, физике, медицине, техническая литература и т.п.

Техническая литература и книги по точным наука как правило не устаревают, а достать бумажные, особенно старые (но все еще крайне полезные) довольно трудно, вот такие книги формат DjVu и делает доступными для всех, за что ему (формату) огромное спасибо!
Если книжка художественная (роман, стихи и т.п.) то есть там где чистый текст, то особого смысла перегонять её в DjVu конечно нету.

А для того, что подкрепить сказанное не только словом, но и делом, как говориться лучше один раз увидеть, чем сто раз услышать, посмотрите вот эти правильно сделанные DjVu книги и оцените их удобство и компактность. Только убедительная просьба при чтении их воспользуйтесь WinDjView-ом, иначе многое можете упустить.

- [URL=http://publ.lib.ru/ARCHIVES/N/''Nauka_i_jizn'''/''Nauka_i_jizn''',1998,N01.[djv].zip]«Наука и жизнь», 1998, №01[/URL] - тут даже дерево-содержание почти как в pdf встроено :)

Ссылка нормально не вставляется через ЛиРу :( вставляйте как есть в браузер - http://publ.lib.ru/ARCHIVES/N/''Nauka_i_jizn'''/''Nauka_i_jizn''',1998,N01.[djv].zip

- Вот еще пример, крайне сомневаюсь, что в PDF сжать в растре можно было бы лучше и книга была бы читабельнее.

- Механика сплошных сред, вот это пример правда не самый удачный, книгу можно было сделать и лучше (600 dpi, вместо 300), размер увеличился не сильно бы (меньше чем 2 раза), но читать было бы приятнее (текст был бы на порядок разборчивее). Привел эту книгу как пример того случая (обилие формул и нестандартных значков) когда кроме как DjVu никакой вариант не пройдет. Интересно найдется ли Сизиф который её сделает не растровой?! ))) А в DjVu у этой книги есть поиск по тексту и возможность его скопировать ;)

Пример с 21 стр.:
"Пусть в гильбертовом пространстве Н действует линейный
ограниченный оператор А. Оператор А* называется сопряженным
оператору А, если для любых /, geH выполняется равенство
"

P.S.
И на последок вот довольно хорошая статья, посвященная вопросу DjVu vs PDF - Сравнение форматов DjVu и PDF
Ответить С цитатой В цитатник
Перейти к дневнику

Понедельник, 31 Января 2011 г. 16:58ссылка
Спасибо за столь обширную информацию! Теперь я в разы больше знаю про DjVu, что ценно.

Внесу коррективы. Основная проблема с djvu у меня не на компе, на большом экране я любую картинку могу масштабировать без особых проблем. На PC пользуюсь WinDjView. А вот на ебуке начинаются танцы. Да, есть прошивки, читающие djvu, но все мои претензии актуальны.

Текст и поиск. Про текстовые слои я понял, но тогда вопрос — а в чём тогда преимущество перед pdf? Чтобы появился текстовый слой, его очевидно нужно откуда-то взять: набрать или распознать. А потом встроить в вёрстку, добавить линки. Сомневаюсь, что трудоёмкость этих операций меньше, чем при обычном OCR. Даже специальные случаи вроде «механики сплошных сред» с обилием формул явно требуют изрядной работы.

Далее, старые книги и журналы. Я бы рассматривал их по-отдельности. Журнальная и газетная многоколоночная вёрстка — это не книжная вёрстка. В книгах редко бывает такое изобилие блоков, рубрик, пересекающихся текстов. Если есть оригинал в кварке или индизайне — то его лучше и быстрее перевести в pdf, просто распечатав в него. Если есть только сканы, то мы возвращаемся к предыдущей теме — графика версус тексты, и необходимость OCR для текстов. Заиметь старые книжки в электронном виде конечно очень приятно. Но я ведь с этим как раз и не спорил. Вопрос только — в каком формате? Я бы предпочёл pdf, по вышеописанным причинам.

p.s. PDF неидеален для электронных книг, он всё-таки не для этого делался. Он тяжёл и по структуре, и по требованиям к воспроизведению. На ебуках с ним часто кошмары. Но pdf точно хорошо продуман для сохранения любой вёрстки. Понятие «аналогичный по качеству» очевидно нуждается в уточнении. Если мы просто сохраним в pdf картинки, то наверное размер будет меньше, и качество хуже. Всё-таки djvu использует множество хитрых алгоритмов графического сжатия. Но если у нас в pdf текст со встроенными картинками, то вопрос о размере, и особенно о качестве уже не столь однозначен.
Перейти к дневнику

Вторник, 01 Февраля 2011 г. 12:21ссылка
Исходное сообщение akry
Далее, старые книги и журналы. Я бы рассматривал их по-отдельности. Журнальная и газетная многоколоночная вёрстка — это не книжная вёрстка.

Вот-вот и для оцифровки таких случаев (из бумажного варианта конечно) единственно, что применимо это только DjVu. Причем тут DjVu будет еще и идеален, эл. вариант выйдет пожалуй даже лучше оригинала, ведь появиться возможность поиска по тексту.
Как пример журнал "Наука и жизнь" я уже приводил.

Исходное сообщение akry
В книгах редко бывает такое изобилие блоков, рубрик, пересекающихся текстов.

Ну почему же, в научно-популярных изданиях это не редкость, в учебной литературе такое также встречается.

Исходное сообщение akry
Если есть оригинал в кварке или индизайне — то его лучше и быстрее перевести в pdf, просто распечатав в него.

Тут конечно сомнений быть не может, если доступен эл. оригинал то однозначно выбор за PDF.
Но как я сказал в самом начале: "Формат DjVu прекрасен и замечателен, но как любой формат он дает хорошие результаты если его применять в нужном месте и ... правильно."
Формат DjVu идеален для оцифровки бумажных источников, когда эл. вариантов нету, к тому же DjVu это судя по всему эта единственная "надежда" для технической и научной литературы (опять речь идет о бумажных источниках).
Если есть эл. оригиналы, то есть другие более подходящие форматы, тот же PDF.

Так что каждому грибу свое лукошко. Проблема не в том что DjVu плохой формат (как раз наоборот, очень хороший), а PDF якобы идеален для всего. Вся проблема в безграмотности тех кто не знает плюсов и минусов каждого формата и безграмотно их применяет там где они не подходят. Пытаясь запихнуть квадратное в круглое. Отсюда и предвзятое отношение к DjVu, к сожалению плохих djvu-книг все еще много, люди просто не умеют или ленятся его правильно применять.

N.B.
"DjVu это судя по всему эта единственная "надежда" для технической и научной литературы"
Вот кстати ответ на вопрос почему формат DjVu так широко прижился на посоветском пространстве. У многих есть дома ценные (полезные) бумажные технические книги (радиолюбительство, медицина, химия, физика, астрономия, авиамоделизм и т.п., все таки советское образование было одно из лучших), которые не потеряли своей актуальности и сейчас. Но есть много людей которые увлекаются всем этим, но книг у них нет. А DjVu стал мостиком между ними.
Совсем не давно (90-x гг.) таких книг практически не издавали, а сейчас если и издают стоит все это не дешево. Наш менталитет и DjVu шагают бок о бок.
Например формат DjVu для меня это практически единственная возможность ознакомиться со старыми журналами, та же "Наука и жизнь", "Юный техник", "Массовая радио библиотека" и т.п. Это очень удобно иметь возможность читать их у себя дома, а не идти в читальный зал крупной библиотеки, к тому же не все живут в крупных городах.
А да совсем забыл еще есть студенты для них DjVu это можно сказать "alma mater".

Исходное сообщение akry
Если есть только сканы, то мы возвращаемся к предыдущей теме — графика версус тексты, и необходимость OCR для текстов. Заиметь старые книжки в электронном виде конечно очень приятно. Но я ведь с этим как раз и не спорил. Вопрос только — в каком формате? Я бы предпочёл pdf, по вышеописанным причинам.

Думаю теперь я ответил на ваш вопрос, почему DjVu во многих случаях все же предпочтительнее PDF.
PDF к сожалению возможен зачастую только при наличии эл. оригинала.
Перейти к дневнику

Понедельник, 31 Января 2011 г. 17:29ссылка
++ «крайне сомневаюсь, что в PDF сжать в растре можно было бы лучше и книга была бы читабельнее»

Без вычитки, OCR на автомате: djvu_example.pdf (325 kb vs 823 kb). Мне кажется, вариант «полностраничные картинки + текст» практически всегда будет проигрывать по размеру «отдельным картинкам + тексту».
Перейти к дневнику

Вторник, 01 Февраля 2011 г. 12:57ссылка
Исходное сообщение akry
++ «крайне сомневаюсь, что в PDF сжать в растре можно было бы лучше и книга была бы читабельнее»

Ключевое слово в растре (картинкой), Ваш pdf векторный.

Исходное сообщение akry
Без вычитки, OCR на автомате: djvu_example.pdf (325 kb vs 823 kb). Мне кажется, вариант «полностраничные картинки + текст» практически всегда будет проигрывать по размеру «отдельным картинкам + тексту».

С этим я и не спорил.
Перейти к дневнику

Вторник, 01 Февраля 2011 г. 13:31ссылка
В догонку вот еще одна статья посвященная сравнению форматов "Книгосканирование и формат PDF" - http://www.djvu-soft.narod.ru/scan/bookscan_pdf.htm
akry   обратиться по имени Понедельник, 31 Января 2011 г. 17:33 (ссылка)
Хорошая цитата. Выделение моё.
«ИМХО спор какой-то идет совершенно бессмысленный. djvu и pdf предназначены по большому счету для решения разных задач. Основное назначение djvu - воспроизведение (хранение) электронных копий уже отпечатанных книг, когда в первую очередь важно передать (сохранить) особенности оформления книги. Например, когда нужно сделать копию книги времен Гутенберга, или вообще какого-нибудь рукописного издания. Тут pdf не помощник. Понятное дело, что куча народа использует djvu, когда лень, или нет возможности распознавать текст, и при этом ценность несет только информация, заложенная в тексте.
Когда же есть исходник статьи в tex-е, или ворде каком-нибудь, то тут pdf использовать сам бог велел. Переводить такой документ в djvu - это уже какое-то извращение». (Merblud на ixbt.com)
Ответить С цитатой В цитатник
Перейти к дневнику

Вторник, 01 Февраля 2011 г. 12:33ссылка
Исходное сообщение akry
Хорошая цитата. Выделение моё.
«ИМХО спор какой-то идет совершенно бессмысленный. djvu и pdf предназначены по большому счету для решения разных задач. Основное назначение djvu - воспроизведение (хранение) электронных копий уже отпечатанных книг

Золотые слова, об этом я и говорю со своего первого комментария.

Исходное сообщение akry
когда в первую очередь важно передать (сохранить) особенности оформления книги. Например, когда нужно сделать копию книги времен Гутенберга, или вообще какого-нибудь рукописного издания.

Ну все таки пожалуй такие раритеты это экзотика, а вот техническая, научная и научно-популярная литература да, да, и еще раз Да :)
Посмотрите по интернет библиотекам какую литературу выкладывают в DjVu.

Исходное сообщение akry
Когда же есть исходник статьи в tex-е, или ворде каком-нибудь, то тут pdf использовать сам бог велел. Переводить такой документ в djvu - это уже какое-то извращение». (Merblud на ixbt.com)

Ну конечно! Коробит сама мысль, применять в таких случаях DjVu О_о

Впрочем о всем этом я пожалуй уже доходчиво растолковал в своих других комментариях.
Alfizik   обратиться по имени Понедельник, 31 Января 2011 г. 18:14 (ссылка)
akry, спасибо, что не закидали меня гнилыми помидорами, всегда приятно общаться с умным человеком.

Из прошлого поста я Вас неправильно понял, думал речь идет о нетбуке. По вопросу ебука, могу сказать только то, что к сожалению мало какие производители изначально поддерживают DjVu, ну не модный это формат среди производителей ебуков. Но тут претензии уже надо предъявлять производителям, сам формат тут не виноват. Мне например не нравиться, что MS Office не поддерживает форматы odf\odt (OpenOffice).

а в чём тогда преимущество перед pdf?
Вопрос резонный, отвечу. Преимущество есть и вот в чем.
Вы правильно заметили "его нужно откуда-то взять: набрать или распознать". Набирать к счастью ничего не надо (иначе DjVu не имел бы никакого смысла), нужно распознать, причем распознавание идет полностью автоматически, машинного OCR более чем достаточно (хотя если очень хочется, не лень и не жалко времени можно автоматическое OCR потом и вручную подредактировать, но я никогда так не делаю, полного автомата мне всегда хватало).
"А потом встроить в вёрстку, добавить линки. Сомневаюсь, что трудоёмкость этих операций меньше, чем при обычном OCR."
В том то и дело, что в случае DjVu ничего этого вручную делать не надо, компьютер все это сделает за Вас, полностью автоматически, причем в лучшем виде :) Даже в случае «механики сплошных сред» ни какой ручной и тяжелой работы не было, пару нажатий на кнопочки и компьютер все делает сам без участия человека, причем довольно быстро. Одним словом красота!

Вы очевидно спросите как, охотно отвечу. Есть два метода, первый использовать коммерческие версии Djvu-кодировщиков (от LizardTech и Caminova), например Document Express Editor или Document Express Enterprise в них предусмотрено около 60 OCR языков (в том числе азиатские: японский, корейский, китайский).
Но это не самый лучший путь, этим методом я например никогда не пользовался. И вот почему это не самый лучший вариант:
- программы платные
- OCR у них от IRIS (хотя технологии не стоят на месте и сейчас это вполне возможно уже не является недостатком).

Второй метод, бесплатный и дающий прекрасное качество, это воспользоваться бесплатной программой DjvuOCR (последняя версия кажется v2.4 beta4 full).

Эта программа в качестве движка для распознавания использует всем знакомый и хорошо себя зарекомендовавший FineReader 7/8/9 версий (любая версия на ваш выбор). Причем для работы подходит триальные версия FineReader, так что все бесплатно :)

Чтобы не повторяться лишний раз, приведу несколько ссылок с подробной инструкцией по DjvuOCR:
- Создание в djvu-файле текстового слоя и интерактивного содержания

- Создание в djvu-файле текстового слоя и интерактивного содержания, тот же текст, что и предыдущий но в другой верстке, возможно читать будет удобнее.

- Программа Djvu OCR 2.4 - текст в djvu файле

- Несколько замечаний по настройке FineReader-а - Распознавание текста с помощью FineReader

P.S.
К сожалению на этом я вынужден пока остановиться, мне нужно уходить, поэтому оставляю Ваш пост пока не полностью прокомментированным, продолжу завтра.
Ответить С цитатой В цитатник
Перейти к дневнику

Понедельник, 31 Января 2011 г. 21:07ссылка
Есть возможность пристроить Djvu OCR к FineReader 10? Проекты похоже в новом формате и прога их не видит. А я хочу опробовать.

++ В общем, я ожидал подобный workflow. Куда в наше время без FineReader :)
Однако хочу отметить, что пока что количество операций не меньше, а больше, чем при переводе в pdf. Там так же всё начинается со сканёжки в FR, расстановки блоков (это повезёт, если автоматически — часто приходится руками) и «Сохранить как PDF». Хотя для ебука я предпочёл бы что-то с плавающей вёрсткой, например сделать из Word какой-нибудь mobi.
Перейти к дневнику

Вторник, 01 Февраля 2011 г. 11:30ссылка
Исходное сообщение akry
Есть возможность пристроить Djvu OCR к FineReader 10? Проекты похоже в новом формате и прога их не видит. А я хочу опробовать.

Пока такой возможности нет, но походу планируется.
Да, вся проблема в том что проекты в FR10 в новом формате.

Подробности можно почитать тут - http://ns2.ru-board.com/topic.cgi?forum=5&topic=22673&start=180

И наверное здесь - http://djvuocr.ucoz.ru/

Я например пользуюсь FR8 и мне его для DjVu вполне хватает. Тем более есть, неофициальные правда, portable сборки FR, достаточно распаковать из архива и можно тут же добавлять текстовый слой в djvu книжки.

Исходное сообщение akry
Однако хочу отметить, что пока что количество операций не меньше, а больше, чем при переводе в pdf. Там так же всё начинается со сканёжки в FR, расстановки блоков (это повезёт, если автоматически — часто приходится руками) и «Сохранить как PDF».

Не могу ничего сказать с pdf не работаю. Но не вижу ничего затратного в добавлении текстового слоя в DjVu, так как все автоматизировано:
1. Нажал на кнопку книга разобралась на tiff-ы;
2. Нажал на вторую tiff-ы распознались в FineReader-е;
Всегда пользуюсь автоматом, блоки не правлю, проверку на ошибки не провожу, ничего не верстаю т.к. качество распознавания всегда получается хорошее (даже для таблиц и т.п.). Ошибки конечно всегда неизбежны, но их количество мало (если не сказать ничтожно) и для DjVu не принципиальны.
Процитирую ссылку из моего предыдущего комментария:
"Но есть у djvu-книг ещё одно очень существенное преимущество перед pdf.
Это OCR, то есть распознанный текст книги. При сохранении книги в pdf для достижения качественного результата книгу необходимо вычитать, проверить на наличие ошибок, ибо тот кому эта книга достанется без исходных изображений уже ничего не сможет сделать. И такие книги испорченные корявым OCR-ом часто встречаются.

В книгах сделанных в формате djvu этой проблемы нет. Текст сохраняется одновременно с оригинальным файлом. И даже если OCR невычитан, текст можно всегда подправить сравнив с оригиналом."

Из моего опыта могу подтвердить, что так все и есть, поиску по тексту и цитированию избранных параграфов из книги это нисколько не мешает.
У меня есть растровый оригинал, который я могу свободно распечатать на принтере в превосходном качестве, а могу скопировать в эл. формат (doc и т.п.) и если и встретиться пару ошибок или формула её будет не сложно привести к причесанному виду.

3. Нажал на третью кнопочку текстовый слой автоматически добавился к DjVu.

Все, от меня требуется только три раза не задумываясь нажать на кнопки и все. И не надо себе ломать голову расстановкой блоков, вычиткой и т.п.
Перейти к дневнику

Среда, 02 Февраля 2011 г. 01:54ссылка
FR10 лучше распознаёт. Жаль, что пока нет софта для него. Вообще он распознаёт DjVu самостоятельно, как набор сканов — может быть это можно присобачить к выводу? Собственно я этим и занимался — делал из DjVu что-то reflowable. Кстати, итоговый word тоже меньше по размерам, чем DjVu. Хотя о сохранении точной вёрстки речи и нет — цель была как раз обратная, сделать плавающую вёрстку.

Текстовый слой более-менее примиряет меня с форматом. При этом по-прежнему я думаю, что он промежуточный. Объясню:
«И даже если OCR невычитан, текст можно всегда подправить сравнив с оригиналом».
«если и встретиться пару ошибок или формула её будет не сложно привести к причесанному виду».

Это означает, что документ на каком-то уровне, прямо сейчас пригоден к чтению и распечатке. Но он ещё не «окончательная вёрстка», потому что в нём могут быть ошибки, текст не отделён от картинок, формулы не векторизированы. Исправление их, выделение формул и т. п. — трудоёмкий процесс, к тому же DjVu не пригоден для сохранения такой сложной вёрстки. Фактически, в нём есть только два вида информации — растр и почти голый текст (или можно сохранять вектора?).

Таким образом, формат — паллиатив. Можно сказать, хак, в хорошем смысле. При этом он однозначно востребован для широкого круга бытовых приложений, включая описанные выше в комментариях.

Вопросы бесплатного SDK, жадности Caminova и стандартизации по ISO мы оставим в стороне.

Bottomline: ещё раз спасибо за обилие ценной информации. Теперь я много лучше понимаю сферу применения DjVu. И переформулирую мысль поста: ничто кроме лени не оправдывает тех, кто использует этот формат всуе вне области его применения, и некорректно.
Перейти к дневнику

Среда, 02 Февраля 2011 г. 12:45ссылка
Исходное сообщение akry
FR10 лучше распознаёт. Жаль, что пока нет софта для него. Вообще он распознаёт DjVu самостоятельно, как набор сканов — может быть это можно присобачить к выводу?

Я могу и ошибаться, но gencho (автор DjvuOCR) кажется занимается этим вопросом, просто сейчас он больше занят доводкой до ума совместимости с FR9. Вероятно после этого займется FR10, во всяком случае было бы странно если бы он обошел FR10 стороной.
А пока все рекомендуют связку DjvuOCR+FR8, с 9 все еще бывают ошибки.

Нюансы и технические вопросы, а также вопросы разработки DjvuOCR и дружбы его с FR активно обсуждаются здесь - http://ns2.ru-board.com/topic.cgi?forum=5&topic=22673&start=180

Там же есть варианты использования FR10 для DjVu, но пока все это очень коряво.

Исходное сообщение akry
Это означает, что документ на каком-то уровне, прямо сейчас пригоден к чтению и распечатке. Но он ещё не «окончательная вёрстка», потому что в нём могут быть ошибки, текст не отделён от картинок, формулы не векторизированы.

А зачем все это? Имеется ввиду идеальная вычитка и векторизация?

Вот смотрите у меня есть бумажная книга, и мне не приходит в голову жаловаться, что с ней не удобно работать: пальцами листать страницы, вручную конспектировать или ксерокопировать избранные параграфы и вообще, а почему нельзя формулы сразу из книжки перенести в word... Эх, бумажная книжка уныла и гавена и зачем их еще издают?

Ладно не буду утрировать, все это юмор.

Допустим у моего друга нету какой-либо книжки, но ему она очень нужна. Я перегоняю её в djvu и он может читать её и использовать почти точно также как я, только вся разница в том, что с монитора + у него еще есть поиск по тексту (мне же придется пользоваться предметно-именным указателем и то если он есть в книге) и возможность копировать в word, помойму неплохо ;)
А при желании он может распечатать djvu-книгу на принтере и получит визуально такую же книгу как у меня (только бумага и переплет может отличаться) и поставит на полку и отсутствие векторизации и вычитки тут совершенно никак не скажется на качестве. Обе книги будут точка в точку, запятую в запятую идентичны. Все таки 300-600 dpi это весьма, тем более для ч\б текста.

Если я собираюсь распечатать книжку в бумаге, какая принципиальная разница источник у меня в растре или в векторе? Разве что размер в мегабайтах. Но DjVu сжимает растр довольно сильно, сильнее чем его может сжать PDF.

Если брать в сравнение растр DjVu и вектор PDF, разница да существенна "djvu_example.pdf (325 kb vs 823 kb)" в 2,5 раза. Но эта разница существенна только если я собираюсь хранить у себя на винте большую библиотеку от единиц гигабайт и более.

Теперь взглянем на этот вопрос с другой стороны. Мне нужна книга, что то наподобие "Механики сплошных сред" (обилие формул, спец. значков, диаграмм, графиков и т.п.), у меня её нет, но она есть у некоего N (и живет от далеко от меня).
И вот я пишу ему на email с просьбой прислать мне эл.копию этой книги. Что для N окажется проще перевести её в DjVu или в PDF, очевидно в DjVu.
Вот скажите мне, Вы бы бесплатно стали бы делать полную вычитку и полную векторизацию "Механики сплошных сред". И даже если предположить что кто то "из любви к искусству" и начнет, сколько я буду ждать эту книгу? Неделю, месяц... А она мне нужна уже завтра.
К тому же человек не идеален, он делает ошибки, где гарантия, что он не ошибется при вычитке и векторизации, причем не один раз на какой нибудь из 335 стр. той же механики, а есть книги и в 800 стр. Так это еще нужен целый коллектив, который будет проверять на ошибки и все равно ошибки не исключены.
Трудозатраты и затраты времени имхо не оправдано высоки.
DjVu тут все крайне значительно упрощает.

Исходное сообщение akry
не «окончательная вёрстка», потому что в нём могут быть ошибки, текст не отделён от картинок, формулы не векторизированы.

Ошибки могут быть только в текстовом слое, в самом отображении книги в DjVu формате, ошибок нет. Так как DjVu по отображению ничем визуально не отличается от качественной фотографии той же самой книги. А в некотором смысле даже превосходит фотографию.
И текст и картинки и фон книги все в растре. Текстовый слой храниться в отдельном чанке в виде txt текста сжатого ZP алгоритмом (подобен алгоритму BZIP2).

Исходное сообщение akry
к тому же DjVu не пригоден для сохранения такой сложной вёрстки.

Не совсем понятно почему? Чем цифровая фотографическая копия не подходит для сохранения всех деталей и нюансов бумажного оригинала сколь угодно сложной верстки? При желании можно сохранить даже пятна и грязь присутствующие на бумаге от старости.

Исходное сообщение akry
Фактически, в нём есть только два вида информации — растр и почти голый текст (или можно сохранять вектора?).

На сколько я понимаю только растр + опционально текст подобный txt-формату.

Насчет вектора врать не буду, не знаю. Это лучше спросить, не побоюсь сказать, у корифеев формата DjVu на посоветском пространстве, например monday2000 на форуме - http://www.djvu-scan.ru/forum/

Или попробовать поискать ответ самому на его сайте - http://www.djvu-soft.narod.ru/

Про технические аспекты формата можно почитать также здесь, но возможно информация уже устарела, формат не стоит на месте и потихоньку развивается.

Исходное сообщение akry
Таким образом, формат — паллиатив. Можно сказать, хак, в хорошем смысле.

Ну не знаю, это скорее дело личных предпочтений.

Исходное сообщение akry
Вопросы бесплатного SDK, жадности Caminova и стандартизации по ISO мы оставим в стороне.

Пожалуй лучше да, данными вопросами я не интересовался, так что тут я ничего определенного сказать пожалуй не могу.

Ну разве что слышал, что существует открытая библиотека DjVuLibre, публикуемая вроде под лицензией GNU GPL.

Про SDK и ISO лучше опять же спросить у monday2000.

Вообще достойных бесплатных программ для DjVu достаточно.
Перейти к дневнику

Четверг, 03 Февраля 2011 г. 16:05ссылка
Окей, подождём gencho. Я всё-таки не делаю книги, мне просто было любопытно попробовать.

То, о чём мы говорим — удобство, завершённость и прочее — имеют смысл только в приложении к некой цели. Пока мы её не определим, разговор будет абстрактным, потому что эстетику к делу не пришьёшь, да и у каждого своё понимание, что есть красиво.

Поэтому наверное можно выстроить такую последовательность:
1. Книга в бумажном виде. Свои плюсы и минусы, свои цели, перечислять не буду.

2. Архивное хранение, когда нужно избежать потерь. Сканы в TIFF и прочих «точных» форматах. JPEG, и уж тем более вейвлеты тут использовать очевидно нельзя. Цели архивного хранения могут быть разными, и они будут определять в первую очередь качество и разрешение сканирования.

3. Быстренько переслать другу статью/рисунок/рукопись/книжку, сохранить себе. Обычные JPG, когда не надо заморачиваться, а просто сканернуть.

4. Быстренько сохранить/переслать статью/рисунок/рукопись/книжку чуть более продвинуто и удобно для хранения/чтения/каталогизации — завернуть в один файл. Это DjVu без текстового слоя, может быть с метаданными. Можно использовать и PDF, но хранить голые картинки в нём имхо извращение. Как я успел заметить, в основном именно такие сравнения между этими двумя форматами и показывают ошеломляющее преимущество DjVu, что неудивительно. :)

На этом заканчиваются чисто графические способы хранения и начинаются танцы. Если с графикой в плане вывода всё было понятно (альфа и омега: разрешение + потери, ни о каком изменении документа для удобств вывода, кроме масштабирования, речи нет), то дальше появляются варианты.

Промежуточные:
5. Быстренько распознать статью/книжку и переслать текстовый файл. Плюсы — легко ознакомиться, минусы — из рассмотрения выпадают формулы, рукописи, графики.

6. Быстренько сохранить/переслать статью/рисунок/рукопись/книжку «с удобствами», объединив со сканами (опять же быстренько) текст без особой вычитки методом «как получится». Текст можно добавить в виде отдельного «сопроводительного» файла. А можно вклеить его в текстовый слой в DjVu или в PDF, поверх скана страницы. Очевидно, что главное приложение, я бы сказал, бытовое.
Плюсы: чтение (с большого экрана), поиск по тексту.
Минусы: возможности по адаптации к устройствам вывода по-прежнему ограничены масштабированием, что не всегда айс. Особенно если мы говорим о ебуках и мобильных устройствах. Также у нас появляется некоторая избыточность: большое количество текста присутствует и в графике, и в собственно текстовом виде. Причём графика нужна только в ограниченном количестве мест. На это можно возразить, что мол потери по объёму невелики, но не такой ли аргумент оспаривали на djvu-soft.narod.ru? Мне кажется, нужно быть последовательным: если уж мы ратуем за сокращение объёма (спорный тезис, но популярный среди апологетов DjVu), следует признать, что оно в DjVu происходит вовсе не всегда оптимальным образом. Причём не по причине нерадивости кодирующих, а в силу принципиальных особенностей формата. Для любого схожего набора алгоритмов, текст + графика будет занимать больше объёма, чем просто текст.
Таким образом, в качестве основных преимуществ здесь я бы выделил не «рекордно малый объём», а скорость создания того, что можно прочитать с большого экрана и проиндексировать. А при необходимости, и обработать на следующем уровне.
Кстати, на этом же этапе можно добавить и интерактивность, и гиперссылки.

7. Уже не так быстро: вручную (или автоматически, или полуавтоматически) разделить текст и графику. Текст рассматривать только как текст, всё остальное — как растр. На самом деле трудозатраты во многих случаях не катастрофические, хотя в качестве полемического аргумента всегда можно найти книжку, где графика и формулы доминируют. :)
Плюсы очевидны: у нас впервые за всю историю процесса появляется возможность для reflow — мы можем в определённых пределах менять взаиморасположение элементов. Я уже не раз писал, для чего это не просто нужно, а критично: в первую голову для компактных устройств отображения. При этом мы сохраняем все формулы и картинки в первозданном виде (предел качества определяется разрешением сканирования). Я специально подчёркиваю этот момент, потому что похоже существует заблуждение, что только полностраничная копия спасёт сложные формулы. Это не так: достаточно перевести в растр только формулы. Более того, мы можем выбирать, сохранять формулы/картинки с потерями, или без — для архивирования.
На этом этапе мы уже уходим из домена DjVu — как я понимаю, формат не поддерживает «гнездовую вёрстку» со сложным взаиморасположением графических, векторных и текстовых элементов. И не поддерживает сохранение отдельных графических элементов без потерь. Не будем сейчас обсуждать их значимость для архивирования.
Хочу заметить, что на этом этапе у нас есть в распоряжении не только PDF, но и банальный и простой в использовании HTML, и CHM. С интерактивностью, гиперссылками и прочими радостями.
Преимущества: reflow и огромный мир мобильных устройств, сохранение всех преимуществ с предыдущих этапов (есть формулы, возможно индексирование, всё в одном файле). Возможность скопировать не только текст, но и отдельные картинки (иногда полезно).
Недостатки: больше трудозатрат, это раз. Рельно распространён только один формат — PDF, который отнюдь не самый удачный с точки зрения оптимизации и простоты создания, это два. Разумеется всегда можно сверстать в Кварке или в Индизайне, но аудитория таких форматов сразу же ассимптотически уменьшается до дизайн-контор, и про ебуки тоже можно забыть. Пара слов про «простоту создания»: на самом деле нам, как конечным пользователям, по барабану, насколько трудно пришлось программистам, лишь бы конечный результат нас удовлетворял. Можно подумать, кодирование в MPEG доступно в Notepad любому. Нет, там тоже сложные алгоритмы, но для нас важно наличие удобного софта, а не детали реализации. Для PDF такой софт присутствует в изобилии. И в формат можно печатать, как на виртуальный принтер, что безусловно плюс.

Финальные:
8. Перевод всего, что можно, в вектора. Как я понял, вы предполагаете меня сторонником именно этого способа.
Полностью векторизация невозможна даже теоретически, потому что существуют принципиально растровые элементы вроде фотографий.
Цель такого действа: максимальная гибкость в воспроизведении документа где угодно, от экрана, до типографии, с возможностью изменения содержания и взаиморасположения максимально возможного числа элементов. Это уточнение очень важно: без него мы можем просто взять TIFF в хорошем разрешении и не мучиться.
Векторно-растровых форматов много, среди них очевидно не только и не столько PDF, сколько EPS и форматы верстальных программ вроде InDesign.
Очевидные сферы применения: издательство (включая создание ебуков), переводы книг, переиздания.
Недостатки: Сложность создания. Разумеется мы говорим о reverse engeneering исходного скана — с OCR и трассировкой векторов, — а не о варианте, когда у нас и так есть все исходники.
В издательской деятельности я сталкиваюсь с этим чаще, чем может показаться на первый взгляд. Например, сейчас делается здоровая книжка про журналистику. И авторы порой шлют материалы в бумажном виде, включая и иллюстрации, и текст. Не потому, что они чайники, просто некоторые уже умерли и при всём желании не могут перенабрать текст на компьютере.

Итого.
1. Трудозатраты на 8-й этап очень велики и неадекватны большинству задач, поэтому я ратую за то, чтобы он остался только для специальных случаев.
2. Для паранойяльного архивирования нужны TIFF или аналоги. Забыли про DjVu, Jpeg и вектора.
3. Для промежуточного архивирования, когда потери не важны, годятся DjVu, Jpeg, Pdf. DjVu имхо удобнее.
3. Весь спор реально крутится вокруг того, что удобнее - 6-й или 7-й этапы. И в рамках каких форматов удобнее реализовать каждый из них. Мне кажется, я достаточно подробно обозначил их сферы применения.

Также, надеюсь, очевидны некоторые распространённые заблуждения.
Для сохранения «графика+текст» есть только DjVu. Нет, это же можно сделать в HTML, CHM, PDF, а также в изрядном количестве специфических форматов программ вёрстки. Вопрос выбора формата определяется целью. Для публикаций в Вебе имхо лучше брать HTML и PDF. Для плавающей вёрстки DjVu принципиально непригоден, а вот с PDF я слышал, есть возможность reflow (буду уточнять).
Разделение текста и графики обязательно ведёт к потерям графики. Нет, это та же самая картинка, что в DjVu. Как сосканировали, так и будет.
DjVu идеален для архивов. Опять же, it depends.
DjVu всегда меньше по размерам, чем PDF. Не обязательно. Я легко могу подобрать примеры, где это утверждение будет ложным, для любого разумного разрешения сканирования. К сожалению, много книг в DjVu, которые я видел, попадают как раз в эту категорию.
Внутренняя сложность формата PDF важна для конечного пользователя. Нет, гораздо важнее наличие удобных программ для работы.
DjVu принципиально лучший формат для электронного отображения книг. Не всегда, зависит от. Как только у нас появляется необходимость в изменении расположения элементов (все мобильные приложения, бывает нужным и на PC) — опа. Стоит рассмотреть другие форматы.
DjVu всегда легче по трудозатратам, чем другие форматы (единственным противником обычно выбирается PDF, хотя это не вполне корректно). Для FineReader нет никакой принципиальной разницы, куда пойдёт его вывод — в DjVu, в PDF, в DOC или даже обратно в TIFF. В изрядном количестве случаев FR адекватно распознаёт, где тексты, а где графика — остальное легко расставить вручную. Разумеется, как мы уже обсуждали, есть ряд книг, забитых формулами, где это утверждение неверно. Но много книг, сделанных в DjVu, в эту категорию не попадает.

btw Примеры вроде «djvu_example.pdf» — штука коварная. У djvu конечно очень хорошие алгоритмы сжатия. Но есть несколько «но». Первое: это алгоритмы сжатия с потерями. Поэтому (см. цели) если нужно архивное хранение, то всё-таки tiff. Второе: понятно, что djvu.org старается выбрать примеры, на которых она выглядит выигрышно. Я подозреваю, что Adobe может найти книги, на которых гораздо лучше и компактнее смотрится pdf. Да и сам я в процессе нашего разговора перевёл из DjVu в pdf пару книжек, получилось компактнее. Выбор материала, настроек — всё влияет.
Перейти к дневнику

Среда, 02 Февраля 2011 г. 02:12ссылка
Ползаю по dvju.org, нашёл классную штуку — невидимый транскрипт рукописного текста поверх его скана. Вероятно феньку можно сделать и в других форматах, да и применение ограничено, но очень прикольно.
Alfizik   обратиться по имени Вторник, 01 Февраля 2011 г. 12:45 (ссылка)
akry, хочу поблагодарит вас, что вы подняли такую хорошую тему. Думаю многим людям наш диспут окажется полезным и ответит на их вопросы.
Ответить С цитатой В цитатник
Перейти к дневнику

Среда, 02 Февраля 2011 г. 01:57ссылка
О, это точно. Надеюсь, кому-то пригодится.
Комментировать К дневнику Страницы: [1] [Новые]
 

Добавить комментарий:
Текст комментария: смайлики

Проверка орфографии: (найти ошибки)

Прикрепить картинку:

 Переводить URL в ссылку
 Подписаться на комментарии
 Подписать картинку