О создании OCR-слоя в дежавю. Вопрос знатокам

Forums: 

Есть одна проблема с работой DjvuOCR, может кто-то знает решение?
Дано: файл дежавю №1 с текстовым слоем, но сделанный сразу после сканирования, без чистки (черные полосы, серый фон и пр.); файл дежавю №2 - та же книга, уже вычищенная (размер страниц или разрешение не менялись), но без текстового слоя.
Задача: извлечь текстьовый слой из файла №1 и прикрепить его к файлу №2.
DjvuOCR обычно легко справлялся с задачей, но в последней книге у меня произошел сбой: несколько страниц в файле №2 остались без текстового слоя. Удалось заметить, что это были те и только те страницы, где внизу имелись подстрочные примечания.
Как с этим бороться? Я могу извлечь слой отдельной страницы файла №1 из тех, которые не извлекались пакетно, но не могу его прикрепить к нужной странице файла №2.
Буду признателен за подсказку.

На этом сайте: http://djvu-soft.narod.ru/index.htm пробовали пошарится, вопросы позадавать?
На нём спецов по работе с форматом DjVu гораздо больше, чем здесь.

Alex2L написал:
На этом сайте: http://djvu-soft.narod.ru/index.htm пробовали пошарится, вопросы позадавать?
На нём спецов по работе с форматом DjVu гораздо больше, чем здесь.

Судя по числу дежавю книг, появившихся здесь за последний год, здесь тоже книгоделов хватает. Но, разумеется я задал тот же вопрос на специализированном форуме у Ершова.

занимаюсь дежавюками, но с таким не сталкивался и не заморачивался, поскольку встроенная в djvu express editor оцр от iris коряво понимает русский язык, а ежли через файнридер распознавать - нафига тогда джвю? :D сразу уж тогда в фб2

sad369 написал:
Я могу извлечь слой отдельной страницы файла №1 из тех, которые не извлекались пакетно, но не могу его прикрепить к нужной странице файла №2.
Буду признателен за подсказку.
Вообще-то возможен ещё такой трюк: сделать отдельную дежавюшку №2, а потом объединить дежавюшки №1 с текстовым слоем и №2 тоже с текстовым слоем. Объединить дежавюшки можно напр. Document Express Editor, эта прога также умеет и сама OCR-ить дежавюшки, только нужно правильно задать приоритетный язык распознавания. Если документ многоязычный, то результат будет непредсказуем, править OCR эта прога не умеет, только сама распознать как получится, либо, если уже есть, то добавит как есть. Ну и убирать страницы, склеивать дежавюшки, добавлять оглавление и пр.

Что-то у меня туго с объединением. Я использую сильно облегченную версию DEE, кажется, там нет этой функции. Если я правильно понял, то полная версия может объединить графику одного файла с текстовым слоем другого?
OCR от DEE использовать смысла нет. Проще заново весь файл через файнридер прогнать. Но проблема в том, что в файле №1 уже был спеллчек сделан перед сохранением в дежавю. Терять такую работу это не выход.

sad369 написал:
Что-то у меня туго с объединением. Я использую сильно облегченную версию DEE, кажется, там нет этой функции. Если я правильно понял, то полная версия может объединить графику одного файла с текстовым слоем другого?
Не совсем правильно. Она может сделать кучу файлов, а может и объединить кучу файлов. Я предлагал разбить файл на вменяемые куски, с которыми у FR8 всё было в порядке, напр. можно было скопировать документ ФайнРидер в другую папку и там OCR-ить ту часть страниц, которая в тот раз не получилась. А LizardTechDocumentExpressEditor получившиеся дежавюшки с OCR объединит в одну, также с тем же самым OCR, который Вы распознали в FR8.(FR9 для этого не очень, а FR10 вообще не робит, а FR11 сам сделает дежавюшку с OCR, но не так, как Вы)
Цитата:
OCR от DEE использовать смысла нет. Проще заново весь файл через файнридер прогнать. Но проблема в том, что в файле №1 уже был спеллчек сделан перед сохранением в дежавю. Терять такую работу это не выход.
Согласен, он не очень качественно распознает, да к тому же нет возможности изменить неправильно распознанный текст. Дык и не надо терять. 1-й файл сохранить за вычетом проблемных страниц, а затем вставить проблемные страницы с уже правильным OCR-слоем. А вообще, дежавюшки чаще делают БЕЗ OCR-слоя.

Может поможет эта тема?

Совет господина Zadd

Цитата:
Я предлагал разбить файл на вменяемые куски, с которыми у FR8 всё было в порядке, напр. можно было скопировать документ ФайнРидер в другую папку и там OCR-ить ту часть страниц, которая в тот раз не получилась

успешно сработал! Премного благодарен! Хотя немного муторно по одной странице косяки вычищать, но другого способа видимо нет. Правда распознавал "чистовую" версию с черно-белым текстом, а как повел бы себя DjvuOCR на этот раз не скажу. Обошелся файнридеровскими дежавюшками (несколько файлов по одной странице), которые прикрепил к итоговому файлу.
Цитата:
А вообще, дежавюшки чаще делают БЕЗ OCR-слоя.

Небольшая поправка: раньше делали. Сейчас это уже моветон.

Upd. По здравому размышлению хочу добавить, что проблема разрешена лишь частично. Все же примерно 60 страниц (из 560) окажутся с новым, не таким качественно исправленным текстовыи слоем, каким он был после спеллчека Голмы1. Так что жалоба на работу djvuOCR остается в силе.

X