О создании OCR-слоя в дежавю. Вопрос знатокам | Либрусек

Вы здесь Главная » Форумы » Книги О создании OCR-слоя в дежавю. Вопрос знатокам Опубликовано вс, 14/04/2013 - 00:19 пользователем sad369 Forums: Книги Есть одна проблема с работой DjvuOCR, может кто-то знает решение? Дано: файл дежавю №1 с текстовым слоем, но сделанный сразу после сканирования, без чистки (черные полосы, серый фон и пр.); файл дежавю №2 - та же книга, уже вычищенная (размер страниц или разрешение не менялись), но без текстового слоя. Задача: извлечь текстьовый слой из файла №1 и прикрепить его к файлу №2. DjvuOCR обычно легко справлялся с задачей, но в последней книге у меня произошел сбой: несколько страниц в файле №2 остались без текстового слоя. Удалось заметить, что это были те и только те страницы, где внизу имелись подстрочные примечания. Как с этим бороться? Я могу извлечь слой отдельной страницы файла №1 из тех, которые не извлекались пакетно, но не могу его прикрепить к нужной странице файла №2. Буду признателен за подсказку. Войдите или зарегистрируйтесь, чтобы отправлять комментарии Отв: О создании OCR-слоя в дежавю. Вопрос знатокам Постоянная ссылка (Permalink) Опубликовано вс, 14/04/2013 - 00:50 пользователем Alex2L На этом сайте: http://djvu-soft.narod.ru/index.htm пробовали пошарится, вопросы позадавать? На нём спецов по работе с форматом DjVu гораздо больше, чем здесь. Отв: О создании OCR-слоя в дежавю. Вопрос знатокам Постоянная ссылка (Permalink) Опубликовано вс, 14/04/2013 - 01:52 пользователем sad369 Alex2L написал: На этом сайте: http://djvu-soft.narod.ru/index.htm пробовали пошарится, вопросы позадавать? На нём спецов по работе с форматом DjVu гораздо больше, чем здесь. Судя по числу дежавю книг, появившихся здесь за последний год, здесь тоже книгоделов хватает. Но, разумеется я задал тот же вопрос на специализированном форуме у Ершова. Отв: О создании OCR-слоя в дежавю. Вопрос знатокам Постоянная ссылка (Permalink) Опубликовано вс, 14/04/2013 - 02:06 пользователем ANSI_us занимаюсь дежавюками, но с таким не сталкивался и не заморачивался, поскольку встроенная в djvu express editor оцр от iris коряво понимает русский язык, а ежли через файнридер распознавать - нафига тогда джвю? :D сразу уж тогда в фб2 Отв: О создании OCR-слоя в дежавю. Вопрос знатокам Постоянная ссылка (Permalink) Опубликовано вс, 14/04/2013 - 02:14 пользователем Zadd sad369 написал: Я могу извлечь слой отдельной страницы файла №1 из тех, которые не извлекались пакетно, но не могу его прикрепить к нужной странице файла №2. Буду признателен за подсказку. Вообще-то возможен ещё такой трюк: сделать отдельную дежавюшку №2, а потом объединить дежавюшки №1 с текстовым слоем и №2 тоже с текстовым слоем. Объединить дежавюшки можно напр. Document Express Editor, эта прога также умеет и сама OCR-ить дежавюшки, только нужно правильно задать приоритетный язык распознавания. Если документ многоязычный, то результат будет непредсказуем, править OCR эта прога не умеет, только сама распознать как получится, либо, если уже есть, то добавит как есть. Ну и убирать страницы, склеивать дежавюшки, добавлять оглавление и пр. Отв: О создании OCR-слоя в дежавю. Вопрос знатокам Постоянная ссылка (Permalink) Опубликовано вс, 14/04/2013 - 03:26 пользователем sad369 Что-то у меня туго с объединением. Я использую сильно облегченную версию DEE, кажется, там нет этой функции. Если я правильно понял, то полная версия может объединить графику одного файла с текстовым слоем другого? OCR от DEE использовать смысла нет. Проще заново весь файл через файнридер прогнать. Но проблема в том, что в файле №1 уже был спеллчек сделан перед сохранением в дежавю. Терять такую работу это не выход. Отв: О создании OCR-слоя в дежавю. Вопрос знатокам Постоянная ссылка (Permalink) Опубликовано пн, 15/04/2013 - 00:15 пользователем Zadd sad369 написал: Что-то у меня туго с объединением. Я использую сильно облегченную версию DEE, кажется, там нет этой функции. Если я правильно понял, то полная версия может объединить графику одного файла с текстовым слоем другого? Не совсем правильно. Она может сделать кучу файлов, а может и объединить кучу файлов. Я предлагал разбить файл на вменяемые куски, с которыми у FR8 всё было в порядке, напр. можно было скопировать документ ФайнРидер в другую папку и там OCR-ить ту часть страниц, которая в тот раз не получилась. А LizardTechDocumentExpressEditor получившиеся дежавюшки с OCR объединит в одну, также с тем же самым OCR, который Вы распознали в FR8.(FR9 для этого не очень, а FR10 вообще не робит, а FR11 сам сделает дежавюшку с OCR, но не так, как Вы) Цитата: OCR от DEE использовать смысла нет. Проще заново весь файл через файнридер прогнать. Но проблема в том, что в файле №1 уже был спеллчек сделан перед сохранением в дежавю. Терять такую работу это не выход. Согласен, он не очень качественно распознает, да к тому же нет возможности изменить неправильно распознанный текст. Дык и не надо терять. 1-й файл сохранить за вычетом проблемных страниц, а затем вставить проблемные страницы с уже правильным OCR-слоем. А вообще, дежавюшки чаще делают БЕЗ OCR-слоя. Отв: О создании OCR-слоя в дежавю. Вопрос знатокам Постоянная ссылка (Permalink) Опубликовано вс, 14/04/2013 - 04:30 пользователем sd Может поможет эта тема? Отв: О создании OCR-слоя в дежавю. Вопрос знатокам Постоянная ссылка (Permalink) Опубликовано пн, 15/04/2013 - 08:19 пользователем sad369 Совет господина Zadd Цитата: Я предлагал разбить файл на вменяемые куски, с которыми у FR8 всё было в порядке, напр. можно было скопировать документ ФайнРидер в другую папку и там OCR-ить ту часть страниц, которая в тот раз не получилась успешно сработал! Премного благодарен! Хотя немного муторно по одной странице косяки вычищать, но другого способа видимо нет. Правда распознавал "чистовую" версию с черно-белым текстом, а как повел бы себя DjvuOCR на этот раз не скажу. Обошелся файнридеровскими дежавюшками (несколько файлов по одной странице), которые прикрепил к итоговому файлу. Цитата: А вообще, дежавюшки чаще делают БЕЗ OCR-слоя. Небольшая поправка: раньше делали. Сейчас это уже моветон. Upd. По здравому размышлению хочу добавить, что проблема разрешена лишь частично. Все же примерно 60 страниц (из 560) окажутся с новым, не таким качественно исправленным текстовыи слоем, каким он был после спеллчека Голмы1. Так что жалоба на работу djvuOCR остается в силе.	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии Саша из Киева RE:Подайте бедному копеечку на книжку с литреса... 1 день Nicout RE:Прошу переформатировать, распознать, etc... 4 дня akorish RE:Регистрация 2 недели Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 2 недели Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 2 недели konst1 RE:Ух, как я не люблю спамеров! 2 недели tvv RE:DNS 1 месяц sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 1 месяц larin RE:Заблокирован 1 месяц konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 2 месяца fixel RE:Пропал абонемент 2 месяца sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 3 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 3 месяца tvv RE:faq brainstorm =) 3 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 месяца Впечатления о книгах akorish про Арчер: Бетонные джунгли (Боевая фантастика) 16 05 Прилетел поохотиться, а сам стал добычей. Хотел нае... всех, а нае.. самого себя. На самом деле книга отличная. Оценка: отлично! akorish про Арчер: Холодная война (Боевая фантастика) 16 05 Книг и фанфиков про хищника кратно меньше, чем про чужого, эта книга отлично раскрывает период времени, когда русофобия была скрытой, и была гонка вооружений. Тут нет откровенно злых-русских ))) Прочитать нужно, книга отличная. Оценка: отлично! akorish про Хищник 16 05 Диалоги есть, прочитать можно. akorish про Кварри: Хищник III [по мотивам фильма] (Боевая фантастика, Ужасы) 16 05 И снова перепечатка фильма на бумаге, прочитать стоит. Оценка: отлично! akorish про Кварри: Хищник II [по мотивам фильма] (Боевая фантастика, Ужасы) 16 05 Очень точно по фильму, почти фильм переложенный на бумагу. Оценка: отлично! akorish про Кордэйл: Хищник I (Боевая фантастика) 16 05 В далекие времена, после просмотра фильма, я - зафанател хищником, и в те годы для молодого пацаненка читать книжки было зашкваром, могла задразнить задротом, но мне досталась эта книжка и я стал читать! Мысль была такой, ……… Оценка: отлично! akorish про Фостер: Чужой-3 [Alien - 3 ru] (Научная фантастика) 16 05 Проходная книжка, 3й фильм мне тоже не сильно нравится, но прочитать следует. Оценка: хорошо akorish про Фостер: Чужой. Чужие. Чужой-3 [Авторский сборник] (Научная фантастика) 16 05 Прочитал как сценарий, ничего особенного, просто нужно это прочитать. Оценка: хорошо mysevra про Престон: Меч карающий [= Остров] [Riptide ru] (Приключения: прочее) 16 05 У автора редкий талант создавать приключенческие романы. Всегда что-то новое и неожиданное, изложенное ярко и живо. В конце традиционно какая-нибудь подстава. P.S. Переводчик записал амишей в индейцы, что удивило даже ……… Оценка: отлично! mysevra про Чекмарев: Пулемет над пропастью (Детективная фантастика, Космическая фантастика, Самиздат, сетевая литература) 16 05 Что-то не везёт в этот раз. Да, а с запятыми тут отдельная история, абсолютно непредсказуемая. Оценка: плохо mysevra про Шарапов: Вход только для мертвых (Боевик, Исторический детектив) 16 05 Самое интригующее в книге – это название, потом будет грустнее. Довольно подробно, скучно почти как в жизни, ждёшь-ждёшь чего-то. В общем, чисто за попытку стилизации. Оценка: хорошо akorish про Наумова: Наверху (Научная фантастика) 14 05 Рипли - посол Земли от Чужих ))) Альтернативная история. Очень интересная концовка альтернативной серии книг про разумных Чужих. Однозначно стоит прочитать. больше впечатлений