Вы здесьТехническая тема о распознавании скриншотов
Опубликовано чт, 19/07/2012 - 11:53 пользователем Verdi1
Попробовал я на днях такой вот подход к оцифровке книг, которые можно читать только через всякие хитрожопые интерфейсы, где до собственно текста не добраться, типа как в гугл-букс. Вот, думаю, можно же нарезать скриншоты, а потом их и распознать, как сканы. Рука устанет, конечно, но книжка-то будет! Качество распознавания, думаю я дальше, должно быть просто отменным – ведь никаких дефектов изображения и мушиных какушек на скриншотах нет по определению. И вот такой обрадованный я приступил к экспериментам. FineReader 11, открывая скриншот, выругался таково: «Разрешение исходного изображения было исправлено». Я так понимаю, с присущих скриншотам 96 dpi на любимые Файнридером 150. После этого исправления буковки на скриншоте стали мелконькие, но всё равно довольно чёткие. Однако когда Файнридер начал их распознавать, он сделал столько ошибок, сколько я не видел даже на сканах вытащенных буквально из жопы страниц, в которые перед этим рыбу заворачивали (язык я правильно выставил, можете не сомневаться). К примеру, он воткнул апостроф после почти (!) каждой буквы w. Как заставить его НЕ исправлять разрешение картинки, я не нашёл. Нашёл в нём редактор изображений, но он позволяет лишь вернуть разрешение опять на 96 dpi у уже уменьшенного изображения. После такой двойной операции буквы расплываются и распознаются ещё хуже. В общем, какая-то совершенно дебильная ситуация, противоречащая всему моему жизненному опыту. Подскажите чего-нибудь.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 1 час
Larisa_F RE:Современная корейская литература. Книжная серия... 2 дня kopak RE:На 78-м году жизни скончался советский и российский... 5 дней Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 6 дней Саша из Киева RE:Подводное течение 1 неделя Larisa_F RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 неделя konst1 RE:Переименовать ник (имя учетки) 1 неделя Larisa_F RE:Таррин Фишер 4 недели Aleks_Sim RE:Беженцы с Флибусты 4 недели Саша из Киева RE:Как приобретать друзей и оказывать влияние на людей 1 месяц Isais RE:Семейственность в литературе 1 месяц miri.ness_ RE:Доступ 27 1 месяц bmusanov Оплатил, но абонемент не отображается 1 месяц holla RE:Багрепорт - 2 1 месяц konst1 RE:Файнридер для Win11 1 месяц larin RE:Оплатил, но абонемент не отображается 1 месяц sem14 RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц Впечатления о книгах
Adan75 про Блаватская: Письма из пещер и дебрей Индостана (Путешествия и география)
14 09 Это то что сейчас бы мы назвали тревел лог то есть заметки во время путешествия. Написано с большим юмором и вообще с самоиронией. Сильно изменило моё мнение о Елене Петровне вообще. Оценка: отлично!
obivatel про Найденов: Родовые земли [СИ] (Космическая фантастика, Самиздат, сетевая литература)
14 09 Автор не понимает как работают крупные структуры уровня государства. Понятно, что действия ГГ представлены схематично, но даже в этой схематичности видно, что он вообще даже представления не имеет о выбранной теме. Пока он ……… Оценка: плохо
udrees про Хитченс: Бог не любовь: Как религия все отравляет [god Is Not Great: How Religion Poisons Everything ru] (Религия)
13 09 Совершенно чумовая книга, обличающая всю неприглядную сторону религии и связанных с ней мифов, обычаев, заблуждений и кровавых эксцессов. Очень похожа на другую такую же великолепную книгу Ричарда Докинза «Бог как иллюзия», ……… Оценка: отлично!
udrees про Дубина: Путь нечисти (Городское фэнтези, ЛитРПГ, Самиздат, сетевая литература)
13 09 Писанина, любительская, примитивная и понятная. Сленг автора сквозит из каждого предложения и слова. Конструкции предложений тоже простые как три рубля – пошел, ударил, накачал. Обороты простые, речевые, вот примеры их: «Офигенски, ……… Оценка: плохо
udrees про Карелин: Шизанутый [СИ] (Постапокалипсис, Самиздат, сетевая литература)
13 09 Обычная средненькая по описанию книга в жанре литРПГ и попаданцев. Вся предыстория – это вначале несколько абзацев про то, как герой готовился к концу Света и его тут же переносит на 300 лет вперед. Написано примитивно, очень ……… Оценка: плохо
udrees про Макграт: Является ли «научное богословие» интеллектуальным нонсенсом? [диалог с Ричардом Докинзом] (Религиоведение, Публицистика, Христианство)
13 09 Слишком много словоблудия, непонятных словесных оборотов, щедро пересыпаемых богословскими рассуждениями ни о чем. Критика Докинза тоже на мой взгляд высосана из пальца. Аргументов я не увидел, только одни оправдания. Много ……… Оценка: нечитаемо
udrees про Трефил: Воображаемая жизнь. Путешествие в поисках разумных инопланетян, ледяных существ и супергравитационных животных [litres] (Научная литература: прочее)
13 09 Развлекательное чтиво, не особо серьезное, рассчитанное на массового читателя. Автор просто рассуждает в широком смысле – вот есть такие то планеты, как бы стали развиваться там не просто живые, а даже разумные существа. ……… Оценка: плохо
udrees про Виленкин: Мир многих миров: Физики в поисках иных вселенных (Физика, Астрономия и Космос)
13 09 Книга для любителей физики и интересующихся проблемами сотворения вселенной. В принципе автор пытался донести основные теории общедоступным языком, хотя понятия квантовой физики сами по себе очень тяжеловесны. По-моему Нильс ……… Оценка: неплохо
dolle про Михайлов: Пепел доверия 2 (Боевая фантастика, Постапокалипсис, Самиздат, сетевая литература)
13 09 Поклонникам Низшего, Перекрёстка, Астероид-Сити точно не понравится. Оценка: отлично!
Oleg68 про Кобен: Обещай мне [Promise Me ru] (Крутой детектив)
12 09 Книга понравилась. Автор, как всегда , на высоте. Оценка: отлично!
мила7 про Кароль: Фокус мироздания [litres] (Любовная фантастика, Попаданцы)
11 09 Не так уж и плохо, как по мне, на хорошую четверку. В заявленном жанре. Оценка: хорошо
Columbus про Василий Васильевич Головачев
11 09 Писатель протянул достаточно долго для диагноза рак мозга. Ю. Петухов и до 60 не дожил. |
Комментарии
Отв: Техническая тема о распознавании скриншотов
Вот мне тоже интересно. Иногда все же получается, но так редко
Отв: Техническая тема о распознавании скриншотов
Мнэ-э-э... Мне вот помогает - на малых текстах - распознавалка прямо с экрана, даже без предварительного скриншотенья: ABBYY Srceenshot Reader. Просто увеличиваю картинку в браузере и напускаю эту прожку. Кряхтеть будет в зависимости от объема текста, но ни разу еще не подводила, не висла, не вываливалась.
...Есть планы этой хней отщелкать онлайновый сборник в .swf, думаю, сможет; но планы пока далекие - пусть автор попродает его немного.
Подойдет ли к гуглобуксу - ХЗ.
Отв: Техническая тема о распознавании скриншотов
через скантейлор прогоните скриншоты, на выходе там можно выбрать нужное dpi , это правда как из пушки по воробьям) вроде в разных просмотрщиках можно менять, но как то не требовалось, откуда хоть пытаетесь выдирать то?
Отв: Техническая тема о распознавании скриншотов
Отв: Техническая тема о распознавании скриншотов
На флибусте задайте вопросик sonat10 про то как из киндлов выдирать текст, у меня небыло - не попробовать самому, а вот она говорила что какой то способ был :) и довольно хороший как я убедился, пусть у трудоемкий..
Отв: Техническая тема о распознавании скриншотов
Обрабатывать перед распознаванием скриншоты пакетной обработкой в какой нибудь прожке типа FastStone Photo Resizer. Задавать там увеличение до 150 dpi c сохранением физического размера — тогда оно в FineReadere елозить не будет.
Отв: Техническая тема о распознавании скриншотов
Это лишь ликвидирует сообщение файнридера при открытии картинки, всё остальное останется так же - картинка мельче чем исходный скриншот и ужасающее качество распознавания идеального вроде бы текста.
А программка полезная, пригодится.
Отв: Техническая тема о распознавании скриншотов
Не сохранения размера файла (в байтах), а физического размера картинки (в сантиметрах).
Ну или можно обрабатывать пакетом одновременно увеличение в два раза (пикселы) и dpi 150.
Прожка полезная.
Отв: Техническая тема о распознавании скриншотов
Но мне всё-таки чисто теоретически интересно, почему он потенциально безупречный текст так херово распознаёт?
Отв: Техническая тема о распознавании скриншотов
У меня скриншоты с Адоберидера на ура распознались.
Отв: Техническая тема о распознавании скриншотов
По-английски? Я в данный момент конкретно с английским текстом вожусь.
Отв: Техническая тема о распознавании скриншотов
Нет, на русском.
Шрифты увеличивать пробовали?
Отв: Техническая тема о распознавании скриншотов
Попробовал. Если сделать буквы реально крупными (значительно крупнее, чем обычно), то, действительно, распознавание получается гораздо чище. Сейчас попробовал на одной главе - ни одной ошибки. Хотя по какому принципу он модифицирует разрешение, я так и не понял. Некоторые скриншоты он ужимает, другие оставляет в исходном разрешении.
В общем, похоже, это единственный работающий подход пока. Хотя это существенно увеличивает количество скриншотов и, соответственно, нагрузку на правое запястье.
Отв: Техническая тема о распознавании скриншотов
В FastStone Photo Resizer.
1. Поставить галку в «Use advanched option» — появится кнопка «Аdvanched option» — щёлкаем в неё.
2. В закладке «dpi» ставим галку и выбираем dpi 150×150.
3. В закладке «Resize» ставим галку и выбираем «In percentage» и 200%.
Отв: Техническая тема о распознавании скриншотов
Скриншот выглядит примерно так (уменьшенный, понятное дело):
Распознанный текст вот такой:
Красненьким я выделил необъяснимые и ничем, с моей точки зрения, не оправданные ошибки распознавания.
Лично мне это напоминает диверсию и саботаж.
Отв: Техническая тема о распознавании скриншотов
Стрёмные буквы W в этом шрифте.
А нельзя его поменять в читалке на рубленый (без засечек)?
Отв: Техническая тема о распознавании скриншотов
О, и я о том же.
Отв: Техническая тема о распознавании скриншотов
Хммм... А может быть, дело просто в штрифте? Смотрите: ФР "видит" простое "w" как его же с апострофом. Это типичная ошибка.
Попробуйте пройтись с обучением. Научить распознавать именно "w".
Отв: Техническая тема о распознавании скриншотов
Используйте Corel Capture и будет вам счасте )
Отв: Техническая тема о распознавании скриншотов
Где взять? Чтоб чего лишнего не прихватить
Отв: Техническая тема о распознавании скриншотов
Скриншот сохранять не в JPEG, а в TIFF.
И потом уже с ним работать.
Отв: Техническая тема о распознавании скриншотов
Хм, а если у меня только в ping сохраняет?