Типичные ошибки распознавания - собираем статистику для скрипта ФБЕ

Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ:

Варианты:
пе (не), оп (он), пи (ни), ва (за), пее (нее), опа (она)...

Прошу участвовать всех желающих.

Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ.
Собранная статистика еще больше упростит отлов косяков сканирования и, соответственно, позволит более качественно и быстро делать верстку отсканенных книг и быстрее находить косяки в уже сделанных книгах тем, кто занимается их правкой-вычиткой.

Сейчас данный скрипт у меня ищет:
- смесь латиницы с кириллицей во всех вариантах,
- смесь букв с цифрами,
- неправильные дефисы-тире,
- мусор после скана,
- концы строк без знаков препинания
- неполный курсив слова
- указанные выше типичные ошибки распознавания
и другие подозрительные места.

Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.

Комментарии

Возможно, это никакая не проблема. Попробуйте ткнуть мышкой где-нибудь в начале текста (т.е. «установить фокус ввода» внутри документа) и запустите скрипт. Я уже попадался и тоже спрашивал.

А какой сейчас последний регэсп? По ссылке http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384 версия 2.6 но она стерта.

izekbis написал:
А какой сейчас последний регэсп? По ссылке http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384 версия 2.6 но она стерта.

Из группы ФБЕ
http://groups.google.com/group/fiction-book-editor/browse_thread/thread/363ae2a696beefca

Александр Клюквин пишет
В процессе работы со словарем внезапно (с) выяснилось, что с кодировкой
словаря KOI8-R пора завязывать. Мне понадобилось выделить кое-какие
приставки. Нужны были однобайтовые символы в большом количестве, приставок
не просто много, их до хрена. А эти символы просто закончились, KOI8-R не
понимает половины использованных мной обозначений.
Благодаря исключительно терпеливой поддержке Сенса, я внес в программу
необходимые изменения (одна строка в описании, не более), скомпилировал и
построил инсталляшку. В результате в этой версии словарь для FBE
присутствует в кодировке UTF-8. В данной сборке включен словарь на сегодня,
27 ноября 2011 года. В нем грандиозные изменения, о них подробно я напишу в
ветке о словаре 1 декабря.
Прошу скачивать, пробовать, писать о неполадках. Одно "но" - вряд ли я
смогу их поправить. Повторюсь, изменение одно: была кодировка KOI8-R, стала
UTF-8, в остальном все должно быть так же, как и прежде. Проверьте словарь.

То есть можно скачать новую FictionBook Editor Release v2.6 (build 27 Nov).exe отсюда: http://code.google.com/p/fictionbookeditor/downloads/list

Изменения в словаре в новой версии:

Вчера столкнулся с замечательным пёрлом от OCR.

Цитата:

Он ласкал её копчиками пальцев.


Улыбнуло.

Путаница "п", "л", "д" - это врожденное у FR.
Аналогично часто путает "е" и "с", "к" и "н".
Амперсант "&" часто вставляется как amp;
Потому приводить все примеры смысла нет.
У меня чаще всего"Юнкерс" и "Абрамс" - распознаются как "Юнкере" и "Абраме" , "Pratt & Whitney" как "Pratt amp;Whitney".
Еще частая ошибка в распознавании вместо "Л" - "JI". Обычно в абревиатурах и инициалах, например: "М.Л. Миль" и "Ле Бурже" распознается как "М.JI. Миль" и "JIе Бурже"

Добавила в скрипт поиска по регэкспам две строки (стали часто попадаться в последнее время):

tagRegExp("(?<![а-яё])ноя(?![а-яё])","i","Найдено: слово "ноя" ("но я" с опечаткой).","",1);
tagRegExp("(?<![а-яё])ия(?![а-яё])","i","Найдено: слово "ия" ("и я" с опечаткой).","",1);

Вычитываю книгу "Последнее дело Трента", сверяюсь с книгой,вот что попалось интересного в 3-х главах..)
"мистер Копплс позволил себе несколько минут насладиться ландшафтом, включающим в себя... - в книге включавшим
У нее необычно твердый характер - необычайно
"У мистера Копплса был извиняющий тон" - извиняющийся
Мило.)

Аватар пользователя Isais

arina.militsa написал:
Вычитываю книгу "Последнее дело Трента", сверяюсь с книгой,вот что попалось интересного в 3-х главах..)
"мистер Копплс позволил себе несколько минут насладиться ландшафтом, включающим в себя... - в книге включавшим
У нее необычно твердый характер - необычайно
"У мистера Копплса был извиняющий тон" - извиняющийся
Мило.)

Не в тему.
Это - ошибки(?) переводчика или редактора, или разница в бумажных изданиях, или ошибки первого верстальщика, но никак не ошибки автоматического распознавания текста и исправления этих ошибок средствами FBE.

Цитата:
Не в тему. Это - ошибки(?) переводчика или редактора, или разница в бумажных изданиях, или ошибки первого верстальщика

Переводчика? Смешно,текст абсолютно идентичен.Или Вы думаете он два раза переводил?) Что такие огрехи при перепечатке книг,ну не знаю... В любом случае у меня первое издание журнала "Север" 1990 года, всё-таки может быть стоит на него ориентироваться? Темой я не ошиблась, я считаю,что это Файнридер подменяет слова.

arina.militsa написал:
...я считаю,что это Файнридер подменяет слова.

Первая еще так-сяк может сойти, остальные вряд ли. Больше на редакторские правки похоже. С какого издания делали уже не узнать.

Цитата:
Больше на редакторские правки похоже.

С последней,так по тексту нет сомнений,человек оправдывается,конечно "извиняющийся". Я что-то засомневалась,считаете ли Вы,что такие ошибки нужно исправлять? Какая-то странная реакция. И если их нужно исправлять, сразу спрошу,могу ли я поменять обложку книги?

arina.militsa написал:
С последней,так по тексту нет сомнений,человек оправдывается,конечно "извиняющийся". Я что-то засомневалась,считаете ли Вы,что такие ошибки нужно исправлять? Какая-то странная реакция. И если их нужно исправлять, сразу спрошу,могу ли я поменять обложку книги?

(почесав репу) Наверное да. Раз незнамо с чего делалось, то и обложка от балды прицеплена. А так всё законно будет. Тогда в publish-info надо будет Ваш журнал вписать. Но это по-моему, кто-то может и не согласиться.

Это не ошибки FR, Есть небольшие отличия журнального варианта 1974 года и прибалтийского издания 1992 года.

freakup1 написал:
Это не ошибки FR, Есть небольшие отличия журнального варианта 1974 года и прибалтийского издания 1992 года.

Вы меня удивили и запутали,ладно,бросаю вычитку.

Зачем же бросать, в петрозаводском издании 90-го года все как в журнале, поэтому правильным будет считать журнал эталоном...

arina.militsa написал:
Вы меня удивили и запутали,ладно,бросаю вычитку.

Да ладно. :)) Мелочи это всё. А дело нужное. Как сделаете, так и будет.

Цитата:
Как сделаете, так и будет.

Ок. Если вычитаю до конца *угрожающе*),обложку поменяю.
Аватар пользователя Антонина82

Как в скрипт поиска по регэкспам добавить латинское on (часто распознается вместо он), но так чтобы поиск работал в русскоязычном тексте и не искал это словосочетание в латинице?

Антонина82 написал:
Как в скрипт поиска по регэкспам добавить латинское on (часто распознается вместо он), но так чтобы поиск работал в русскоязычном тексте и не искал это словосочетание в латинице?

tagRegExp("(?<![а-яё]) no (?![а-яё])","i","Найдено: слово "no" (вместо "он").","i",1);

Поскольку слово, скорее всего, будет внутри предложения, можно "i" из кавычек убрать, останется только:

tagRegExp("(?<![а-яё]) no (?![а-яё])","i","Найдено: слово "no" (вместо "он").","",1);

Аватар пользователя Антонина82

Голма, я бестолково сформулировала вопрос. На свежую голову: Как сделать, чтобы искало слово on полностью? Если я вставляю строку, по аналогии с той, что Вы приводите в примере, то ищется и часть слова, к примеру le non-finito.
Заодно вопрос. Файнридер временами гонит халтуру, я не имею ввиду распознавание. Мне надо заменить часто встречаемое ошибочно написанное слово. Делаю замену дважды:направление - вперед и назад. Как показывает практика, замена не всегда срабатывает. Поэтому повторно проделываю поиск с заменой в FBE.Там пока такой проблемы не возникало. Как бороться с ФР11, чтобы замена происходила полностью? А то мне приходится вести словарик слов, которые я заменяла в ФР11, чтобы перепроверить их наличие в FBE.

Антонина82 написал:
Голма, я бестолково сформулировала вопрос. На свежую голову: Как сделать, чтобы искало слово on полностью? Если я вставляю строку, по аналогии с той, что Вы приводите в примере, то ищется и часть слова, к примеру le non-finito.
Заодно вопрос. Файнридер временами гонит халтуру, я не имею ввиду распознавание. Мне надо заменить часто встречаемое ошибочно написанное слово. Делаю замену дважды:направление - вперед и назад. Как показывает практика, замена не всегда срабатывает. Поэтому повторно проделываю поиск с заменой в FBE.Там пока такой проблемы не возникало. Как бороться с ФР11, чтобы замена происходила полностью? А то мне приходится вести словарик слов, которые я заменяла в ФР11, чтобы перепроверить их наличие в FBE.

Во-первых, я сделала ошибку: должно быть on, а не no. Во-вторых, Вы правы, ищет не так, как хочется.
Пробуйте так:

addRegExp("[а-я] \on\ [а-я]","","Найдено: on латиницей");

Насчёт замены в ФР. Проверьте, чтобы при массовой замене ("заменить все") курсор не стоял внутри нужного слова. Должен быть или до или после него.

Аватар пользователя Антонина82

golma1 написал:

Во-первых, я сделала ошибку: должно быть on, а не no. Во-вторых, Вы правы, ищет не так, как хочется.
Пробуйте так:

addRegExp("[а-я] \on\ [а-я]","","Найдено: on латиницей");

Насчёт замены в ФР. Проверьте, чтобы при массовой замене ("заменить все") курсор не стоял внутри нужного слова. Должен быть или до или после него.


Спасибо, получилось. Кстати, no - тоже встречается, вместо русского по.
С ФР,чтобы он сделал полную замену нужных слов, я только разве ж не вприсядку танцую. Не помогает. Может зависит от размера текста? С большими объемами ФР не справляется, С Залёй, например ((( Тем более это издание начала 60-х годов. Ошибок распознавания ужас сколько.

Антонина82 написал:

Спасибо, получилось. Кстати, no - тоже встречается, вместо русского по.
С ФР,чтобы он сделал полную замену нужных слов, я только разве ж не вприсядку танцую. Не помогает. Может зависит от размера текста? С большими объемами ФР не справляется, С Залёй, например ((( Тем более это издание начала 60-х годов. Ошибок распознавания ужас сколько.

Продублируйте строку и вставьте no вместо on. Тогда будет искать оба варианта.

Насчёт ФР ничего не могу подсказать, я с такой проблемой не сталкивалась. Все замены происходят штатно.
Единственный момент, который ещё приходит в голову, - это переносы. То есть, если "варан" заменять на "баран", то "ва-ран" не заменится.

А издания 50-60-хх годов - это кошмар OCR-щика. Ужасные шрифты, плохое качество печати. Очень знакомо. Сочувствую.

Аватар пользователя Антонина82

golma1 написал:

Продублируйте строку и вставьте no вместо on. Тогда будет искать оба варианта.

Насчёт ФР ничего не могу подсказать, я с такой проблемой не сталкивалась. Все замены происходят штатно.
Единственный момент, который ещё приходит в голову, - это переносы. То есть, если "варан" заменять на "баран", то "ва-ран" не заменится.

А издания 50-60-хх годов - это кошмар OCR-щика. Ужасные шрифты, плохое качество печати. Очень знакомо. Сочувствую.


Проверила Ваше предположение. Это действительно так. Слово с переносом - не заменяется. Так что, чем больше объем книги, тем больше вероятность, что 100% замены ошибочного слова может не случиться. Поэтому эту операции буду делать только в FBE.
ЗЫ: проверку осуществляла со словом г-на Виарга. ФН заменил его на привычное Виагра.

Антонина82 написал:

Проверила Ваше предположение. Это действительно так. Слово с переносом - не заменяется. Так что, чем больше объем книги, тем больше вероятность, что 100% замены ошибочного слова может не случиться. Поэтому эту операции буду делать только в FBE.
ЗЫ: проверку осуществляла со словом г-на Виарга. ФН заменил его на привычное Виагра.

Если Вы убираете в ФР дефисы, заменяя их на мягкие переносы (по методу ТаКира), то можно делать массовую замену после этого. С другой стороны, всё равно пришлось бы вести список замененных слов, можно тогда сразу и в ФБЕ делать.
По поводу списка: ФР хранит в маске поиска/замены последние 20 слов. Если замен было меньше, список слов можно брать оттуда.
И ещё. В ФБЕ служба "Слова" покажет Вам все те слова, в которых сохранился ненужный дефис. Обзор довольно наглядный.

Другими словами: попробуйте разные способы и выберите тот, который Вам наиболее по душе.

Аватар пользователя Антонина82

golma1 написал:

Если Вы убираете в ФР дефисы, заменяя их на мягкие переносы (по методу ТаКира), то можно делать массовую замену после этого. С другой стороны, всё равно пришлось бы вести список замененных слов, можно тогда сразу и в ФБЕ делать.
По поводу списка: ФР хранит в маске поиска/замены последние 20 слов. Если замен было меньше, список слов можно брать оттуда.
И ещё. В ФБЕ служба "Слова" покажет Вам все те слова, в которых сохранился ненужный дефис. Обзор довольно наглядный.

Другими словами: попробуйте разные способы и выберите тот, который Вам наиболее по душе.


Спасибо за советы. Буду на Золе тренироваться.Но мне кажется, в FBE меньше телодвижений придётся делать.

При направлении "вперед" - замена срабатывает. При направлении "назад" - не срабатывает, замены не происходит. Вот такая закономерность. У меня, во всяком случае. Во избежание всегда выхожу в начало текста. А вот свежий вопрос - со вчера после очередного обновления Аваста он (Аваст) при попытке запустить Файнридер удаляет экзешник - типа вирус и типа в карантин. Хелп!!! Сижу с отключенным антивирусом, неуютненько как-то. Вариант "игнорировать" или "исключение"не проходит.

Ergo80 написал:
При направлении "вперед" - замена срабатывает. При направлении "назад" - не срабатывает, замены не происходит. Вот такая закономерность. У меня, во всяком случае.

Это глюк. Так не должно быть.

Насчёт exe-файла: посмотрите в настройках Аваста, где внести исключения, и впишите туда папку ФР.

В "исключения" вписала первым делом. Увы, не помогло. Папку-то он не трогает, только экзешник из нее утаскивает.

Ergo80 написал:
В "исключения" вписала первым делом. Увы, не помогло. Папку-то он не трогает, только экзешник из нее утаскивает.

Хммм... Вообще-то, если папка в исключениях, он её совсем не должен проверять.
Может, не так вписана? Обычно прописывается путь к папке. Но я не знаю, как это выглядит в Авасте.

Путь прописан стандартно
Выглядит как-то так

Ergo80 написал:
Путь прописан стандартно
Выглядит как-то так

Тогда не знаю. :(

Единственное, что ещё приходит в голову: на скриншоте длинный путь, содержащий кириллицу.
Я бы попробовала оставить просто ABBYY и убрала бы эту "Новую папку". Знаю программы, чувствительные к такого рода записям. Относится ли к ним Аваст, не в курсе.

Ergo80 написал:
Путь прописан стандартно
Выглядит как-то так
Ещё одна любительница "портабельных" говносборок.
От жеж.
Мёдом что ли, вам эти противки мажут, что вы никак оторватьсяч от них не можете?
Поставь нормальную реестрозаписываемую версию, сразу от кучи проблем избавишься! Или как вариант, как Антонина, купи лицензионную!
Тема на РуБорде, где можно взять кряк и скачать на максимально быстрой скорости по прямой ссылке прямо с оф.сайта. По-моему, так самый лучший метод: быстро скачиваешь большой файл ФайнРидера с оф.сайта и в это же время скачиваешь масенький такой кряк с файлопомойки. Всё максимально быстро.
А что касается противок псевдопортативок, то серут в реестр они побольше, чем реестрозаписываемый FR, кроме того, что очень важно, запускаются из копии папки, и папку TEMP тоже ищут в своей папке. Конкретно эта папка имеет название ...\ThinApp\FineReader\,(точно не помню, но что-то подобное, я один раз даже обалдел, когда узнал ГДЕ противный протативный Файнридер ищет файл для передачи в протативный OpenOffice) а не та папка, в которую вы её "установили".
Короче, выброси противку и установи нормальную версию и будет тебе счастье!

Распаковала архив ФР непосредственно в корень
с тем же результатом. Утаскивает сразу после разархивации
может потому что пиратский?

Ушла плакать

Ergo80 написал:
Распаковала архив ФР непосредственно в корень
с тем же результатом. Утаскивает сразу после разархивации
может потому что пиратский?

А вот эти две нижние строки - "добавить файл", "пометить файл" - не помогают?

Потом я вижу процесс WinRar, значит, Аваст срабатывает при распаковке. Тогда ещё один совет.
Отключить Аваст, распаковать файл, включить распакованную папку в исключения и пользоваться exe-шником только из этой папки, не распаковывая каждый раз. Лучше даже сделать ярлык на рабочем столе и запускать оттуда.

Вообще-то, это действительно может быть результатом неудачной сборки портабельной версии. Имеет смысл поискать другую.

Это на свежеобновлённой базе avast!-a выскакивать стало. Помогает, если в avast!-е в меню "Открыть интерфейс пользователя" и далее в Настройки, затем Глобальные исключения и Обзор добавить путь на папку с ПЧ (он-же FR).

После всех танцев с бубном пришлось-таки поставить эту самую реестрозаписываемую версию. Спасибо всем за участие)

Аватар пользователя Антонина82

Не могу найти, хотя где-то уже было (((
Когда в скрипте поиска по регэкспам часто появляется надпись:"сценарий этой страницы замедляет работу Internet Explorer...", что надо сделать чтобы это сообщение не появлялось?

Evernet в инструкции Метаграмма-контекст.rtf писала:

...Также в папке находится файл «Отключение окна “сценарий замедляет работу.reg”». Возможно вам приходилось сталкиваться с сообщением, что работа такого-то скрипта замедляет работу системы. Чтобы избавиться от этого надоедливого окошка и нужен этот файл. Запускаем его (ОДНОКРАТНО) и соглашаемся на все.

Подробнее читай: https://groups.google.com/forum/?fromgroups=#!topic/fiction-book-editor/tHAO5U0lU4Q в сообщении от 12-01-11.

Выглядит вообще говоря так (Regedit-ом достаточно поменять один ключ):

Windows Registry Editor Version 5.00

[HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\Styles]
"MaxScriptStatements"=dword:ffffffff

Удачи!

Аватар пользователя Антонина82

У меня не в программе "метаграммы", а "В поиск ошибок текста" это случилось. Или неважно, алгоритм один и тот же?

Да, одно и тоже. Собственно это просчёт Microsoft-а, ими же и залатанный.

Тема с обновленным на 06-09-2019 скриптом "Поиск по набору регэкспов": http://lib.rus.ec/node/733790

аналогичная тема на Флибусте http://www.flibusta.is/node/441303

Просьба тестировать новую версию и отписываться в новой теме.

Страницы

X