OCR и СИ

Аватар пользователя lokiiii
Forums: 

Не так давно увидел это чудо, оцифрованная книга с самиздата. Скорей всего исходник был на литнете (ака литЭра), так как там хоть и свободный доступ для чтения той книги, но вот скачать увы, невозможно. То есть создатель fb2 файла, скорей всего скринил изначально цифровую книгу раз эдак с полсотни, а потом еще распознавал все эти изображения, только так могло выйти OCR качество из простого самиздата (вариант где он напечатал всю книгу на А4, а потом сканировал вместе со следами от кофе, можно не рассматривать).
А теперь вопрос! А не проще ли было тупо скопировать нужные элементы с исходника страницы, после чего просто убрать лишний мусор в тексте? Да, там тоже геморроя не мало, так как придется с полсотни раз копировать и столько же вставлять, нужный текст с мусором (куда же без него). Но все же это займет в разы меньше времени и сил, чем делать почти то же самое, через снимки экрана, плюс при этом не будет таких ошибок, как например когда из обыкновенного "это", получается удивительное слово "зто".
P.S. Также, данная книга есть и на АТ, оттуда ее проще достать, так как разбивка идет только на главы, то есть куски которые можно скопировать за один раз немного больше, плюс меньше мусора и его проще убирать.
Вывод: OCR и СИ совместимы так же, как корова и седло.

X