Вы здесьКоординация сканирования и вычитки
Опубликовано пт, 03/12/2010 - 02:59 пользователем larin
Для лучшей координации сканирования новых книг запустил сервис http://lib.rus.ec/ocr
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
sem14 RE:Премия «Небьюла» (Nebula Award) 8 часов
ostap79 RE:Подайте бедному копеечку на книжку с литреса... 8 часов Isais RE:Maxima-library - переезд 14 часов nehug@cheaphub.net RE:«Македонский роман XXI века 4 дня Iron Man RE:Курьезы сканировщика 1 неделя babajga RE:Рассказы Южных морей 1 неделя tvv RE:Абрахам Вергезе - The Covenant of Water 1 неделя Larisa_F RE:Эрнесто и его кролики 1 неделя Саша из Киева RE:Горящие паруса 2 недели Саша из Киева RE:Американская мозаика 2 недели weis RE:Прошу переформатировать, распознать, etc... 2 недели babajga RE:Осторожно - волшебное! 2 недели Саша из Киева RE:Улыбнись, малыш! 2 недели Саша из Киева RE:Букет колючек 2 недели Саша из Киева RE:Анфас и в профиль 3 недели Саша из Киева RE:Три минуты истории 3 недели Саша из Киева RE:С того света 3 недели darkvova RE:librusec.pro 3 недели Впечатления о книгах
StrelaVV про Журавлева: Ожившая легенда [СИ] (Фэнтези, Приключения: прочее, Самиздат, сетевая литература)
12 06 Вторая книга так же хороша, как и первая. Читала с удовольствием, переживала за перипетиями ГГ, радовалась их успехам и огорчалась неудачам, особенно порадовали милые истории лечения магических животных и повеселили смешные моменты из жизни домашних любимцев. Оценка: отлично!
Barbud про Максимов: Небо Земли [litres] (Космическая фантастика, Научная фантастика)
12 06 Динамика и драматизьм присутствуют, а вот науки я в этой "научной фантастике" не увидел. Ее там не больше, чем в голливудских фильмах катастроф, причем в самых одиозных образчиках. Впрочем, на один раз для убиения времени сойдет. Оценка: неплохо
ogogun про Кочетов: Советская правда [litres] (Историческая проза, Публицистика)
12 06 Тупым не стоит брать в руки Книги. Читайте донцову и кинга и про поттера не забывайте. А Кочетова и советскую литературу оставьте людям, имеющим мозг и умеющим им пользоваться. Оценка: отлично!
Nicout про Гуринов: Типичная практика [СИ] (Фэнтези, Самиздат, сетевая литература)
12 06 >можно найти достаточно много недостатков Самый главный недостаток - сам афтар, безграмотный до изумления, с суконным языком. Кровь из глаз идет от его перлов. Фтопку! Оценка: нечитаемо
StrelaVV про Журавлева: Целитель магических животных [СИ] (Детективная фантастика, Юмористическая фантастика, Приключения: прочее, Самиздат, сетевая литература)
11 06 Потрясающая книга: местами смешная, местами переживательная, полная приключений, знакомств с волшебными животными и детективной историей, в которую попали все персонажи этой замечательной серии Оценка: отлично!
obivatel про Поселягин: Красноармеец [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
11 06 Всё знакомо, всё понятно: Поселягин пишет про ВОВ. Оценка: нечитаемо
StrelaVV про Журавлева: Мама для наследника (Любовная фантастика, Попаданцы)
10 06 Чудесная история любви двух челов их разных миров.Настоящее фентези с магами обменами душ, битвами, погонями и приключениями... Оценка: отлично!
decim про Годфри-Смит: Метазоа. Зарождение разума в животном мире [litres] (Биология)
10 06 Если вам понравилась "Удивительная палеонтология" Еськова, советую прочесть и эту книгу. Качественный научпоп, качественный перевод. Читается труднее, правда. Оценка: хорошо
decim про Вагнер: Кто не спрятался. История одной компании (Триллер)
08 06 Действительно неважно, кто убил. Мотив есть у всех женщин, и они-то пытаются выяснить - кто из них? Мужчины же, не понимая, что творится вообще, бухают и дерутся - все, кроме одного, которому это не положено по работе. ……… Оценка: хорошо
Александр Лагода про Носов: Том 1. Рассказы о природе, рыбалке (Советская классическая проза, Природа и животные, Публицистика)
08 06 Подготавливая FB2, обнаружил, что в b/530187 отсутствует с. 375. Нет ли у кого книги в бумаге?
Oleg68 про Улицкая: Даниэль Штайн, переводчик (Современная проза)
07 06 Книга читалась тяжело. Вставки с описанием молитв, обрядов католицизма-перегружают книгу. Оценка: хорошо
obivatel про Поселягин: «Колонист» [litres] (Фэнтези, Попаданцы)
07 06 Рука-лицо. Во-первых, Павел Первый был в очень хороших отношениях с Наполеоном и в очень плохих с наглами. Он не искал с ними этих плохих отношений, он просто начал налаживать торговлю с Францией минуя фунт-стерлингов. ……… Оценка: плохо |
Комментарии
Отв: Координация сканирования и вычитки
(кагбэ между прочим) А у меня опять выходные...
Отв: Координация сканирования и вычитки
Там laurentina1 ждёт-не дождётся какую-ту книгу. ;)
Отв: Координация сканирования и вычитки
Мне проще делать это, и еще многое другое скриптом EmEditor, который абсолютно нагляден, прост, дополняется по мере вычитывания книг, поскольку можно включать новые и новые ошибки.
Вот кусочек этого скрипта:
\!\l - поиск восклицательный знак-нижний регистр
\?\l - поиск вопросительный знак-нижний регистр
\!\u - поиск восклицательный знак-верхний регистр
\?\u - поиск вопросительный знак-верхний регистр
Отв: Координация сканирования и вычитки
Мммм...
Это, во-первых, ещё одна программа, которую нужно запускать. А во-вторых, в ФР у Вас есть возможность сразу сравнить с исходным текстом. С моей точки зрения, это громадное преимущество по сравнению с другими программами.
А что значит в этом скрипте "нижний/верхний регистр"?
Отв: Координация сканирования и вычитки
!а ?а !А ?А
Зачем мне вычитывать глазами технические ошибки OCR FR, если скрипт это сделает быстрее и надежнее? Учитывая, что FR способен насажать уйму собственных ошибок, без всяких указаний на таковые. Лучше я потрачу время именно на вычитывание, то бишь на смысловые ошибки, которые не выявит ни один из существующих редакторов.
Отв: Координация сканирования и вычитки
Тогда я не поняла, что именно он ищет. Мы, кажется, говорили о склеенных абзацах?
Конечно. Если у Вас есть скрипт, который исправляет технические ошибки OCR (мы ведь не о "Поиске по регэкспам" в ФБЕ говорим, не так ли? Хотя он делает именно это), то быстрее скрипт это сделает ужо всяко. Насчёт надёжнее не знаю, надо сравнивать.
"Смысловые ошибки" - это я опять не поняла. Вы про вычитку текста, что ли?
Отв: Координация сканирования и вычитки
Ищет нечто вроде опе!чатка или А?збука. Такие ошибки бывают, а что до абзацев, то там анализ идет по регистру буквы/запятой/ и следующему Enter, или дефис-Enter, или Enter-дефис, когда FR вместо тире лепит дефис в прямой речи. Я же говорил, это только кусочек для примера, на самом деле, в скрипте длииииная строчка, которая постоянно пополняется.
Да. Где поезд поет вместо ухода :-)
Отв: Координация сканирования и вычитки
Поскольку народ проявил некоторый, хотя и очень робкий интерес к вылавливанию технических блох в текстах с помощью скрипта EmEditor, вот реальный пример, который можете использовать, добавляя или убавляя необходимое:
[^а-яА-Яa-zA-Z0-9\s\.\,\—\?\!\-\*\(\)\«\»\;\:]
При поиске с данным скриптом пропускаются все русские буквы (оба регистра, кроме ё), все латинские буквы (оба регистра), все цифры, пробелы, точки, запятые, тире, вопросительные и восклицательные знаки, дефисы, "звездочки", скобки, кавычки, точки с запятой и двоеточия. Остальные знаки будут подсвечены. Если что-то нужно добавить или убавить, это легко делается, ибо наглядно. Знак ^ в начале служит отрицанием, то есть, ^а-я - НИ одна из букв русского алфавита (кроме ё) в нижнем регистре и т.д. При добавлении любого другого знака, перед ним ставится \ (бэкслэш). Допустим, нужно исключить из поиска апостроф, это будет так: \'
По мере отработки скрипта, продолжение следует...
Отв: Координация сканирования и вычитки
GMAP, Вы так свой продукт рекламировать собрались?
Отв: Координация сканирования и вычитки
Угу. А еще ФайнРидер, АфтерСкан, ОРФО, Ворд, WinXР и еще мно-о-ого чего по части своего программного обеспечения. Можно было сразу догадаться и не напрягать себе топтанием батонов.
Отв: Координация сканирования и вычитки
*зевая* Этого продукта все равно нет
на рынкев сборке FBE. Так что его синтаксис как-то... Пусть хоть обрекламится.Отв: Координация сканирования и вычитки
Иногда у сканировщиков возникают ситуации, когда отсканировано много книг, и непонятно, кто и когда их будет распознавать, верстать и вычитывать. Ну, или просто нашёлся скан, которым самому заниматься неохота или руки не доходят, а отдать некому.
Предлагаю рассмотреть возможность выкладывать сканы на стадии "отсканировал". Наверное, в виде единого архива.
Соответственно, сканы может скачать любой зарегистрированный user, доступившись к карточке книги.
После того, как книга залита сканы можно будет с сайта убрать и слить в долговременное хранилище, на тот случай, "чтобы были".
Думаю, что выгоды от реализации такого предложения будет достаточно: во-первых, затраченный на сканирование труд гарантированно не пропадёт и будет использован теми, кто однажды начнёт распознавать и верстать книгу, а во-вторых постепенно появится хранилище сканов, которые можно будет использовать при последующей вычитке.
Отв: Координация сканирования и вычитки
Ничего тут не гарантировано. Люди скачают, и будут читать со сканов. Или засунут в FR, быстро конвертнут в док/фб2, прочтут книгу как есть, с ошибками, да и удалят. Если вы не против такого обращения со своими сканами, то вольному - воля.
А насчет хранилища... могу слить туда штук 400x200мб=80гб. Кто-то готов расшарить под меня 80 гигабайт на случай, если вдруг когда-нибудь кто-нибудь что-нибудь захочет вычитать?
Отв: Координация сканирования и вычитки
1) Сто человек скачают-прочитают-выкинут, а сто первый сделает книгу. Я лично не против.
2) 80 Гб - это не много. Это очень даже МАЛО. При этом не забывайте, что сканы от уже выложенных книг хранить на сервере не нужно. Они должны подниматься по запросу на последующую вычитку.
3) Если идея приемлема в принципе, то предлагаю (товарищу под ником larin) реально оценить общую потребность в физических ресурсах (storage) и сообщить мне цифру (money). Дальше обсудим, стоит ли овчинка выделки.
Отв: Координация сканирования и вычитки
Конечно мало. Но это от одного человека. Если от всех?
Как не надо хранить на сервере? А где же их хранить, что значит "должны подниматься"? Заливаться на сервер по чьему-то требованию? Не понятно как-то.
Отв: Координация сканирования и вычитки
Возможно, я невнятно изложил своё предложение. Попробую пояснить.
Скан следует хранить на сервере с момента получения карточкой статуса "отсканировал" до момента выкладывания книги. После того, как книга выложена, скан держать на сервере не нужно. Он сливается в ахрив (на DVD, на ленточку, на Blu-Ray disk и т.п.) и лежит себе там и кушать не просит. Если однажны найдётся читатель, который заявит, что книга содержит ошибки, не исправимые без оригинала (скана), то один из библитекарей обращается за исходником к высшей администрации сайта и по прошествии некоторого времени та ему выдаёт этот скан. Вот и всё.
Отв: Координация сканирования и вычитки
Ясно. Не противник вашей идеи, но сильно сомневающийся. Успехов.
И вряд ли мы найдем такого человека/человек, которые будут хранить и выдавать сканы.
-------
В качестве идеи (или в порядке бреда?). Сделать отдельный ресурс: библиотека сканов. С сылкой на либрусеке на этот ресурс.
В карточку постить ссылку на этот ресурс (вручную?). Еще можно сделать ссылку на странице книги на Л: "у этой книги имеются сканы".
Основная проблема: диски. Потому что идея эта носится в воздухе. И не реализовано до сих по причине деньгозатратности, видимо.
ЗЫ. Сканы сканам рознь. Если мои весят 200 мб. на книгу, то скачал сейчас не свои фотосканы - 700 мб. на книгу 440 страниц.
Отв: Координация сканирования и вычитки
лично я все сканы перевожу в джвю, размеры до 100 мег (самый большой был) и храню на двд-болвашках... на всякий пожарный т.с.
это раньше - стирал... :(
Отв: Координация сканирования и вычитки
Не так давно проносился слух, что на либрусеке теперь не только текстовые, но и аудиокниги будут. Одна аудиокнига - от 200 до 1000 метров, то есть, сравнимо со сканом. Так что я не думаю, что диски - это основная проблема. Основатель википедии на возражения, касающиеся ограниченности места, всегда отвечал "hard disks are cheap". Проблема, да, но не основная. Просто, я думаю, что хранение аудиокниг привносит в библиотеку новое измерение, а вот новаторство хранилища сканов не так очевидно.
И вообще, у нас тут сообщество энтузиастов. Кому сильно захочется, тот и бумажную книжку купит, чтобы особо грязный текст вычитать. Я лично так делал уже не один раз.
Отв: Координация сканирования и вычитки
Мне, честно говоря, идея тоже не кажется очень привлекательной, но обсудить можно - вдруг Ларин захочет осуществить. В-)
Первым же пунктом: зачем хранить сканы после заливки книги? Достаточно хранить pdf или djvu, сделанные из сканов. Объём минимум раз в 10 меньше.
Отв: Координация сканирования и вычитки
Не каждый может сделать такой красивый pdf, как ты :)
Наверное надо разделить вопросы, чтобы что-то решить.
1. Главный: Нужна ли библиотека сканов тех книг, которых нет. Надо ее делать? как?
2. Второстепенный. Нужна ли библиотека сканов или pdf/djvu файлов уже сделанных книг? Как ее сделать?
Отв: Координация сканирования и вычитки
А что мешает человеку, желающему с книгой ознакомиться раньше, обратиться к верстальщику. Один отсканировал, второй сверстал, третий (видимо, желающий книгу) вычитал. При других обстоятельствах сомнительная перспектива.
Отв: Координация сканирования и вычитки
А идея неплоха, часто требуется скан, которого уже нет, стерт. Только где сделать такое хранилище?
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
VolgoDon, а что Вам мешает потестировать свою идею? Это вам сканы девать некуда? Если речь о ваших сканах, так постите ссылки на файлообменники в карточках, и понаблюдайте в течение пары месяцев - сколько скачивают, и сколько сканов превратилось в книги. Может оно того и не стоит. И лучше как сейчас некоторые делают - пробовать через форум пристраивать.
Отв: Координация сканирования и вычитки
Мешает то, что я не сканировщик. Я - user чужих сканов. Беру у тех, кто пристраивает через форум. Или просто вычитываю книги, залитые другими.
Отв: Координация сканирования и вычитки
Давайте оценим расходы.
1) Пусть в работе одновременно 3000 карточек. По 1 Гб на книгу. Итого 3 Тб дискового пространства на сервере. Цена этого счастья 300 USD одноразово.
2) Пусть в месяц делается 3 000 новых книг. Итого 3 Тб Blu-Ray дисков. Или 120 Blu-Ray болванок. Я не знаю сколько они стоят оптом. Но допустим, 1 USD. Итого 120 USD в месяц.
Подправьте расчёты, если я в чём-то ошибаюсь.
Отв: Координация сканирования и вычитки
Книги делает/вычитывает довольно узкий круг людей, у каждого своей работы хватает, и делать хранилище сканов в расчете на гипотетического помощника, который возможно захочет что-то вычитать - затея сомнительная. На практике -проще найти помощника через форум.
Мой вариант - распознать и сделать фб2, текст, и пдф с распознанным слоем. Все делается в одной программе(файнридер), фоном к основной работе на компьютере. Занимает мало места, можно хранить до оказии, или отдать на вычитку(если повезет и найдется охотник.).
Отв: Координация сканирования и вычитки
Давайте оценим риски.
1) Копирастия набирает обороты.
Как бы далеко не находился Эквадор, разумно ли подвешивать еще одну приманку в виде хранилища сканов?
2) Оборудование ломается.
Что если диски посыпятся? Возможно ли полное восстановление утраченной информации? Сколько сканов пропадет безвозвратно?
Отв: Координация сканирования и вычитки
как вариант заводить сканировщикам фековые акки на дропбокс/яндексдиск и т.п. и давай в карточках уже ссылки на файлы с них.. Правда я не помню есть там ограничение на период хранения или нет)
Кажется на Ф., пол года - год назад, кто то создавал темку что собирает сканы книг, но щас её откопать думаю проблематично будет(
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
Мне кажется, тема форума о предоставлении сканов должна быть одна: "Я такой-то предлагаю сканы..." и давать ссылку на свой блог или другую тему форума. И закрепить эту тему где-нибудь на видном месте. А то действительно, некоторые темы о предоставлении сканов затерялись.
Отв: Координация сканирования и вычитки
Самая лучшая идея, на мой взгляд. И вынести эту тему туда же, где темы о вычитке и т.п. Чтоб было наглядно и доступно
Отв: Координация сканирования и вычитки
На сканировщика, правда ляжет труд следить:
1) какие сканы отданы в работу и кому, а какие продолжают ждать своего распознавателя-верстальщика
2) действительно ли тот, кто взял скан, работает над ним. И если признаки работы отсутствуют - надо искать нового распознавателя
3) какие сканы обработаны, и заботиться о них в дальнейшем не нужно.
Короче говоря, это вся та работа, которая выполняется "Координацией сканирования и вычитки". При небольшом количестве сканов её можно проводить вручную. Как только сканов станет больше, начнутся проблемы с каждым из этапов.
Отв: Координация сканирования и вычитки
Да. Предложение хорошее. Согласен.
Отв: Координация сканирования и вычитки
отдельную ссылку после Сканирования и Вычитки или сверху между Блоги и Форумы
что-то типа "Сканы" (хинт - предлагаю готовые сканы в обработку)
а вот как следить, работает ли человек над сканом или просто выпросил читать?
Отв: Координация сканирования и вычитки
В качестве иллюстрации карточек, работа над которыми не может продолжаться из-за отсутствия сканов
http://lib.rus.ec/node/312403
Отв: Координация сканирования и вычитки
Поподробнее можно... Каким способом это сделать? Нагрянуть домой с проверкой?
Отв: Координация сканирования и вычитки
Мне кажется, карточки, находящиеся без движения больше года, автоматически должны аннулироваться. А то карточек становится всё больше и полный список делается необъятным. Висит такая карточка, книга вроде делается, а на самом деле о ней уже давно все забыли.
Отв: Координация сканирования и вычитки
Не, такого не надо. Книги быстро-то не делаются. Я, например, помню, что просил, вычитываю, отсканировал. Тогда непонятно будет у кого, что есть. Например, не нашлось времени за год у сканировщика взять книгу, а другой не взялся. А у меня через год нашлось время.
Отв: Координация сканирования и вычитки
Если в карточке есть какой-нибудь статус, то да. А простые "заявки", на которые никто не среагировал, нужно удалять. Это лишний балласт, тут я согласна с Алексеем_Н.
Отв: Координация сканирования и вычитки
Без статусов, согласен.
Отв: Координация сканирования и вычитки
Да и с карточками со статусом тоже надо что-то делать, если они лежат без движения больше года. Конечно же, не надо их удалять. Но вот написать в личку сообщение такого типа было бы неплохо:
Я не испытываю иллюзий, что такая напоминалка что-то сильно изменит, но и недооценивать её тоже не следует.
Отв: Координация сканирования и вычитки
Присоединяюсь. Пустые карточки-заявки нужно периодически удалять.
Да никак. Все на доверии и здравом смысле, и гарантий никто не дает. Человек которому ты отдаешь книги может пропасть, книга может всплыть где угодно и в каком угодно виде. У кого-то действительно форс-мажор, и книга зависает на неопределенное время, кто-то тупо взял "на почитать" и большего ему не нужно. Риск есть всегда, поэтому этот сервис вспомогательный, да и сама идея следить за кем-то мне странна.
Отв: Координация сканирования и вычитки
Что значит возобновить или передать другому. Заявка, она и есть заявка. Или выполняется, или удаляется.
На практике, если книга по заявке не появляется в течение полугода, ее появление в интернете становится чисто вероятностным, как и у тысяч других книг. И заявка, в это смысле, ничего не решает.
Повторюсь, речь идет о пустых карточках-заявках.
Отв: Координация сканирования и вычитки
Много ли книг сделано по пустым карточкам-заявкам... наверное только случайные совпадения... если отданы сканы в работу - по моему через пару месяцев стоит поинтересоваться как идут дела. А если "пользы" у человека нет - то вообще не стоит сканы высылать... ясно что ничего не умеет.
Отв: Координация сканирования и вычитки
А еще бывает, что книга уже выложена, а карточка со статусами продолжает висеть. Хорошо, если кто-то случайно это обнаружит и удалит карточку, но в ряде случаев это так и может остаться незамеченным.
Отв: Координация сканирования и вычитки
После добавления книги выдается: книгу давно уже ждут и два поля, одно уже со ссылкой на залитую книгу. Во второе вносишь её же, карточка вроде закрывается, но потом смотришь в Сканировании и вычитке - нет. Приходится и там закрывать... Не знаю, у кого как, я у меня так постоянно почему-то...
Отв: Координация сканирования и вычитки
Не нужно второму полю уделять внимание если первое верное.
Отв: Координация сканирования и вычитки
вы не поняли... у меня почему-то выдает два одинаковых поля lib.rus.ec/b/пусто и скажем lib.rus.ec/b/хххххх со ссылкой на свежезалитую книгу... заполняй верхнее, не заполняй, всё равно идёшь на сканирование и вычитка и видишь висящую карточку с пустым полем-ссылкой...
поэтому я сразу иду туда и там даю ссылку на книгу (для закрытия карточки)
Страницы