Валидация Либрусечной библиотеки

А не провести ли валидацию всей библиотеки с помощью FBI? Тогда можно будет вывесить список книг с ошибками, и желающие могли бы править тэги fb2. По-моему большинство ошибок исправляются буквально в 2 щелчка мышкой (жанр, неправильный порядок тэгов и т.п.). Можно за короткое время "причесать" библиотеку.

Комментарии

Есть программа fb2fix. Автоматически фиксит большое количество ошибок, которые есть в либрусековских книгах. По моему мнению в идеале нужно прогнать через эту прогу всю библиотеку и уже потом валидацию пытаться провести.

Mar00k написал:
Есть программа fb2fix.

Спасибо за информацию. Я как раз думал, как буду разгребать 1,5 тысячи книг, сконвертированных із rtf, doc и txt.
А ента программа случайно ничего не испортит? Я тут на фикшнбуковском форуме посмотрел - вроде некоторые файлы после обработки превращаются в null :) .

Roman Gl написал:
Mar00k написал:
Есть программа fb2fix.

Спасибо за информацию. Я как раз думал, как буду разгребать 1,5 тысячи книг, сконвертированных із rtf, doc и txt.
А ента программа случайно ничего не испортит? Я тут на фикшнбуковском форуме посмотрел - вроде некоторые файлы после обработки превращаются в null :) .

Не бойтесь не испортит ;) просто возьмет из одного место в другое скопирует, попутно выполняя пару действий, а вы уже потом глазками проверите. :)

Только не автоматически! Если читатель, скачавший книгу и лично заинтересованный в её читабельности, сам её отполирует, исправит разметку и всё такое - это да. А просто прогнать скопом все невалидные через авторемонт, чтобы стали валидными... читабельнее ведь они от этого не станут, правда? А удобный признак "невылизанности" книги - её невалидность - пропадёт.

Для тех, кто не в курсе: книга в формате FB2 содержит некоторые важные данные, отсутствующие во всех остальных форматах - например, разбивку на главы/стихи/эпиграфы. Можно, конечно, эпиграф обозвать стихами или стихи эпиграфом, или сделать всю книгу одной сплошной главой - формат это позволяет, FB2Fix и FBI на такое и не пикнут, но надо ли?..

Рыжий Тигра написал:
Только не автоматически! .....
А удобный признак "невылизанности" книги - её невалидность - пропадёт.

Полностью поддерживаю. Если каждый будет править те книги, которые читает, и ещё парочку в придачу, то рано или поздно все невалидные книги будут "выловлены". Как минимум, те, которые пользуются популярностью у читателей.

Здесь уместно напомнить о фиче "пожаловаться на плохое качество книги" - одном из способов составить список невалидных книг.

Кстати, вот неплохой пример "авто-валидной" книги: http://lib.rus.ec/b/103284 - специально в description упомянуто, что FB2Fix прошёл, но что творится в 24-й главе - это кошмар! И нам что, нужно такооое???

(Честно говоря, 24-я глава - это было первое, что попалось на глаза; читать такое не хочу, пока сам всё не проверю и не исправлю.)

Рыжий Тигра написал:
Кстати, вот неплохой пример "авто-валидной" книги: http://lib.rus.ec/b/103284 - специально в description упомянуто, что FB2Fix прошёл, но что творится в 24-й главе - это кошмар! И нам что, нужно такооое??? (Честно говоря, 24-я глава - это было первое, что попалось на глаза; читать такое не хочу, пока сам всё не проверю и не исправлю.)

А можно поконкретней, что там такооое? Если программа ошиблась (все мы не без греха), то достаточно написать мне (либо здесь, либо в форуме на fictionbook.org), и проблема будет исправлена. Начиная с версии 1.0.6 (от 10.05.2008), в программу встроен валидатор fb2 по xsd схеме, т.е. невалидные документы вообще попадают в отдельное место. Ну а если у Вас есть свободное время обрабатывать каждый документ руками, то тогда программа Вам действительно не нужна.

Gremlin написал:
А можно поконкретней, что там такооое? Если программа ошиблась (все мы не без греха), то достаточно написать мне (либо здесь, либо в форуме на fictionbook.org), и проблема будет исправлена.
Да не в автовалидаторе дело. Вернее, не в его ошибках. В том, что он позволяет пользователю довести книгу до валидного состояния, даже ни разу в саму книгу не заглянув. :(

А насчёт "такооого" - вот оно, 24-я глава:

Цитата:

"Светловолосый, вихрастый, мало отвечающий сценическому образу контрразведчика, он по-мальчишески взобрался на край стола, выхватил из верхнего ящика тонюсенькую папку, бросил ее под свет лампы…
Читать-то особенно было и нечего.
Тппккп-тппккп начинало бпеяжитк r лрлр с хищением r Ралирнпм институт*. Пп прпнпму слрлу — с Кпстппемким бмлп бплрр или мрнрр ясно: скпытный Rnar. прнргат и перебежчик, подготовивший операцию и заранее укрывшийся за границей. Его странную гибель при пересечении контрольной полосы с Германией можно было счесть за самонадеянность, или даже (пусть) устранение Косторецкого как нежелательного сообщника и свидетеля. Но цели? Люди? Ради чего и кто?"

Gremlin написал:
Ну а если у Вас есть свободное время обрабатывать каждый документ руками, то тогда программа Вам действительно не нужна.

Время есть - а иначе и браться нечего. Но ИМХО тут нужна софтинка, строго проверяющая валидность, берущая под подозрение любую мелочь, подробно (вернее, с регулируемой степенью подробности) объясняющая, что же здесь не так, и позволяющая посмотреть возможные варианты изменений (опять же, комментируя их на предмет чем каждый вариант нехорош) и выбрать наименее деструктивный. Я пока такой программы не знаю - разве что FBI, но он чересчур лаконичен и непонятен для непосвящённого.

Валидный или нет документ это означает всего лишь соответствует он схеме или не соответствует. Голый каркас - вполне валиден. Вычитаный или нет - другое дело и отдельный вопрос. Лично я понимаю под валидацией: расстановку сносок, исправление структуры, замену эпиграфов на стихи или обратно, склейку разорваных секций, добавление анотации. Если пишу что документ валиден, это означает что как минимум его без проблем сьест библиотекарь и там стоят все сноски. Прочитать всю книгу, перед тем как сюда выкладывать - мягко говоря нереально, особенно если учесть сколько новинок регулярно выдает литрес. Что касается

Цитата:
ппккп-тппккп начинало бпеяжитк r лрлр с хищением r Ралирнпм институт*. Пп прпнпму слрлу — с Кпстппемким бмлп бплрр или мрнрр ясно: скпытный Rnar. прнргат

то это к dimzony откуда такой глюк. Щас проверил - на странице альдебарана все в порядке. Возможно версию книги на альдебаране обновили, после того как увидели эту тему, возможно это новая защита от копирования.

Bullfear написал:
Лично я понимаю под валидацией: расстановку сносок, исправление структуры, замену эпиграфов на стихи или обратно, склейку разорваных секций, добавление анотации.
Если пишу что документ валиден, это означает что как минимум его без проблем сьест библиотекарь и там стоят все сноски.

Угу. Согласен. Но этого или слишком мало, или слишком много: вполне хватает, чтобы никто не заподозрил подделку, но недостаточно, чтобы получилась хорошая книга.
Bullfear написал:
Прочитать всю книгу, перед тем как сюда выкладывать - мягко говоря нереально,

Нууу, знаешь ли!.. Даже суп, сваренный на большую толпу гостей, не мешало бы самому попробовать перед подачей на стол. А давать читать кому-то книгу, в которую сам и не заглядывал... по-моему, это очень нехорошо. :(
Bullfear написал:
Что касается
Цитата:
ппккп-тппккп начинало бпеяжитк r лрлр с хищением r Ралирнпм институт*. Пп прпнпму слрлу — с Кпстппемким бмлп бплрр или мрнрр ясно: скпытный Rnar. прнргат

то это к dimzony откуда такой глюк. Щас проверил - на странице альдебарана все в порядке. [...] возможно это новая защита от копирования.

Хм. Я сдул оттуда же, той же прогой - чисто; версия на альде - 1.0, т.е. неправленная; полдня поковырялся (правил структуру, "1018 см" заменял на "10-sup-18-/sup-" и т.д.), выложил сюда (http://lib.rus.ec/b/103549).

Может, у нас версии ebookdownloader'а разные? И, кстати, в следующий раз не убирай ebookdownloader из "program-used", ладно?

Цитата:
вполне хватает, чтобы никто не заподозрил подделку, но недостаточно, чтобы получилась хорошая книга.

Если тебе нужна хорошая книга, с идеальным оформлением либо сделай сам, либо купи ее на литресе и залей сюда. При этом не факт, что оформление будет идеальным.
Цитата:
полдня поковырялся (правил структуру, "1018 см" заменял на "10-sup-18-/sup-" и т.д.), выложил сюда (http://lib.rus.ec/b/103549).

Спасибо. Молодец. По уму так и надо. Пол дня на книжку, чтобы ее нормально вычитать. Людей мало только. Новинок в день появляется 5-7, да прибавь то, что на либрусеке еще нету, но доступно для чтения и что таки надо выкладывать. Итого получится 20-30 книжек в день. Если этим будет заниматься котя бы человек 10, и каждый будет делать не 20, а 2-3 книги качество естественно поднимется.
Цитата:
И, кстати, в следующий раз не убирай ebookdownloader из "program-used", ладно?

Да я и не убирал. Его там и небыло. Он автоматом не прописывается. Впринципе, если видишь FB2Fix в графе "автор документа", то это 98% eBookDownloader.
Цитата:
Может, у нас версии ebookdownloader'а разные?

Непонял, ты хочешь сказать, что я СПЕЦИАЛЬНО впихнул в книгу кусок мусора, вместо текста? Этакая подлянка людям?
Цитата:
Нууу, знаешь ли!.. Даже суп, сваренный на большую толпу гостей, не мешало бы самому попробовать перед подачей на стол. А давать читать кому-то книгу, в которую сам и не заглядывал... по-моему, это очень нехорошо. :(

Почему не заглядывал? Полностью не читал, это да. Но бегло проглядывал. Полностью читать 15-20 книжек что я добавляю в день нереально. Просто времени не хватит.

Bullfear написал:
Полностью читать 15-20 книжек что я добавляю в день нереально. Просто времени не хватит.
Так и я ж о том же. Не выкладывай столько - давай только то, что лично тебе понравилось. Пусть это даже будет один том в неделю. Кому-то понравится ещё что-то - он тоже выложит...
Bullfear написал:
По уму так и надо. Пол дня на книжку, чтобы ее нормально вычитать.
Ну, не стебайся. Я ж её не вычитывал - просто набегался по тексту взад-вперёд контекстным поиском на наиболее характерные ляпы, их зачистил и то, что получилось, выложил - только чтобы перебить "ппккп-тппккп". А вычитать полностью - ну, не нравится мне эта книга как таковая, я в отзыве честно предупредил. Обычно, если книга хороша (на мой вкус :) ), я её вычитываю полностью (иногда ещё и ёфицирую) и тогда уже выкладываю, это может занять и несколько дней... :(
Bullfear написал:
Если тебе нужна хорошая книга, с идеальным оформлением либо сделай сам, либо купи ее на литресе и залей сюда. При этом не факт, что оформление будет идеальным.
Ну... да. Я же ж говорю - предпочитаю вылизывать сам. А покупать у литры - сдаётся мне, что они всё же выкладывают на почитать то же, что и продают: одно время была хааарошая дыра на фикшнбуке, позволявшая таскать цельные .fb2.zip'ы, то я сравнивал стянутое, показанное в онлайне на фикшнбуке и показанное в других библиотеках от Б5 - совпадает байт в байт...
Bullfear написал:
Если этим будет заниматься котя бы человек 10, и каждый будет делать не 20, а 2-3 книги качество естественно поднимется.
Ну дык! :) А нас таки много - во всяком случае, явно больше двух. :)
Bullfear написал:
если видишь FB2Fix в графе "автор документа", то это 98% eBookDownloader.
Ага. Я тут поэкспериментировал - таки да. Тем более, не стОит причёсывать fb2fix'ом - лучше выкладывай "как есть", кого заинтересует - исправит вручную (или на полуавтомате :) ) - будет изящнее.
Bullfear написал:
ты хочешь сказать, что я СПЕЦИАЛЬНО впихнул в книгу кусок мусора, вместо текста? Этакая подлянка людям?
Да нет же! Я думал - это "автоматический" скан с бумаги. Глюк не похож на какие-либо кривости перекодировок - скорее именно на попытку распознать скан отрезанного/запачканного края страницы.

В общем, извини за наезды. Видимо, таки литрес лажанулся со сканом, а потом втихаря, не меняя версию документа, подменил.

О, идея! Давай таки будем показывать в description'е оригинальный ID документа, с которого тянуто ebookdownloader'ом - в поле "src-ocr" или даже просто в custom-info. Можно будет потом в случае чего расплести - что из чего произошло. :)

Рыжий Тигра написал:
иногда ещё и ёфицирую

+1

Рыжий Тигра написал:
иногда ещё и ёфицирую

А чем? Есть программы?

ground0 написал:
http://vgiv.narod.ru/yo.html

О, сенькс! Эту ещё не пробовал.

golma1 написал:
Рыжий Тигра написал:
и ёфицирую

А чем? Есть программы?

Глазками и руцями. В любом текстовом редакторе - контекстную замену "е" на "ё" и вперёд, до опупения: replace-ignore-ignore-ignore-ignore-replace-replace-ignore... :(

Рыжий Тигра написал:

Глазками и руцями. В любом текстовом редакторе - контекстную замену "е" на "ё" и вперёд, до опупения: replace-ignore-ignore-ignore-ignore-replace-replace-ignore... :(

Ой-ой-ой! Это ж какой труд! Просто подвиг. Респект!
А по поводу программ - я, честно говоря, не увидела, что они работают с fb2. Или просто не разобралась?

golma1 написал:
по поводу программ - я, честно говоря, не увидела, что они работают с fb2
А почему бы и нет? "Ё" в тэгах не водится, а всё остальное - просто текст...

Рыжий Тигра написал:
"Ё" в тэгах не водится, а всё остальное - просто текст...

Именно! FB2 - текстовый формат, а не бинарный.
Загружаем в vi - и вперёд.
Отвечать на вопросы придётся меньше, чем если делать поиск-замену, благо скрипт самостоятельно заменит там, где он уверен.
Виндовая софтина, показалось мне, тормозит на больших файлах. Под wine, впрочем, работает. Но UTF-8 не знает.

Цитата:
не стОит причёсывать fb2fix'ом - лучше выкладывай "как есть", кого заинтересует - исправит вручную (или на полуавтомате :) ) - будет изящнее.

Стоит. Поясню почему. Во первых FBE не жрет файkы сразу из под eBookDownloader. А без FBE не будет ссылок. Во вторых мне к примеру удобнее когда я скачал всего автора - импортирую и он целиком сьедается библиотекарем без всяких ошибок. Тоесть после скачивания не надо возится с книгами, валидизировать и т.п. Особенно удобно когда качаешь МНОГО. Большинство читателей не будут "причесывать" книги(тем более не самого любимого автора) - им это просто не надо. Им надо читать. А для этого надо, чтобы книга без проблем импортировалась в библиотекаря.
Цитата:
О, идея! Давай таки будем показывать в description'е оригинальный ID документа, с которого тянуто ebookdownloader'ом - в поле "src-ocr" или даже просто в custom-info. Можно будет потом в случае чего расплести - что из чего произошло. :)

Хорошая идея. Если сильно много времени отнимать не будет - буду добавлять на равне с аннотацией. В принипе по уму надо бы еще в "src-ocr" ставить адрес, откуда тянулась книга.

ИМХО, очень похоже на невычитанные ошибки сканера / OCR :(. Скорее всего, на Альде просто успели исправить. А что номер версии не изменился - так это кто же менять будет? Расписавшись тем самым, что версия была плохая ;). У них ведь воще сканов нет, у них версии от издательств - это же для литреса, на продажу! ;D ЕБД вряд ли на такое способен. С таким же успехом можете заподозрить fb2Fix ;).

Рыжий Тигра написал:
Может, у нас версии ebookdownloader'а разные? И, кстати, в следующий раз не убирай ebookdownloader из "program-used", ладно?

Не ссорьтесь, вполне возможно, что это Fb2Fix выкинул, блин за ту структуру документа, которую генерирует ebookdownloader, надо давать пожизненный цык с гвоздями (ц). :) Ну не должен <program-used> находится в <title-info>.

Я вот тут подумал над тем как это можно исправить... Если в тексте книги встречается слово eBookDownloader - добавлять его в "program-used". В принципе не очень изящно, но много ли вы видели книг, у которых в тексте по сюжету встречается eBookDownloader ;) ?

Bullfear написал:
Я вот тут подумал над тем как это можно исправить... Если в тексте книги встречается слово eBookDownloader - добавлять его в "program-used". В принципе не очень изящно, но много ли вы видели книг, у которых в тексте по сюжету встречается eBookDownloader ;) ?

А надо ли? Может проще автору петицию написать, что-бы программу исправил? Ну неужели так сложно сразу формировать валидный fb2 документ? Если-бы не было eBoolDownloader'а, "Конвертора Инженера Ларина" и других подобных чудес програмостроения, то глядишь и не было-бы Fb2Fix'a.

P.S. Я никого не хочу обидеть, каждый делает что может, в каждой программе бывают ошибки, но блин если кто-то что-то делает, то давайте хотя-бы пытаться делать это правильно!

Gremlin написал:

А надо ли? Может проще автору петицию написать, что-бы программу исправил? Ну неужели так сложно сразу формировать валидный fb2 документ? Если-бы не было eBoolDownloader'а, "Конвертора Инженера Ларина" и других подобных чудес програмостроения, то глядишь и не было-бы Fb2Fix'a.

P.S. Я никого не хочу обидеть, каждый делает что может, в каждой программе бывают ошибки, но блин если кто-то что-то делает, то давайте хотя-бы пытаться делать это правильно!


Не хотелось бы показывать пальцем, но у кого-то программа топчется в чужих документах по делу и без. ;-) Уточню - Зачем поднимать версию файла если
а) в документе не было исправлений,
б) структура не правилась,
в) ДАЖЕ табы не проставлялись?

По поводу валидации ВСЕХ книг.
Сейчас я пытаюсь провести валидацию книг созданных LibRusEc Kit ;-) Сразу оговорюсь - я вижу в этом смысл: там попадаются книги, которых я больше в эл. виде не наблюдал.
Вопрос - как потом эти книги залить обратно в библиотеку?

Cd_spb написал:
Не хотелось бы показывать пальцем, но у кого-то программа топчется в чужих документах по делу и без. ;-) Уточню - Зачем поднимать версию файла если
а) в документе не было исправлений,
б) структура не правилась,
в) ДАЖЕ табы не проставлялись?

Исправлять чужие ошибки тяжелее, чем наделать своих. Про версии документов: я всё понял и осознал. Будет сделано для вас персонально.

p.s. Программой пользоваться ни кто не заставляет, а то натопчет ещё в чужих документах.

Gremlin написал:
Cd_spb написал:
Не хотелось бы показывать пальцем, но у кого-то программа топчется в чужих документах по делу и без. ;-) Уточню - Зачем поднимать версию файла если
а) в документе не было исправлений,
б) структура не правилась,
в) ДАЖЕ табы не проставлялись?

Исправлять чужие ошибки тяжелее, чем наделать своих. Про версии документов: я всё понял и осознал. Будет сделано для вас персонально.

p.s. Программой пользоваться ни кто не заставляет, а то натопчет ещё в чужих документах.

Очень полезная, нужная программа!!! За её создание - ОГРОМНОЕ СПАСИБО!!!!!! Вами проделан огромный труд, но не хватает самой малости, чтобы использоватье программу во всю ширину и глубину. ;-)

Cd_spb написал:
пытаюсь провести валидацию книг созданных LibRusEc Kit ;-) Сразу оговорюсь - я вижу в этом смысл: там попадаются книги, которых я больше в эл. виде не наблюдал.
О! "В точку!" (c) Дафна :)
Cd_spb написал:
Вопрос - как потом эти книги залить обратно в библиотеку?
Ссылка http://lib.rus.ec/upload "Добавление книги" - прямо на главной странице. Только потом надо будет ещё подправить на предмет дублей.

Рыжий Тигра написал:
Cd_spb написал:
пытаюсь провести валидацию книг созданных LibRusEc Kit ;-) Сразу оговорюсь - я вижу в этом смысл: там попадаются книги, которых я больше в эл. виде не наблюдал.
О! "В точку!" (c) Дафна :)
Cd_spb написал:
Вопрос - как потом эти книги залить обратно в библиотеку?
Ссылка http://lib.rus.ec/upload "Добавление книги" - прямо на главной странице. Только потом надо будет ещё подправить на предмет дублей.

Я знаю о добавлении через фтп. Маленькое НО заключается в том, чтобы потом разгрести более 1.7 гига файлов. :-( Если бы было безусловная замена при соблюдении условий: более высокая версия, те же авторы... А в данном варианте это не осуществимо силами одного человека. ИМХО.

Bullfear написал:
Если в тексте книги встречается слово eBookDownloader - добавлять его в "program-used".
Хм. Торможу? Но ни разу не видел этого волшебного слова в тексте, а вот в program-used вижу регулярно.

Угу. Тормозишь. Ну в тексте файла, если так больше нравится :)

Конечно, "настоящая" книга получается, если после "авто-валидации" её ещё и прочесть. И конечно, для этого необходимо время. И конечно, мало людей, которые этим занимаются. Оттого и не успеть "отвалидировать" все новинки. :-(

Люди, записывайтесь в проект "Вычитка"! :-)))
http://lib.rus.ec/вычитка

golma1 написал:
"настоящая" книга получается, если после "авто-валидации" её ещё и прочесть.
:) :) :)

А я все книги вычитываю... Другие не выкладываю.

Как нас дедушкО Ленин учил: "ЛуЧЧе меньше, да луЧЧе". ;-)

OK. Спасибо.

Господа!
Я насобирал уже почти четыре тысячи "битых" файлов fb2 от либрусека. FB2 Librarian встраивать в базу их отказывается. Попытки разобраться с проблемой пока безуспешны. Редакторы также отказываются открывать эти файлы. Остаётся единственная надёга на FB2Fix. Проблема в том, что не хватает мозгов разобраться с работой этой программы точнее с синтаксисом командной строки. Helpov практически нет, а если есть то в комбинации с батником под библиотеку Траума на предмет её валидности. Если у кого есть время и знания - ответьте.
Заранее благодарю.

Примерчик можно попросить ? Если в виде ссылки на Либрусеке - совсем замечательно будет...

TVI написал:
Господа!
Я насобирал уже почти четыре тысячи "битых" файлов fb2 от либрусека.

Хотелось бы узнать, как Вы делали валидацию. Дело в том, что сгружаемые с /allbooks и /all/daily зипы содержат также и файлы, заменённые на лучшие версии. Число "четыре тысячи" наводит на мысль, что в нём участвуют также файлы, заменённые на лучшие версии.

У меня та же проблема, поэтому очень хотелось бы узнать решение.

Цитата:
Хотелось бы узнать, как Вы делали валидацию. Дело в том, что сгружаемые с /allbooks и /all/daily зипы содержат также и файлы, заменённые на лучшие версии. Число "четыре тысячи" наводит на мысль, что в нём участвуют также файлы, заменённые на лучшие версии.

У меня та же проблема, поэтому очень хотелось бы узнать решение.

В том-то вся и проблема, что решения её не знаю. Единственная надёга FB2Fix. Но проблема в том, что разобраться с ключами можно только зная структуру файлов fb2, терминологию и, соответственно, владея навыками программирования. Но я не программист... Поэтому и бросаю клич. Если кто-то может по русски описать назначение основных ключей и дать синтаксис командной стрки буду жутко благодарен. Так как жалко потраченных трудов. А выискать четыре тысячи файлов в библиотеке по их именам на предмет наличия правильного?? Может быть эти книги у меня уже закачаны в домашнюю библиотеку, но проверка этого... кошмар.

X