Вы здесьВалидация Либрусечной библиотеки
Опубликовано пт, 16/05/2008 - 03:01 пользователем Roman Gl
А не провести ли валидацию всей библиотеки с помощью FBI? Тогда можно будет вывесить список книг с ошибками, и желающие могли бы править тэги fb2. По-моему большинство ошибок исправляются буквально в 2 щелчка мышкой (жанр, неправильный порядок тэгов и т.п.). Можно за короткое время "причесать" библиотеку.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 5 часов
nehug@cheaphub.net RE:Доступ 3 дня sibkron RE:«Македонский роман XXI века 4 дня sem14 RE:Рассказы Южных морей 1 неделя weis RE:Прошу переформатировать, распознать, etc... 1 неделя arkadybi RE:Абонемент 1 неделя babajga RE:Комната в башне 1 неделя Саша из Киева RE:Герои Израиля 1 неделя babajga RE:сиреневая звезда 1 неделя babajga RE:Сказки Папоротникового Леса 1 неделя sem14 RE:вопрос 2 недели sem14 RE:Премия «Небьюла» (Nebula Award) 2 недели Isais RE:Maxima-library - переезд 2 недели Iron Man RE:Курьезы сканировщика 4 недели tvv RE:Абрахам Вергезе - The Covenant of Water 4 недели Larisa_F RE:Эрнесто и его кролики 1 месяц Саша из Киева RE:Горящие паруса 1 месяц Саша из Киева RE:Американская мозаика 1 месяц Впечатления о книгах
Alhimik0 про Уэльбек: Возможность острова [La possibilité d'une île ru] (Современная проза)
02 07 Счастье это лишь возможность острова на миг открытого нам вдали холодного равнодушного моря нашей жизни. Жизнь - реальна. Все остальное - нет... Оценка: отлично!
udrees про Михайлов: Инфер-3 [СИ] (Боевая фантастика, Киберпанк)
02 07 Хорошее продолжение серии. Написано в жестком стиле, обилие кровищи, сцены жестокости, пыток, убийств. Главный герой никого не боится, шагает по трупам. В разговорах с другими хамоват и быдловат. Никто ему не ровня. ……… Оценка: хорошо
udrees про Михайлов: Инфер-7 [СИ] (Боевая фантастика, Киберпанк, ЛитРПГ, Самиздат, сетевая литература)
02 07 Продолжение жестоких приключений героя в жестоком умирающем мире. Для любителей серии зайдет, благо что антураж поменялся, поменялись монстры и сюжетная линия поменялась. Описания предельно жестокие, с изобилием кровавых ……… Оценка: хорошо
udrees про Михайлов: Инфер-6 [СИ] (Боевая фантастика, Киберпанк, ЛитРПГ)
02 07 В целом хорошо, небольшая смена обстановки, чуть лучше стало описание. Главный герой в целом справедлив, хотя и жесток. Все равно старается помочь угнетенным и отчаявшимся. Находится в «контрах» с власть имущими и эксплуатирующими. Для ……… Оценка: хорошо
udrees про Михайлов: Инфер-5 [СИ] (Боевая фантастика, Киберпанк, Постапокалипсис, Самиздат, сетевая литература)
02 07 Очередное продолжение цикла Низшего. Но сейчас наконец-то смена обстановки. Повествование начинается почти как с первой книги, когда герой переносится без всего в мир Формоз. Но на сей раз путь наверх проходится практически ……… Оценка: хорошо
udrees про Михайлов: Инфер-4 [СИ] (Боевая фантастика, Научная фантастика, ЛитРПГ, Самиздат, сетевая литература)
02 07 Продолжение истории про Низшего, для любителей серии. Особенно ничего интересного по сюжету не будет, скорее это возвращение к старым местам. Происходит наконец-то воссоединение боевого отряда и встреча со старыми друзьями ……… Оценка: хорошо
obivatel про Яманов: Братик [litres] (Альтернативная история, Попаданцы)
02 07 Начал ловить себя на мысли "когда там уже финиш" и прекратил читать: зачем себя напрягать? Но то, что прочитал: НЕПЛОХО. Оценка: неплохо
decim про Трэвис Коркоран
02 07 Первая книга - отлично. Вторая - хорошо. Если вы любитель alex_rozoff и его "Меганезии", то и эти книги зайдут. Взгляды автора схожи с розовскими - анархо-капитализм как возможный выход. Действие происходит в условном ………
decim про Фибих: Двужильная Россия [litres] (Биографии и Мемуары)
02 07 Человек, что называется, попал в жернова. С точки зрения садомазохистов - сам виноват, и вообще скажи спасибо, что не убили. Фарисейство это - до первого пинка. Об уровне полемики говорит и то, что национальность у садюшки ……… Оценка: хорошо
svengali про Туччи: Вкус. Кулинарные мемуары [litres] (Биографии и Мемуары, Публицистика, Кулинария, Кино)
01 07 Какой ещё "кассероле"? Переводчик никогда не слышал слово кастрюля? Кастрюля, а не "кассероле". Оценка: нечитаемо
polyn про Миронова: Под сенью омелы [litres] (Современные любовные романы, Любовные детективы)
30 06 И на этот раз у автора получилась незабываемая, необычная история с непредсказуемыми поворотами сюжета. Читала и наслаждалась. Это и детектив, поскольку тут речь идёт о нескольких убийствах. Это и мистика, связанная с ……… Оценка: отлично!
lukyanelena про Зинина: Эффект "Федора" [СИ] (Современные любовные романы, Самиздат, сетевая литература)
30 06 Отличная история созависимых отношений, жертва и абьюзер. И все это завернуто в фантик "любовь". Нет там никакой любви. Всегда она будет виновата, а он, так и быть, будет прощать. Очень опасно, когда девочки верят в такую туфту. Беэээээ Оценка: неплохо |
Комментарии
Re: Валидация Либрусечной библиотеки
Есть программа fb2fix. Автоматически фиксит большое количество ошибок, которые есть в либрусековских книгах. По моему мнению в идеале нужно прогнать через эту прогу всю библиотеку и уже потом валидацию пытаться провести.
Re: Валидация Либрусечной библиотеки
Спасибо за информацию. Я как раз думал, как буду разгребать 1,5 тысячи книг, сконвертированных із rtf, doc и txt.
А ента программа случайно ничего не испортит? Я тут на фикшнбуковском форуме посмотрел - вроде некоторые файлы после обработки превращаются в null :) .
Re: Валидация Либрусечной библиотеки
Не бойтесь не испортит ;) просто возьмет из одного место в другое скопирует, попутно выполняя пару действий, а вы уже потом глазками проверите. :)
Re: Валидация Либрусечной библиотеки
Только не автоматически! Если читатель, скачавший книгу и лично заинтересованный в её читабельности, сам её отполирует, исправит разметку и всё такое - это да. А просто прогнать скопом все невалидные через авторемонт, чтобы стали валидными... читабельнее ведь они от этого не станут, правда? А удобный признак "невылизанности" книги - её невалидность - пропадёт.
Для тех, кто не в курсе: книга в формате FB2 содержит некоторые важные данные, отсутствующие во всех остальных форматах - например, разбивку на главы/стихи/эпиграфы. Можно, конечно, эпиграф обозвать стихами или стихи эпиграфом, или сделать всю книгу одной сплошной главой - формат это позволяет, FB2Fix и FBI на такое и не пикнут, но надо ли?..
Re: Валидация Либрусечной библиотеки
Полностью поддерживаю. Если каждый будет править те книги, которые читает, и ещё парочку в придачу, то рано или поздно все невалидные книги будут "выловлены". Как минимум, те, которые пользуются популярностью у читателей.
Здесь уместно напомнить о фиче "пожаловаться на плохое качество книги" - одном из способов составить список невалидных книг.
Re: Валидация Либрусечной библиотеки
Кстати, вот неплохой пример "авто-валидной" книги: http://lib.rus.ec/b/103284 - специально в description упомянуто, что FB2Fix прошёл, но что творится в 24-й главе - это кошмар! И нам что, нужно такооое???
(Честно говоря, 24-я глава - это было первое, что попалось на глаза; читать такое не хочу, пока сам всё не проверю и не исправлю.)
Re: Валидация Либрусечной библиотеки
А можно поконкретней, что там такооое? Если программа ошиблась (все мы не без греха), то достаточно написать мне (либо здесь, либо в форуме на fictionbook.org), и проблема будет исправлена. Начиная с версии 1.0.6 (от 10.05.2008), в программу встроен валидатор fb2 по xsd схеме, т.е. невалидные документы вообще попадают в отдельное место. Ну а если у Вас есть свободное время обрабатывать каждый документ руками, то тогда программа Вам действительно не нужна.
Re: Валидация Либрусечной библиотеки
А насчёт "такооого" - вот оно, 24-я глава:
Время есть - а иначе и браться нечего. Но ИМХО тут нужна софтинка, строго проверяющая валидность, берущая под подозрение любую мелочь, подробно (вернее, с регулируемой степенью подробности) объясняющая, что же здесь не так, и позволяющая посмотреть возможные варианты изменений (опять же, комментируя их на предмет чем каждый вариант нехорош) и выбрать наименее деструктивный. Я пока такой программы не знаю - разве что FBI, но он чересчур лаконичен и непонятен для непосвящённого.
Re: Валидация Либрусечной библиотеки
Валидный или нет документ это означает всего лишь соответствует он схеме или не соответствует. Голый каркас - вполне валиден. Вычитаный или нет - другое дело и отдельный вопрос. Лично я понимаю под валидацией: расстановку сносок, исправление структуры, замену эпиграфов на стихи или обратно, склейку разорваных секций, добавление анотации. Если пишу что документ валиден, это означает что как минимум его без проблем сьест библиотекарь и там стоят все сноски. Прочитать всю книгу, перед тем как сюда выкладывать - мягко говоря нереально, особенно если учесть сколько новинок регулярно выдает литрес. Что касается
то это к dimzony откуда такой глюк. Щас проверил - на странице альдебарана все в порядке. Возможно версию книги на альдебаране обновили, после того как увидели эту тему, возможно это новая защита от копирования.
Re: Валидация Либрусечной библиотеки
Угу. Согласен. Но этого или слишком мало, или слишком много: вполне хватает, чтобы никто не заподозрил подделку, но недостаточно, чтобы получилась хорошая книга.
Нууу, знаешь ли!.. Даже суп, сваренный на большую толпу гостей, не мешало бы самому попробовать перед подачей на стол. А давать читать кому-то книгу, в которую сам и не заглядывал... по-моему, это очень нехорошо. :(
Хм. Я сдул оттуда же, той же прогой - чисто; версия на альде - 1.0, т.е. неправленная; полдня поковырялся (правил структуру, "1018 см" заменял на "10-sup-18-/sup-" и т.д.), выложил сюда (http://lib.rus.ec/b/103549).
Может, у нас версии ebookdownloader'а разные? И, кстати, в следующий раз не убирай ebookdownloader из "program-used", ладно?
Re: Валидация Либрусечной библиотеки
Если тебе нужна хорошая книга, с идеальным оформлением либо сделай сам, либо купи ее на литресе и залей сюда. При этом не факт, что оформление будет идеальным.
Спасибо. Молодец. По уму так и надо. Пол дня на книжку, чтобы ее нормально вычитать. Людей мало только. Новинок в день появляется 5-7, да прибавь то, что на либрусеке еще нету, но доступно для чтения и что таки надо выкладывать. Итого получится 20-30 книжек в день. Если этим будет заниматься котя бы человек 10, и каждый будет делать не 20, а 2-3 книги качество естественно поднимется.
Да я и не убирал. Его там и небыло. Он автоматом не прописывается. Впринципе, если видишь FB2Fix в графе "автор документа", то это 98% eBookDownloader.
Непонял, ты хочешь сказать, что я СПЕЦИАЛЬНО впихнул в книгу кусок мусора, вместо текста? Этакая подлянка людям?
Почему не заглядывал? Полностью не читал, это да. Но бегло проглядывал. Полностью читать 15-20 книжек что я добавляю в день нереально. Просто времени не хватит.
Re: Валидация Либрусечной библиотеки
В общем, извини за наезды. Видимо, таки литрес лажанулся со сканом, а потом втихаря, не меняя версию документа, подменил.
О, идея! Давай таки будем показывать в description'е оригинальный ID документа, с которого тянуто ebookdownloader'ом - в поле "src-ocr" или даже просто в custom-info. Можно будет потом в случае чего расплести - что из чего произошло. :)
Re: Валидация Либрусечной библиотеки
+1
Re: Валидация Либрусечной библиотеки
А чем? Есть программы?
Re: Валидация Либрусечной библиотеки
http://vgiv.narod.ru/yo.html
http://python.anabar.ru/yo.htm
Re: Валидация Либрусечной библиотеки
О, сенькс! Эту ещё не пробовал.
Re: Валидация Либрусечной библиотеки
Глазками и руцями. В любом текстовом редакторе - контекстную замену "е" на "ё" и вперёд, до опупения: replace-ignore-ignore-ignore-ignore-replace-replace-ignore... :(
Re: Валидация Либрусечной библиотеки
Ой-ой-ой! Это ж какой труд! Просто подвиг. Респект!
А по поводу программ - я, честно говоря, не увидела, что они работают с fb2. Или просто не разобралась?
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Именно! FB2 - текстовый формат, а не бинарный.
Загружаем в vi - и вперёд.
Отвечать на вопросы придётся меньше, чем если делать поиск-замену, благо скрипт самостоятельно заменит там, где он уверен.
Виндовая софтина, показалось мне, тормозит на больших файлах. Под wine, впрочем, работает. Но UTF-8 не знает.
Re: Валидация Либрусечной библиотеки
Стоит. Поясню почему. Во первых FBE не жрет файkы сразу из под eBookDownloader. А без FBE не будет ссылок. Во вторых мне к примеру удобнее когда я скачал всего автора - импортирую и он целиком сьедается библиотекарем без всяких ошибок. Тоесть после скачивания не надо возится с книгами, валидизировать и т.п. Особенно удобно когда качаешь МНОГО. Большинство читателей не будут "причесывать" книги(тем более не самого любимого автора) - им это просто не надо. Им надо читать. А для этого надо, чтобы книга без проблем импортировалась в библиотекаря.
Хорошая идея. Если сильно много времени отнимать не будет - буду добавлять на равне с аннотацией. В принипе по уму надо бы еще в "src-ocr" ставить адрес, откуда тянулась книга.
Re: Валидация Либрусечной библиотеки
ИМХО, очень похоже на невычитанные ошибки сканера / OCR :(. Скорее всего, на Альде просто успели исправить. А что номер версии не изменился - так это кто же менять будет? Расписавшись тем самым, что версия была плохая ;). У них ведь воще сканов нет, у них версии от издательств - это же для литреса, на продажу! ;D ЕБД вряд ли на такое способен. С таким же успехом можете заподозрить fb2Fix ;).
Re: Валидация Либрусечной библиотеки
Не ссорьтесь, вполне возможно, что это Fb2Fix выкинул, блин за ту структуру документа, которую генерирует ebookdownloader, надо давать пожизненный цык с гвоздями (ц). :) Ну не должен <program-used> находится в <title-info>.
Re: Валидация Либрусечной библиотеки
Я вот тут подумал над тем как это можно исправить... Если в тексте книги встречается слово eBookDownloader - добавлять его в "program-used". В принципе не очень изящно, но много ли вы видели книг, у которых в тексте по сюжету встречается eBookDownloader ;) ?
Re: Валидация Либрусечной библиотеки
А надо ли? Может проще автору петицию написать, что-бы программу исправил? Ну неужели так сложно сразу формировать валидный fb2 документ? Если-бы не было eBoolDownloader'а, "Конвертора Инженера Ларина" и других подобных чудес програмостроения, то глядишь и не было-бы Fb2Fix'a.
P.S. Я никого не хочу обидеть, каждый делает что может, в каждой программе бывают ошибки, но блин если кто-то что-то делает, то давайте хотя-бы пытаться делать это правильно!
Re: Валидация Либрусечной библиотеки
Не хотелось бы показывать пальцем, но у кого-то программа топчется в чужих документах по делу и без. ;-) Уточню - Зачем поднимать версию файла если
а) в документе не было исправлений,
б) структура не правилась,
в) ДАЖЕ табы не проставлялись?
По поводу валидации ВСЕХ книг.
Сейчас я пытаюсь провести валидацию книг созданных LibRusEc Kit ;-) Сразу оговорюсь - я вижу в этом смысл: там попадаются книги, которых я больше в эл. виде не наблюдал.
Вопрос - как потом эти книги залить обратно в библиотеку?
Re: Валидация Либрусечной библиотеки
Исправлять чужие ошибки тяжелее, чем наделать своих. Про версии документов: я всё понял и осознал. Будет сделано для вас персонально.
p.s. Программой пользоваться ни кто не заставляет, а то натопчет ещё в чужих документах.
Re: Валидация Либрусечной библиотеки
Очень полезная, нужная программа!!! За её создание - ОГРОМНОЕ СПАСИБО!!!!!! Вами проделан огромный труд, но не хватает самой малости, чтобы использоватье программу во всю ширину и глубину. ;-)
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Я знаю о добавлении через фтп. Маленькое НО заключается в том, чтобы потом разгрести более 1.7 гига файлов. :-( Если бы было безусловная замена при соблюдении условий: более высокая версия, те же авторы... А в данном варианте это не осуществимо силами одного человека. ИМХО.
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Угу. Тормозишь. Ну в тексте файла, если так больше нравится :)
Re: Валидация Либрусечной библиотеки
Конечно, "настоящая" книга получается, если после "авто-валидации" её ещё и прочесть. И конечно, для этого необходимо время. И конечно, мало людей, которые этим занимаются. Оттого и не успеть "отвалидировать" все новинки. :-(
Люди, записывайтесь в проект "Вычитка"! :-)))
http://lib.rus.ec/вычитка
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
А я все книги вычитываю... Другие не выкладываю.
Как нас дедушкО Ленин учил: "ЛуЧЧе меньше, да луЧЧе". ;-)
Re: Валидация Либрусечной библиотеки
OK. Спасибо.
Отв: Валидация Либрусечной библиотеки
Господа!
Я насобирал уже почти четыре тысячи "битых" файлов fb2 от либрусека. FB2 Librarian встраивать в базу их отказывается. Попытки разобраться с проблемой пока безуспешны. Редакторы также отказываются открывать эти файлы. Остаётся единственная надёга на FB2Fix. Проблема в том, что не хватает мозгов разобраться с работой этой программы точнее с синтаксисом командной строки. Helpov практически нет, а если есть то в комбинации с батником под библиотеку Траума на предмет её валидности. Если у кого есть время и знания - ответьте.
Заранее благодарю.
Отв: Валидация Либрусечной библиотеки
Примерчик можно попросить ? Если в виде ссылки на Либрусеке - совсем замечательно будет...
Отв: Валидация Либрусечной библиотеки
Хотелось бы узнать, как Вы делали валидацию. Дело в том, что сгружаемые с /allbooks и /all/daily зипы содержат также и файлы, заменённые на лучшие версии. Число "четыре тысячи" наводит на мысль, что в нём участвуют также файлы, заменённые на лучшие версии.
У меня та же проблема, поэтому очень хотелось бы узнать решение.
Отв: Валидация Либрусечной библиотеки
В том-то вся и проблема, что решения её не знаю. Единственная надёга FB2Fix. Но проблема в том, что разобраться с ключами можно только зная структуру файлов fb2, терминологию и, соответственно, владея навыками программирования. Но я не программист... Поэтому и бросаю клич. Если кто-то может по русски описать назначение основных ключей и дать синтаксис командной стрки буду жутко благодарен. Так как жалко потраченных трудов. А выискать четыре тысячи файлов в библиотеке по их именам на предмет наличия правильного?? Может быть эти книги у меня уже закачаны в домашнюю библиотеку, но проверка этого... кошмар.