Вы здесьВалидация Либрусечной библиотеки
Опубликовано пт, 16/05/2008 - 03:01 пользователем Roman Gl
А не провести ли валидацию всей библиотеки с помощью FBI? Тогда можно будет вывесить список книг с ошибками, и желающие могли бы править тэги fb2. По-моему большинство ошибок исправляются буквально в 2 щелчка мышкой (жанр, неправильный порядок тэгов и т.п.). Можно за короткое время "причесать" библиотеку.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
нэнси RE:Подайте бедному копеечку на книжку с литреса... 2 дня
tvv RE:DNS 5 дней sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 6 дней sem14 RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 неделя sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 неделя larin RE:Заблокирован 2 недели alexk RE:Прошу переформатировать, распознать, etc... 2 недели konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 4 недели Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц fixel RE:Пропал абонемент 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 месяц sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 1 месяц Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 2 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 2 месяца tvv RE:faq brainstorm =) 2 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 2 месяца larin RE:абонемент не обновлен 3 месяца sem14 RE:За иллюминатором (серия) - чего не хватает? 3 месяца Впечатления о книгах
udrees про Мансуров: Восемнадцатое царство [СИ] (Боевик, Самиздат, сетевая литература)
17 04 Не очень большая книга в стиле Стивена Кинга – забрались мальчишки на какой-то заброшенный секретный объект. Ну и нашли на свою задницу приключений. В целом написано, скажу, неплохо, грамотно, кому-то покажется стиль простым, ……… Оценка: неплохо
udrees про Мансуров: Жёсткий отбор (Боевая фантастика, Социальная фантастика, Эротика, Приключения: прочее, Самиздат, сетевая литература)
17 04 Книга слабее чем многие другие произведения автора, хотя сюжет немного похож на «Адонис» и еще другие книги. Вообще напоминает компьютерную игру, герой просыпается в зале с оружием и противниками. В процессе обзаводится товарищами ……… Оценка: неплохо
udrees про Вальтер: Браконьер 5 (Боевая фантастика, Приключения: прочее, Постапокалипсис, Самиздат, сетевая литература)
17 04 Отличное продолжение. Начинается с того места, как герой потерял свою девушку. Правда мир уже изменился и вампиры с людьми стали жить дружно. Но это конечно видимая часть. Герой это сразу просек и погрузился в недра интриг. ……… Оценка: хорошо
udrees про Вальтер: Браконьер 4 (Боевая фантастика, Приключения: прочее, Постапокалипсис, Самиздат, сетевая литература)
17 04 Хорошо написанное продолжение. Главный герой все также угрюм, грязен, упорен и непредсказуем. Отряд уже не дуэт, а трио, но действует все также эффективно. История героя переплетается с Жаждой, серией про Морзе. Диалоги нормальные, ……… Оценка: хорошо
udrees про Атаманов: Полигон [litres] (Боевая фантастика)
17 04 Если не воспринимать серьезно, то читается очень даже неплохо. Если бы вместо школьниц были взрослые, то история могла бы прокатить. Но и так книга написана неплохо, пускай и идеалистично про выживание в постапокалипсисе. ……… Оценка: неплохо
udrees про Иноземцев: Несовременная страна. Россия в мире XXI века (Публицистика)
17 04 Правильная книга про современную Россию и сложившееся в ней в настоящее время положение, плюс даны исторические оценки того, почему так всегда получалось и что нас ждет. Считаю, что в целом верно приведены факты, насчет положения ……… Оценка: неплохо
Sello про Дрент: Вагина. История заблуждений (Культурология, Документальная литература, Эротика, Секс)
17 04 В общем-то интересное сплетение медицины, истории, удивительных фактов, сексологии, странных случаев, этики, социологии и даже литературы. Юмора как такового не заметил. Внимание обратил на следующее. Буквально на днях, уже ……… Оценка: неплохо
xZiminxx про Валериев: Пионер. Книга 1 [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
17 04 автор успел пару раз лизнуть жопу путина Оценка: нечитаемо
Nicout про Валериев: Пионер. Книга 1 [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
15 04 Очередная унылая, бездарная и безграмотная графомань, безуспешная попытка подрочить на сдохший совок, да еще и суконным языком. Фу, КГ/АМ! Оценка: нечитаемо
ejik.v про Гилмор: Книжный магазин «Булочка с корицей» (Современные любовные романы)
14 04 Незатейливый сюжет. Особых восторгов не вызывает, но неплохо читается, чтобы отвлечься от проблем и пасмурной погоды. Оценка 4
Олег Макаров. про Таксист
13 04 К сожалению, бросил на 33% второй книги. Чем дальше, тем более нудно, с постоянными повторами, периодической потерей логики. Идея отличная. Но реализацию её автор не вытянул.
francuzik про Москаленко: Маг. Книга 1 [СИ] (Фэнтези, Боевик, Самиздат, сетевая литература)
12 04 Не советую. Полный отстой. До этого автор писал более менее на троечку. Тут же не знаю что и думать. Может случилось что? Оценка: нечитаемо |
Комментарии
Re: Валидация Либрусечной библиотеки
Есть программа fb2fix. Автоматически фиксит большое количество ошибок, которые есть в либрусековских книгах. По моему мнению в идеале нужно прогнать через эту прогу всю библиотеку и уже потом валидацию пытаться провести.
Re: Валидация Либрусечной библиотеки
Спасибо за информацию. Я как раз думал, как буду разгребать 1,5 тысячи книг, сконвертированных із rtf, doc и txt.
А ента программа случайно ничего не испортит? Я тут на фикшнбуковском форуме посмотрел - вроде некоторые файлы после обработки превращаются в null :) .
Re: Валидация Либрусечной библиотеки
Не бойтесь не испортит ;) просто возьмет из одного место в другое скопирует, попутно выполняя пару действий, а вы уже потом глазками проверите. :)
Re: Валидация Либрусечной библиотеки
Только не автоматически! Если читатель, скачавший книгу и лично заинтересованный в её читабельности, сам её отполирует, исправит разметку и всё такое - это да. А просто прогнать скопом все невалидные через авторемонт, чтобы стали валидными... читабельнее ведь они от этого не станут, правда? А удобный признак "невылизанности" книги - её невалидность - пропадёт.
Для тех, кто не в курсе: книга в формате FB2 содержит некоторые важные данные, отсутствующие во всех остальных форматах - например, разбивку на главы/стихи/эпиграфы. Можно, конечно, эпиграф обозвать стихами или стихи эпиграфом, или сделать всю книгу одной сплошной главой - формат это позволяет, FB2Fix и FBI на такое и не пикнут, но надо ли?..
Re: Валидация Либрусечной библиотеки
Полностью поддерживаю. Если каждый будет править те книги, которые читает, и ещё парочку в придачу, то рано или поздно все невалидные книги будут "выловлены". Как минимум, те, которые пользуются популярностью у читателей.
Здесь уместно напомнить о фиче "пожаловаться на плохое качество книги" - одном из способов составить список невалидных книг.
Re: Валидация Либрусечной библиотеки
Кстати, вот неплохой пример "авто-валидной" книги: http://lib.rus.ec/b/103284 - специально в description упомянуто, что FB2Fix прошёл, но что творится в 24-й главе - это кошмар! И нам что, нужно такооое???
(Честно говоря, 24-я глава - это было первое, что попалось на глаза; читать такое не хочу, пока сам всё не проверю и не исправлю.)
Re: Валидация Либрусечной библиотеки
А можно поконкретней, что там такооое? Если программа ошиблась (все мы не без греха), то достаточно написать мне (либо здесь, либо в форуме на fictionbook.org), и проблема будет исправлена. Начиная с версии 1.0.6 (от 10.05.2008), в программу встроен валидатор fb2 по xsd схеме, т.е. невалидные документы вообще попадают в отдельное место. Ну а если у Вас есть свободное время обрабатывать каждый документ руками, то тогда программа Вам действительно не нужна.
Re: Валидация Либрусечной библиотеки
А насчёт "такооого" - вот оно, 24-я глава:
Время есть - а иначе и браться нечего. Но ИМХО тут нужна софтинка, строго проверяющая валидность, берущая под подозрение любую мелочь, подробно (вернее, с регулируемой степенью подробности) объясняющая, что же здесь не так, и позволяющая посмотреть возможные варианты изменений (опять же, комментируя их на предмет чем каждый вариант нехорош) и выбрать наименее деструктивный. Я пока такой программы не знаю - разве что FBI, но он чересчур лаконичен и непонятен для непосвящённого.
Re: Валидация Либрусечной библиотеки
Валидный или нет документ это означает всего лишь соответствует он схеме или не соответствует. Голый каркас - вполне валиден. Вычитаный или нет - другое дело и отдельный вопрос. Лично я понимаю под валидацией: расстановку сносок, исправление структуры, замену эпиграфов на стихи или обратно, склейку разорваных секций, добавление анотации. Если пишу что документ валиден, это означает что как минимум его без проблем сьест библиотекарь и там стоят все сноски. Прочитать всю книгу, перед тем как сюда выкладывать - мягко говоря нереально, особенно если учесть сколько новинок регулярно выдает литрес. Что касается
то это к dimzony откуда такой глюк. Щас проверил - на странице альдебарана все в порядке. Возможно версию книги на альдебаране обновили, после того как увидели эту тему, возможно это новая защита от копирования.
Re: Валидация Либрусечной библиотеки
Угу. Согласен. Но этого или слишком мало, или слишком много: вполне хватает, чтобы никто не заподозрил подделку, но недостаточно, чтобы получилась хорошая книга.
Нууу, знаешь ли!.. Даже суп, сваренный на большую толпу гостей, не мешало бы самому попробовать перед подачей на стол. А давать читать кому-то книгу, в которую сам и не заглядывал... по-моему, это очень нехорошо. :(
Хм. Я сдул оттуда же, той же прогой - чисто; версия на альде - 1.0, т.е. неправленная; полдня поковырялся (правил структуру, "1018 см" заменял на "10-sup-18-/sup-" и т.д.), выложил сюда (http://lib.rus.ec/b/103549).
Может, у нас версии ebookdownloader'а разные? И, кстати, в следующий раз не убирай ebookdownloader из "program-used", ладно?
Re: Валидация Либрусечной библиотеки
Если тебе нужна хорошая книга, с идеальным оформлением либо сделай сам, либо купи ее на литресе и залей сюда. При этом не факт, что оформление будет идеальным.
Спасибо. Молодец. По уму так и надо. Пол дня на книжку, чтобы ее нормально вычитать. Людей мало только. Новинок в день появляется 5-7, да прибавь то, что на либрусеке еще нету, но доступно для чтения и что таки надо выкладывать. Итого получится 20-30 книжек в день. Если этим будет заниматься котя бы человек 10, и каждый будет делать не 20, а 2-3 книги качество естественно поднимется.
Да я и не убирал. Его там и небыло. Он автоматом не прописывается. Впринципе, если видишь FB2Fix в графе "автор документа", то это 98% eBookDownloader.
Непонял, ты хочешь сказать, что я СПЕЦИАЛЬНО впихнул в книгу кусок мусора, вместо текста? Этакая подлянка людям?
Почему не заглядывал? Полностью не читал, это да. Но бегло проглядывал. Полностью читать 15-20 книжек что я добавляю в день нереально. Просто времени не хватит.
Re: Валидация Либрусечной библиотеки
В общем, извини за наезды. Видимо, таки литрес лажанулся со сканом, а потом втихаря, не меняя версию документа, подменил.
О, идея! Давай таки будем показывать в description'е оригинальный ID документа, с которого тянуто ebookdownloader'ом - в поле "src-ocr" или даже просто в custom-info. Можно будет потом в случае чего расплести - что из чего произошло. :)
Re: Валидация Либрусечной библиотеки
+1
Re: Валидация Либрусечной библиотеки
А чем? Есть программы?
Re: Валидация Либрусечной библиотеки
http://vgiv.narod.ru/yo.html
http://python.anabar.ru/yo.htm
Re: Валидация Либрусечной библиотеки
О, сенькс! Эту ещё не пробовал.
Re: Валидация Либрусечной библиотеки
Глазками и руцями. В любом текстовом редакторе - контекстную замену "е" на "ё" и вперёд, до опупения: replace-ignore-ignore-ignore-ignore-replace-replace-ignore... :(
Re: Валидация Либрусечной библиотеки
Ой-ой-ой! Это ж какой труд! Просто подвиг. Респект!
А по поводу программ - я, честно говоря, не увидела, что они работают с fb2. Или просто не разобралась?
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Именно! FB2 - текстовый формат, а не бинарный.
Загружаем в vi - и вперёд.
Отвечать на вопросы придётся меньше, чем если делать поиск-замену, благо скрипт самостоятельно заменит там, где он уверен.
Виндовая софтина, показалось мне, тормозит на больших файлах. Под wine, впрочем, работает. Но UTF-8 не знает.
Re: Валидация Либрусечной библиотеки
Стоит. Поясню почему. Во первых FBE не жрет файkы сразу из под eBookDownloader. А без FBE не будет ссылок. Во вторых мне к примеру удобнее когда я скачал всего автора - импортирую и он целиком сьедается библиотекарем без всяких ошибок. Тоесть после скачивания не надо возится с книгами, валидизировать и т.п. Особенно удобно когда качаешь МНОГО. Большинство читателей не будут "причесывать" книги(тем более не самого любимого автора) - им это просто не надо. Им надо читать. А для этого надо, чтобы книга без проблем импортировалась в библиотекаря.
Хорошая идея. Если сильно много времени отнимать не будет - буду добавлять на равне с аннотацией. В принипе по уму надо бы еще в "src-ocr" ставить адрес, откуда тянулась книга.
Re: Валидация Либрусечной библиотеки
ИМХО, очень похоже на невычитанные ошибки сканера / OCR :(. Скорее всего, на Альде просто успели исправить. А что номер версии не изменился - так это кто же менять будет? Расписавшись тем самым, что версия была плохая ;). У них ведь воще сканов нет, у них версии от издательств - это же для литреса, на продажу! ;D ЕБД вряд ли на такое способен. С таким же успехом можете заподозрить fb2Fix ;).
Re: Валидация Либрусечной библиотеки
Не ссорьтесь, вполне возможно, что это Fb2Fix выкинул, блин за ту структуру документа, которую генерирует ebookdownloader, надо давать пожизненный цык с гвоздями (ц). :) Ну не должен <program-used> находится в <title-info>.
Re: Валидация Либрусечной библиотеки
Я вот тут подумал над тем как это можно исправить... Если в тексте книги встречается слово eBookDownloader - добавлять его в "program-used". В принципе не очень изящно, но много ли вы видели книг, у которых в тексте по сюжету встречается eBookDownloader ;) ?
Re: Валидация Либрусечной библиотеки
А надо ли? Может проще автору петицию написать, что-бы программу исправил? Ну неужели так сложно сразу формировать валидный fb2 документ? Если-бы не было eBoolDownloader'а, "Конвертора Инженера Ларина" и других подобных чудес програмостроения, то глядишь и не было-бы Fb2Fix'a.
P.S. Я никого не хочу обидеть, каждый делает что может, в каждой программе бывают ошибки, но блин если кто-то что-то делает, то давайте хотя-бы пытаться делать это правильно!
Re: Валидация Либрусечной библиотеки
Не хотелось бы показывать пальцем, но у кого-то программа топчется в чужих документах по делу и без. ;-) Уточню - Зачем поднимать версию файла если
а) в документе не было исправлений,
б) структура не правилась,
в) ДАЖЕ табы не проставлялись?
По поводу валидации ВСЕХ книг.
Сейчас я пытаюсь провести валидацию книг созданных LibRusEc Kit ;-) Сразу оговорюсь - я вижу в этом смысл: там попадаются книги, которых я больше в эл. виде не наблюдал.
Вопрос - как потом эти книги залить обратно в библиотеку?
Re: Валидация Либрусечной библиотеки
Исправлять чужие ошибки тяжелее, чем наделать своих. Про версии документов: я всё понял и осознал. Будет сделано для вас персонально.
p.s. Программой пользоваться ни кто не заставляет, а то натопчет ещё в чужих документах.
Re: Валидация Либрусечной библиотеки
Очень полезная, нужная программа!!! За её создание - ОГРОМНОЕ СПАСИБО!!!!!! Вами проделан огромный труд, но не хватает самой малости, чтобы использоватье программу во всю ширину и глубину. ;-)
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Я знаю о добавлении через фтп. Маленькое НО заключается в том, чтобы потом разгрести более 1.7 гига файлов. :-( Если бы было безусловная замена при соблюдении условий: более высокая версия, те же авторы... А в данном варианте это не осуществимо силами одного человека. ИМХО.
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Угу. Тормозишь. Ну в тексте файла, если так больше нравится :)
Re: Валидация Либрусечной библиотеки
Конечно, "настоящая" книга получается, если после "авто-валидации" её ещё и прочесть. И конечно, для этого необходимо время. И конечно, мало людей, которые этим занимаются. Оттого и не успеть "отвалидировать" все новинки. :-(
Люди, записывайтесь в проект "Вычитка"! :-)))
http://lib.rus.ec/вычитка
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
А я все книги вычитываю... Другие не выкладываю.
Как нас дедушкО Ленин учил: "ЛуЧЧе меньше, да луЧЧе". ;-)
Re: Валидация Либрусечной библиотеки
OK. Спасибо.
Отв: Валидация Либрусечной библиотеки
Господа!
Я насобирал уже почти четыре тысячи "битых" файлов fb2 от либрусека. FB2 Librarian встраивать в базу их отказывается. Попытки разобраться с проблемой пока безуспешны. Редакторы также отказываются открывать эти файлы. Остаётся единственная надёга на FB2Fix. Проблема в том, что не хватает мозгов разобраться с работой этой программы точнее с синтаксисом командной строки. Helpov практически нет, а если есть то в комбинации с батником под библиотеку Траума на предмет её валидности. Если у кого есть время и знания - ответьте.
Заранее благодарю.
Отв: Валидация Либрусечной библиотеки
Примерчик можно попросить ? Если в виде ссылки на Либрусеке - совсем замечательно будет...
Отв: Валидация Либрусечной библиотеки
Хотелось бы узнать, как Вы делали валидацию. Дело в том, что сгружаемые с /allbooks и /all/daily зипы содержат также и файлы, заменённые на лучшие версии. Число "четыре тысячи" наводит на мысль, что в нём участвуют также файлы, заменённые на лучшие версии.
У меня та же проблема, поэтому очень хотелось бы узнать решение.
Отв: Валидация Либрусечной библиотеки
В том-то вся и проблема, что решения её не знаю. Единственная надёга FB2Fix. Но проблема в том, что разобраться с ключами можно только зная структуру файлов fb2, терминологию и, соответственно, владея навыками программирования. Но я не программист... Поэтому и бросаю клич. Если кто-то может по русски описать назначение основных ключей и дать синтаксис командной стрки буду жутко благодарен. Так как жалко потраченных трудов. А выискать четыре тысячи файлов в библиотеке по их именам на предмет наличия правильного?? Может быть эти книги у меня уже закачаны в домашнюю библиотеку, но проверка этого... кошмар.