Валидация fb2 файлов??

Серьезный вопрос ко всем, кто сталкивался с валидацией fb2 файлов - где можно прочитать, как довести книгу "до ума", чтобы она спокойно проходила валидацию?

История вопроса - у меня накопилось около 10 000 fb2 файлов, простые ридеры типа CoolReader перестали справляться с задачей, а библотечные FBReader или библиотекарь FBLibrary отказываются воспринимать невалидные файлы, коих набралось 25 % от общего числа. Я уж думал решить проблему просто скачав с Либрусека заново (многие были закачаны уже достаточно давно) когда оказалось, что в подавляющем большинстве случаев на Либрусеке тоже до сих пор невалидный файл. Я по ходу привожу свою библиотеку в порядок, но несмотря на то, что я достаточно разбираюсь в html ( а fb2 недалеко от него ушел) многие ошибки валидации ставят меня в тупик, как то: ошибка DTD/Schema, ошибки в тегах - section, title, epigraph, annotation, src-lang и т. д. Как правило валидатор указывает на то место где споткнулся, но с этими ошибками он указывает как раз на эти тэги, и где причина непонятно.

И еще вопрос к библиотекарям - нужно ли на Либрусеке заменять книги которые я уже исправил? И если надо, как это сделать?

Комментарии

salievan написал:
Серьезный вопрос ко всем, кто сталкивался с валидацией fb2 файлов - где можно прочитать, как довести книгу "до ума", чтобы она спокойно проходила валидацию?

Вот в этой книге

Спасибо.
Хотя это панацеей не назовешь, но хотя бы четкое описание структуры имеется.

salievan написал:
нужно ли на Либрусеке заменять книги которые я уже исправил?

Заменять нужно, естественно, лишний раз убедившись, что файл действительно требует замены.
Много невалидных файлов уже исправлено, подправлено, вычитано и т. д.
А в целом - работа полезная. Спасибо!

Цитата:
А в целом - работа полезная. Спасибо!

Вообще-то пока не за что, ибо пока еще не заливал исправленные книги. Жаль времени мало. Насчет файлов я понял - буду заменять по мере исправления. Спасибо за объяснение!

Вам спасибо за помощь библиотеке! На самом деле, еще много файлов нуждаются в правке. Бибилотекари (сколько бы их ни было) физически не в состоянии все отследить.
Если будут какие-то конкретные вопросы, пишите...

МихалЫч написал:
На самом деле, еще много файлов нуждаются в правке.

Вот уж это точно сказано. И такие добавляются и добавляются, только сегодня прочитал Смирнова - Дары волшебства, залито кем-то аж 3 экз. - txt, "грязный" fb2, "чистый" fb2 - разницы особой между ними нет - 50-35% невычитано, структура битая, валидацию не проходит. Подправил бы, так сравнивать не с чем - этой книги у меня нет - а текст местами набор кракозябр.

Аватар пользователя Captain Scarlett

Я немного исправила файл, теперь он хотя бы проходит валидацию.
Но опечатки - мрак...

Цитата:
По=е©о-ему стать атш было почетно; сушеотовал вдльш пласт кильбреюйшшйлитера^фМ, восхвалявши тмш# каче* етва ант, как безграничная преданность, СШ00ТЩШ№ НОСТЬ, бесстрашие, терпение, стейшет» йЭДЩ

А такой вопрос, хоть не про валидацию, но всеже. А чем можно бысто сделать правку fb файла при вычитывании? Просто сейчас вычитываю в Wordе, по гемор конвертации в ртф а потом в фб2 (боюсь кривенький фб файл получится на выходе :( ) Какую программу или утилиту можете посоветовать?

sc_pasechnik написал:
А такой вопрос, хоть не про валидацию, но всеже. А чем можно бысто сделать правку fb файла при вычитывании? Просто сейчас вычитываю в Wordе, по гемор конвертации в ртф а потом в фб2 (боюсь кривенький фб файл получится на выходе :( ) Какую программу или утилиту можете посоветовать?

FBE. :)

Мое имхо такое - лучше вычитанный кривенький фб2, чем прямой невычитанный ))
Ни один редактор фб2 пока не предназначен ни для элементарного спеллчека, ни, тем более, для вычитки.

Большие тексты проще, на самом деле в ворд перегнать, а потом заново сделать фб2.
В ворде хоть спеллчек элементарный есть, да и работать с ним многим гораздо сподручнее.

TaKir написал:
лучше вычитанный кривенький фб2, чем прямой невычитанный
Не согласен: в "прямом невычитанном" может быть до хренища ценной инфы в description'е: это и custom-info, и данные о бумажной книге или её оригинале, и URL'ы, и даже просто history. При выдёргивании из fb2 в вордяку и потом впихивании обратно в другой fb2 это всё накрывается - и ага. :(
TaKir написал:
Ни один редактор фб2 пока не предназначен ни для элементарного спеллчека, ни, тем более, для вычитки.
FBE2. Для вычитки - вполне, а спеллчек - это из области "давайте доверимся заморскому дяде билли гейцу - он же ж знает русский лучше, чем мы", да? :)
TaKir написал:
проще, на самом деле в ворд перегнать, а потом заново сделать фб2.
Кстати, совсем забыл спросить - а слабО ворду грамотно отобразить или хотя бы грамотно потом вернуть на место текст в тэгах "style", "strikethrough" или хотя бы пару из stylesheet { section#i_010, section#i_011 { margin-left: 5%; margin-top: 0.7em; margin-bottom: 1em; } } и
       (section)
        (p)Эту запись потом просматривали много раз - краткую, на девятьсот кадров, историю о том, как в глубине ядра рождаются, живут и умирают миры. Без телескопа это выглядело малым световым вихриком, рассечённым перекрестием на четыре дольки. Объектив выделил центральную часть его:(/p)
       (/section)
       (section id="i_010")
        (p style="text-indent: 0px")- бурлящий ком, в котором клубились, меняли формы, делаясь всё чётче и выразительней, светлые струи. Из самых ярких (остальные расплылись в ничто) свились волокна около колышущихся сгустков. В некоторых выделился сияющий овал-центр. Прочие волокна завились вокруг него рукавами. Так образовалось дозвёздное тело Галактики. И - в какой-то трудноуловимый миг размытое туманное свечение в ядре её и в серединах рукавов начало свёртываться в яркие игольчатые штрихи, разделённые тьмой. Это образовались и набирали накал звёзды!(/p)
       (/section)
       (section)
        (p)"Миг творения! [...] Поток и турбуленция, звёзды - турбулентные ядра в струях материи-действия. Творенция-турбуленция, ха!.. Как просто. Но нет, не так всё просто: эта искрящаяся гармоничная чёткость, избыточная первичная живость - ведь в потоках жидкости картины турбуленции слабее, размытее, хаотичнее. Да, первичная избыточность - вот слово. От избытка действия возникают миры!"(/p)
       (/section)
       (section id="i_011")
        (p)Звёзды-штрихи высасывают туманное свечение окрест. Теперь весь быстро вращающийся вихрь состоит из них. Ядро Галактики набухает голубым вибрирующим светом. Рукава загибаются около него всё более полого, касательно - и вот сомкнулись в сверкающий эллипс. Звёздные штрихи меняют оттенки и яркость - эти переливы распространяются по эллиптической Галактике согласованной дрожью. Видно: она целое, главный образ Вселенной.(/p)
       (/section)
      (section)
       (p)Галактика жила восемнадцать секунд. Звёзды в ней - от четырёх до четырнадцати секунд. А в двух соседних с ней вихрях звёзды так и не возникли: эти вселенские образы прожили свой многомиллиарднолетний век круговертями сверкающего тумана.(/p)
      (/section)
? (Само собой, надо всюду в тексте заменить круглые скобки на угловые и убрать тэг "br".) А если ворд не сможет - то как потом восстановить разметку, окромя как вручную?
Хотя... есть вариант: исходный FB2 ("оригинальный") перегнать в формат для правки/вычитки - doc, rtf или что иное (хоть в .pdf или .xls :) ), тут же полученный превратить в FB2 и сохранить его с пометкой "неправленный"; исправить и сохранить в FB2 - "правленный"; дальше просто -
diff -wu неправленный.fb2 правленный.fb2 > промежуточный.patch
patch оригинальный.fb2 > промежуточный.patch
и если всё пройдёт ОК - обработанный "оригинальный.fb2" доработать (продвинуть версию, черкнуть пару строк в history) и выкладывать (натурапьно, вместе с промежуточным .patch'ем); если не ОК - выкладывать только промежуточный.patch - чтобы его попробовал притачать кто-ньдь другой (я, например).

sc_pasechnik написал:
А такой вопрос, хоть не про валидацию, но всеже. А чем можно бысто сделать правку fb файла при вычитывании? Просто сейчас вычитываю в Wordе, по гемор конвертации в ртф а потом в фб2 (боюсь кривенький фб файл получится на выходе :( ) Какую программу или утилиту можете посоветовать?

Непосредственно в фб я не вычитываю, конвертирую в ртф и затем вычитываю. Только если вы вычитываете из готового фб не забудьте скопировать id в ваш фб файл.
Если мне память не изменяет, то Ворд может сразу сохранять в ртф, затем можете воспользоваться Any2fb.
Как вариант предлагаю ОпенОфисе + расширение OOo FBTools, затем доводка в FBE. Этим вариантом пользуюсь сам.

Polarnik написал:
Непосредственно в фб я не вычитываю, конвертирую в ртф и затем вычитываю. Только если вы вычитываете из готового фб не забудьте скопировать id в ваш фб файл.

Господа, поясните, нахрена это?
Если открыть файл fb2 Word'ом, можно спокойно проверять орфографию и вычитывать. Теги выделяются (и он не дает их править) и при проверке игнорируются. И файл потом сохраняется нормально, только что хочет xml-ом сохраниться, но достаточно поменять расширение.

oldvagrant написал:
Господа, поясните, нахрена это?
Если открыть файл fb2 Word'ом, можно спокойно проверять орфографию и вычитывать. Теги выделяются (и он не дает их править) и при проверке игнорируются. И файл потом сохраняется нормально, только что хочет xml-ом сохраниться, но достаточно поменять расширение.

Спасибо за совет. Просто раньше даже не пробовал открыть фб Вордом. ;-)

Спасибо, тож. Болоьше года с новым Офисом, а не знал, что ворд может редактировать XML

oldvagrant написал:
Господа, поясните, нахрена это?
Если открыть файл fb2 Word'ом, можно спокойно проверять орфографию и вычитывать. Теги выделяются (и он не дает их править) и при проверке игнорируются. И файл потом сохраняется нормально, только что хочет xml-ом сохраниться, но достаточно поменять расширение.

Угу, Open Office то же - редактируешь как текст, более того - сохраняет имеено в том виде, в котором считывал.

Спасибо всем откликнувшимся :) Даже не знал, что в FBE есть режим чтения. Но всеравно, есть ли нормальные читалки с возможностью редактирования текста? В некоторых книгах по мере чтения выскакивают мелкие опечатки и было бы очень здорово править сразу в читалке.

Заранее спасибо.

sc_pasechnik написал:
Спасибо всем откликнувшимся :) Даже не знал, что в FBE есть режим чтения. Но всеравно, есть ли нормальные читалки с возможностью редактирования текста? В некоторых книгах по мере чтения выскакивают мелкие опечатки и было бы очень здорово править сразу в читалке.

Заранее спасибо.

Хм... Хороший вопрос В принципе можно использовать FBE - если стоит галочка Body в меню View, он отображает только текст без тегов и дескрипшна, если мешает можно убрать и дерево структуры слева. Читаешь и правишь одномоментно.

sc_pasechnik написал:
Спасибо всем откликнувшимся :) Даже не знал, что в FBE есть режим чтения. Но всеравно, есть ли нормальные читалки с возможностью редактирования текста? В некоторых книгах по мере чтения выскакивают мелкие опечатки и было бы очень здорово править сразу в читалке.
Заранее спасибо.

AlReader Vobis - для КПК.
http://alreader.kms.ru/AlReader/AlReader2_VobisEdition.cab

То golma1: Плачу горькими слезами, но основным средством чтения является ноутбук. Но благодаря Вам нашел http://alreader.kms.ru/AlReader/AlReader2.win32.ru.zip последняя версмя AlReader для ПК оказывается тоже может редактировать текст. Большое спасибо и автору программы и Вам, за наводочку ;).

Включила ссылки на обе программы в список "Программы для чтения fb2" с пометкой о возможности редактирования.
Может, ещё кому-нибудь пригодится. :)

Attention
Если не знакомы со структурой fb2 – править очень осторожно, только текст, не трогая теги.

Упс.

Что-то страничку http://lib.rus.ec/soft всю заколбасило.

oldvagrant написал:
Что-то страничку http://lib.rus.ec/soft всю заколбасило.

Угу. Но уже исправлено. :)

Посмотрел краем глаза — похоже у вас полно проблем с вычиткой — гоняете книгу из формата в формат...
Попробуйте EditPad Pro. Там есть возможность проверки орфографии плюс самые лучшие регулярные выражения (!!!).

Но программа платная и без пирамидону — только пожилые купленные версии. Однако, пиратов такими мелочами вероятно не испугать. ))

jurgennt написал:
Посмотрел краем глаза — похоже у вас полно проблем с вычиткой — гоняете книгу из формата в формат...
Попробуйте EditPad Pro. Там есть возможность проверки орфографии плюс самые лучшие регулярные выражения (!!!).

Собственно, весь код Либрусека в нём и написан.
Честно купленном, к слову.

У Вас прекрасный вкус, дон Ларин.

Осмелюсь однако заметить, что так и не увидел его в рекомендуемом fb2-софте у soshial'а. А ведь по идее там должны быть только FBE и EPP и всё. Ну, возможно, еще и пара конверторов из формата в формат.
А может он как ФБЕ келейно распространяется только среди своих?
Ежели нет, то каждый обязан его иметь под рукой, дабы никогда не лазить в исходный код при помощи ФБЕ и уж тем более никогда не возвращаться из фб2 в rtf или doc, теряя служебную информацию.

X