Вы здесьЗа что я ненавижу XML
Опубликовано вс, 08/11/2009 - 20:32 пользователем larin
Наконец-то я смог сформулировать, за что я ненавижу XML. В применении к книгам, очевидно - прочие использования этого незаконнорождённого отпрыска пьяной макаки и запаршивевшего верблюда меня волнуют мало, хотя встречаться с конфигами, где ради одного значения надо написать четыре вложенных тега по полсотни символов тоже удовольствия мало. Да и типичный вебсайт по сути своей от книги мало отличается, а чисто флэшевые поделки лично мне не интересны.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 2 часа
Isais RE:удаление "двойников" 6 часов kopak RE:О группе Дятлова. О той самой, того самого... 2 дня ProstoTac RE:Таинственная личность админа Флибусты 1 неделя Isais RE:Кармен Мола - Пурпурная сеть [litres] 1 неделя Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 неделя Isais RE:Катя Водянова - Дом и два жениха в придачу 2 недели Aleks_Sim RE:Прошу переформатировать, распознать, etc... 2 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 3 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 3 недели Саша из Киева RE:Детям о Ленине (Издание 1965 года) 4 недели Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 месяц babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц zlyaka RE:С Новым годом! 1 месяц SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц Впечатления о книгах
tvv про Samus: Странный новый мир [СИ] (Космическая фантастика, Недописанное, Самиздат, сетевая литература)
14 02 Эта книга на АТ полностью и бесплатно, а заменить у меня не получилось (((
Дей про Ниро Вульф
14 02 Обожаю серию о Ниро Вульфе, в очередной раз перечитываю. Немного огорчает, как небрежно автор относится к деталям. То у Арчи родители умерли, когда он был ребёнком, то мать дважды навещает его у Вульфа; на протяжении одного ………
Slawa-614 про Трушков: Запретная магия (Эзотерика)
13 02 Непричесанный поток сознания. Автор не дружит ни с орфографией, ни пунктуацией, но это то ладно, бывает, главное - совсем не умеет внятно выражать собственные мысли.
Лысенко Владимир Андреевич про Щегол
13 02 Великолепная книга. Читаю с удовольствием. Жду продолжения. Спасибо.
blahblah про Наумов: Спецзона для бывших (Биографии и Мемуары, Публицистика)
12 02 Неужели хоть кто-нибудь может поверить, что Наумову говорили правду? Сами заключённые ему говорят:"нельзя не перед кем раскрывать душу..", а потом начинают заливаться соловьем? Не верю. Оценка: плохо
obivatel про Калинин: Крым 1942 [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
11 02 Отлично написано: разобраны отдельные эпизоды и ошибки командования. Ну да, и соломинка может сломить спину верблюду, а на войне это бывает особенно часто. . Все изложенные факты общеизвестны и легко доступны в сети, ……… Оценка: отлично!
Belomor.canal про Сергеев: Альбом для марок [litres] (Современная проза, Биографии и Мемуары)
11 02 Великолепная обложка А. Бондаренко - стоит половины содержания книги. Сам же текст - это скорее не роман а ЖЖ, куда автор понапихал всякой всячины - справки выданные его родителям, частушки, присказки и прочая дребедень. Чего ……… Оценка: неплохо
Paul von Sokolovski про Ангелов: Когда время штормит (СИ) (Героическая фантастика, Попаданцы, Самиздат, сетевая литература)
11 02 Пусть будет неплохо, но работающие на связь смартфоны у попададанцев во времена Дрейка просто убивают... Без сотовых вышек, просто автору захотелось :) Оценка: неплохо
vudy про Чертополох [Корнев]
11 02 Производственный роман с пиздостраданиями. То же, что и "Резонанс".
mysevra про Чайлд: Третьи врата [The Third Gate ru] (Ужасы, Фэнтези)
10 02 Это было ужасно предсказуемо. "Проклятие" разочаровало, в экспедиции бардак и отсутствие дисциплины, начальник-визионер туповат и ограничен, доктор - садист, с иезуитской нежностью истязающий свою жену, а главный герой оказался ……… Оценка: неплохо
DGOBLEK про Линч: Избранные места из «Экологии лабиринта» [Selected Scenes from the Ecologies of the Labyrinth ru] (Фэнтези)
10 02 На флибе нормальный файл есть, притом давным давно лежит, а не это самодельное убожество - без указания переводчика, оригинального названия и обложки. |
Комментарии
Отв: За что я ненавижу XML
Вот ты, думатель, и пиздуй.
Для начала учить определение транскрипции.
Отв: За что я ненавижу XML
1. нет возможности явно задать структуру текста - деление на части, главы, разделы и т.д.
2. нет возможности непосредственно обрабатывать сноски.
3. нет возможности задать разные варианты форматирования стихов.
4. нет возможности без дополнительных выкрутасов задать метаинформацию о книге - автор/название/серия/жанр/аннотация/обложка/etc.
5. нет возможности задать особый формат структуры текста - например пьесы, билингвальные книги.
6. ...
7. PROFIT
поэтому, как бы это не нервировало народ, но для гвоздей молоток, а для шурупов отвёртка.
ну, или хотя бы как в случае с fb2, забивание шурупов молотком.
Отв: За что я ненавижу XML
Весьма эмоционально. А какие будут конкретные предложения по исправлению сложившейся ситуации?
Или это так, чисто в порядке вопля измученной души?
Отв: За что я ненавижу XML
В основном в порядке вопля.
Отв: За что я ненавижу XML
Ну и слава богу, значит, живем пока в fb2 :)
Отв: За что я ненавижу XML
О чём я и говорил.
Радостное совпадение наших убеждений.
Отв: За что я ненавижу XML
не только убеждений, но и заблуждений.
книга - не только текст. но и структура текста. и отказываться от структуры ни в коем случае нельзя. потому что текст без структуры, это уже не книга, а массив символов.
надо искать приемлемый компромис.
Отв: За что я ненавижу XML
Larin: Книга это текст c разметкой, причём текст первичен. = СерыйМыш: не только текст. но и структура текста.
Именно. Я не совсем точно выразился.
Отв: За что я ненавижу XML
идеологически да. но как обычно дьявол прячется в деталях. вот такая простая вещь как сноски. В бумажных книгах их опускают в низ странички. Куда будем прятать сноски в электронных книгах, которые по некой прихоти у нас будут просто текстом без форматирования? И ведь это не единственная проблема важности оформления. Мир вокруг нас нефига не чернобелый. поэтому рубить с плеча не годится
Отв: За что я ненавижу XML
Ну, к примеру, в плэйнтекстовых файлах само собой сложилось выделять сноски квадратными или фигурными скобками, оставляя их прямо в тексте вслед за указателем. Если я не ошибаюсь.
И потом, я прекрасно понимаю, что текст без структуры есть трудночитаемая каша. Но на этом можно было бы остановиться. Так нет, изготовители екниг настаивают навязывать шрифты, их размер и цвет (если хтмл), разбивают книгу на отдельные файлы по главам (епаб и адоб)... я уж не говорю об извращениях, вносимых ретивыми конвертерами. Так что фб2 -- это имхо еще малое и принимаемое зло. Хотя ХТМЛ хватило бы, а для особых случаев есть текс, но это к худлиту вообще не относится, это профессиональная литература.
Отв: За что я ненавижу XML
ну опять же есди подумать о причинах у того же адоба (сам не люблю эту кампанию, и их pdf формат , но что поделаешь) поступать именно так как они поступают - то уверяю тебя, причины найдутся и очень серьезные, в основе того же pdf лежит язык (формат) разметки документа для печати, и причины при создании формата делать его именно так как было сделано - несомненно были.
Другой разговор, что в настоящий момент я бы не концентрировался на универсальности языка. Скажем возможность встраивать фонты есть и в pdf и в html, но это не мешает вебу эту возможность фактически везде игнорировать. есть стандартные группы фонтов, ими все и верстают и выходит неплохо.
Для формата документа для чтения нужно создавать свой, заточенный под это стандарт. Что и было проделано с fb2 . Да он не идеален, но принимать его надо как данность.
Отв: За что я ненавижу XML
Так что же это, как не еще один вариант разметки? Такой же топорный, правда, как и сам plain text :)
Отв: За что я ненавижу XML
Что-то много эмоций, а в сухом остатке противопоставление XML и первичности текста. Это как сравнить теплое с мягким. IMHO.
Отв: За что я ненавижу XML
Теоретически верно.. а, на практике Ларин прав ИМХО.
Отв: За что я ненавижу XML
larin пишет:
Хорошо как .. красиво и точно...
Отв: За что я ненавижу XML
>Если среди мегабайта текста попадётся отдельно стоящий [...]
Откуда он там взялся? Экранировать надо.
Отв: За что я ненавижу XML
никто в здравом уме не станет писать в обычном тексте знаки "<",">" и "&" как >, <, &
ну ни к чему это обычному человеку.
а вот редактор при импорте подобной ереси должен обязательно конвертировать символы и сочетания, которые совпадают со служебными конструкциями, и потенциально могут вызвать проблемы.
при обратной конвертации, соответственно "вернуть взад".
опять "вышли на Дерибасовскую": срыв форматирования - это проблема не столько кривого формата xml, сколько кривых редакторов и валидаторов.
Отв: За что я ненавижу XML
Либо обычный человек™ не должен писать raw код. Либо у редактора должна быть опция «вставить с экранированием». Тогда и проблем не будет. А уж экранировать и обратно проблем у программ быть не должно.
Отв: За что я ненавижу XML
Ещё HTML разрабатывался в расчёте на это.
Правда, впоследствие у такого подхода обнаружилось множество недостатков. Начиная с мягко говоря небезупречности редакторов.
Отв: За что я ненавижу XML
(см.выше) Вставлять с экранированием.
Отв: За что я ненавижу XML
Ага, и я хотел сказать - но постеснялся: мало ли чего не понимаю.
Вообще-то обычное дело: Распознаешь текст, и в нем полно угловых скобок. Почему any2fb2 их не убирает, а что-то там такое химичит, что FBE и читалки потом вовсе вырубаются? Загадка... Приходится вручную выискивать "теги" вроде <.> и вычищать. А виноват почему-то XML...
Отв: За что я ненавижу XML
дубль
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
Смотря чем конвертировать. Не надо использовать Any2fb2.
А вот Doc2fb (wml2fb.xsl) или ExportXML.dot сделают всё корректно. Ну я имею в виду угловые скобочки. Description-то никто сам не заполнит.
Отв: За что я ненавижу XML
И я бы тоже хотел пристрелить человека, из-за которого приходится писать <emphasis>и</emphasis> .
Отв: За что я ненавижу XML
Единственный нормальный исходный вид _книг_ любого содержания, это LaTeX. Он более всего похож на руками написанный текст. (и никакого SGML не надо, все тоже самое, для стандартности можно наобъявлять средствами самого LaTeX)
Для рефлов-представления конвертируется в HTML. Для читалок/распечатки генерится PDF под заказанный размер листа, читалок немного на самом деле (вернее немного экранов :).
Попытка написать свой язык разметки закончится написанием своего TeX. :)
Различные журналы и чертежи это djvu.
Отв: За что я ненавижу XML
Вопль человека, которому лень escap'ить всего два символа, с восторгом подхватывает человек, которому в его языке разметки приходится escap'ить в несколько раз больше всякой ерунды.
Смеялсо.
Отв: За что я ненавижу XML
PDF для читалок это страшное зло. Как и специальная конвертация перед залитием куда то в портативный девайс. И того и другого надо избегать как черт ладана. Причины первого "избегания" - нет ничего такого что позволяло бы автору документа навязывать читателю размер шрифта, стиль оформления итд. PDF делает это безусловно (жри гад читатель что дано, ну можешь масштаб увеличить, но если по ширине не лезет - сам дурак)
Конвертация ПЕРЕД заливкой - опять таки древний анохронизм чистой воды. Опомнитесь, 2010 год уже на носу. В обычной читалке стоит процессор, аналог которому по производительности 10 лет назад можно было не в каждом дескотопе найти. Все это должно делаться на автомате в момент заливки, а еше лучше вообще не делаться. Процесс парсинга документа для современных аппаратных средств - плевое дело, и то что не может быть выполнено сходу ( скажем, чтоб понять сколько страниц должно быть показано у документа он должен быть весь распарсан, а документ может быть очень большой - возврашаемся к причинам почему другие форматы "любят" разбитые на части-главы документы) должно быть выполнено в фоне. Вопрос грамотного составления формата - это просто вопрос времени. Если кто то этим будет заниматься. И за fb2 Грибову мы все должны сказать спасибо - какой никакой но формат и стандарт дефакто
Отв: За что я ненавижу XML
Всех экранов для читалок всего то 2ва с половиной производителя. Нет проблем из библиотеки забрать версию для своего размера экрана.
Читатель может выбрать с каким стилем ему собрать pdf из LaTeX исходника. Если выставлены нормальные пенальти, то никакого вмешательства в верстку книги "в стиле и возможностям" fb2 уж точно нет.
Если LaTeX и шрифты портировать в читалку, то конечно можно на месте получать книгу для чтения. Но возникает вопрос емкости аккумулятора читалки. При прочих равных заливка уже готовой для читалки книги позволит дольше читать без подзарядки.
Если надо иметь именно моментально перемасштабируемый формат, то для этого есть конвертатор в HTML. Смена стиля вообще не вопрос. Движки есть готовые и свободные.
Поскольку книга при этом "реадонли", то и нужен исходник в LaTeX.
Отв: За что я ненавижу XML
Я, например, попросту поленюсь сверстать полста вариантов 1000-страничной книги. А ты?
Отв: За что я ненавижу XML
что собственно понимается под словом _сверстать_ pdf для читалки?
Пользоваться LaTeX точно приходилось? Художественную книгу в руках держал?
Сколько разметки в книге будет точно представляешь?
А то у меня одни вопросы понимаешь.
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
Художественная книга для _читалки_ получится в виде pdf _сразу_ для любого выбранного пользователем варианта шрифта и размера бумаги. Достаточно выставить несколько параметров, никаких проблем верстки для электронной книги не будет.
Или будем считать сколько пустых страниц будет в файле для показа на экране ? :)
Движок ТеХ все равно самое аккуратное и мощное что есть.
Отв: За что я ненавижу XML
А, кстати, какой софт эти фишки при показе поддерживает? Хотелось бы, чтобы его можно было запустить на LBook V3, но под него всё надо дорабатывать напильником, т.е. опен-сорс предпочтительнее.
Отв: За что я ненавижу XML
Запасаюсь попкорном;)
В свою очередь, подброшу в огонь свои 5 копеек.
Книга - не только текст, но и иллюстрации, это касается как специальной литературы так и художки. Тут недавно кто-то выложил книгу по сценическому фехтованию в тхт. Книга неплохая, но без иллюстраций она врядли представляет большую ценность.
С другой стороны есть формат джвю, который, ИМХО, намного лучше например пдф (ожидаю большую порцию джвю-срача в комментах). И лично мне этот формат импонирует намного больше фб2 или док/ртф. Он сохраняет и иллюстрации и позволяет прочитать текст (даже без окр-слоя).
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
А что делать, если хочется организовать полнотекстовый поиск внутри djvu и pdf? Другой момент, что распознавание это должно быть правильно организовано и и игнорировать формулы и рисунки.
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
Я возражу.
Формат, в котором не предусмотрена информация об авторах, переводчиках, сериалах и т.п, для библиотеки непригоден.
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
С точки зрения скрипта - никакой там информации нет и как ёё получить непонятно.
Fb2 потому и любим библиотекарями, что там это всё легкодоступно.
Отв: За что я ненавижу XML
Любим библиотекарями. Хм. Это эвфемизм? Типа: яростно любим. :)
Так вы ж вроде преодолели недостаток путем добавки файла описания?
Отв: За что я ненавижу XML
костыль.
Отв: За что я ненавижу XML
Annotations
Every DjVu image optionally includes so-called annotation chunks. The annotation chunk is often used to
define hyper-links to other document pages or to arbitrary web pages. Annotation chunks can also be used
for other purposes such as setting the initial viewing mode of a page, defining highlighted zones, or
storing arbitrary meta-data about the page or the document.
Hidden text
Every DjVu image optionally includes a hidden text layer that associated graphical features with the cor‐
responding text. The hidden text layer is usually generated by running an Optical Character Recognition
software. This textual information provides for indexing DjVu documents and copying/pasting text from
DjVu page images.
djvutoxml(1), djvuxmlparser(1)
Command line tools to edit DjVu metadata as XML files.
Files produced by djvutoxml can then be modified using either a text editor or a XML editor. Program
djvuxmlparser parses the XML file inputxmlfile and modifies the metadata of the DjVu files referenced by
the OBJECT elements.
разве нельзя туда писать все что угодно?
Отв: За что я ненавижу XML
Насколько я разобрался в формате DJVU - нет, "все что угодно" - нельзя. По крайней мере - не положено.
Отв: За что я ненавижу XML
а насколько разобрался я, в METADATA помещают пары ключ-значение. К этой информации имеет доступ просмотрщик (например djview4 "вид->метаданные").
Отв: За что я ненавижу XML
и все таки, почему загубленные? обнулить текстовый слой пару взмахов крипой gplной шашкой.
Отв: За что я ненавижу XML
Сейчас передо мной лежит 87-ми МБ-байтный pdf-файл книги, в которой формулы "распознаны" и заменены текстом со всякими "г" вместо "r" и "т" вместо "m" и т.п. Как понимаю я, исходный растровый слой в книге в распознанных местах теперь отсутствует. Как это можно исправить?
Отв: За что я ненавижу XML
О да :)))
Для начала вспомню, что 2007-й охфис... хреновато читает старые rtf-файлы.
Про doc следовало бы сказать, что надо сразу отстреливать, но я приведу другой пример: видел я распечатанный из doc'а набор инструкций по менеджменту ка[к]чества... В оригинале там должно было быть достаточно много картинок. В распечатанном экземпляре иллюстраций адекватного качестве на было.
Это к приспособленности формата doc для отображения графики.
ЗЫ: Читайте классиков!
Говорят, живёт на свете Дональд Кнут
Доктор Кнут, поверьте дети, страшно крут...
Включение в модель иллюстраций делает невозможной полную автоматизацию процесса: необходимо вручную учитывать фактор размера бумаги (экрана для просмотра).
Конкретную книгу по фехтованию необходимо было выкладывать в djvu.
Отв: За что я ненавижу XML
перевод иллюстрации в векторный формат позволяет ее автоматом упаковывать в размер страницы вывода.
Трассировщиков просто куча и весть секрет качественного перевода сначала "раздуть" изображение.
Страницы