Вы здесьВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка вынести на обсуждение вопрос минимальных требований к книгам.
Опубликовано чт, 18/12/2008 - 08:36 пользователем yurbox
Вроде как назрело. Не холиварим. Только конструктив Валидность - минимальные требования к файлу для того, чтобы он мог появиться в библиотеке. Валидный файл - это: 2. файл с текстовым содержанием, который поддается прочтению специализированными на его формате программами, либо офисными текстовыми редакторами, обладающими функцией 3. файл, сквозная фрагментация текстового слоя которого не меньше 25% (при условии, что смысловая составляющая такого текста не утрачивается). Текст, удовлетворяющий требованию 25%, являющийся цельным блоком (середина, конец, начало) считается валидным и полным при отсутствии полного текста в библиотеке и выполнении условий п.5. 4. отдельные страницы файлов графического формата фрагментами не являются. 5. в теле файла независимо от его формата ОБЯЗАТЕЛЬНО должны указаны быть автор и название публикуемого документа. 6. минимальный размер. Здесь происходит основная загвоздка, ибо при заниженном минимуме возникает куча трудностей с упорядочиванием, а так же создается почва для спама. При разумном подходе минимальный размер нужно, наверное, все же ограничивать. Это спорно. о формате фб2 Жанр - штука обманчивая и при массовой заливке ее можно упускать, главное, чтобы файл находился поиском по автору или названию. Качество - внешние и внутренние составные части, обеспечивающие улучшение внешнего вида документа. параллельно с этой веткой идет обсуждение на тему качества, думаю, что не стоит спорить какие книги нам нужны - качественные или некачественные. Конечно качественные, и там можно будет поговорить о приоритета одних видов качества над другими.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Larisa_F RE:Современная корейская литература. Книжная серия... 15 часов
kopak RE:На 78-м году жизни скончался советский и российский... 1 день Estel22 RE:Подайте бедному копеечку на книжку с литреса... 1 день Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 день Саша из Киева RE:Подводное течение 2 дня Larisa_F RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 3 дня lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 6 дней konst1 RE:Переименовать ник (имя учетки) 1 неделя Larisa_F RE:Таррин Фишер 3 недели Aleks_Sim RE:Беженцы с Флибусты 3 недели Саша из Киева RE:Как приобретать друзей и оказывать влияние на людей 4 недели Isais RE:Семейственность в литературе 1 месяц miri.ness_ RE:Доступ 27 1 месяц bmusanov Оплатил, но абонемент не отображается 1 месяц holla RE:Багрепорт - 2 1 месяц konst1 RE:Файнридер для Win11 1 месяц larin RE:Оплатил, но абонемент не отображается 1 месяц sem14 RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц Впечатления о книгах
Саша из Киева про Донских: Вижу сердцем [litres] (Современная проза)
09 09 Огромное спасибо тому, кто раздобыл эту книгу и разместил её здесь!
svetik489 про Василий Васильевич Головачев
08 09 21 июня 1948 - 07 сентября 2025г. 7 сентября 2025 года советский и российский писатель-фантаст, сценарист, актер, продюсер и художник Василий Головачев ушел из жизни. Ему было 77 лет. Похороны пройдут в родном городе писателя Жуковке в Брянской области.
Stager про Макаренков: Объект «Фенрир» [litres] (Боевая фантастика, Космическая фантастика, Научная фантастика)
08 09 Спрашивать, конечно, нужно каждого, но что делать с теми, кто не поймёт вопроса? Так что да - я и тогда считал, и сейчас считаю, что применение герцога было трусостью. А так - ну да, довольно литература. Оценка: хорошо
дядя_Андрей про Орлов: Бастард Императора. Том 18 (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
07 09 Озадачен. Начиная с 11-ого тома в реальность начинает пробиваться трансвестизм ГГ? Почему на обложках периодически появляются бабы? Оценка: неплохо
ne_fanat про Смолин: Ван Ван из Чайны 4 (Социальная фантастика, Попаданцы, Самиздат, сетевая литература)
07 09 Неплохой цикл. По крайней мере написано нормальным языком. Ну и нюансы из жизни китайцев (если конечно они правдивы) доставляют. Оценка: хорошо
ne_fanat про Карелин: Архитектор душ (Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
07 09 Не зацепило совсем. Страниц 20 осилил, потом стало скучно.
mysevra про Булычев: Они уже здесь! [сборник] (Детская фантастика)
07 09 Стиль рассказов о Великом Гусляре очень специфический, но мне нравится. Оценка: отлично!
mysevra про Лондон: Маленькая хозяйка Большого дома [The Little Lady of the Big House ru] (Классическая проза ХX века)
07 09 Действия главной героини настолько противоречат моим принципам, что мне трудно оценить роман по достоинству. Но впечатление осталось неприятное. Оценка: неплохо
mysevra про Кравчук: Нерон (Историческая проза)
07 09 Здорово, когда серьёзные исторические события и рассуждения автора поданы так ненавязчиво и увлекательно, словно в живой беседе. Оценка: отлично!
marin029 про Михаил Дорин
06 09 Про Донин: Авиатор: назад в СССР. Читаю с удовольствием. Пока на 5-й книге. Ну а дальше посмотрим. Как правило мне после 10 книги в серии становится скучновато, хотя бывают и исключения. В любом случае автору большое спасибо. Успехов в творчестве. Оценка: Хорошо |
Комментарии
Необычайно бурная и интересная дискуссия
Попытка создания темы для обсуждения по существу встретила живейший отклик в народных массах...
Внесу, пожалуй, свои 5 копеек. Правда, это не совсем относится к валидации, но чтобы не засорять первую страницу кучей тем, думаю, что, поскольку к оформлению файлов это таки имеет отношение, то, имхо, это допустимо.
1. Хотелось бы, чтобы книги хранились преимущественно в текстовых форматах, прежде всего fb2, раз уж он принят тут в качестве стандарта. Графические форматы занимают слишком большой объем и, имея канал всего в 256K, приходится зачастую отказываться от закачки файлов в десятки мегабайт, да и диск у меня не резиновый. Кроме того, некоторые форматы, которые не являются общеупотребительными, также могут вызвать проблему. Например, формат prc на моем настольном компьютере читать довольно проблематично.
2. Хотелось бы, чтобы варианты одной и той же книги, отличающиеся только вычиткой, не плодились в неограниченном количестве. Я лично не понимаю, зачем вообще держать все варианты файла, но если это и впрямь кому-то надо, то ходя бы окончательный (на каждый текущий момент) вариант книги как-то был выделен от остальных. Самое неприятное, что в "последних поступлениях" зачастую также имеется по 3-5 вариантов некоторых книг, причем часто одного и того же размера. Честно говоря, неохота выкачивать все варианты и тем более все их анализировать, чтобы понять, какой вариант - окончательный. Это неудобно.
3. Это довольно мелкий вопрос, но все же. Хотелось бы, чтобы все файлы именовались единообразно (В последнее время, правда, в основном уже соблюдается) и если уж имя файла начиинается с автора книги, то чтобы сначала шла фамилия, а потом имя (а не наоборот, как я смотрю, сложилось на Либрусеке).
Отв: Необычайно бурная и интересная дискуссия
Все так, кроме предпочтения форматов. Именно в графических форматах присутствует чуть не половина уникальных книг и журналов, т.к. нереально перевести в фб2 множество формул, схем и картинок. Вас лично никто ведь не заставляет их скачивать - дело это сугубо добровольное ;), а формат файлов виден. Единственно, я бы посоветовал тем, кто будет в дальнейшем делать сам такие файлы, отказаться от pdf в пользу djvu, т.к. последний гораздо компактнее.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Не хватит ресурсов человеческих. И решение придется кому-то принимать, опять же - дополнительные полномочия и склоки по поводу удаленных версий. Они время от времени и так всплывают.
Вроде бы просто фамилии. без имен.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Я и не требую непременно удалять, но как-то помечать последний вариант все же не мешало бы. Или хотя бы, чтобы каким-то образом была виддна хронология версий. А разбираться в 3,4,5 версиях тем более не хватит ресурсов человеческих. Какой-то выход все же нужен.
Сейчас скачал книгу для пробы, действительно только фамилия. Если это стало новым стандартом и будет применяться ко всем файлам, то замечательно.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Дубли отлавливаем и удаляем. Оставляя лучшие версии. Этим правом также, кстати, наделен любой пользователь библиотеки.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Просто я скачиваю каждый день "Последние поступления" и сразу заношу в свою библиотеку. И практически каждый день несколько книг встречаются в "Последних поступлениях" несколько раз. И, честно говоря, ударность труда отдельных пользователей или библиотекарей, в течении одного дня умудряющихся залить на Либрусек до 5 дублей одной книги, меня просто поражает. ;)
Получается, что в реальном режиме времени отловить дубли вручную совершенно не реально.
А нельзя ли автоматизировать устранение дублей только из "Последних поступлений", например, путем помещения в нее только самого последнего по времени дубля?
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
1. Библиотекари - тоже пользователи. Насчет ударности труда: вы же сами ратовали за то, чтоб лили больше, без разбора, а библиотекари
к 3000 годуразберутся. Вот и разбираемся.2. Дубли ловятся не только в последних поступлениях, а во всей библиотеке.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Во-первых, я ратовал за то, чтобы лили больше разных книг, а не по пять дублей одной и той же книги. И непонятно вообще, откуда появляется столько версий за ОДИН день (причем это КАЖДЫЙ день и НЕ С ОДНОЙ книгой)? Не лучше ли заливать только окончательную версию правки? Тогда бы и дублей было бы максимум два, а не 5 и время и усилия тех, кто правит, тоже было бы сэкономлено. Так что для меня такое количество дублей за один день просто загадка.
Во-вторых, я и не требую, как Вы, верно, заметили, чтобы библиотекари разбирались в реальном режиме времени. Я спросил насчет возможности автоматизировать исключение дублей из последних поступлений. Ответа я не услышал.
В любом случае, я предпочитаю вариант много книг, даже если это влечет много дублей, чем мало дублей, но мало и книг.
PS Я заранее признаю, что я злобный и гнусный враг №1 всех библиотекарей Либрусека и это исключительно из-за меня Либрусек далек от совершенства, особенно в плане качества книг. Только, пожалуйста, перестаньте кидаться в меня камушками.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
1. Люди льют, что хотят. Им, видимо, лениво посмотреть на наличие или отсутствие книги. И лениво что-либо делать с тем, что они льют. Не всем, конечно, некоторым.
2. По возможности автоматизации - это не ко мне. Может, agrey знает или pkn. А как, кстати, исключить дубли - их же сначала сверить надо и оставить более качественный вариант.
3. Это не кидание камушками. Просто честный ответ на поставленные вами вопросы предполагает выброс некоторого количества такого гравия: либо мы строго контролируем закачки, и иногда кратковременно могут пострадать невинные люди, либо мы оставляем, как есть, и появляется много сопутствующего мусора.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Поскольку всем дублям присвоены номера, то система видит, что это один и тот же файл. Поэтому при добавлении книги можно было бы усложнить добавление дубля, усиленно спрашивая, точно ли хотят добавить дубль. Тогда ленивый не станет добавлять. Заодно это некая защита и от вандалов.
А я и не предлагаю удалять дубли. Просто в "Последние поступления" помещать только один файл из дублей. Например, последний по времени или самый большой.
Так я и пытаюсь найти вариант, чтобы и библиотекарей не грузить лишней работой и чтобы мне было проще скачивать книги. Но я лучше потерплю неудобства, если альтернативой будет уменьшение количества книг.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Последний по времени или самый большой может быть худшего качества.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Да я все равно все файлы перегоняю в текстовый формат. Так что мне качество не так уж и важно
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Ну, я тоже в rtf перегоняю, но ведь и другие пользователи есть.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
И много поможет другим пользователям куча дублей? Вот сейчас просмотрел последние поступления, так там книга Сергей Тармашова "Катастрофа" представлена в 6 (шести) вариантах! Рекорд! (точнее антирекорд...) С учетом того, что каждый день не одна книга имеет по нескольку дублей, то я не представляю себе, что кто-нибудь может реально просмотреть все эти дубли для выбора наилучшего. Поэтому, имхо, все же лучше выбирать оптимальный (хоть по какому-то критерию) дубль, а при необходимости пользователь может посмотреть и остальные дубли в библиотеке на предмет выбора более подходящего варианта.
чтобы не плодить посты, еще несколько замечаний по другим вопросам.
Конечно, никто не заставляет, но если хочется? ;) А посмотришь на файлы мегабайт в 20 и, хоть рука и дрожит ;), а галочку с них снимешь... Я ж и не писал, что вообще графические файлы не нужны. Я просто хотел бы, чтобы от них по возможности отказывались.
А вот сейчас просмотрел последние поступления, вот там по-прежнему имя файла формируется как <имя автора>_<фамилия автора>_<название книги>.
Нельзя ли и в Последних поступлениях сделать так, чтобы фамилия автора шла на первом месте?
На: http://lib.rus.ec/node/123605#comment-36700
Приношу свои извинения тов. yurbox за то, что развел в его теме оффтоп. Я уже писал, что, поскольку заметил, что, увы, никто длительное время так и не стал обсуждать эту тему по существу (а жаль, имхо), то решил, чтобы не плодить темы начать обсуждение похожмх вопросов. И я, честно скажу, совершенно не ожидал, что ветка развернется на такую длину...
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Не стоит извинений. Просто своим первым постом вы нарушили чудесную картинку того благороднейшего игнора, которого подобная постановка конкретных вопросов на обсуждение, несомненно, заслуживает. Ибо если все будут знать - что такое валидный файл, то становится под угрозу возможность элитарного обладания сакральными знаниям. Толпу завораживают непонятные слова.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
При закачке, развернуть файл в чистую строку, без всех спецсимволов и тегов. Пробелы свернуть в 1, а кавычки в непарные. Привести все к одному регистру и сравнить с такой же строкой уже имеющегося файла. Если совпадение больше 50%(границу подобрать по библиотечной статистике), тупо спрашивать у юзера, раза 3 :), типа "возможно вы закачиваете дубль, т.к. совпадает NN% текста. Вы уверены?". Окно с вопросом показывать на экране со случайным разбросом, что б юзер не тупо жмакал на клавишы.
Вариант не сложный, а дублей может и поуменьшить. Ведь эти дубли рождаются из-за отсутствия серверного инструмента сравнения файлов. Если будет возможность это сделать во время закачки - людям будет проще, т.к. не надо будет искать локальных вариантов.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
...Но, видимо, не для всех книг: http://lib.rus.ec/s/4938
А?
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Ряд книг блокируются от правок - в первую очередь новинки. Вандалам именно они не нравятся больше всего.
Но в данном случае удалить дубль сложно по иной причине. 3 дубля этой книги уже удалено, кстати.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
По теме валидности будем выступать, или оффтоп - это основной принцип?
Уленшпигель (сорри за кирилицу) этот топик по вашей просьбе был сделан. Или ваша просьба была провокацией, как я и предполагал? ТОпик ваш под названием Качество в итоге вылился в обсуждение видов кавычек. Очень как бы, ммм.. ммм... познавательный получился. Но вряд ли конструктивный.
Или я зря тратил время на написание пунктов шапки?
Пусть лучше тут будет пусто, как вчера, чем посторонние разговоры...
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Вопрос в тему. По новому ЧаВо
4.3.3.2.3 Книги в которых отсутствует более 10% текста. Очевидно, что если в тексте набор случайных символов, это тоже сюда попадает.
Ув. библиотекари. На мой взгляд 10% - это слишком жесткая планка, которую необходимо понизить хотя бы до 50%
Приведу основания. Существует файл. Полкниги от начала. Это 50%, что не укладывается в формат и не подлежит выкладке в библиотеку добропорядочным послушным юзером, читавшим ЧаВо. Другой такой же юзер имеет конец этой книги. и тоже не выкладывает на сайт.
В итоге - книга потеряна, а могла бы быть собрана в случае необходимости тем, у кого есть недостающий кусок.
Пример такой книги в библиотеке есть. Это http://lib.rus.ec/b/20500 Я вчера намеренно изменил ей название, чтобы указать на то, что она не в полном объеме. Так вот. В реале - это книга в руку толщиной и здесь представлена как раз на 50% своего объема. Допустим, сейчас при желании, можно отсканировать и выложить только второй кусок и склеить, это и без того немалый труд. при отсутствии же первой части работа увеличивается в два раза.
Это пример, возможно, и исключительный, однако факт остается фактом.
И еще вопрос. Правильно ли я поступил, изменив название таким образом?
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Согласен по обоим вопросам.