Массированная закачка книг, скачанных из Library Genesis

Какой-то человек (или группа товарищей) упорно закачивает в библиотеку книги, взятые из Library Genesis (http://gen.lib.rus.ec/), даже не изменив их имени, а просто приписав соответствующее формату расширение.

Может быть, не надо делать бессмысленные дубли?
Например, добавив ограничение в правила :)

Навскидку книги оттуда (идентификаторы):
187314
187332
187452
187464
187494
187495
187496
187504
187509
187520
187522
187523
187559
187596
187604
187605
187606
187609
187610
187667
187718
187720
187724
187730
187754
187809
187929
187964
187966
187967
187977
187995
187996
188050
188099
188103
188149
188191
188368

Комментарии

Первые 5 книг добавлены разными людьми. (А остальные мне смотреть лень - я очень не люблю копипаст.)

Ограничения давно пора ввести - книги в графических форматах читают очень редко.

Библиотека Genesis, увы, не обработана поисковиками.

http://lib.rus.ec/node/149607 - т.е. теперь это не работает?

Оно вроде бы работает и ссылка ведет на либген, но дело в том, что добавляющие книжки таким образом: 1) не учитывают целесообразность добавления таких книжек; 2) не вводят никаких дополнительных данных кроме того, что предлагается автоматом. Таким образом жанр и автор обычно оказываются не прописаны, а название часто оказывается искажено. Например, так было в 188625 -- пришлось скачать его и вбить недостающие данные.

Предлагаемое решение -- убрать кнопку быстрого добавления в Либрусек из страницы вывода общего поиска результатов, но обязательно оставить пункт 5 в http://lib.rus.ec/upload Это будет типа простой защиты от дурака, но возможно, что поможет...

Есть простой способ отсеивать такое при заливке:
если имя файла до точки расширения -- 32 hex, посчитать от содержимого этого файла MD5, если совпадает с именем файла, -- то этот файл из либгена, и его лучше не брать :).
Можно выдавать предупреждение товарищу, на второй раз ставить куку, чтобы он пару дней не мог заливать и обдумал поведение :)

Я нашел предположительную причину проблемы:
в поиске вместе с книгами либрусека отображаются книги из Library Genesis, и есть ссылка "закачать в либрусек".
Думаю, эти пользуются люди, например, для наивно-бесхитростного повышения своего рейтинга.
Наверное, надо убрать этот линк, тогда желающему придется как минимум скачать файл из либгена к себе на диск, а потом уже закачать в либрусек.

abcdenis написал:
Я нашел предположительную причину проблемы:
в поиске вместе с книгами либрусека отображаются книги из Library Genesis, и есть ссылка "закачать в либрусек".
Думаю, эти пользуются люди, например, для наивно-бесхитростного повышения своего рейтинга.
Наверное, надо убрать этот линк, тогда желающему придется как минимум скачать файл из либгена к себе на диск, а потом уже закачать в либрусек.

Ну, так и я про то же самое говорю, этот линк просто провоцирующий какой-то ;-)
А проверка по md5 (по содержимому) уже вроде работает. Проверку по md5 по названию вряд ли стоит добавлять, потому что бывают иногда и правильные названия тоже; здесь лучше, наверное, добавить проверку на отсутствие автора/жанра.
А желающему добавить книжку из либгена совершенно необязательно будет ее скачивать, даже если этой ссылки не будет (как -- пусть догадается, все средства есть), но в качестве защиты от дурака такая мера вполне может прокатить.

народ, вы чего?
сервер тот же самый, и место на нем не резиновое, чтоб переливать из пустого в порожнее

Bill_G написал:
народ, вы чего?
сервер тот же самый, и место на нем не резиновое, чтоб переливать из пустого в порожнее

дяденька, они первые начали!
:)

Хорошо бы, чтобы закачанная книжка проверялась по хешу с базой либгена и в случае совпадения заливающему выводилось предупреждение "спасибо, уже есть".

Но это потребует доработки базы.

P.S. тег , похоже, не работает :D

БД либгена и либрусека находятся на одном MySQL-сервере Ильи. Книги, разумеется, не то, чтобы перекачивать из либгена в либрусек не надо, а даже хорошо бы удалить из либрусека те, которые либген знает, потому что у нас есть более качественные версии на практически все такие.

Чтобы убрать такое кросс-безобразие, надо при заливки книги проверять её по базе либгена, которая и-так доступна из кода либрусека (см. евойный поеск). Если найдено - не брать. Вот и вся проблема.

Полагаю, что ноги растут из политики давать лычки за заслуги. Поскольку либген - исключительный случай в плане хостинга (он находится на одном из серверов Ильи своей первой половиной), вероятно следует прописать на странице заливки красным жирным, что с либгена книги не гонять, под страхом бана за вандализм (ну скажем после предупреждения).

Базы сейчас нет возможности обновлять часто, но в целом явление может сойти на нет. БД с обновляемого сервера (free-books) мы ежедневно выкладываем, можно прицепить дополнительно, чтобы не ждать, пока мы обновим на либгене здесь. В любом случае, административный укор нужен, потому что переливание намеренное и зло - а значит злонамеренное.

Ах да! Почему зло? Потому что мы пытались думать о слиянии худ.лит. и научки, но оказалось совершенно естественным оставить их раздельными. Факторов много, но вывод такой. Слить это всё нет никаких проблем, кроме формата БД, но использование от этого не станет как-то удобнее, скорее наоборот: придётся вводить доп. категоризацию, вроде "где ищем: в науке или худ.лит-е?" Ну и смысла тогда сливать? В поиске результаты порастут сорняками и всё это безобразие больше, чем польза.

Во-вторых это начнёт порождать дубли - а вот это уже нехорошо. Куда проще просто заниматься каждый своим делом.

В-третьих: либрусек 80 ГБ, либген - 2 ТБ. Куда и кого логичнее вливать??

В-четвёртых: торренты либгена и либрусека теперь уравняются в размерах раздач - от этого кому-то станет легче жить??

Всё это - огромное большое зло.

новая порция:
189250 189251 189252 189253 189258 189259 189260 189261 189291 189301 189314 189315 189329 189369 189515 189550 189567 189637 189744

Есть ли какие-н. способы отыскать героев, или при текущей "анонимности" заливальщиков лычки получать они могут, а быть разысканными за бардак -- нет?

В воспитательных целях надо отбирать лычки при удалении этих книг из либрусека.

abcdenis написал:
новая порция:
189250 189251 189252 189253 189258 189259 189260 189261 189291 189301 189314 189315 189329 189369 189515 189550 189567 189637 189744

Спасибо за сообщение. Автор предупреждён.

golma1 написал:
Спасибо за сообщение. Автор предупреждён.

Вот еще дайте, пожалуйста, товарищам по башке:
189819 189855 189865 189891 189901 189946 189959 189967 190002 190009 190013 190038 190043 190086 190088 190143 190144

После беседы с Лариным уточняю обстановку.

При "заливке" файлов из Library Genesis они на сайте не дублируются, а остаются лежать там же. На сайте Либрусека создаётся только учётная запись.

К активистам, специализирующимся на заливке таких файлов, призыв: проставляйте, пожалуйста, автора, жанр, обложку, аннотацию и другую полезную информацию.
Только в этом случае Вам для абонемента будет засчитываться принесённая польза.
Во всех остальных случаях, подразумевающих простое копирование, польза засчитываться не будет, Ваш ник будет удалён из списка "приложивших руку".

Большая просьба ко всем, кому небезралично наличие "мусора" в библиотеке: сообщайте, пожалуйста, о случаях простого копирования файлов из Генезиса. Можно прямо в этой теме.
Спасибо всем, кто старается улучшить нашу библиотеку.

Аватар пользователя Isais

golma1 написал:

К активистам, специализирующимся на заливке таких файлов, призыв: проставляйте, пожалуйста, автора, жанр, обложку, аннотацию и другую полезную информацию.
Только в этом случае Вам для абонемента будет засчитываться принесённая польза.
Во всех остальных случаях, подразумевающих простое копирование, польза засчитываться не будет, Ваш ник будет удалён из списка "приложивших руку".
*кровожадно* YES-S-S! *исполняются дикарские пляски*

Если бы еще обьяснили как проставить обложку для не FB2 файлов.

Lyka написал:
Если бы еще обьяснили как проставить обложку для не FB2 файлов.

Линк - Исправить аннотацию . Там - прикреплённые файлы - Прикрепить. Прикрепляете обложку и жмёте - Сохранить

Свежее:

http://lib.rus.ec/b/190147
http://lib.rus.ec/b/190203
http://lib.rus.ec/b/190215
http://lib.rus.ec/b/190431
http://lib.rus.ec/b/190435
http://lib.rus.ec/b/190443
http://lib.rus.ec/b/190454
http://lib.rus.ec/b/190455

по первым трем линками инфы ни хрена нет, может, просто, по-человечески, забанить автора, если он уже был уличен в этом ранее?

abcdenis написал:
Свежее:
по первым трем линками инфы ни хрена нет, может, просто, по-человечески, забанить автора, если он уже был уличен в этом ранее?

Это всё разные люди. Все они удалены из "приложивших руку", т.е. пользы им это не принесёт.

Вопрос:
Преобразовал в doc из ПДФ (находяшийся на Флибусте) , dычитал, слил Эренжен Хара-Даван «Чингисхан. Великий завоеватель» Убивать вышеупомянутый ПДФ не стал.
Как в таких случаях поступать? Мочить - немочить?

Ser9ey написал:
Вопрос:
Преобразовал в doc из ПДФ
[...]
Как в таких случаях поступать? Мочить - немочить?
ИМХО так же, как в случае doc -> fb2: объединить, но в аннотации дать линк на оригинальный файл.
Аватар пользователя Isais

1. А какого эт лешего Вы собрались, залив файл на Либрусек, убивать его на Флибусте??? Флибустян-то за что наказываете?
2. Пока нет валидного FB2, вообще лучше ничего не бить, т.к. неизвестно, с файла какого формата легче будет сделать FB2.
3. Судя по весу, там есть рисунки. Для таких файлов (как мы с Вами уже разбирали на примере "Жизни викингов...") лучший вариант (до FB2, а может быть, и вообще) - PDF.

Isais написал:
1. А какого эт лешего Вы собрались, залив файл на Либрусек, убивать его на Флибусте??? Флибустян-то за что наказываете

Это вещи несвязанные: если здесь не чистить мусорные баки в заботе о другой библиотеке, то на выходе получим две идентичные помойки.
Флибуста, я думаю, знает про ЛибГен, и не надо за них переживать.

Из свежего:
190480

190481

190575

190599

190600

190601

190613

190614

190616

190654

190678

190704

190776

190777

190778

190811

190832

190833

190853

190857

190909

190933

190936

190996

191029

191064

191065

191079

191092

191113

191210

191270

191271

191310

191311

191312

191320

191321

191324

191325

191326

191327

191328

191329

191330

191331

191332

191333

191334

191335

191338

191339

191340

191341

191342

191343

191344

191368

191373

191391

191404

191445

191469

191482

191487

191607

191608

191631

191699

191750

191753

191778

191779

191780

191781

191816

191870

191909

191988

192024

192063

192077

192217

192238

192239

192240

192262

192263

192264

192266

192267

192269

192270

192271

192272

192273

192279

192304

192343

192355

192357

192359

192360

192413

192414

192440

192445

192466

192480

192580

192597

192624

192638

192642

192658

192661

192663

192664

192665

192666

192668

192670

192671

192672

192673

192674

192675

192676

192677

192678

192679

192680

192681

192682

192683

192684

192685

192686

192689

192691

192734

192764

192770

192778

192793

192800

192801

192814

192840

192846

192855

192859

192960

192961

193038

193084

193085

193086

193087

193088

193089

193090

193091

193194

193197

193207

193266

193267

193269

193274

193279

193284

193300

193301

193316

193322

193390

193445

193503

193546

193674

193691

193729

193731

193736

193739

193740

193747

193768

193963

193964

193966

193974

193982

193983

194009

194026

194067

194068

194094

194127

194223

194238

Аватар пользователя Isais

Цитата:
Это вещи несвязанные: если здесь не чистить мусорные баки в заботе о другой библиотеке...
Именно. Вы не совсем в курсе, сколько в тот момент было файлов указанной книги на Либрусеке и на Флибусте и, похоже, полностью не поняли, о чем речь.

Ну леший то один)))
Из ПДФ - в fb2 для меня новость.
И че нервничать ,я ж то яго без разрешения и не убил.)))
ps на Флибусту я тож doc паралельна залил!!!
там вааще постоянно маты на закачки испорченных ПДФ

Так может быть их туда и вернуть. Научка - к научке. Сюда можно только популярную науку.
А то к книгам ни аннотация, ни обложки.

X