Поиск книг по DC++ хабам

вот нашел интересный ресурс: http://dc-poisk.no-ip.org

Цитата:
запущен сервер поиска магнет ссылок http://dc-poisk.no-ip.org:17000. Его задача показать: как легко организовать поиск книг и журналов в хабах. Теперь любой энтузиаст без написания строчки кода может создать базу данных из миллионов ссылок на документы.
На сегодня проиндексировано около 220 000 000 имен файлов, у более чем 14000 юзеров Direct Connect сетей.

Комментарии

Идея отличная, но хорошо бы ещё список хабов. Или это специальная уловка, чтобы копирасты задолбались искать? :)

Десяток хабов и жалкие 14 тысяч проиндексированных пользователей?
Это смешно.

Rogue
Трудно сказать,
вопрос скорее к автору,
впрочем список книжных хабов я уже давал,

Hutt
вопрос скорее всего упирается в железо,
попробуйте у себя дома поднять такую базу.

и никакие они не жалкие, там на несколько Петабайт инфы.

Извиняюсь за оффтоп, но после поисков в сети я не нашёл решения вопроса, возникающего при нажатии на магнет ссылку. Жму, открывается окно клиента (мюторрент), и больше ничего не происходит, а ведь, как я понял, должна открыться закачка, которая начнётся, как только подойдёт раздающий. Если кто может - подскажите, что сделать.

тут вроде нужен особый клиент ДЦ++ а Торренты не подходят.

О, спасибо, и впрямь клиент отдельный нужен.

Я когда-то пользовался StrongDC клиентом. неплохая весчь

Hutt написал:
Десяток хабов и жалкие 14 тысяч проиндексированных пользователей?
Это смешно.

Пока это разумная достаточность. Если книга есть в электронном виде, то с высокой долей вероятности вы ее найдете в этом поисковике. Т.к. индексировались хабы РФ, то вероятность для русскоязычной литературы выше. Почему только 14000? Т.к. канал доступа в инет 512Кбит, много файл-листов для последующей индексации скачать не получается.

В новости есть ошибочка :
http://dc-poisk.no-ip.org:17000 поисковик на основе Яндекс-сервера
http://dc-poisk.no-ip.org поисковик на основе Сфинкса

Т.е. два разных поисковика. http://dc-poisk.no-ip.org проиндексировал 247 863 661 имя файла, в http://dc-poisk.no-ip.org:17000 только около 8 000 000 и все. Для http://dc-poisk.no-ip.org:17000 думаю уйти от поиска всего и заточить только под книги, добавив туда возможность поиска по нескольким страницам с начала и конца книги. Загвоздка только в вычислительных мощностях, на моей машине нужно несколько месяцев непрерывной работы, т.к большинство книг не содержат текстового слоя и его надо создавать с помощью OCR. В принципе сейчас это может сделать любой, кто имеет большую коллекцию книг. Для этого используйте SSearch, Яндекс Сервер, FindISBN. После того как получите текстовые слои, надо дописать маленькую программку в несколько экранов кода, которая сканирует файловое дерево с книгами, вычисляет их TTH, находит, где хранится HTML файл описатель, который создан SSearch (его имя «TTH_книги-размер_файла.HTML») и дописывает туда текстовый слой, полученный FindISBN. Все! индексируйте эти «TTH_книги-размер_файла.HTML» яндек сервером и получаете что-то типа http://books.google.ru/ .

Rogue написал:
Идея отличная, но хорошо бы ещё список хабов. Или это специальная уловка, чтобы копирасты задолбались искать? :)

Найти где сейчас "тусуется" юзер, расшаривший нужный файл можно здесь: http://www.publichublist.nl/ или http://www.dchublist.com/ . Т.е. вы найдете имя хаба к которому подключён юзер в данный момент.

X