B147858 Рубрикатор как инструмент информационной навигации
Опубликовано пт, 15/05/2009 - 12:27 пользователем oldvagrant
Forums: Рубрикатор как инструмент информационной навигации to Ulenspiegel
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Estel22 RE:Подайте бедному копеечку на книжку с литреса... 6 часов
nehug@cheaphub.net RE:Доступ 4 дня sibkron RE:«Македонский роман XXI века 5 дней sem14 RE:Рассказы Южных морей 1 неделя weis RE:Прошу переформатировать, распознать, etc... 1 неделя arkadybi RE:Абонемент 1 неделя babajga RE:Комната в башне 1 неделя Саша из Киева RE:Герои Израиля 1 неделя babajga RE:сиреневая звезда 1 неделя babajga RE:Сказки Папоротникового Леса 1 неделя sem14 RE:вопрос 2 недели sem14 RE:Премия «Небьюла» (Nebula Award) 3 недели Isais RE:Maxima-library - переезд 3 недели Iron Man RE:Курьезы сканировщика 4 недели tvv RE:Абрахам Вергезе - The Covenant of Water 1 месяц Larisa_F RE:Эрнесто и его кролики 1 месяц Саша из Киева RE:Горящие паруса 1 месяц Саша из Киева RE:Американская мозаика 1 месяц Впечатления о книгах
obivatel про Калбазов: Родоначальник [СИ] (Боевая фантастика, Технофэнтези, Попаданцы, Самиздат, сетевая литература)
03 07 Каждой книге хорошо, а всей серии - отлично! Оценка: хорошо
iggy71 про Владимир Владимирович Набоков
03 07 Лолита - выдающееся произведение, классика. Старушенции и подкаблучники-импотенты негодуют, типа пропаганда педофилии. Где вы видели пропаганду, дуры? Автор что, восхваляет модель поведения Гумберта, предлагает повторить судьбу ………
Alhimik0 про Уэльбек: Возможность острова [La possibilité d'une île ru] (Современная проза)
02 07 Счастье это лишь возможность острова на миг открытого нам вдали холодного равнодушного моря нашей жизни. Жизнь - реальна. Все остальное - нет... Оценка: отлично!
udrees про Михайлов: Инфер-3 [СИ] (Боевая фантастика, Киберпанк)
02 07 Хорошее продолжение серии. Написано в жестком стиле, обилие кровищи, сцены жестокости, пыток, убийств. Главный герой никого не боится, шагает по трупам. В разговорах с другими хамоват и быдловат. Никто ему не ровня. ……… Оценка: хорошо
udrees про Михайлов: Инфер-7 [СИ] (Боевая фантастика, Киберпанк, ЛитРПГ, Самиздат, сетевая литература)
02 07 Продолжение жестоких приключений героя в жестоком умирающем мире. Для любителей серии зайдет, благо что антураж поменялся, поменялись монстры и сюжетная линия поменялась. Описания предельно жестокие, с изобилием кровавых ……… Оценка: хорошо
udrees про Михайлов: Инфер-6 [СИ] (Боевая фантастика, Киберпанк, ЛитРПГ)
02 07 В целом хорошо, небольшая смена обстановки, чуть лучше стало описание. Главный герой в целом справедлив, хотя и жесток. Все равно старается помочь угнетенным и отчаявшимся. Находится в «контрах» с власть имущими и эксплуатирующими. Для ……… Оценка: хорошо
udrees про Михайлов: Инфер-5 [СИ] (Боевая фантастика, Киберпанк, Постапокалипсис, Самиздат, сетевая литература)
02 07 Очередное продолжение цикла Низшего. Но сейчас наконец-то смена обстановки. Повествование начинается почти как с первой книги, когда герой переносится без всего в мир Формоз. Но на сей раз путь наверх проходится практически ……… Оценка: хорошо
udrees про Михайлов: Инфер-4 [СИ] (Боевая фантастика, Научная фантастика, ЛитРПГ, Самиздат, сетевая литература)
02 07 Продолжение истории про Низшего, для любителей серии. Особенно ничего интересного по сюжету не будет, скорее это возвращение к старым местам. Происходит наконец-то воссоединение боевого отряда и встреча со старыми друзьями ……… Оценка: хорошо
obivatel про Яманов: Братик [litres] (Альтернативная история, Попаданцы)
02 07 Начал ловить себя на мысли "когда там уже финиш" и прекратил читать: зачем себя напрягать? Но то, что прочитал: НЕПЛОХО. Оценка: неплохо
decim про Трэвис Коркоран
02 07 Первая книга - отлично. Вторая - хорошо. Если вы любитель alex_rozoff и его "Меганезии", то и эти книги зайдут. Взгляды автора схожи с розовскими - анархо-капитализм как возможный выход. Действие происходит в условном ………
decim про Фибих: Двужильная Россия [litres] (Биографии и Мемуары)
02 07 Человек, что называется, попал в жернова. С точки зрения садомазохистов - сам виноват, и вообще скажи спасибо, что не убили. Фарисейство это - до первого пинка. Об уровне полемики говорит и то, что национальность у садюшки ……… Оценка: хорошо
svengali про Туччи: Вкус. Кулинарные мемуары [litres] (Биографии и Мемуары, Публицистика, Кулинария, Кино)
01 07 Какой ещё "кассероле"? Переводчик никогда не слышал слово кастрюля? Кастрюля, а не "кассероле". Оценка: нечитаемо |
Отв: B147858 Рубрикатор как инструмент информационной навигации
Легко. Тезис первый, он же главный - "хоть чучелом, хоть тушкой, но ехать надо".
Stager - отмалчивается, как девушка в ответ на вопрос "Ты меня любишь?", а найти что-либо техническое, не зная заранее названия, в библиотеке ... сложновато.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну хорошо. Предположим, случилось страшное, и Вас заинтересовало программирование PIC-контроллеров. Поиск по "PIC" в библиотеке результатов не даст, поиск по "контроллеры" - даст набор книг на "Генезисе", но - если искомая книга называлась "Программирование средств промышленной автоматизации" - этот бесценный труд пролетит мимо Вас.
Найти библиографию по теме где-нибудь в и-нете, безусловно, можно, но хотелось бы, чтобы Либрусек был в этом смысле вещью самодостаточной.
Отв: B147858 Рубрикатор как инструмент информационной навигации
А чё я, чё я-то? Я ваще завсегда за.
Мой тезис таков:
Отличие информационной организации от склада - в наличии тематического поиска. Любая библиотека - что электрическая, что бумажная - это в первую очередь склад (с более или менее развитой логистикой). А библиотекой, т.е., храмом знаний, этот склад делают средства тематического поиска.
Раньше в бумажных библиотеках такие средства были - тематический каталог, библиографические издания плюс собственно библиографы. Теперь всё умерло, и этот механизм погребён под завалами информации. С альтернативами, в общем, плохо.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Я бы, честно говоря, к поиску добавил еще и навигацию по классификационному дереву. Что-то типа "А что у нас тут по программированию есть ? А для Web ? А чтоб еще и PHP присутствовало ?"
При любом раскладе - то, что "всё плохо", мы уже поняли. Теперь хотелось бы узнать, что надо сделать, чтобы всё опять стало хорошо :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну это и есть оно.
Правильно в наше время это оно должно выглядеть так:
Юзер в свободной форме даёт запрос.
В ответ он получает список понятий, соответствующих запросу.
Кликнув по понятию, юзер переходит в ту или иную классификационную систему, в то место, где это понятие находится.
И видит там книжки - по теме, по теме уже, по теме шире, по теме сбоку.
А если не понравилось - то выбрать список понятий, которым требуемое должно удовлетворять.
Тогда и будет -
Такое "оно" называется - "сужать запрос по тезаурусу". Но в современной программистской мысли почему-то модно расширять...
Как минимум - не класть книжки в картинках....
Отв: B147858 Рубрикатор как инструмент информационной навигации
Это невозможно.
Миссия pdf, кстати, была в частности в том, чтобы совместить текстовое представление с обеспечением сохранности содержания. Иначе научные статьи публиковали бы в rtf, скажем. Хорошо, если djvu или pdf файл имеет текстовый слой. В том случае, если он получен из авторского текста. Если из OCR - то такая естественнонаучная книжка годится только на шпаргалки студентам.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Книжка в картинках - это всё равно, что ничего.
Господа! Сказать файнридеру "распознать всё" - это один клик. Второй - создать pdf с текстовым слоем. И не обязательно класть текстовый слой поверх картинки - можно и наоборот.
Даже если результат будет содержать массу дефектов распознавания, в нём исчезнут формулы и картинки - всё равно его будет достаточно для более-менее адекватного автоматического индексирования. А альтернативы автоматическому индексированию нет.
Любая самая крутая классификация требует, чтобы кто-то соотнёс книгу с этой самой классификацией. Проиндексировал, типа. В процессе систематизации или предметизации. Три четверти книг в этой стране систематизируются примерно двадцатью сотрудниками Ленинской библиотеки. По ББК. Их не будет больше, и работать лучше они тоже не будут - работа эта низкооплачиваемая, однако требует наличия ума и образования.
Очевидно, тексты, книгами не являющиеся, никто никогда не проиндексирует. И какого тематического поиска вы хотите? Особенно, если курочите заглавия - лишая себя возможности воспользоваться плодами труда профессиональных систематизаторов?
Альтернатива - автоматическое индексирование. А для художественной литературы - вообще единственная возможность, ибо её никто не систематизирует. Да и классификаторов для неё нет.
Автоматическое индексирование даёт посредственный результат, требует специально заточенных классификационных систем - но это единственный путь. Но что-то вы не пылаете энтузиазмом...
Резюме: нет волшебного рецепта. Вот я скажу - и всё будет. Нет. Чтобы было - нужно делать. Нужно составить и поддерживать рубркатор. Нужно иметь текстовые книги. Нужно поддерживать в правильности их реквизиты. Нужно как-то соотнести книги с рубрикатором. И только потом - воспользоваться плодами.
А я вообще полагаю, что большинство народу тайно глубоко убеждено, что компьютер умеет думать, и если подождать -он всё придумает. Сам.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Вы хотите сказать, что в документе djvu или pdf могут параллельно существовать распознанный текстовый слой (пусть коряво распознанный, но невидимый для читающего и видимый для инструмента индексирования) и тот же текст в виде обычной картинки?
Если так, то ситуация кардинально меняется...
Отв: B147858 Рубрикатор как инструмент информационной навигации
В DJVU - однозначно может. И, более того, там даже может существовать оглавление, распознаваемое djvulibre (по крайней мере).
Более того, есть даже инструмент, позволяющий автоматизировать процесс (DjvuOCR), хоть и не "в один клик". И если суровый Stager предлагает сделать стандартом для добавления технической литературы DJVU с текстовым слоем и оглавлением (как минимальное требование), я, наверное, подчинюсь :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Я бы предложил - толку что?
Отв: B147858 Рубрикатор как инструмент информационной навигации
Нууу... Мне самому такая мысль уже приходила в голову. О том, чтобы нераспознанную книжку - сперва в морилку, потом в распрямилку, распознать и сделать оглавление. Проблема в том, что с технологией всего процесса я еще только разбираюсь, получается медленно - а залить что-нибудь свеженькое иногда свербит, и сильно. Скажем так - буду стремиться к окультуриванию. Но - проблемы классификации это автоматом не решает :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Не знаю за djvu, но длля pdf -
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну почему же... я - пылаю. Точнее, тлею. Пока что на этапе думания, да и то - с продолжительными остановками (реал, знаете ли, заедает...). Но вот уже, в дополнение к предыдущему разговору, додумался до того, что neural network для автораспознавания жанров художки таки придётся использовать. И до того, что не так neural network страшен, как его малюют - есть вполне пригодные готовые библиотеки, я остановился на FANN. Теперь вот думаю, нельзя ли всё-таки и подбор кивордов (ага, лошадей с мечами) тоже автоматизировать. Пока, правда - тупик...
Отв: B147858 Рубрикатор как инструмент информационной навигации
Звездолет на дикой планете. Звездолет упоминается раз пять, лошади с мечами - раз 100. К какому жанру причислит такую книгу ИскИн?
Отв: B147858 Рубрикатор как инструмент информационной навигации
К фентези. And rightly so.
Отв: B147858 Рубрикатор как инструмент информационной навигации
А как? Я совсем не понимаю в нейроных сетях, но, вроде, обучающая последовательность должна иметь однозначные критерии соответствия определённому результату, причём - одному. Как найти (составить?) текст, стопудово соответствующий одному делению классификации из (хотя бы) двух сотен, и стопудово не соответствующий никакому другому - я не представляю.
Ну тут правда тупик :-) Этот вопрос исследовался и многие пытались. Для отдельного текста - можно. Общие для двух - ну, где-то как-то... Для трёх - уже только местоимения :-)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Не хотелось бы поднимать старый флейм на тему, "что лучше - книга в плохом формате или вообще никакой".
Скажем так - скорость конвертации и вычитки мною книг существенно ниже скорости появления в и-нете любопытной литературы, и с этим я мало что могу поделать.
Но это - что касается программы минимум. А мне, честно говоря, хотелось большего - услышать от Вас, как профессионала, конкретные рекомендации. На уровне "копать здесь, кидать сюда, пока летит - отдыхать" :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Чисто технически: имя файла отданной книги - горбатое, и сам файл - классический пример того, как не надо использовать djvu. Я полагаю, распознать и закатать в .txt изготовителю помешали исключительно религиозные соображения.