Вы здесьМетаграммы
Опубликовано пн, 10/09/2012 - 03:04 пользователем golma1
Название темы - условное, для лучшего поиска. На самом деле метаграмма - вид шарады. Но к нашей теме косвенное отношение имеет. А собственно тема - об улучшении качества fb2-файла (а о чём же ещё? Примеры: "грех - трех", "свечка - овечка", "липа - лица".
Когда-нибудь, возможно, появится скрипт, выискивающий такие слова, пока их (при желании) можно включить в "Поиск по регэкспам" (частично они уже там присутствуют). К сожалению, словаря на эту тему не существует (или я плохо искала?), поэтому предлагаю собирать их здесь. Для того, чтобы в момент появления скрипта (надеюсь, он всё-таки когда-нибудь появится) было бы чтó ему "скормить".
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
sem14 RE:Современная корейская литература. Книжная серия... 1 день
aldan RE:Подайте бедному копеечку на книжку с литреса... 2 дня sem14 RE:Семейственность в литературе 2 дня Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 неделя sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя kopak RE:На 78-м году жизни скончался советский и российский... 2 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 3 недели Саша из Киева RE:Подводное течение 3 недели lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 3 недели konst1 RE:Переименовать ник (имя учетки) 4 недели Larisa_F RE:Таррин Фишер 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц Саша из Киева RE:Как приобретать друзей и оказывать влияние на людей 1 месяц miri.ness_ RE:Доступ 27 1 месяц bmusanov Оплатил, но абонемент не отображается 1 месяц holla RE:Багрепорт - 2 1 месяц konst1 RE:Файнридер для Win11 1 месяц larin RE:Оплатил, но абонемент не отображается 2 месяца Впечатления о книгах
Синявский про Александр Александрович Бушков
29 09 29 сентября 2025 года. Известный российский писатель Александр Бушков умер на 70-ом году жизни в больнице от остановки сердца.
mysevra про Громыко: Крысявки. Крысиное житие в байках и картинках (Природа и животные, Биографии и Мемуары)
29 09 Книга написана с такой любовью и юмором! Я знала, что декоративные крыски умные, ласковые и чистоплотные, но не знала, что они такие хрупкие. Оценка: отлично!
mysevra про Петров: Крах атамана (Исторический детектив, Исторические приключения)
29 09 Какой прекрасный язык! Просто упивалась чтением. Тем не менее, только этого для меня оказалось недостаточно для оценки magnifique. Оценка: хорошо
mysevra про Ночкин: Пищевая цепочка (Боевая фантастика)
29 09 Понравилось чуть меньше, чем вторая, но в целом достойное завершение серии. Оценка: хорошо
obivatel про Номен: Гонки олегархов (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
29 09 Ну, налицо профессиональная деформация автора: о генераторах, котлах, турбинах и т.п. может рассказывать часами. Довольно интересно рассказывает, но уж слишком однообразно. Экшена сильно недостаёт. Помнится, читал раз про ……… Оценка: хорошо
Isais про Крупняков: Царёв город [сказание о нове городе на Кокшаге] (Историческая проза)
28 09 Даже удивительно, как хорошо прочиталась книга -- легко, с интересом, не спотыкаясь на совсем нерусских словах, без напряжения, без фейспалмов и воплей "не верю!" И это несмотря на откровенные и грубые ошибки, в т.ч. в попытках ……… Оценка: неплохо
decim про Варламов: Мысленный волк (Историческая проза)
28 09 Хорошая книга - но не первые 2 тома "Хождения по мукам". И не "Пирамида" Леонова. Но хорошая. Сравню, пожалуй, с "Авиатором" Водолазкина. Люди Серебряного века - это верхние 5%, что ли, грамотных горожан. Остальные 95% ……… Оценка: хорошо
tvv про Васильев: Куш [litres самиздат] (ЛитРПГ, Самиздат, сетевая литература)
27 09 На АТ уже девять книг в свободном доступе.
Lan2292 про Садов: Хозяин (Городское фэнтези, Мистика, Самиздат, сетевая литература)
27 09 Люблю такие истории,но это произведение не смогла и даже обьяснить в чем дело не могу, нечитаемо
dolle про Сорокин: Сказка (Современная проза)
27 09 Глупая и пустая аннотация. В новом романе мухи наыдут дерьмо ,а пчёлы свой мёд и в этот раз Сорокин не изменил себе. Одни будут искать скрытые смыслы и посылы , другие получат удовольствие от прочтения , да окончание великолепно. Сказка. Оценка: отлично!
Isais про Олди: Свет мой, зеркальце… (Социальная фантастика, Ужасы)
26 09 Хотели написать хоррор? ОК, смогли. Намеревались насытить роман чужими словами, расхожими цитатами? Сверх меры! Буквально выходя за пределы хорошего вкуса. Планировали вызвать отвращение? Получилось на отлично. Не ……… Оценка: плохо
Belomor.canal про Пелевин: A Sinistra | А Синистра | Левый Путь (Триллер, Современная проза)
26 09 Как то, по нисходящей книги это серии. Из интересного - попробуйте читать с DeepSeek-ом. Что то непонятное встретилось - DeepSeek подскажет, что это в универсуме Виктора Олеговича. и в каком романе впервые появилось и т.д. ……… Оценка: неплохо |
Комментарии
Отв: Метаграммы
Я обработала почти 70%, но если Вы продвинулись дальше, то уступлю.
Отв: Метаграммы
А еще нужно учесть формы слова (падежи и т.п.), если очевидно, что ошибка будет "срабатывать" на всех или нескольких, то нужно добавлять и их.
Например, ворона - борона (нужно добавлять все падежи).
Врага - врата (только так, лишнего не надо).
Врата - брага (аналогично).
Врага - брага (здесь нужно перебрать падежи, на которых "сработает": враги - браги; враге - браге (-брате); врагу - брагу (-брату). Все перебрали, на других формах сработать не должно).
Отв: Метаграммы
Извините меня, ради Бога, я не знала, что вы делаете, иначе бы не стала браться. Очень сожалею, что так получилось. Я по алфавиту расставила, проверила в FBE орфографией и набором регэкспов, сейчас начала перебирать все падежные формы. После этого занятия с огромной, нет, с огромнейшей радостью отдам все в хорошие руки. Как вы решите. Если продвинулись дальше, или хотите сами сделать, я не буду настаивать. Могу выложить результаты, чтобы можно было сравнить.
Отв: Метаграммы
Я действительно очень сожалею, это неприятно, когда делаешь работу и кто-то переходит дорогу. Еще раз прошу прощения. Просто хотела побыстрее этот скрипт попробовать.
Отв: Метаграммы
Ничего страшного не произошло. Скорей я виновата, не известила о том, что начала делать. Но я придерживаюсь такого правила - не сообщать о недоделках.
Успехов Вам в работе.
Отв: Метаграммы
Тааак...
Не получится ли теперь, что никто теперь не будет делать? :(
Отв: Метаграммы
Я продолжаю. Но очень много вариантов. А нельзя по неизменяемой основе искать. Например, волевой - болевой, искать по — волев - болев. Без:
волевой - болевой
волевая - болевая
волевые - болевые
волевое - болевое
волевым - болевым
волевого - болевого
волевому - болевому
волевом - болевом
Если что, я не специалист и имею право на глупость :).
При перечислении всех вариантов количество слов увеличится в разы.
Отв: Метаграммы
Полагаю, что можно aka в словарях, типа:
волев~ - болев~
Авось, товарисчь, который возмётся варганить скрипт, с пониманием отнесётся к данной промблеме. :)
Отв: Метаграммы
Болдом выделены слова как они были предложены в теме. Курсивом выделена основа для поиска. Если все-таки нужно будет сделать все варианты, без проблем, только завтра.
Отв: Метаграммы
Водной - в одной
Водном - в одном (где там скрипт "слипшиеся слова" или как его там, может быть в подобных случаях он поможет?).
Отв: Метаграммы
Не, скрипт Слипшиеся слова ругнулся только на один случай отсутствия пробела перед дефисом, все остальное его устроило. И вообще я думала, что в скрипт будут входить только выловленные оригинальные "метаграммы", иначе бы тихо сидела себе в уголке. У меня вчера голова вспухла, я давно забыла, что такое спряжения, падежи и подобное.
Отв: Метаграммы
Ну вот это как раз реально выловленные:
Водной - в одной
Водном - в одном
и бороны - вороны тоже...
Отв: Метаграммы
Класс! Спасибо большое.
Уведомлю нашего уважаемого скриптописальщика. ;)
Отв: Метаграммы
Я подумала, может быть, зная, на каких буквах спотыкается FR, пособирать теоретически возможные случаи. Разумеется, не впадая в крайность. Например:
калан - калач
капитель - канитель
казак - казан
кадета - надета
кабак - кабан
платью - платно
лестью - лестно
голой - юлой
рыбкой - рыбной
Любимая FR замена буквы с на е в конце слова вполне может сработать в слове каперс — капере.
Или это лишнее?
Отв: Метаграммы
На мой взгляд, отличная идея. :)
Отв: Метаграммы
Тогда я сначала выложу варианты сюда, если возражений не будет, внесу в список.
Отв: Метаграммы
Водной - в одной
Водном - в одном
есть в списке, а
Борона - ворона
я добавлю, не заметила, что этого слова нет в списке, приняла только как пример, в предыдущих постах его не было. Извините, что не поняла вас.
Отв: Метаграммы
Вот, встретилось: полетать - под стать.
Редкость, наверное.
Отв: Метаграммы
Ну, метограммы все можно перебором из словаря выбрать программно... Не понимаю смысла составления этого Метограмматона... Вариантов подмены букв очень много и зависят они от качества скана, ШРИФТА!, программы распознающей и тп. Я уж не говорю про многоязычные книги или книги, где язык сознательно исковеркан (например, для передачи картавости, заикания...)
А по опыту, действительно - Файнридер порой такие перлы выдает, - кажется он неисчерпаем, как атом - без бутылки не разберешь, куда там регэкспами вылавливать)))
Отв: Метаграммы
Если по какой-то причине книга не вычитывается, этот скрипт позволит выловить хотя бы часть "метаграмм". И совесть успокоит. А сложные книги лучше вычитывать, здесь скрипт не понадобится. ИМХО.
То есть вариантов, естественно, было больше. Решите, что нужно оставить, или может быть добавить?
Отв: Метаграммы
Только что нарвался в новой книге Фоллетта
войны- воины
Отв: Метаграммы
Кстати, это встречается часто. И с падежами.
Отв: Метаграммы
Может быть, и даже скорее всего, уже было:
стальные / стильные - и все морфологические варианты;
мечты / менты - заглавие "Роковые менты" меня сильно порадовало :))
Отв: Метаграммы
Хотелось бы узнать: кто-нибудь что-нибудь делает по решению данного вопроса? Или...
Отв: Метаграммы
Да, собственно скрипт готов. Осталось его всесторонне потестировать и можно "выдавать". Если автор даст добро, можно выложить для массового тестирования.
Уточню.
Отв: Метаграммы
Я "вручную" пополняю Ваш, Голма, справочник. Мне кажется, нужно только в предложенном списке (может это уже реализовано) вначале ставить неправильный или "любимый ФР" вариант слов, а затем правильный. К примеру, в книгах издательства МГ, ФР№ 11 категорически не замечает букву "щ". Поэтому при варианте чаше-чаще я бы поставила, как ошибку "чаше".
Сейчас попалось: мешанина - мещанина. То есть у данного скрипта будет возможность "под себя" подстроить?
Отв: Метаграммы
Этим скриптом занимается Evernet, поэтому у меня нет ответов на Ваши вопросы.
Знаю только, что словарь для скрипта может пополняться пользователем. Давайте подождём ответа автора.
Отв: Метаграммы
Скрипт скоро будет представлен публике. Наполнением списка давно занимается Evernet. По этому вопросу лучше обратиться к ней. Замечу, что как располагать "правильный - неправильный" значения не имеет. Для этого используется символ $. Т.е. в вашем случае конкретно так: чаше-чаще$ и мешанина - мещанина$
Как видите - полная подстройка под нужды пользователя.
Отв: Метаграммы
Хорошо, буду ждать. А то очень сложно бывает выловить ошибки, которые подчас и смысл текста меняют
Отв: Метаграммы
FR11, в основном на гарнитуре таймс и неплохих по качеству сканах
Отв: Метаграммы
Архив со скриптом и необходимыми файлами выложен здесь: http://ge.tt/5fl904b/v/0 и здесь: http://rusfolder.com/35464421
Инструкция пользователя внутри архива.
Часть метаграмм УМЫШЛЕННО не обозначена символом $ — как априори верные.
В иных случаях возможно обсуждение необходимости простановки, перемещения либо удаления знака $.
Подготовкой xml-файла метаграмм и составлением инструкции пользователя занималась Evernet при участии Alex2L.
Она же занималась тестированием, за что ей отдельное спасибо!
Отв: Метаграммы
Можно уточнить по интрукции
У меня на диск "H", когда я нажимаю, пишет "вставьте диск"?
Отв: Метаграммы
Да куда захотите! Любой диск с правами на чтение-запись. Например, D:
Кстати в инструкции маленькая неточность:
вместо 'H://Metagramma//4OTHER//' следует понимать как 'H://4OTHER//'
В вашем случае, скажем, 'D://4OTHER//'
(4OTHER - можите ПЕРЕОБОЗВАТЬ)
Отв: Метаграммы
Поняла.Следующий вопрос
Как точно файл называется? У меня нет названия "Метаграмма-контекст.js" С окончанием "js" есть 5 файлов в папке "js"
Отв: Метаграммы
В файле инструкции "Метаграмма-контекст.rtf" написано:
т.е. в папка 4FBE - Метаграмма-контекст.js. В нём "D://XML//Metagramma//" - меняем на тот, куда распаковали!
Сам фвйл переносим в FB-скриптам.
Отв: Метаграммы
Вопрос: прописала 'D://4OTHER//'

2. Файл "Метаграмма-контекст.js" поместила в подпапку "Scripts"
3.Открыла FBE. В разделе скрипты появился раздел: метаграмма-контест. Нажимаю: пишет-
Отв: Метаграммы
Что прописано в 21-й сверху строке "Метаграмма-контекст.js" ? Так: var MetagrammaPath = 'D://4OTHER//'; ?!
А файл "metagramma.xml" гиде лежит? Тут: 'D:\4OTHER' ?!
Отв: Метаграммы
Спасибо, заработало. Я одну палочку в адресе не поставила.
Отв: Метаграммы
Антонина82, вы говорили, что пополняете словарик. Можете выложить ваши метаграммы, чтобы можно было добавить в свой?
Может быть у кого-нибудь еще появились новые, неплохо было бы писать сюда. А желающие уже будут добавлять в свой словарь.
Отв: Метаграммы
Слова, которые я добавляю в скрипт регэспов (кто придумал такое дурацкое словцо), практически перечислены выше.
Опробовала новый скрипт. Для меня он не очень подходит. Объясню почему. Дело в том, что все книги я прочитываю, сравнивая с бумажным экземпляром. Расценивайте это, как чудачество, при наличии сканов, но это так. Поэтому проверять повторно с помощью метаграмм, мне не очень хочется. Вчера потеряла несколько часов, проверяя с помощью этой программы, ранее сделанную книгу. Ни одной ошибки! Это не значит, что я вычитываю безошибочно. Наверняка, спустя год, прочитав ранее сделанную книгу, их обнаружу. Но, уверена, их количество не будет критичным.
Для себя вывела способ, как сократить количество ошибок. Надо брать одну-две-три серии книг одного издательства и сними работать. Примерно на 5-6-7 книге, вы будете знать "родовые" проблемы ФР при распознавании текста данного издания. К примеру, книги серии ЖЗЛ,как я писала выше, приобретают после работы ФР,"белорусский" акцент, т.е. букву "щ" превращают в в "ш". И получается "мешанина" вместо "мещанина" (: В книгах, серии "Живая история", обязательно надо проверить, если в конце предложения стоит буква "к" наличие точки. И 6 (шестерка) постоянно заменяется буквой "б". Я думаю, что Голма может привести значительно больше подобных примеров из практики. Ну, конечно, зацикливаться на книгах одной серии я не собираюсь, а то у меня в мозгах "сумбур биографий классиков".
Поэтому программа "метаграмм" будет хорошо работать и помогать тем книгоделам, кто не читает текстов. ФР покажет ошибки распознавания, а "метаграммы" покажут ошибки ФР.
Отв: Метаграммы
Это я ставил вопрос про спелчекер и вычитку. Поставил. Сделал даже под него иконку. Кого заинтересует здесь http://yadi.sk/d/vN5f9PtO3ITwL . Попробовал работать. По моему получается довольно параноидально. При проверке обнаружилось больше 500!!! слов. Только слово «более» имеет 105 вхождений. Проверка всех слов займет времени больше, чем вычитка. А по мере увеличения словаря будет еще хуже. Это первое впечатление. Посмотрим, что будет дальше.
Отв: Метаграммы
Что параноидально, эт точно! Сам когда увидел первые рез-ты - офигел, сколько слов оказывается в метаграммных связях замечены.
Насчет "более" - кто-то написал, что так у него "боже" распозналось. Наверное, так и было. С "далее" - та же, похоже, история. Тут два выхода - или переделать словарь "под себя", выкинув лишнее. Либо при прверке протокола не обращать на часть слов внимания в принципе, особенно тех, где кол-во повторений много. Кстати Это кол-во не вхождений данного слова в текст в целом, а кол-во параграфов, где встретилось это слово. Т.е. на самом деле их может быть больше. Уменьшение размеров словаря - путь к ускорению обработки. Оставить только типа "негр - неф" и т.п. Скрипт по большому счету для отпетых педантов. А что делать?! На джаваскриптах искусственные интелект не соорудить. ИМХО.
Отв: Метаграммы
Всего скрипт насчитал больше 4800 вхождений. Если, на просмотр каждого потратить 5 сек, то получится 24000 сек= 400 мин= 6,6 часов. Я эту книгу 400 стр. прочту за 8.
Страницы