Вы здесьОбновление скрипта "Поиск по набору регэкспов" для FBE - тестируем!
Опубликовано пт, 06/09/2019 - 04:13 пользователем TaKir
Дошли руки существенно дополнить, обновить, почистить и структурировать по смыслу скрипт "Поиск по набору регэкспов" для Fiction Book Editor (FBE). Автор этого скрипта (как и многих других скриптов для FBE) - Sclex, за что ему отдельное гран мерси. Наполнение скрипта мое, Sclex-а + учтены все возможные пожелания книгоделов из двух старых здешних тем: Типичные ошибки распознавания... Пользоваться и тестировать могут все желающие, отзывы, примеры, предложения по улучшению категорически приветствуются. Просьба приводить конкретные примеры: - ошибок скрипта, ложных срабатываний Очень приветствуется помощь тех, кто хорошо знаком с регулярными выражениями для дальнейшего совершенствования скрипта. Ссылка на последнюю версию скрипта (30-09-2019): альтернативные ссылки: Заменить этим файлом имеющийся файл (или положить новый вариант скрипта рядом) в папке: Скрипту удобнее назначить горячую клавишу F2 (меню: Сервис-Настройки-Клавиши-Скрипты-Поиск по набору регэкспов). Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице" По мере накопления отзывов о работе скрипта, планирую периодически пополнять скрипт и выкладывать обновленную версию. P.S. На Флибусте открыта аналогичная тема, можно писать в любую.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Как бы с этим побороться и побороть? 6 часов
medved RE:Список современных французских писателей? 1 день etorus2008 RE:Отв: Помогите найти книгу по описанию 5 дней lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 1 неделя Wedmak RE:Помогите найти!.. #2 1 неделя Belomor.canal RE:Подайте бедному копеечку на книжку с литреса... 1 неделя sem14 RE:Координация сканирования и вычитки 1 неделя babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели Isais RE:Мои открытия 2 недели kopak RE:О группе Дятлова. О той самой, того самого... 2 недели A5. RE:Не присылает пароль на почту 3 недели babajga RE:Плюмаж 1 месяц babajga RE:Блошкинс и Фрю. Опасное путешествие 1 месяц alexk RE:Багрепорт - 2 1 месяц babajga RE:Удивленная сова 1 месяц Larisa_F RE:Серия «Квадрат» издательства «Текст» 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц edvud RE:Прошу переформатировать, распознать, etc... 1 месяц Впечатления о книгах
0к про Четверикова: Измена в Ватикане, или Заговор пап против христианства (История, Публицистика)
07 05 Да, вандалы испоганили оригинальный текст - Розенберг стал Гейзенбергом. Но, автор превосходен, поэтому отлично. Оценка: отлично!
decim про Рис: Наблюдатель [litres] (Современная проза)
07 05 Продвинутый британский дамский роман, несколько затянутый. Провокаций тут не шибко, ради качественной провокации читайте "Homo Фабер". Если считать за провокацию постоянные косячки(в переводе названные самокрутками, что поначалу ……… Оценка: неплохо
alexk про Москаленко: Юный бастард. Книга 3 [СИ] (Боевая фантастика, Самиздат, сетевая литература)
07 05 Насколько я помню, этот автор - чемпион по количеству незаконченных циклов.
Лысенко Владимир Андреевич про Москаленко: Юный бастард. Книга 3 [СИ] (Боевая фантастика, Самиздат, сетевая литература)
06 05 Книга понравилась, читается легко, жду продолжения. Оценка: отлично!
Skyns71 про Апокалипсис сегодня
05 05 Искренне сочувствую автору. Ведь был когда-то хорошим писателем...
tvv про Frensens: Jerns Ūls [lv] (Историческая проза)
05 05 Автор книги Густав Френсен, http://az.lib.ru/f/frensen_g/ , https://en.wikipedia.org/wiki/Gustav_Frenssen
tvv про Jillenstens: Dona Žuana ēnā. Ačgārnā atmiņa. Gluži vienkārši [lv] (Историческая проза)
05 05 Автор книги https://ru.wikipedia.org/wiki/Юлленстен,_Ларс
tvv про Larreta: Dona Ramiro godība [lv] (Историческая проза)
05 05 Автор книги https://en.wikipedia.org/wiki/Enrique_Larreta
Lan2292 про Васильев: Новое назначение (Приключения: прочее, Городское фэнтези, Самиздат, сетевая литература)
05 05 Ай только распробовала как закончилась книжка, ждем Оценка: отлично! |
Комментарии
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Ну, я не специалист-филолог, но мне кажется, скрипт должен ориентироваться на литературный, а не на просторечный вариант.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
В FBE есть проверка по словарю. "Орфография" F7 тыц. У поиска по набору регэкспов другая задача.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Не буду спорить. Свою задачу я вижу в том, чтобы набрать статистику. Что из нее учитывать, а что не учитывать, думаю должны решать разработчики.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Идеальный скрипт в любом случае не сделать.
Писалось выше - улучшить бы "Генеральную уборку".
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Пока не вижу примеров для доработки скрипта, кроме прилипшего многоточия и удаления пробела перед маркером сноски.
Какие улучшения нужны?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
А апостроф?
...предусмотреть замену всех возможных различных вариаций апострофов - ´ ʼ ′ ˙ ΄ - на ' (буква «э» на англ. раскладке), который U+0027.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
V_E, вы, вообще, в курсе, что пробел и нижнее подчеркивание, это разные символы?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Прошу прощения, но не совсем понял, в связи с чем возник этот вопрос? Если ответить коротко - да, в курсе, но, по-моему, про нижнее подчеркивание я ничего не писал? И на его проверку не жаловался. Может, конечно, что-то запамятовал, уточните, если не сложно, почему вы меня об этом спрашиваете.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
V_E, потому что во многих ваших книгах, загруженных сюда, в названии книги вместо пробелов стоят нижние подчеркивания.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Можно попросить ссылку? И уточните, о чем идет речь: о названии книги (печатное издание) или имени файла? Нижнее подчеркивание использую в имени файла. Это давняя привычка, обусловленная определенными причинами. А вот в названии книги - что-то за собой такого не помню. Если дадите ссылку, проверю по своим оригиналам. Может быть, это какая-то ошибка, тем более, что она есть "во многих файлах". Надо посмотреть, что это такое.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Теперь еще по поводу работы скрипта, столкнулся с моментами, вызвавшими легкое удивление:
скрипт иногда обнаруживает, а иногда пропускает полужирное начертание отдельной буквы предлог "и", местоимение "я". Удивило, что иногда полужирное начертание обнаруживается, а иногда нет. Может, конечно, он реагирует на что-то иное, совпадающее с полужирным начертанием.
Также пропускает сочетание ., (точка и запятая). Также пропускает слово нащ (должно быть - наш). Но это, видимо, тоже относится к орфографическим ошибкам, которые скрипт не проверяет?
Добавлено позже:
Обрабатывал скриптом книгу, в которой при распознавании был пропущены все дефисы в словах типа как-то, кто-то кто-либо, когда-либо и т.д. Заметил, что скрипт пропускает словосочетание дватри (два-три); и тотмто (том-то в выражении "в том-то и дело")
Страницы