37 миллионов старых газетных страниц выложены в Сеть
Опубликовано сб, 24/12/2016 - 09:19 пользователем DeMorte
Forums: Как создать самый большой архив периодики в домашних условиях? Американец Том Триниски просто вооружился сканером и взялся за дело в собственной гостиной. Работая в одиночку, Том Триниски сумел оцифровать более 37 миллионов страниц старых газет — это больше, чем в американской Библиотеке Конгресса (крупнейшая библиотека мира), — сообщает Newtonew. Результаты своего труда он выкладывает в открытый доступ на сайте Fulton History, где можно найти архивы более 1000 газет штата Нью-Йорк, некоторых других штатов и Канады. В архиве, который составитель регулярно обновляет, содержатся издания с 1795 по 2007 год. Триниски — инженер на пенсии и любитель старины. Над сайтом и контентом он работал в одиночку, в своём доме. Четырнадцать лет назад он решил отсканировать коллекцию старых открыток с видами округа Фултон, Нью-Йорк (его родной район), чтобы поделиться ими в интернете. Впоследствии к открыткам добавились заметки, рекламные объявления, некрологи, печатные издания. Ресурс до сих пор называется в честь округа Фултон, хотя материалы давно вышли за первичные географические границы. Для оцифровки газет используется программа для оптического распознавания символов, которая иногда ошибается из-за того, что некоторые издания очень старые. Также создатель сайта задействовал микрофильмы, на которых есть следы царапин и пыли, однако это добавляет старым газетным страницам обаяния. Сайт Fulton History не всегда справляется с наплывом гостей, и временно бывает недоступен из некоторых точек мира. Если такое случилось, можно заглянуть на Chronicling America, ещё один открытый ресурс с историческими газетами, на сайт с архивами газет от Бруклинской публичной библиотеки, или прошерстить базу данных Нью-Йоркской публичной библиотеки — здесь тоже есть множество старых изданий, и не только американских.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
tvv RE:DNS 2 часа
DGOBLEK RE:Подайте бедному копеечку на книжку с литреса... 9 часов sem14 RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 20 часов MrMansur RE:<НРЗБ> 3 дня Stager RE:Беженцы с Флибусты 5 дней Tramell RE:Серия "Библиотека французской литературы" (Макбел) 5 дней sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя sem14 RE:Современная корейская литература. Книжная серия... 1 неделя sem14 RE:Серия "Символы времени" издательства "Аграф" 2 недели sem14 RE:Собираем серию: "Азбука-триллер", издательство "Азбука-Терра" 2 недели sem14 RE:«Юмористическая серия» 2 недели larin RE:Оплатил. Абонемент не отображается 2 недели larin RE:Оплатил, но абонемент не отображается 3 недели alexk RE:Багрепорт - 2 1 месяц Isais RE:Семейственность в литературе 1 месяц Violontan RE:Жан Батист Мольер воскрешенный 1 месяц sem14 RE:Гонкуровская премия 1 месяц Саша из Киева RE:Приключения белочки Рыжки 1 месяц Впечатления о книгах
lorealke про Метельский: Кровь легиона [СИ] (Фэнтези, Самиздат, сетевая литература)
03 01 Очередная графоманская ода «священной Империи» с невыносимым количеством воды и бухгалтерии. Вместо сюжета — унылый цикл: убил моба, продал лут, посчитал медяки, попил кофе — и так сотни страниц. Герой — абсолютная картонка, ……… Оценка: нечитаемо
hocmun про Ливадный: Дорога к фронту (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
02 01 К сожалению автор скатился в чуть ли не обычную пропаганду замаскированую под лит рпг и аля попаданцы . все решат ... После такой шедевральной серии как ,,Истоирия галактики,, к этому ? Простите друзья но это путь почившего ……… Оценка: плохо
lorealke про Тен: Шайтан Иван. Книга 1 [СИ] (Альтернативная история, Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
02 01 Лютая графомания с чудовищной орфографией, от которой буквально вытекают глаза. Герой — картонный нагибато» в вакууме: и спецназовец, и певец, и оружейник, решающий любые проблемы щелчком пальцев одной левой. Сюжета нет, сплошное ……… Оценка: плохо
lorealke про Мясников: Новороссия. ВоZVращение. Краткая история от Екатерины ll до Путина (История, Публицистика)
02 01 Типичная пропагандистская агитка. Мусор. Оценка: нечитаемо
Дей про Провинциалка в высшем свете
02 01 Существует ли хоть один детективно-любовный роман, в котором бы гг не была дурой? Влюбляется, как кошка - не успела уйти от одного (обманувшего её), как тут же увлеклась другим (пренебрежительно к ней относившемся), а потом ………
Лысенко Владимир Андреевич про Мясников: Новороссия. ВоZVращение. Краткая история от Екатерины ll до Путина (История, Публицистика)
02 01 Все предсказуемо, только русские могут быть правы, а весь мир против них. Оценка: нечитаемо
Олег Макаров. про Васильев: По государеву указу (Городское фэнтези, Рассказ, Самиздат, сетевая литература)
02 01 Удивительно слабая вещь для Васильева. Или как будто "на отвяжись" написана. Оценка: плохо
Oleg68 про Иванов: Дебри (История, Публицистика)
31 12 Исторические зарисовки на тему Сибири от авторов Оценка: неплохо
tvv про Никитин: Вадбольский – 6 (Фэнтези, Попаданцы)
29 12 Лилия Никитина выложила этот роман на АТ с посвящением: Роман Юрия Никитина. Публикация приурочена ко дню рождения Автора. Уважаемые читатели, поклонники, друзья! Сегодня, в день рождения Юрия Александровича ………
mysevra про Кассе: Третья мировая психотронная война (Публицистика)
29 12 Предсказуемо: Штаты – колыбель зла, все остальные в белом, особенно некоторые. Наймиты империализма хотят захватить независимую Беларусь и свободную Северную Корею – это же шедевр советской передовицы. Ни один политический ……… Оценка: плохо
mysevra про Лондон: Сердца трех [Hearts of Three ru] (Классическая проза ХX века, Приключения)
29 12 Отличный приключенческий роман, поднимает настроение. Оценка: отлично!
mysevra про Ми   : Седьмой читатель [litres] [Seventh Reader ru] (Триллер)
29 12 Читать интересно благодаря нездешнему колориту. Необычно. Оценка: хорошо |
RE:37 миллионов старых газетных страниц выложены в Сеть
Вот это мужик! Респект и уважуха!
От будут ли правообгладатели ему втыкать за использование материалов?
RE:37 миллионов старых газетных страниц выложены в Сеть
Из FAQ_HELP_INDEX:
В. Могу я добавить статью на этот сайт?
О. Ага. Если газета была опубликована в штате Нью-Йорк и не попадает под копирайт...
===
И на первой странице:
Мери Крисмас, библиотекарь!
RE:37 миллионов старых газетных страниц выложены в Сеть
Ну если оно в сети, тогда и все смогут загребти себе. Вот и если начнется массовое пополнение библиотек газетами...
RE:37 миллионов старых газетных страниц выложены в Сеть
Что-то сильно я сомневаюсь что именно 37 млн страниц газет, скорее всего. как пишут в статистике больших библиотек "единиц хранения" - отдельных открыток, рекламных обьявлений и т.д.
Попробуем посчитать.
37 000 000 / 14 лет = 2 642 000 страниц в год / 365 дней = 7 241 страница в день /12 часов = 600 стр в час или 6 страниц в минуту.
Многовато выходит, и это чисто сканирование. + какая-никакая обрезка + каталогизация + выкладка в Сеть.
RE:37 миллионов старых газетных страниц выложены в Сеть
Дети помогали. Или еще кто то.
А какие там страницы, может не такие как у нас. Тогда по несколько страниц за проход.
RE:37 миллионов старых газетных страниц выложены в Сеть
А можно задать вопрос: вы сами пробывали сканировать газеты?
RE:37 миллионов старых газетных страниц выложены в Сеть
Нет.
Но при современному оборудовании много чего возможно.
RE:37 миллионов старых газетных страниц выложены в Сеть
Расчёт - правильный. В исходных статьях ещё написано, что дедуля в последние три года оцифровывает по 250 000 страниц в месяц - те же самые 6 страниц в минуту (если считать, что он работает 24 часа в сутки, не питаясь и не отлучаясь в туалет).
Я тоже заинтересовался гигантскими цифрами в заметке и немного посчитал. А потом полез на англоязычные сайты и все странности исчезли. Всё гораздо проще.
С бумажными газетами дед недолго поработал в самом начале проекта - в 2001-2003 годах, когда у него был только планшетный сканер.
После этого он приобрёл мощный автоматический сканер для обработки микрофильмов (Wicks and Wilson Scanstation production-level microfilm scanner), наладил взаимодействие с библиотеками и запустил поточное производство. Так что последние 14 лет он оцифровывал микрофильмы, а не сами газеты.
Работает дед по 70-80 часов в неделю, и его работа заключается в том, чтобы распаковать привезённые ему микрофильмы, вставить их в мощный сканер-автомат и получить на выходе готовые сканы, практически не требующие дополнительной обработки. Их сразу можно отправлять на сайт.
Так что основную работу проделали десятки библиотекарей, десятилетиями превращавшие бумажные газеты в микрофильмы. А дед пользуется результатами их титанического труда. Это, конечно, не умаляет его заслуг - но объясняет его небывалую для сканировщика "производительность"...
Подробности - здесь:
http://www.thecrowleycompany.com/long-time-client-uses-wwl-scanners-digitize-26-million-newspaper-images/