Так получилось, что постов последнее время стало мало. Наткнулся в интернете на любопытный ресурс, где выложены некоторые старые газеты и буклеты. Уже неделю их выкачиваю в ручном режиме и наверное еще неделю это буду делать.
Пытался краулить сайт, чтобы все ссылки получить в "готовом" виде, но к сожалению не получилось, приходится все делать вручную.
Втором этапом будет распознавание текста, потому как все в виде картинок с весьма посредственным качеством. Надо будет обучить FineReader, потому как штатное распознавание совсем не справляется. Но это будет делаться в параллель к постингу, сейчас главное все выкачать.
UPD 05.12.2023
Все. Самый нудный и тяжелый этап скачки закончился, далее все будет распознаваться в фоновом режиме.
UPD 07.12.2023
Концепция изменилась, столько всего интересного. Пожалуй пока не распознаю все документы, новые посты с исторической справкой пока выходить не будут.
UPD 14.12.2023
Видимо декабрь будет мной пропущен совсем. Тяжело распознавание идет, за вчерашний вечер одолел публикации лишь за один год. Ни когда не предполагал, что распознавание текста это довольно ресурсоемкий процесс.
К сожалению, даже фотографии не получается подготовить к будущим публикациям. Процессор пашет на 70% и ОЗУ забита почти полностью.
Вероятно, лишь к новогодним праздникам или во время получится закончить. А ведь я скачал, в лучшем случае, половину.
UPD 16.12.2023
Почему мне казалось, что распознать текст в документе проще чем скачать фотографии документа?
Опытным путем пришел к тому, что FineReader лучше скармливать небольшими кусками документы, чем одним огромным |
Комментариев нет:
Отправить комментарий