2 декабря 2023 г.

Доклад по активности

Так получилось, что постов  последнее время стало мало. Наткнулся в интернете на любопытный ресурс, где выложены некоторые старые газеты и буклеты. Уже неделю их выкачиваю в ручном режиме и наверное еще неделю это буду делать.

Пытался краулить сайт, чтобы все ссылки получить в "готовом" виде, но к сожалению не получилось, приходится все делать вручную.

Втором этапом будет распознавание текста, потому как все в виде картинок с весьма посредственным качеством. Надо будет обучить FineReader, потому как штатное распознавание совсем не справляется. Но это будет делаться в параллель к постингу, сейчас главное все выкачать.

UPD 05.12.2023

Все. Самый нудный и тяжелый этап скачки закончился, далее все будет распознаваться в фоновом режиме.

UPD 07.12.2023

Концепция изменилась, столько всего интересного. Пожалуй пока не распознаю все документы, новые посты с исторической справкой пока выходить не будут.

UPD 14.12.2023

Видимо декабрь будет мной пропущен совсем. Тяжело распознавание идет, за вчерашний вечер одолел публикации лишь за один год. Ни когда не предполагал, что распознавание текста это довольно ресурсоемкий процесс.

К сожалению, даже фотографии не получается подготовить к будущим публикациям. Процессор пашет на 70% и ОЗУ забита почти полностью.

Вероятно, лишь к новогодним праздникам или во время получится закончить. А ведь я скачал, в лучшем случае, половину.

UPD 16.12.2023

Почему мне казалось, что распознать текст в документе проще чем скачать фотографии документа?

Графики нагрузки процессора
Опытным путем пришел к тому, что FineReader лучше скармливать небольшими кусками документы, чем одним огромным

Комментариев нет:

Отправить комментарий