FOSS снова побеждает: Free and Open Source Communities находит отклик в газетах XIX века (а также книгах и периодических

bitheerani319 · Post by **bitheerani319** » Thu Jul 10, 2025 6:46 am

Я никогда не был так воодушевлен и благодарен сообществам свободного и открытого кода. Три месяца назад я опубликовал запрос о помощи с распознаванием текста (OCR) и обработкой газет XIX века, и мы получили так много предложений. Спасибо, это было очень приятно и действительно помогло – уже сейчас, основываясь на этих предложениях, мы полностью переводим наше программное обеспечение для OCR и работы с PDF на свободное программное обеспечение (FOSS), вносим значительные улучшения и налаживаем данные номера телефона отношения с разработчиками FOSS в компаниях, университетах и среди частных лиц, что поможет Архиву Интернета получать гораздо более качественные оцифрованные тексты. Я очень благодарен, спасибо. Это очень воодушевляет.

Я разместил в блоге Архива Интернета просьбу о помощи: « Можете ли вы помочь нам сделать 19 век доступным для поиска?», и мы получили множество предложений в социальных сетях и более 50 комментариев под этим постом — возможно, это рекордный показатель откликов.

Мы уже переходим с нашего OCR на Tesseract/OCRopus и используем множество PDF-библиотек для создания сжатых, доступных и архивных PDF-файлов.

Несколько человек предложили инициативу правительства Германии OCR-D , которая разработала инструменты промышленного уровня для оптического распознавания текста (OCR) и сегментации сложных и старых материалов, таких как газеты, написанные старым немецким шрифтом Fraktur (англ. «шрифт»). (До этого Архив Интернета никогда не мог обрабатывать такие тексты, а теперь мы делаем это в больших масштабах .) Мы также можем распознавать тексты на большем количестве индийских языков, что просто замечательно. Этот правительственный проект — свободное программное обеспечение (FOSS), и он предусматривает финансирование для привлечения других пользователей, что значительно превосходит большинство исследовательских грантов.

За последние несколько лет Tesseract сделал большой шаг вперёд. Когда мы в последний раз оценивали точность распознавания, она была не такой высокой, как у фирменного OCR, но теперь всё изменилось: мы провели испытания, и она оказалась ничуть не хуже, а благодаря новой архитектуре может стать ещё лучше для нашего приложения.

В основе нового Tesseract лежит LSTM-движок, аналогичный разработанному для Ocropus2/ocropy, проекта Тома Брейеля (финансируемого Google, его бывшим Немецким университетом и, вероятно, другими — спасибо!). Он продолжил работу над этим проектом, даже оставив академическую карьеру. Программа машинного обучения знакомит нас с обработкой данных на GPU, что является дополнительным преимуществом. Её также можно обучать на исправленных текстах, что позволяет ей совершенствоваться.