Telegram

Представляете — есть архив на 439 гигабайт, состоящий из 27_796 PDF-файлов по чувашской тематике....

Изображение из Telegram поста
Представляете — есть архив на 439 гигабайт, состоящий из 27_796 PDF-файлов по чувашской тематике. Это материалы из каталога Национальной библиотеки Чувашской Республики.

Общее количество страниц переваливает за миллион — 1_057_892 страницы. Такое ощущение, что в этих файлах собрана целая вселенная знаний чувашского народа, но всё равно этого мало

Интересно, как бы эти PDF обработались через DeepSeek OCR — он ведь работает с токенами достаточно эффективно и недорого. Можно было бы сделать всё это массивное наследие полностью текстовым и поисковым.

Ранее ко мне уже обращалась команда Gigachat с запросом на поиск уникальных датасетов. Надеюсь, работа с этим материалом уже проводится и он позволит им углубить свои знания о чувашской культуре

Daniilak — Канал