Telegram — лонгриды

На hf обнаружил чувашские датасеты загруженные пользователем Alexander Antonov, который

Изображение из Telegram поста
На hf обнаружил чувашские датасеты загруженные пользователем Alexander Antonov, который
давно публикует корпуса на этом сайте https://ru.corpus.chv.su/content/about.html

— 30 тысяч аудиофрагментов фраз, записанных на чувашском языке
huggingface.co/datasets/alexantonov/chuvash_voice
— Чувашско-русский корпус из 1.4 млн предложений
https://huggingface.co/datasets/alexantonov/chuvash_russian_parallel
— Чувашско-английский корпус из 200 тыс. предложений
huggingface.co/datasets/alexantonov/chuvash_english_parallel
— 3 миллиона предложений на чувашском языке
huggingface.co/datasets/alexantonov/chuvash_mono

А также файнтюн-модель распознавания чувашского текста из аудио
huggingface.co/alexantonov/whisper-small-chv-pre
huggingface.co/alexantonov/whisper-medium-chv-pre

#датасеты@daniilak

Вам также может понравиться