Telegram — лонгриды

DeepSeek-OCR: Одна картинка стоит тысячи слов

DeepSeek-OCR: Одна картинка стоит тысячи слов

DeepSeek выпустил OCR-модель, которая превращает документы в изображения и обрабатывает их как визуальные токены вместо классических текстовых. Говорят, это может изменить архитектуру LLM: вместо обработки текста токен за токеном, DeepSeek-OCR рендерит его в картинку и сжимает в визуальные токены
Один токен изображения заменяет 10-20 текстовых токенов без особых потерь качества

У меня как раз есть несколько личных проектов, где нужно OCR-ить ~300 гб pdf-ок. На днях постараюсь попробовать и написать отзыв