22 и 23 июня 2026 вышли два принципиально разных ответа на один вопрос: как правильно извлекать текст из документов в 2026 году. Baidu выложила Unlimited-OCR в MIT open source — one-shot парсинг 40+ страниц за один проход, 8GB VRAM, бесплатно. На сле…
10+ лет в маркетинге, 300+ клиентских проектов: сайты, реклама, боты. Создатель GoBanana (228K+ пользователей, 11.6 млн ₽ выручки) и VibeCoderz. Делаю AI-продукты сам через Claude Code, Cursor, Windsurf и консультирую тех, кто хочет так же.
Об авторе →Claude Code: новый CLI-агент от Anthropic
Anthropic выпустила Claude Code — терминальный AI-агент для разработчиков. Инструмент работает прямо в командной строке и умеет писать, редактировать и запускать код.
Zcode AI: Полный гид по визуальному интерфейсу для Claude Code и AI-агентов
Узнайте, как использовать Zcode для управления Claude Code, Gemini и Codex в едином GUI. Настройка провайдеров, MCP-серверов и визуальный вайбкодинг.
YouTube-канал с монетизацией из любой точки мира: Пошаговый гайд 2026
Инструкция по созданию YouTube-канала: обход блокировок SMS, настройка расширенных функций через виртуальные номера и правила безопасности для монетизации.
Windsurf Code Maps: Как глубоко понимать архитектуру проекта перед написанием кода
Полный гайд по Windsurf Code Maps, модели Sway 1.5 и Sway Grep. Узнайте, как визуализировать архитектуру кода и ускорить разработку в 13 раз.
Vk Fast Cash Strategy
Аудитория ВКонтакте — это те же люди, что и в Instagram, но 'социальный контракт' площадки другой. Если Instagram — это 'дорогой ресторан' с демонстрацией успеха, то VK — это 'душевная шашлычная'. Здесь не работает глянцевый 'успешный успех
Обновлено: июнь 2026
22 и 23 июня 2026 вышли два принципиально разных ответа на один вопрос: как правильно извлекать текст из документов в 2026 году. Baidu выложила Unlimited-OCR в MIT open source — one-shot парсинг 40+ страниц за один проход, 8GB VRAM, бесплатно. На следующий день Mistral выпустила OCR 4 через managed API — bounding boxes, классификация блоков, confidence scores, 170 языков, $2 за тысячу страниц в batch-режиме.

Оба набирают ~93% на OmniDocBench. Оба решают задачу извлечения текста. Но это разные инструменты под разные задачи.
Разбираем, чем отличаются, что умеет каждый, и как выбрать нужный под конкретный пайплайн.
22-23 июня 2026: Baidu Unlimited-OCR (MIT, R-SWA, 93.92 OmniDocBench) и Mistral OCR 4 (API, bounding boxes, 93.07 OmniDocBench). Два разных подхода при одинаковом качестве. В статье: архитектура, бенчмарки, цены, код для быстрого старта, таблица сравнения.
Ссылки:
Хайп вокруг AI-агентов не отменил базовую задачу: достать структурированные данные из PDF. Это по-прежнему топ-1 бизнес-задача — счета, договоры, отчёты, книги.
Пока все обсуждают агентов и генерацию, тихая рабочая лошадь AI-инфраструктуры — распознавание документов — не останавливалась. Большинство реальных бизнес-пайплайнов начинаются с одного и того же: достать текст из PDF, который кто-то отсканировал или экспортировал три года назад.
Счета на оплату. Юридические договоры. Медицинские карты. Технические даташиты. Книги в архивах. Таможенные декларации. Всё это — документы, которые нужно распознать, структурировать и передать дальше в пайплайн.
Рынок давно перерос простое «достань текст». Теперь нужны bounding boxes для хайлайтинга цитат, классификация блоков для понимания структуры, confidence scores для человеческой верификации, structured JSON для прямой вставки в базы данных. Два июньских релиза — два разных ответа на этот запрос.
Главная фича — не точность, а структура. Bounding boxes, классификация блоков, confidence scores. На выходе не просто текст, а размеченный документ.
Mistral OCR 4 вышел 23 июня. Managed API плюс enterprise self-host в одном контейнере. Но главное не инфраструктура, а то, что модель отдаёт на выходе.
Большинство OCR-инструментов возвращают текст. Mistral OCR 4 возвращает размеченный документ:
Работает с PDF, DOC, PPT, OpenDocument. 170 языков, 10 языковых групп. Русский — в топовой группе. Самый большой отрыв от конкурентов — на редких языках: хинди, грузинский, армянский, иврит, тамильский, малаялам.
Pure Extraction — Markdown с bbox'ами, типами блоков и confidence scores. Для RAG-индексации и поиска.
Document AI — структурированный JSON по твоей схеме. Описываешь, что хочешь извлечь, модель возвращает это напрямую. Для invoice processing, form filling, compliance. Работает через mistral-small-2603 с image annotation.
| Режим | Стандарт | Batch (50% скидка) |
|---|---|---|
| Pure Extraction | $4 / 1K страниц | $2 / 1K страниц |
| Document AI (structured JSON) | $5 / 1K страниц | $2.50 / 1K страниц |
По отзывам Rogo: «эквивалентная точность при ~8× меньшей стоимости и 17× меньшей латентности» относительно предыдущего провайдера. Anaqua: «~4× быстрее на страницу».
import os
from mistralai import Mistral
client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])
# Pure extraction — Markdown + bboxes + confidence
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={"type": "file", "file": open("contract.pdf", "rb")}
)
# Document AI — структурированный JSON по схеме
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={"type": "file", "file": open("invoice.pdf", "rb")},
response_format={"type": "json_object"}
)Главная фича — one-shot парсинг 40+ страниц за один проход. MIT-лицензия, 8GB VRAM. Архитектура R-SWA держит память постоянной — не растёт с длиной документа.
Unlimited-OCR вышел 22 июня на GitHub с MIT-лицензией. 3B-A0.5B MoE-архитектура. 4.9K звёзд за первые дни. И технически интересная инновация, которая объясняет, почему это не просто «ещё одна open-source OCR».
Стандартные LLM-декодеры плохо справляются с OCR длинных документов. Причина архитектурная: KV-кэш растёт линейно с каждым выходным токеном. На 200-страничном PDF модель начинает «захлёбываться» — растущая память замедляет всё, качество падает.
Обычное решение: нарезать на страницы, распознавать по одной, склеивать. Проблема — разрывы контекста на стыках страниц, потеря табличных структур, которые переходят со страницы на страницу.
Reference Sliding Window Attention — архитектурная инновация в основе Unlimited-OCR. KV-кэш ограничен фиксированным sliding window в 128 токенов. Не растёт с длиной документа. Память постоянная вне зависимости от количества страниц.
Результат в числах: 7 847 токенов в секунду против 5 823 у DeepSeek-OCR — +35% пропускной способности. Латентность плоская: 200 страниц обрабатываются примерно с той же скоростью на токен, что и 20.
Влезает в 8GB VRAM. Квантизованная версия — в 2GB. Два visual config:
Два режима инференса: HuggingFace Transformers (проще начать) и SGLang (high-throughput serving для продакшн-объёмов).
import torch
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained(
"baidu/Unlimited-OCR",
trust_remote_code=True,
torch_dtype=torch.bfloat16,
).eval().cuda()
tokenizer = AutoTokenizer.from_pretrained("baidu/Unlimited-OCR", trust_remote_code=True)
model.infer(
tokenizer,
prompt='<image>document parsing.',
image_file='your_document.pdf',
output_path='./output',
# gundam config — быстрее
base_size=1024, image_size=640, crop_mode=True,
max_length=32768,
save_results=True,
)200-страничный PDF на RTX 4090 — около часа. Практический максимум при 32K контексте — ~40 страниц. Роадмап: 128K контекст.
Важно знать перед выбором: Unlimited-OCR — pure text extraction. Нет bounding boxes, нет классификации блоков, нет confidence scores. Текст — есть, структура — нет.
Проваливается на: научных PDF с нестандартным LaTeX, электронных даташитах со слитыми ячейками таблиц, рукописном тексте, нестандартных шрифтах. На 40+ страницах edit distance начинает расти: 0.0572 на 20 страницах, 0.1069 на 40+ (приемлемо, но не идеально).
Mistral сами флагают: ~50% ошибок в бенчмарках — артефакты разметки. Реальное качество ближе к 90-98%. Золотое правило — тестируй на своих документах.
| Бенчмарк | Mistral OCR 4 | Unlimited-OCR |
|---|---|---|
| OlmOCRBench | 85.20 | — |
| OmniDocBench v1.5 | 93.07 | 93.23 |
| OmniDocBench v1.6 | — | 93.92 (SOTA) |
| Формулы (OmniDoc) | — | 92.61 (+9.2 vs DeepSeek) |
| Таблицы (OmniDoc) | — | 90.93 (+6.0 vs DeepSeek) |
| Human preference win rate | 72% (600+ документов) | — |
| Пропускная способность | — | 7 847 tok/s (+35% vs DeepSeek) |
Mistral сами сделали важную оговорку в анонсе: около половины «ошибок» в бенчмарках — не настоящие ошибки модели, а артефакты:
Реальное качество на нормальных документах — ближе к 90-98%. Синтетические бенчмарки не отражают твои сканы с телефона или PDF из 1990-х.
Золотое правило: запусти оба на своих документах. 10-20 репрезентативных файлов из реального пайплайна скажут больше, чем любой лидерборд.
| Mistral OCR 4 | Baidu Unlimited-OCR | |
|---|---|---|
| Тип | Managed API + enterprise self-host | Open weights, MIT |
| Bounding boxes | ✅ | ❌ |
| Block classification | ✅ заголовки, таблицы, формулы | ❌ |
| Confidence scores | ✅ per-page + per-word | ❌ |
| One-shot 40+ страниц | через API (per doc) | ✅ нативно |
| Локальный запуск | enterprise (цена закрытая) | ✅ 8GB VRAM, MIT |
| Языки | 170, 10 групп | comparable, фокус CJK |
| Цена | $2-5 / 1K страниц | бесплатно |
| Продакшн SLA | ✅ | ❌ исследовательский код |
| Интеграции | SageMaker, Snowflake, Foundry | HuggingFace, SGLang |
| Зрелость | production API | 1 контрибьютор, v0 |
Выбери Mistral OCR 4 если:
Выбери Unlimited-OCR если:
По оценке CodeSOTA, практическая битва июня 2026 — трёхсторонняя:
Остальные игроки: PaddleOCR-VL-1.6 (Baidu) заявляет 96.33 — но не воспроизведено независимо. MinerU2.5-Pro (OpenDataLab) — 95.69, тоже self-reported. DeepSeek-OCR 2 — 90.25 на v1.6. Azure Document Intelligence и AWS Textract — коммерческие лидеры прошлого поколения, ~85%.
Что нового в Mistral OCR 4 по сравнению с предыдущими версиями?
Главное — bounding boxes с локализацией текста, классификация блоков (заголовки, таблицы, формулы, подписи, колонтитулы) и confidence scores на уровне страницы и слова. Это переводит OCR из «вытащи текст» в «отдай размеченный документ». Плюс режим Document AI — структурированный JSON по твоей схеме прямо из модели.
Может ли Unlimited-OCR заменить Mistral для продакшена?
Для text extraction в изолированной инфраструктуре — да. Для пайплайнов, которым нужны bounding boxes, classification или confidence scores — нет, этого в Unlimited-OCR просто нет. Плюс это исследовательский код с одним контрибьютором, без SLA.
Почему память Unlimited-OCR не растёт с длиной документа?
Из-за R-SWA (Reference Sliding Window Attention). KV-кэш ограничен фиксированным sliding window в 128 токенов — не накапливается. Стандартные LLM-декодеры хранят всю историю токенов, Unlimited-OCR — только окно.
Насколько точны бенчмарки OCR?
Mistral сами признают: ~50% «ошибок» — артефакты бенчмарка, не ошибки модели. Ошибки в эталонной разметке, нестандартный LaTeX, multi-column порядок создают ложные несоответствия. Реальное качество — 90-98%. Единственный надёжный тест — свои документы.
Поддерживает ли Mistral OCR 4 русский?
Да, русский в топовой языковой группе. Mistral лидирует на редких языках — хинди, грузинский, армянский, иврит, тамильский, малаялам, каннада, телугу, гуджарати, бенгальский.
Сколько стоит обработать 100 000 страниц в Mistral?
Стандарт: $400. Batch API (50% скидка): $200. Document AI: $500 стандарт / $250 batch. Для контекста: если раньше платили за другой провайдер — Rogo говорит о ~8× меньшей стоимости при той же точности.
Что такое OmniDocBench?
Открытый независимый бенчмарк для оценки OCR-моделей на реальных документах: научные статьи, книги, финансовые отчёты, таблицы, формулы. Считается наиболее представительным для практических задач. Лидерборд: github.com/opendatalab/OmniDocBench.
OCR (Optical Character Recognition) — распознавание текста из изображений и документов. В 2026 году — это не просто текст, а структурированные данные с метаданными о расположении и типах блоков.
Bounding box — прямоугольник, задающий координаты текстового блока на странице. Нужен для хайлайтинга цитат, для UI с кликабельными ссылками на источник, для RAG с визуальной привязкой к документу.
Block classification — определение типа текстового блока: заголовок, параграф, таблица, математическое уравнение, подпись к рисунку, колонтитул. Позволяет понимать структуру документа, а не просто читать текст линейно.
Confidence score — оценка уверенности модели в распознанном тексте от 0 до 1. Per-page (по странице) и per-word (по слову). Используется для HITL: автоматически пропускаешь высокий score, отправляешь человеку низкий.
HITL (Human-in-the-Loop) — процесс, где человек проверяет результаты модели в ключевых точках. В OCR: модель с низким confidence score автоматически передаёт документ на ручную верификацию.
MoE (Mixture of Experts) — архитектура нейросети, где активируется только часть параметров для каждого токена. Unlimited-OCR: 3B параметров всего, 0.5B активных — быстрее при меньшем потреблении памяти.
R-SWA (Reference Sliding Window Attention) — архитектурная инновация Baidu. KV-кэш фиксированной ширины (128 токенов), не растёт с длиной документа. Позволяет парсить длинные документы без деградации производительности.
KV-кэш — key-value cache, хранилище промежуточных вычислений в трансформере. В стандартных моделях растёт линейно с числом токенов, что ограничивает работу с длинными документами.
Edit distance — метрика качества OCR: насколько распознанный текст отличается от эталона по числу операций замены, вставки, удаления символов. Чем ближе к 0 — тем точнее. Unlimited-OCR: 0.0572 на 20 страницах, 0.1069 на 40+.
Document AI — режим Mistral OCR 4, где на выходе не Markdown, а структурированный JSON по схеме пользователя. Не нужно парсить текст — модель сразу заполняет поля.
Анонс Mistral OCR 4 — mistral.ai/news/ocr-4. Репозиторий Unlimited-OCR — github.com/baidu/Unlimited-OCR. Технический пейпер — arxiv.org/abs/2606.23050. Независимый лидерборд — OmniDocBench. Сравнение всех OCR-моделей — codesota.com/ocr.
Смотрите каталог AI-инструментов на VibeCoderz — там собраны актуальные инструменты для работы с документами и данными.
Вопросы по выбору OCR под конкретный пайплайн — к Максиму.
Обновлено: июнь 2026. Источники: Mistral Blog, Baidu GitHub, arXiv, CodeSOTA, Developers Digest.