Как мы протестировали AI-модели на извлечение данных из счетов: победитель удивил

MORGAN · 06.06.2025

Обработка счетов — важная и рутинная часть документооборота, которую всё чаще доверяют AI-моделям. Наша компания часто занимается интеллектуальной обработкой счетов для клиентов, а значит мы постоянно ищем лучший способ для их распознавания. Поэтому мы провели практическое исследование и сравнили, как с этой задачей справляются разные решения: от популярных open-source моделей до коммерческих API.
Исследование включало несколько этапов: мы собрали разнообразный датасет из реальных счетов, привели его к единому формату, определили метрики и протестировали 7 популярных на наш взгляд моделей, чтобы понять:
- Кто лучше справляется с извлечением данных?
- Насколько точны LLM «из коробки»?
- Стоит ли платить больше за детали?
В этой статье изложим краткие выводы, графики и наши рекомендации для тех, кто выбирает AI для invoice-процессинга.

Содержание
Что и как мы тестировали
Датасет
Датасет состоял из 20 реальных счетов-фактур разного формата и “возраста” (от 2006 до 2020 года), это были:
- Оцифрованные PDF и сканы с низким разрешением,
- Документы с нестандартной структурой (обернутый текст, подпункты, пропущенные суммы),
- Счета на английском языке, но с разной версткой и плотностью текста.
Извлекаемые данные

Извлекали 16 полей, таких как даты, суммы, имена, адреса и данные по позициям (описание, количество, цена, сумма). Поскольку каждое решение могло по-своему называть каждое поле, мы придумали формат названий и следовать этому формату, чтобы все результаты были единообразны.

AI-модели

Мы сравнивали 7 решений:
1. Amazon Analyze Expense (AWS)
2. Azure AI Document Intelligence
3. Google Document AI (Invoice Parser)
4. GPT-4o API — ввод текста с помощью стороннего OCR (gptt)
5. GPT-4o API — ввод изображения (gpti)
6. Gemini 2.0 Pro
7. Deepseek v3 (через текст + OCR)
Метрики
Для каждой модели мы рассчитывали показатель Eff (%) — взвешенная метрика эффективности для количественной оценки точности извлечения. Эта метрика объединяет:
- Строго обязательные поля: точные совпадения (например, идентификатор счета-фактуры, даты).
- Нестрогие обязательные поля: частичное совпадение допускается, если сходство (Относительное расстояние Левенштейна RLD, %) превышает пороговое значение.
- Позиции из счета-фактуры: оцениваются как правильные только в том случае, если все атрибуты элемента извлечены точно.
Методология расчета затрат
Расчет затрат на услуги искусственного интеллекта рассчитывались по факту, с учетом:
- Затрат на основе токенов (вход/выход) для текстовых моделей.
- Стоимости обработки изображений для моделей с поддержкой технического зрения (GPT-4o/Gemini).

Как мы протестировали AI-модели на извлечение данных из счетов: победитель удивил

MORGAN

Активный пользователь

Содержание​

Что и как мы тестировали​

Датасет​

Извлекаемые данные​

AI-модели​

Метрики​

Методология расчета затрат​

​

​

Содержание

Что и как мы тестировали

Датасет

Извлекаемые данные

AI-модели

Метрики

Методология расчета затрат