Как мы протестировали AI-модели на извлечение данных из счетов: победитель удивил

MORGAN · 07.06.2025

Обработка счетов — важная и рутинная часть документооборота, которую всё чаще доверяют AI-моделям. Наша компания часто занимается интеллектуальной обработкой счетов для клиентов, а значит мы постоянно ищем лучший способ для их распознавания. Поэтому мы провели практическое исследование и сравнили, как с этой задачей справляются разные решения: от популярных open-source моделей до коммерческих API.
Исследование включало несколько этапов: мы собрали разнообразный датасет из реальных счетов, привели его к единому формату, определили метрики и протестировали 7 популярных на наш взгляд моделей, чтобы понять:

Кто лучше справляется с извлечением данных?
Насколько точны LLM «из коробки»?
Стоит ли платить больше за детали?

В этой статье изложим краткие выводы, графики и наши рекомендации для тех, кто выбирает AI для invoice-процессинга.

Содержание

Что и как мы тестировали

Датасет

Датасет состоял из 20 реальных счетов-фактур разного формата и “возраста” (от 2006 до 2020 года), это были:

Оцифрованные PDF и сканы с низким разрешением,
Документы с нестандартной структурой (обернутый текст, подпункты, пропущенные суммы),
Счета на английском языке, но с разной версткой и плотностью текста.

Извлекаемые данные

Извлекали 16 полей, таких как даты, суммы, имена, адреса и данные по позициям (описание, количество, цена, сумма). Поскольку каждое решение могло по-своему называть каждое поле, мы придумали формат названий и следовать этому формату, чтобы все результаты были единообразны.

AI-модели

Мы сравнивали 7 решений:

Amazon Analyze Expense (AWS)
Azure AI Document Intelligence
Google Document AI (Invoice Parser)
GPT-4o API — ввод текста с помощью стороннего OCR (gptt)
GPT-4o API — ввод изображения (gpti)
Gemini 2.0 Pro
Deepseek v3 (через текст + OCR)

Метрики

Для каждой модели мы рассчитывали показатель Eff (%) — взвешенная метрика эффективности для количественной оценки точности извлечения. Эта метрика объединяет:

Строго обязательные поля: точные совпадения (например, идентификатор счета-фактуры, даты).
Нестрогие обязательные поля: частичное совпадение допускается, если сходство (Относительное расстояние Левенштейна RLD, %) превышает пороговое значение.
Позиции из счета-фактуры: оцениваются как правильные только в том случае, если все атрибуты элемента извлечены точно.

Методология расчета затрат

Расчет затрат на услуги искусственного интеллекта рассчитывались по факту, с учетом:

Затрат на основе токенов (вход/выход) для текстовых моделей.
Стоимости обработки изображений для моделей с поддержкой технического зрения (GPT-4o/Gemini).

Основные выводы

Мы не просто так разбили содержимое счетов на несколько категорий: обязательные поля, необязательные поля и позиции из счетов-фактур. Потому что модели “сыпались” в основном на позициях из счетов фактур.
Вот, обобщенные результаты распознавания счетов. В лидерах - AWS, в проигравших Google - данная модель не сумела разбить позиции на отдельные сущности, все выгрузила единой строкой.

Но если мы выгрузим только основные поля, не рассматривая результаты по позициям из счетов-фактур, то результаты будут совсем иными. Здесь лучше всех себя показал Deepseek, а хуже всех - снова Google.

Как мы протестировали AI-модели на извлечение данных из счетов: победитель удивил

MORGAN

Активный пользователь

Содержание​

Что и как мы тестировали​

Датасет​

Извлекаемые данные​

AI-модели​

Метрики​

Методология расчета затрат​

Основные выводы​

​

​

​

​