Как мы протестировали AI-модели на извлечение данных из счетов: победитель удивил

  • Автор темы Автор темы MORGAN
  • Дата начала Дата начала

MORGAN

Активный пользователь
Регистрация
04.06.2025
Сообщения
1 178
Реакции
1 068
Баллы
113
16197886ceb694b2587dbd735e064fb8.png
Обработка счетов — важная и рутинная часть документооборота, которую всё чаще доверяют AI-моделям. Наша компания часто занимается интеллектуальной обработкой счетов для клиентов, а значит мы постоянно ищем лучший способ для их распознавания. Поэтому мы провели практическое исследование и сравнили, как с этой задачей справляются разные решения: от популярных open-source моделей до коммерческих API.
Исследование включало несколько этапов: мы собрали разнообразный датасет из реальных счетов, привели его к единому формату, определили метрики и протестировали 7 популярных на наш взгляд моделей, чтобы понять:

  • Кто лучше справляется с извлечением данных?
  • Насколько точны LLM «из коробки»?
  • Стоит ли платить больше за детали?
В этой статье изложим краткие выводы, графики и наши рекомендации для тех, кто выбирает AI для invoice-процессинга.

Содержание

  1. Что и как мы тестировали
    1. Датасет
    2. Извлекаемые данные
    3. AI-модели
    4. Метрики
    5. Методология расчета затрат
  2. Основные выводы
    1. Gemini
    2. GPT-4o
    3. Google Document AI
    4. AWS и Azure
    5. Deepseek
    6. Качество изображений влияет слабо
    7. Нестандартные счета ломают все модели
  3. Cравнение стоимости
  4. Наши рекомендации и выводы

Что и как мы тестировали

Датасет

Датасет состоял из 20 реальных счетов-фактур разного формата и “возраста” (от 2006 до 2020 года), это были:
  • Оцифрованные PDF и сканы с низким разрешением,
  • Документы с нестандартной структурой (обернутый текст, подпункты, пропущенные суммы),
  • Счета на английском языке, но с разной версткой и плотностью текста.

Извлекаемые данные

396563dee46d0b8716939f55a44dcf73.png
Извлекали 16 полей, таких как даты, суммы, имена, адреса и данные по позициям (описание, количество, цена, сумма). Поскольку каждое решение могло по-своему называть каждое поле, мы придумали формат названий и следовать этому формату, чтобы все результаты были единообразны.

AI-модели

67b22a00a5efdd7346500b14e918265a.png
Мы сравнивали 7 решений:
  1. Amazon Analyze Expense (AWS)
  2. Azure AI Document Intelligence
  3. Google Document AI (Invoice Parser)
  4. GPT-4o API — ввод текста с помощью стороннего OCR (gptt)
  5. GPT-4o API — ввод изображения (gpti)
  6. Gemini 2.0 Pro
  7. Deepseek v3 (через текст + OCR)

Метрики

Для каждой модели мы рассчитывали показатель Eff (%) — взвешенная метрика эффективности для количественной оценки точности извлечения. Эта метрика объединяет:
  • Строго обязательные поля: точные совпадения (например, идентификатор счета-фактуры, даты).
  • Нестрогие обязательные поля: частичное совпадение допускается, если сходство (Относительное расстояние Левенштейна RLD, %) превышает пороговое значение.
  • Позиции из счета-фактуры: оцениваются как правильные только в том случае, если все атрибуты элемента извлечены точно.
ecd702df0db54bafc14b1242000ef47a.png

Методология расчета затрат

Расчет затрат на услуги искусственного интеллекта рассчитывались по факту, с учетом:
  • Затрат на основе токенов (вход/выход) для текстовых моделей.
  • Стоимости обработки изображений для моделей с поддержкой технического зрения (GPT-4o/Gemini).
e5c7bf13d5f35bd0aba655a8ac2b6bbe.png

Основные выводы

Мы не просто так разбили содержимое счетов на несколько категорий: обязательные поля, необязательные поля и позиции из счетов-фактур. Потому что модели “сыпались” в основном на позициях из счетов фактур.
Вот, обобщенные результаты распознавания счетов. В лидерах - AWS, в проигравших Google - данная модель не сумела разбить позиции на отдельные сущности, все выгрузила единой строкой.

a9efdc85199e01a8e425e82ea2b7fc2a.png
Но если мы выгрузим только основные поля, не рассматривая результаты по позициям из счетов-фактур, то результаты будут совсем иными. Здесь лучше всех себя показал Deepseek, а хуже всех - снова Google.
485c13b1f0db5137f41bf6aa31717181.png

 
Назад
Верх