Как мы протестировали AI-модели на извлечение данных из счетов: победитель удивил

  • Автор темы Автор темы MORGAN
  • Дата начала Дата начала

MORGAN

Активный пользователь
Регистрация
04.06.2025
Сообщения
1 179
Реакции
1 069
Баллы
113
  • 16197886ceb694b2587dbd735e064fb8.png
    Обработка счетов — важная и рутинная часть документооборота, которую всё чаще доверяют AI-моделям. Наша компания часто занимается интеллектуальной обработкой счетов для клиентов, а значит мы постоянно ищем лучший способ для их распознавания. Поэтому мы провели практическое исследование и сравнили, как с этой задачей справляются разные решения: от популярных open-source моделей до коммерческих API.
    Исследование включало несколько этапов: мы собрали разнообразный датасет из реальных счетов, привели его к единому формату, определили метрики и протестировали 7 популярных на наш взгляд моделей, чтобы понять:
    • Кто лучше справляется с извлечением данных?
    • Насколько точны LLM «из коробки»?
    • Стоит ли платить больше за детали?
  • В этой статье изложим краткие выводы, графики и наши рекомендации для тех, кто выбирает AI для invoice-процессинга.

    Содержание

    1. Что и как мы тестировали
      1. Датасет
      2. Извлекаемые данные
      3. AI-модели
      4. Метрики
      5. Методология расчета затрат
    2. Основные выводы
      1. Gemini
      2. GPT-4o
      3. Google Document AI
      4. AWS и Azure
      5. Deepseek
      6. Качество изображений влияет слабо
      7. Нестандартные счета ломают все модели
    3. Cравнение стоимости
    4. Наши рекомендации и выводы
  • Что и как мы тестировали

    Датасет

    Датасет состоял из 20 реальных счетов-фактур разного формата и “возраста” (от 2006 до 2020 года), это были:
    • Оцифрованные PDF и сканы с низким разрешением,
    • Документы с нестандартной структурой (обернутый текст, подпункты, пропущенные суммы),
    • Счета на английском языке, но с разной версткой и плотностью текста.
  • Извлекаемые данные

    396563dee46d0b8716939f55a44dcf73.png
    Извлекали 16 полей, таких как даты, суммы, имена, адреса и данные по позициям (описание, количество, цена, сумма). Поскольку каждое решение могло по-своему называть каждое поле, мы придумали формат названий и следовать этому формату, чтобы все результаты были единообразны.

    AI-модели

    67b22a00a5efdd7346500b14e918265a.png
    Мы сравнивали 7 решений:
    1. Amazon Analyze Expense (AWS)
    2. Azure AI Document Intelligence
    3. Google Document AI (Invoice Parser)
    4. GPT-4o API — ввод текста с помощью стороннего OCR (gptt)
    5. GPT-4o API — ввод изображения (gpti)
    6. Gemini 2.0 Pro
    7. Deepseek v3 (через текст + OCR)
  • Метрики

    Для каждой модели мы рассчитывали показатель Eff (%) — взвешенная метрика эффективности для количественной оценки точности извлечения. Эта метрика объединяет:
    • Строго обязательные поля: точные совпадения (например, идентификатор счета-фактуры, даты).
    • Нестрогие обязательные поля: частичное совпадение допускается, если сходство (Относительное расстояние Левенштейна RLD, %) превышает пороговое значение.
    • Позиции из счета-фактуры: оцениваются как правильные только в том случае, если все атрибуты элемента извлечены точно.
  • ecd702df0db54bafc14b1242000ef47a.png

    Методология расчета затрат

    Расчет затрат на услуги искусственного интеллекта рассчитывались по факту, с учетом:
    • Затрат на основе токенов (вход/выход) для текстовых моделей.
    • Стоимости обработки изображений для моделей с поддержкой технического зрения (GPT-4o/Gemini).
  • e5c7bf13d5f35bd0aba655a8ac2b6bbe.png

 
Назад
Верх