MORGAN
Активный пользователь
- Регистрация
- 04.06.2025
- Сообщения
- 1 179
- Реакции
- 1 068
- Баллы
- 113
Исследование включало несколько этапов: мы собрали разнообразный датасет из реальных счетов, привели его к единому формату, определили метрики и протестировали 7 популярных на наш взгляд моделей, чтобы понять:
- Кто лучше справляется с извлечением данных?
- Насколько точны LLM «из коробки»?
- Стоит ли платить больше за детали?
Содержание
Что и как мы тестировали
Датасет
Датасет состоял из 20 реальных счетов-фактур разного формата и “возраста” (от 2006 до 2020 года), это были:- Оцифрованные PDF и сканы с низким разрешением,
- Документы с нестандартной структурой (обернутый текст, подпункты, пропущенные суммы),
- Счета на английском языке, но с разной версткой и плотностью текста.
Извлекаемые данные
AI-модели
- Amazon Analyze Expense (AWS)
- Azure AI Document Intelligence
- Google Document AI (Invoice Parser)
- GPT-4o API — ввод текста с помощью стороннего OCR (gptt)
- GPT-4o API — ввод изображения (gpti)
- Gemini 2.0 Pro
- Deepseek v3 (через текст + OCR)
Метрики
Для каждой модели мы рассчитывали показатель Eff (%) — взвешенная метрика эффективности для количественной оценки точности извлечения. Эта метрика объединяет:- Строго обязательные поля: точные совпадения (например, идентификатор счета-фактуры, даты).
- Нестрогие обязательные поля: частичное совпадение допускается, если сходство (Относительное расстояние Левенштейна RLD, %) превышает пороговое значение.
- Позиции из счета-фактуры: оцениваются как правильные только в том случае, если все атрибуты элемента извлечены точно.
Методология расчета затрат
Расчет затрат на услуги искусственного интеллекта рассчитывались по факту, с учетом:- Затрат на основе токенов (вход/выход) для текстовых моделей.
- Стоимости обработки изображений для моделей с поддержкой технического зрения (GPT-4o/Gemini).
Основные выводы
Мы не просто так разбили содержимое счетов на несколько категорий: обязательные поля, необязательные поля и позиции из счетов-фактур. Потому что модели “сыпались” в основном на позициях из счетов фактур.Вот, обобщенные результаты распознавания счетов. В лидерах - AWS, в проигравших Google - данная модель не сумела разбить позиции на отдельные сущности, все выгрузила единой строкой.
|

