MORGAN
Активный пользователь
- Регистрация
- 04.06.2025
- Сообщения
- 1 179
- Реакции
- 1 068
- Баллы
- 113
Для тех, кто следит за трендами Умной Автоматизации, чтобы понимать тему глубже и принимать верные решения.
По материалам McKinsey, Research IBM, PWC и Wired.
По материалам McKinsey, Research IBM, PWC и Wired.
- Фокус не на том, что автоматизировать, а какие решения следует доверить ИИ: Вместо погони за автоматизацией всего подряд, стоит задать вопрос, где агентный ИИ приносит наибольшую ценность при минимальных рисках. McKinsey предлагает классифицировать решения по уровням риска и сложности: низкорисковые, стандартные задания (проверка учетных данных, обработка простых заявок) уже можно передавать ИИ-агентам, тогда как решения с высоким риском и необходимостью глубокого суждения (например, расследование мошенничества или сложные исключения по страховым выплатам) требуют «человеческого контроля». Такой избирательный подход позволяет более эффективно распределять ресурсы и быстрее запускать «малый ИИ», а сама задача корпоративных ИИ-агентов постепенно расширяется по мере роста доверия к ним.
- Про будущее оценки ИИ-агентов и MAS в работе IBM Research совместно с несколькими университетами, представленной для конференции EMNLP
Потребность в стандартизированных и более содержательных бенчмарках для ИИ-агентов: IBM совместно с коллегами из нескольких университетов проанализировали 120 методик оценки LLM-агентов и обнаружили, что нынешние бенчмарки сильно различаются по качеству и зачастую ограничены узким фокусом на точности ответа. Авторы называют эту работу «никогда прежде не проводившимся обзором» и подчёркивают, что без общепринятых стандартов сложно понять, насколько далеко продвинулись агенты и где скрываются их слабые места.
Ниже несколько хайлайтов из этой работы.
- Ключевые компетенции ИИ-агентов и существующие инструменты оценки: Современные тесты измеряют четыре базовых навыка:
- Планирование и рассуждение: Benchmarks вроде PlanBench, MINT и IBM ACPBench проверяют способность разбивать сложные задачи на шаги и формировать планы.
- Вызов внешних инструментов (tool calling): Gorilla V3 и NESTFUL оценивают, насколько агенты умеют делать «вложенные» или «параллельные» API-запросы, соединяя результаты разных сервисов в единую цепочку.
- «Рефлексия» и адаптация: LLF-Bench измеряет, как агент воспринимает обратную связь и исправляет ошибки по ходу выполнения задачи.
- Долгосрочная память: LoCoMo проверяет умение референцировать и учитывать более ранний контекст в длинных диалогах, выходя за рамки «встроенных» знаний в ядре модели.
- Сдвиг бенчмарков в сторону реальных корпоративных сценариев: Вместо синтетических заданий, агенты начинают проверять в имитации того, как они справятся с профессиональными задачами:
- WebArena (CMU) моделирует онлайн-шопинг: агент совершает покупки в симулированном веб-окружении.
- CUGA (IBM) тестирует «универсального агента» в пользовательских рабочих сценариях (например, навигация «по сайтам») и занимает лидирующую позицию с 62 % успеха.
- SWE-bench и SWE-Lancer проверяют ИИ-агентов на реальных GitHub-issues и попытках «зарабатывать как фрилансер», ставя перед ними задачу написания кода с учётом новых требований.
- τ-bench и PaperBench оценивают навыки «научных» и «потребительских» агентов в задачах поддержки клиентов и исследованиях.
- OSWorld, AppWorld и CRMWorld требуют, чтобы агентам одновременно работали с таблицами, запускали код и анализировали данные продаж, моделируя сложные бизнес-кейсы.
Несмотря на все эти усилия, даже лучшим агентам удаётся успешно выполнить лишь около 5 % кейсов, что свидетельствует о том, насколько «зрелость» технологий ещё далека от идеала.
- Рекомендации по улучшению оценок агентов для ускорения развития технологий:
- Гранулярность оценки: Вместо сверки только «ответ/не ответ», важно инспектировать промежуточные шаги рассуждений агента (аналогично частичному оцениванию в школьных тестах), чтобы выявлять «узкие места» в логике.
- Измерение эффективности с учётом затрат: Многие современные бенчмарки акцентируют внимание на точности и игнорируют стоимость — вычислительные ресурсы, использование токенов, задержки. Необходимы «паритетные метрики», которые позволят сравнивать агентов не только по результату, но и по реальной экономической целесообразности их развертывания.
- Автоматизация оценочного процесса: «Агент оценивает агента» (agent-as-a-judge) и инструменты вроде IBM EvalAssist помогут уменьшить трудозатраты людей-оценщиков и ускорить сбор данных о производительности. Кроме того, использование ИИ-сгенерированных данных сделает сценарии более разнообразными и реалистичными.
- Фокус на безопасности и доверии: Появляются специальные тесты вроде AgentHarm (выпытать, сможет ли агент отказаться от этических ограничений) и ST-WebAgentBench, имитирующий высокорискованные бизнес-приложения, где от надёжности и соблюдения норм зависит успех всего процесса.
- Ключевые компетенции ИИ-агентов и существующие инструменты оценки: Современные тесты измеряют четыре базовых навыка:
- Рост доходности на одного сотрудника благодаря ИИ-агентам: Согласно отчету PwC, с 2022 года в отраслях, активно использующих ИИ (например, технологии и телеком), выручка на одного работника выросла на 27 %, что более чем в три раза превышает рост в секторах, менее готовых к ИИ (8,5 %). Это означает, что внедрение агентных систем не просто оптимизирует отдельные процессы, а кардинально меняет производительность труда, повышая ценность каждого сотрудника.
- Быстрая отдача от ИИ-агентов и переформатирование операционных моделей: PwC отмечает, что 79 % компаний уже используют ИИ-агентов, и у двух третей из них (66 %) эти системы демонстрируют измеримый эффект через рост продуктивности. 88 % руководителей планируют увеличить бюджеты на ИИ в ближайшие 12 месяцев именно из-за потенциала “агентного” ИИ, способного действовать автономно и масштабироваться через модульный код. Это указывает на смещение не просто к автоматизации отдельных задач, а к построению новых операционных моделей, где люди и ИИ-агенты работают в одной «команде» через платформы (например, «Agent OS»), а не просто внедряют ИИ для «усовершенствования» старых процессов.
- Интеграция агентов в пользовательские устройства как следующий фронтир конкуренции: В интервью WIRED генеральный директор Perplexity Аравинд Шринивас утверждает, что ИИ-агенты станут «убийственным» приложением для всего — от поиска до e-commerce, и что ключ к популярности агентов лежит через их глубокую интеграцию в смартфоны и другие устройства. Партнерство с Motorola, благодаря которому Perplexity будет поставляться на Razr Ultra, иллюстрирует стремление сделать «доступный ИИ» повсеместным. Это заметно меняет представление о взаимодействии с ИИ — от пассивного «вопрос-ответ» к активному “агентному” сценарию, где ИИ может сам бронировать билеты, заказывать еду и решать рутинные задачи по предпочтениям пользователя.
- Важность открытых API и взаимодействия с экосистемой приложений: Шринивас подчеркивает, что ключевым ограничением современных ИИ-агентов является отсутствие глубокой интеграции с приложениями (например, невозможность напрямую работать с Uber или DoorDash без дополнительных SDK) wired.com. Только открытые и стандартизированные интерфейсы позволят агентам «тянуть» данные и совершать транзакции полностью на фоне, делая опыт пользователя по-настоящему бесшовным. Без этого большая часть обещанного агентного сценария — «сделай за меня» — остается теоретической, потому что агент не может полноценно взаимодействовать с экосистемой сторонних сервисов.
- Необходимость надежности и доверия для ИИ-агента: Perplexity фокусируется на точности и проверяемости ответов, поскольку ошибочные или вводящие в заблуждение агенты несут угрозу не только пользовательскому опыту, но и безопасности данных. Даже если ошибки случаются редко, «отрицательный компаундный эффект» неверных рекомендаций может подорвать доверие и стать опасным. Поэтому главным конкурентным преимуществом агентов станет не просто их функциональность, а то, насколько они прозрачны и способны корректно «объяснить» свои действия.
- ИИ-агенты как «корпоративные граждане»: McKinsey предлагает рассматривать ИИ-агентов на уровне структурного элемента организации — подобно тому, как компании управляли бы персоналом, стоит управлять ИИ-агентами. Это означает выделение четкой «заработной платы» в виде полной стоимости владения (IT-системы, обучение моделей, оркестрация), формулирование «должностных обязанностей» (описание задач агента и метрики эффективности), регулярную «оценку производительности» (анализ точности, скорости и удовлетворенности), а также внедрение механизмов доверия и аудита (этические рамки, прослеживаемость решений, защитные «выключатели»). Такой подход переводит ИИ-агентов из «экспериментальных инструментов» в полноценные «сотрудники», чья работа оценивается наравне с людьми.

