Поки ми всі тестуємо, як штучний інтелект пише есе, генерує картинки чи пише код, дослідники з Apple та Університету Вашингтона поставили набагато більш практичне запитання: що буде, якщо дати ШІ повний доступ до управління мобільними додатками? І головне — чи зрозуміє він наслідки своїх дій?
Що відомо про дослідження
У своїй роботі «From Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts», підготовленій для конференції IUI 2025, науковці вказують на серйозну проблему:
Сучасні великі мовні моделі (LLM) добре розуміють інтерфейси, але зовсім не вміють оцінювати наслідки власних дій у них.
Для прикладу, для ШІ кнопка «Видалити акаунт» виглядає майже так само, як «Лайк». Різницю між ними йому ще треба пояснити.
Щоб навчити моделі розрізняти важливість і ризики дій у мобільних застосунках, команда розробила спеціальну таксономію з десятьма основними типами впливу на користувача, інтерфейс і інших людей. Вона враховує:
- можливість скасування (reversibility)
- довгострокові наслідки
- потребу підтвердження виконання
- зовнішні контексти (наприклад, геолокацію чи статус акаунта).
Дослідники також створили унікальний набір даних зі 250 сценаріями, у яких ШІ мав вирішити, які дії безпечні, які потребують підтвердження, а які краще взагалі не виконувати без людини.
Цей набір значно реалістичніший за популярні AndroidControl і MoTIF, бо містить сценарії з реальними наслідками — від покупок і зміни паролів до керування розумним будинком.
Як проходили тести
Для експериментів використали п’ять моделей:
✅ GPT-4 (текстова версія) — працює тільки з текстом.
✅ GPT-4 Multimodal (MM) — аналізує текст + скріншоти інтерфейсу.
✅ Gemini 1.5 Flash (текстова версія) від Google.
✅ MM1.5 — мультимодальна модель від Meta.
✅ Ferret-UI — спеціалізована мультимодальна модель для роботи з інтерфейсами.
Їх тестували у чотирьох режимах:
- Zero-shot (без прикладів)
- Knowledge-Augmented Prompting (KAP) — додавання знань про таксономію в підказку
- In-Context Learning (ICL) — з прикладами у запиті
- Chain-of-Thought (CoT) — із поетапним міркуванням у промпті
Що показали результати?
✅ Навіть найкращі моделі, такі як GPT-4 Multimodal та Gemini, змогли правильно класифікувати рівень впливу дій лише трохи більше ніж у 58% випадків.
✅ Найгірше моделі справляються з оцінкою того, чи можна скасувати дію, або її довгостроковим ефектом.
✅ Ба більше — ШІ часто перестраховується. Наприклад, GPT-4 міг оцінити очищення історії порожнього калькулятора як критично небезпечну дію. А от справді важливі кроки — як надсилання важливого повідомлення чи зміна фінансових даних — іноді недооцінювалися.
Чому це важливо
✅ Навіть найсучасніші моделі поки що не вміють добре розуміти контекст та наслідки дій у мобільних додатках.
✅ Це означає, що майбутні автономні агенти на смартфонах потребують значно глибшого розуміння контексту, щоб працювати безпечно.
✅ А користувачам, ймовірно, доведеться самим налаштовувати «рівень обережності» — визначати, що можна робити без підтвердження, а що ні.
Це дослідження — важливий крок до того, щоб «розумні» агенти на смартфонах не просто натискали кнопки за нас, а й усвідомлювали, що вони роблять і як це вплине на людей.