
У час, коли штучний інтелект стає повсякденним інструментом для мільйонів користувачів, з’являється логічне питання: а наскільки добре ці системи справді розуміють нас — зокрема українською мовою? Українські дослідники вирішили перевірити це максимально чесно — створили перший тест ЗНО для штучного інтелекту. Результат? Навіть GPT-4o та Claude 3.5 не впоралися.
Читайте також: Український ChatGPT: як створюють штучний інтелект для нашої мови
Що таке ZNOVision?
ZNOVision — це не просто ще один тест у стилі «обери відповідь із чотирьох». Це глибокий багатоетапний інструмент перевірки знань, створений за мотивами реального Зовнішнього незалежного оцінювання (ЗНО). Його мета — оцінити рівень розуміння та аналітичних здібностей сучасних мовних моделей штучного інтелекту, зокрема україномовних.
Тест охоплює 13 шкільних предметів, понад 4300 завдань, і включає:
- складні логічні задачі з фізики, математики, історії та літератури;
- інтегровані візуальні запитання зі схемами, графіками, картами;
- формулювання виключно українською мовою з урахуванням мовних особливостей.
Хто змагався і як?
Для експерименту було обрано 6 популярних мовних моделей:
- GPT-4o від OpenAI
- Claude 3.5 Sonnet
- Gemini 1.5 Pro
- Qwen2VL72B
- Paligemma3B
- PaligemmaFT
Для запуску моделей використано безпечну хмарну інфраструктуру De Novo, яка відповідає українським вимогам до кібербезпеки. Це дало змогу зосередитись на самому процесі тестування, а не технічних обмеженнях.
А тепер — результати
Жодна з моделей не подолала поріг у 70% правильних відповідей, що потрібно для вступу в університет. Найкращий результат показав Gemini Pro — 67,5%, а GPT-4o, яка вважається однією з найсучасніших, — лише 47%.
Особливо слабо моделі впоралися із завданнями, де потрібно одночасно аналізувати текст та зображення українською. Для порівняння: у англомовному середовищі такі моделі дають 60%+ правильних відповідей, а тут:
- Claude 3.5 — 26,7%
- GPT-4o — 29%
- Qwen2VL — 34,4%
Чому це важливо?
ZNOVision — не просто веселий експеримент. Це важливий технологічний індикатор, що показує, наскільки глобальні ШІ-системи все ще не готові до якісної україномовної взаємодії. І це — виклик для українських розробників, але водночас і шанс.
«Штучний інтелект не має бути монополією кількох мов. Ми віримо, що українська має звучати в системах майбутнього так само впевнено, як і англійська», — говорить Максим Агеєв, CEO De Novo.
Перспективи використання ZNOVision
ZNOVision може стати основою для багатьох практичних рішень:
- EdTech-платформи можуть використовувати тест як базу для адаптивного навчання;
- стартапи — для тренування україномовних моделей;
- державні структури — для перевірки якості україномовної локалізації в ІТ.
Висновки: іспит для ШІ ще не здано
Сьогодні моделі штучного інтелекту вже можуть писати твори, будувати презентації, програмувати. Але навіть GPT-4o не пройшла українське ЗНО, що ще раз підкреслює: глобальні алгоритми — не завжди універсальні. Поки українські школярі впевнено здають тести, моделі штучного інтелекту ще тільки вчаться розуміти наш контекст, культуру і мову.
Це не поразка технологій. Це нагадування, що розвиток штучного інтелекту має бути інклюзивним — мовно, культурно та освітньо. І ZNOVision — перший крок до того, щоб українська мова стала повноцінною частиною штучного інтелекту майбутнього.