У час, коли штучний інтелект стає повсякденним інструментом для мільйонів користувачів, з’являється логічне питання: а наскільки добре ці системи справді розуміють нас — зокрема українською мовою? Українські дослідники вирішили перевірити це максимально чесно — створили перший тест ЗНО для штучного інтелекту. Результат? Навіть GPT-4o та Claude 3.5 не впоралися.

Читайте також: Український ChatGPT: як створюють штучний інтелект для нашої мови

Що таке ZNOVision?

ZNOVision — це не просто ще один тест у стилі «обери відповідь із чотирьох». Це глибокий багатоетапний інструмент перевірки знань, створений за мотивами реального Зовнішнього незалежного оцінювання (ЗНО). Його мета — оцінити рівень розуміння та аналітичних здібностей сучасних мовних моделей штучного інтелекту, зокрема україномовних.

Тест охоплює 13 шкільних предметів, понад 4300 завдань, і включає:

  • складні логічні задачі з фізики, математики, історії та літератури;
  • інтегровані візуальні запитання зі схемами, графіками, картами;
  • формулювання виключно українською мовою з урахуванням мовних особливостей.

Хто змагався і як?

Для експерименту було обрано 6 популярних мовних моделей:

  1. GPT-4o від OpenAI
  2. Claude 3.5 Sonnet
  3. Gemini 1.5 Pro
  4. Qwen2VL72B
  5. Paligemma3B
  6. PaligemmaFT

Для запуску моделей використано безпечну хмарну інфраструктуру De Novo, яка відповідає українським вимогам до кібербезпеки. Це дало змогу зосередитись на самому процесі тестування, а не технічних обмеженнях.

А тепер — результати

Жодна з моделей не подолала поріг у 70% правильних відповідей, що потрібно для вступу в університет. Найкращий результат показав Gemini Pro — 67,5%, а GPT-4o, яка вважається однією з найсучасніших, — лише 47%.

Особливо слабо моделі впоралися із завданнями, де потрібно одночасно аналізувати текст та зображення українською. Для порівняння: у англомовному середовищі такі моделі дають 60%+ правильних відповідей, а тут:

  • Claude 3.5 — 26,7%
  • GPT-4o — 29%
  • Qwen2VL — 34,4%

Чому це важливо?

ZNOVision — не просто веселий експеримент. Це важливий технологічний індикатор, що показує, наскільки глобальні ШІ-системи все ще не готові до якісної україномовної взаємодії. І це — виклик для українських розробників, але водночас і шанс.

«Штучний інтелект не має бути монополією кількох мов. Ми віримо, що українська має звучати в системах майбутнього так само впевнено, як і англійська», — говорить Максим Агеєв, CEO De Novo.

Перспективи використання ZNOVision

ZNOVision може стати основою для багатьох практичних рішень:

  • EdTech-платформи можуть використовувати тест як базу для адаптивного навчання;
  • стартапи — для тренування україномовних моделей;
  • державні структури — для перевірки якості україномовної локалізації в ІТ.

Висновки: іспит для ШІ ще не здано

Сьогодні моделі штучного інтелекту вже можуть писати твори, будувати презентації, програмувати. Але навіть GPT-4o не пройшла українське ЗНО, що ще раз підкреслює: глобальні алгоритми — не завжди універсальні. Поки українські школярі впевнено здають тести, моделі штучного інтелекту ще тільки вчаться розуміти наш контекст, культуру і мову.

Це не поразка технологій. Це нагадування, що розвиток штучного інтелекту має бути інклюзивним — мовно, культурно та освітньо. І ZNOVision — перший крок до того, щоб українська мова стала повноцінною частиною штучного інтелекту майбутнього.

Від Олена Василенко

Редакторка і автор новин та статей. Кіножурналістка та редакторка з великим досвідом. Закінчила факультет журналістики у КНУ. Працювала кореспондентом, а потім редактором у провідних виданнях. Відома своїми глибокими аналізами та рецензіями на нові фільми.