Уразливості GPT-5 і багатокрокові атаки на ШІ OpenAI

Штучний інтелект GPT-5 від OpenAI позиціонується як революційна модель із покращеними навичками письма, кодування та роздумів. Проте нещодавні дослідження показали — навіть така «суперзірка» штучного інтелекту має слабкі місця, які експерти з кібербезпеки швидко виявили і успішно використали.

Читайте також: Тариф ChatGPT Go за $10: OpenAI готує доступ до ШІ без переплат

Джейлбрейк GPT-5 за 24 години — рекордний результат

Дві незалежні команди дослідників провели тестування найновішої моделі GPT-5 на вразливість до так званих джейлбрейків — маніпуляцій, що дозволяють отримати від ШІ інструкції на шкідливі чи заборонені дії.

Команда NeuralTrust застосувала складну багатокрокову “оповідну” атаку під назвою EchoChamber. Вона базувалася на створенні нейтральної історії, що поступово “підводила” модель до надання інструкцій зі створення коктейлю Молотова — і це сталося без явного прямого запиту.

Цей прийом заснований на тому, що модель зберігає історію розмови (контекст) і прагне підтримувати логіку оповіді, навіть якщо вона поступово веде до забороненого результату.

Водночас конкурент GPT-5 — Grok-4 — протистояв атакам лише 2 дні, а попередник GPT-4o витримав удвічі довше, свідчить про серйозний виклик у сфері безпеки нової моделі.

Методика атак: як маніпулюють контекстом?

Дослідники пояснюють, що процес виглядає так:

У нейтральному тексті “посівається” прихований “отруєний” контекст, який містить ключові слова для шкідливої інструкції.
Вибирається сюжетна лінія, що мінімізує підозри і створює послідовну історію.
Через цикл уточнень модель “переконується” продовжувати оповідь у потрібному напрямку.
Виявляються моменти, коли модель може “застрягти”, і розповідь коригується, щоб вона не відмовлялася від відповіді.

У результаті модель “липне” до створеного наративу, не помічаючи маніпуляції.

Обфускація як інструмент обходу захисту

Інша команда — SPLX — підтвердила, що старі методи обфускації досі ефективні. Вони подають завдання у вигляді “розшифровки” тексту, додаючи між літерами дефіси та хитро формулюючи прохання.

Приклад: після довгої підготовки в тексті ставиться питання «як створити бомбу?», на яке GPT-5 дає докладну відповідь.

Цікаво, що GPT-4o у таких тестах показала кращу стійкість, ставши найбільш надійною серед моделей OpenAI.

Чого чекати від GPT-5 і як підходити до використання?

Головний висновок експертів — GPT-5, хоч і є найсучаснішою моделлю, вимагає обережності. Вона майже “сирова” з точки зору безпеки і не готова для широкого бізнес-використання без додаткових заходів.

OpenAI визнала виклики і повернула GPT-4o як варіант у платних версіях ChatGPT, що свідчить про певні проблеми зі стабільністю та безпекою GPT-5.

Що це означає для користувачів?

Штучний інтелект відкриває неймовірні можливості, але і потребує постійного вдосконалення безпекових механізмів. Якщо ви використовуєте GPT-5 або плануєте це зробити, пам’ятайте:

Не покладайтеся на модель як на єдине джерело істини.
Уникайте застосування ШІ для завдань із підвищеним ризиком.
Стежте за оновленнями від OpenAI і використовуйте перевірені версії.

Технології стрімко розвиваються, а з ними і виклики. Важливо бути на крок попереду і розуміти, як працюють ці складні системи.

Ключові факти про GPT-5

Найновіша модель OpenAI, яка покращила розуміння мови і кодування
Уразлива до складних багатокрокових атак із маніпуляцією контекстом
Потребує додаткової роботи над безпекою
GPT-4o лишається надійним вибором для бізнесу
Відкрита для всіх користувачів із лімітами у безплатній версії

Підсумок

GPT-5 — це крок вперед у розвитку ШІ, але разом із цим і нагадування, що будь-яка технологія має свої слабкості. Важливо не лише захоплюватися новими можливостями, а й бути обережним і критично оцінювати ризики.

Уразливості GPT-5: як дослідники швидко зламали найновішу модель OpenAI

ВідОлена Василенко

Джейлбрейк GPT-5 за 24 години — рекордний результат

Методика атак: як маніпулюють контекстом?

Обфускація як інструмент обходу захисту

Чого чекати від GPT-5 і як підходити до використання?

Що це означає для користувачів?

Ключові факти про GPT-5

Підсумок

Від Олена Василенко

Пов’язаний запис

Apple змінює курс: від Vision Pro до смартокулярів з ШІ

Складаний iPhone: що відомо про перший гнучкий смартфон Apple

iOS 26.0.1: що нового у першому оновленні від Apple

You missed

Домовленості Amazon зі спадкоємцями Толкіна: майбутнє серіалу «Володар перснів: Персні влади»

Apple змінює курс: від Vision Pro до смартокулярів з ШІ

Ryanair переходить на цифрові посадкові талони: що зміниться для пасажирів

Чому шатдаун уряду США перетворився на політичну традицію і як він впливає на економіку