Дві дослідницькі компанії — NeuralTrust та SPLX — протестували нову нейромережу GPT-5 і виявили критичні вразливості. NeuralTrust вдалося зламати модель за один день, змусивши її згенерувати інструкцію зі створення забороненої запалювальної суміші, використовуючи комбінацію власної методики EchoChamber та техніки сторітелінгу. Атака проводилася через серію безпечних на вигляд запитів, що поступово формували потрібний контекст.
У SPLX виявили іншу слабкість GPT-5 — вразливість до атаки StringJoin Obfuscation, коли шкідливий запит маскують, розбиваючи його на символи. Після серії питань модель погодилася описати процес виготовлення забороненої речовини, попри системні обмеження. Дослідження показало, що попередня модель GPT-4o була стійкішою до подібних методів.
Обидві компанії попередили про ризики використання «сирої» версії GPT-5 у бізнес-середовищі, особливо у корпоративних застосунках. На їхню думку, вбудовані захисти OpenAI мають суттєві прогалини, зокрема у сфері бізнес-координації, що робить модель непридатною для роботи «з коробки» без додаткових механізмів безпеки.
Джерело securityweek.com