Společnost OpenAI vypsala odměnu za odhalení chyb a zranitelností v jejích službách umělé inteligence, včetně ChatGPT. Odměny se pohybují v rozmezí od 200 dolarů za „objevy s nízkou závažností“ až po 20 tisíc dolarů za odhalení zvlášť závažných chyb. Hlášení je možné podávat přes crowdsourcingovou platformu pro kybernetickou bezpečnost Bugcrowd.
Odměna se ale nevztahuje na případy, kdy bude model ChatGPT zneužit ke generování škodlivého kódu nebo textu. „Problémy související s obsahem zadání pro jazykový model a jeho výstupů jsou mimo tuto výzvu a nebudou odměňovány,“ uvádí OpenAI na stránce Bugcrowd.
A povolený není ani takzvaný jailbreaking, kdy se útočníkovi do systému podaří vložit kód, který mu umožní obejít jeho vlastní bezpečnostní filtry. Tyto scénáře pak mohou zahrnovat povzbuzování chatbota k tomu, aby hrál roli „zlého dvojčete“ a umožnil uživateli povolit jinak zakázané reakce, jako jsou nenávistné projevy nebo návody na výrobu zbraní.
OpenAI tvrdí, že tento typ chyb se nehodí do bug bounty výzvy, „protože se nejedná o jednotlivé, ohraničené chyby, které lze přímo opravit.“ Společnost poznamenala, že „řešení takovýchto chyb vyžaduje rozsáhlé zkoumání a širší přístup“ a hlášení takových závad by měla být zasílána prostřednictvím stránky pro zpětnou vazbu.
Ještě před vypsáním výzvy se například minulý měsíc hackerovi známému jak Rez0 podařilo odhalit 80 „neveřejných pluginů“ pro rozhraní API ChatGPT. Šlo o dosud nevydaných nebo experimentálních doplňků pro chatbota. Rez0 poznamenal, že zranitelnost byla opravena do následujícího dne od zveřejnění na Twitteru.
This morning I was hacking the new ChatGPT API and found something super interesting: there are over 80 secret plugins that can be revealed by removing a specific parameter from an API call.
— 𝚛𝚎𝚣𝟶 (@rez0__) March 24, 2023
The secret plugins include a "DAN plugin", "Crypto Prices Plugin", and many more. pic.twitter.com/Q6JO1VLz5x