Kan AI hackas? Klart det kan! AI-säkerhet är här och vi måste göra något åt det.
AI är överallt i nyheterna nuförtiden och räddar och dömer världen i lika stor utsträckning. Men hur är det med AI-säkerhet?
Det finns en hel del diskurs kring potentialen hos LLM (Large Language Model) som ChatGPT i synnerhet, medan AI redan har lyckats slå människor i videospel, bilkörning, vetenskaplig bildanalys och kanske till och med kodning. Men – som med all snabbrörlig teknik med mycket pengar involverade – kommer hackarna alltid att ställa en fråga även om vi inte gör det: “vad kan eventuellt gå fel?”
En absolut kritisk del av dessa moderna AI-system är maskininlärning: träna modeller på verklig data så att de kan generalisera från den datan och fatta rätt beslut även om de presenteras med tidigare osynliga data. Och i dessa system tenderar träningsdata att börja med “vad vi än hittar på Internet”. Så, håller säkerheten för maskininlärning med den rasande takten för AI-utveckling som helhet? Tyvärr är svaret “inte riktigt”. Med rätt verktyg och kunskap kan en angripare utnyttja skillnaderna mellan AI och mänsklig perception och förståelse för att lura AI att uppfatta en 3D-printad sköldpaddleksak som ett gevär, korrumpera en AI-modell för att ordinera dödliga blodförtunnare doser till patienter och dölja ohörbart kommandon i ljud för att trigga bakdörrar i taligenkänningssystem, och det är bara toppen av isberget. Dessa attacker (‘undandragande’ och ‘förgiftning’) har utforskats så tidigt som i mitten av 2000-talet och har demonstrerats mot moderna AI-system i över 10 år nu. Begränsningar finns, men de är inte tillräckligt kraftfulla mot motiverade angripare – och de för närvarande hajpade LLM:erna är ännu mer sårbara för vissa av dessa attacker. På liknande sätt finns det attacker som gör att en angripare kan stjäla en (värdefull) maskininlärningsmodell från ett system, extrahera data från träningsuppsättningen (förhoppningsvis inkluderade träningsdatan inte några personliga uppgifter eller kreditkortsnummer!), eller till och med rekonstruera bilder eller text som används för att träna modellen i första hand.
Men det finns mer med AI-säkerhet än dessa sofistikerade attacker. I slutändan är en AI bara ett program, och dess kod kan ha buggar och säkerhetsbrister precis som allt annat, och det finns många nya hot (som snabb hackning) som kan bryta AI-säkerhetsåtgärder som en utvecklare har infört. Och det finns en hel del tredjepartskod inblandad – alla slags AI-system använder sig av tusentals beroenden och hundratusentals rader kod – alla potentiellt fyllda med vanliga “tråkiga” sårbarheter som heltal och buffertspill (se bara på tresiffrigt antal sårbarheter som upptäcks i TensorFlow varje år). Ännu viktigare är att försörjningskedjan som används av dessa system också är öppen för attacker – och är förvånansvärt lätt att infektera med bakdörrar som kommer att göra angriparens bud. Hur mycket litar du på den tredjepartsmodellen eller modellen zoo? Slutligen måste vi prata om säkerheten för kod skriven av AI – som kan manipuleras och korrumperas precis som alla andra applikationer. Till exempel kan en angripare utnyttja “pakethallucination”: observera vilken typ av paketnamn som skapas av ChatGPT när den skriver kod, och ladda upp ett skadligt paket med det namnet till ett offentligt paketförråd som en sorts typosquatting och beroendeförvirringshybrid ge sig på. Och naturligtvis bygger kod skriven av dessa system på existerande (vanligtvis öppen källkod) kod skriven av människor, vilket kan vara mycket benäget för sårbarheter – vilket innebär att den genererade koden kommer att innehålla samma sårbarheter – eller ännu värre, bakdörrar! Skräp in skräp ut.
Jag har också pratat om detta ämne redan 2020 – saker och ting har förändrats ganska mycket sedan dess, ibland till det bättre och ibland till det sämre. Låt oss se hur många sätt någon kan överlista din favorit-AI på WeAreDevelopers World Congress 2023!
Kurstips: