• A Quick Word
  • Posts
  • OpenAI medger brister i sina säkerhetssystem

OpenAI medger brister i sina säkerhetssystem

DESSUTOM: Claude utnyttjades i omfattande cyberbrottslighet, ett unikt säkerhetssamarbete mellan OpenAI och Anthropic och Cloudflare samlar all AI på samma molntuss

De teoretiska debatterna om AI-säkerhet har blivit kusligt konkreta. OpenAI står nu inför sin första stämningsansökan gällande vållande till annans död, efter anklagelser om att deras chattbot uppmuntrat en tonåring till självmord. Händelsen fick företaget att snabbt medge att skyddsmekanismerna kan bli, låt oss säga, utmattade under långa konversationer.

Fallet drar det abstrakta konceptet om AI-ansvar ut i rättssalens kalla, hårda ljus och skapar ett prejudikat som sannolikt kommer att överleva enskilda modellversioner. Händelsen blottlägger en fundamental paradox inom konversations-AI, nämligen konflikten mellan att vara en hjälpsam assistent och en ansvarsfull övervakare. Det väcker frågan hur man kan designa ett system som ska vara både din bästa vän och din övervakare på samma gång.

I dagens A Quick Word:

  • OpenAI kämpar för att täppa till en kritisk säkerhetslucka i ChatGPT

  • Anthropic's Claude extraknäcker som organisatör av storskaliga cyberstölder

  • AI-jättarna samarbetar tillfälligt för att testa varandras säkerhetsbrister

  • Cloudflare vill städa upp i röran med utveckling över flera AI-modeller

ChatGPTs skyddsmekanismer har ett utgångsdatum

(Källa: Shutterstock)

Quick Word: OpenAI står inför en stämning för vållande till annans död efter påståenden om att ChatGPT uppmuntrade en tonårings självmord. Företaget reagerade snabbt och medgav i ett blogginlägg på tisdagen att det finns en kritisk brist. De presenterade även kommande säkerhetsfunktioner, bland annat den revolutionerande idén om föräldrakontroll.

Quick Points:

  • Företaget erkänner att befintliga säkerhetssystem kan bli mindre tillförlitliga i långa konversationer där modellens säkerhetsträning kan försämras över tid.

  • Enligt stämningen bekräftade chatboten tonåringens självdestruktiva tankar och avrådde honom från att söka hjälp från familjen, enligt ursprunglig rapportering (archive.is).

  • Som svar utvecklar OpenAI nya funktioner som snabbkontakter för nödsituationer och föräldrakontroller för ökad familjeöversikt.

Quick Take: Händelsen avslöjar en grundläggande konflikt i konversationsdriven AI, där modellens design att vara tillmötesgående kan stå i direkt konflikt med säkerhetsprotokollen. Utgången kommer sannolikt skapa nya juridiska prejudikat för AI-utvecklare och flytta säkerhetsansvaret från en fotnot i användarvillkoren till en central del av produktansvaret.

Claude extraknäcker som hjärnan bakom cyberbrott

Bild skapad med AI

Quick Word: I vad som kanske är årets minst förvånande nyhet har en kraftfull AI använts till annat än att skriva artiga mejl. Anthropic har avslöjat att deras AI Claude var hjärnan bakom en stor utpressningskampanj. Det bevisar att AI är lika bra på att planera en stöt som att planera nästa marknadskampanj.

Quick Points:

  • Angriparen använde Claude genom hela attackkedjan, från att identifiera sårbara mål till att skapa anpassad skadlig kod som kunde undvika upptäckt.

  • Bland offren fanns ett finansinstitut, flera vårdgivare och en försvarsleverantör. Angriparna kom över bankuppgifter, patientjournaler och till och med känslig amerikansk försvarsinformation.

  • Samma rapport visar också att nordkoreanska agenter använder Claude för att behålla anställningar på toppföretag. De lyckas klara tekniska intervjuer och utföra arbetsuppgifter trots att de saknar den faktiska kompetensen.

Quick Take: Incidenten visar att AI-säkerhetsåtgärder för närvarande kämpar för att hålla jämna steg med beslutsamna användare. För polis och rättsväsende är det en tankeställare att samma verktyg som ökar produktiviteten också sänker tröskeln för avancerad cyberbrottslighet.

AI-jättar samarbetar kring säkerhetstester

Bild skapad med AI

Quick Word: I ett unikt samarbete har AI-konkurrenterna OpenAI och Anthropic genomfört gemensam forskning för att testa varandras språkmodeller och hitta säkerhetsbrister. Det gemensamma arbetet gav viktiga insikter om hur olika AI-system hanterar potentiella risker och etiska utmaningar.

Quick Points:

  • Testerna visade på stora skillnader i hur modellerna hanterar osäkerhet. Anthropics Claude valde att vara tyst vid osäkerhet medan GPT-modellerna försökte ge ett svar.

  • Båda företagen upptäckte att deras modeller kunde uppvisa oroande beteenden när de pressades upprepade gånger av användare.

  • Samarbetet visade att extern testning kan avslöja svaga punkter som interna utvärderingar riskerar att missa.

Quick Take: Detta sällsynta samarbete mellan konkurrenter understryker hur avgörande oberoende tester är för AI-säkerheten. Det tyder på att det kan krävas mer branschövergripande samverkan för att göra AI-system verkligt säkra, även mellan bittra konkurrenter.

Cloudflare samlar all AI på samma molntuss

(Källa: Wikipedia)

Quick Word: Cloudflare gör ett försök att städa upp i arbetsflödet för AI-utvecklare med stora uppdateringar av sin AI Gateway. Plattformen ger nu tillgång till toppmodeller från OpenAI, Google, Anthropic och andra via en enda anslutningspunkt. Målet är att låta utvecklare fokusera på att bygga applikationer istället för att hantera leverantörskonton.

Quick Points:

  • Tjänsten centraliserar fakturering och lagrar API-nycklar säkert, vilket innebär att du slipper hantera ett dussin olika leverantörskonton.

  • Dynamisk routing gör det möjligt att A/B-testa modeller eller skicka trafik till olika leverantörer i realtid. Tjänsten översätter även anropen så att du inte behöver skriva om din kod för varje enskild modell.

  • Nya säkerhetsfunktioner skannar automatiskt din AI-trafik efter känslig information, vilket hjälper till att förhindra att du råkar läcka finansiella data eller kundhemligheter.

Quick Take: Cloudflare använder sitt enorma nätverk för att positionera sig som den grundläggande infrastrukturen för AI-eran och förenklar därmed en fragmenterad och komplex marknad. Det här kan potentiellt ge alla användare en välbehövlig överblick och minska den operativa bördan för alla som använder AI via API.

Quick Tools

  • Phind — En snabb AI-sökassistent för utvecklare som levererar svar komplett med länkar till källor och kodförklaringar.

  • Stockimg.AI — Skapar anpassningsbara stockbilder, logotyper och illustrationer för kommersiellt bruk genom flera olika AI-drivna designverktyg.

  • Jenni AI — En AI-assistent för akademiskt skrivande som hjälper studenter och forskare att skriva effektivare med smarta källhänvisningar och tonjusteringar.

  • Neural Frames — Genererar direkt musikvideor i 4K som anpassar sig visuellt efter låttext och ljud – perfekt för musiker och kreatörer.

  • Uplifted — En komplett AI-plattform för kreativa team som automatiserar filhantering, taggning och remixning av annonsmaterial.

  • NVIDIA Canvas — AI-assisterad målning i realtid som förvandlar skisser till färdiga konstverk, framtagen för digitala konstnärer och illustratörer.

  • Soundful — Skapar royaltyfri och AI-genererad musik som är skräddarsydd efter stämning, genre och dina specifika projektbehov.

Behöver du hjälp att navigera ett ständigt skiftande AI-landskap?
Micke Quick är konsult med särskilt fokus på AI och arbetsflöden inom reklam- och marknadsföring. Han hjälper dig med insikter, utbildning, och strategi för implementering av AI.

Läs mer på mickequick.se 

Quick Links

Apple uppges ha diskuterat förvärv av AI-startupsen Mistral och Perplexity för att komma ikapp konkurrenterna inom generativ AI.

NVIDIA rapporterade ännu ett kvartal med massiv tillväxt. Intäkterna för andra kvartalet landade på 46,7 miljarder dollar, en ökning med 56 procent jämfört med föregående år.

Stanford University publicerade en ny studie som visar att sysselsättningen för instegsjobb i AI-exponerade branscher har minskat med 13 procent.

Lead the Future lanserades med 100 miljoner dollar i stöd från techledare. Organisationen ska verka för att avreglera AI-sektorn.

Zed har skapat Agent Client Protocol (ACP), ett ramverk med öppen källkod som låter utvecklare interagera med tredjeparts-AI-agenter direkt i Zeds texteditor.

Casap tog in 25 miljoner dollar i en A-runda för att expandera sin AI-plattform. Plattformen hjälper finansinstitut att hantera tvister om bedrägliga transaktioner.