Nowy model od Anthropic, twórców chatbota Claude, o nazwie Mythos potrafi samodzielnie znajdować i eksploitować luki w oprogramowaniu lepiej niż większość ludzkich ekspertów. Jest aż tak dobry, że firma postanowiła… nie wypuszczać go publicznie — przynajmniej na razie.
Kiedy badacze Anthropic bez doświadczenia w dziedzinie bezpieczeństwa poprosili nowy model o znalezienie luk w oprogramowaniu i poszli spać, rano obudzili się z gotowymi, działającymi exploitami. To nie jest scenariusz z powieści science fiction ani materiałów marketingowych firmy (chociaż niekiedy to i to potrafi brzmieć podobnie…), a opis rzeczywistych testów wewnętrznych, które poprzedzały oficjalną premierę Claude Mythos Preview.
7 kwietnia Anthropic ogłosiło nowy model frontierowy, który od razu wzbudził niepokój wśród ekspertów cyberbezpieczeństwa na całym świecie. Firma zdecydowała się na krok bezprecedensowy w branży AI: model nie trafi do ogólnodostępnej sprzedaży. Zamiast tego dostęp do niego, w ramach inicjatywy Project Glasswing, otrzymało 40 organizacji, między innymi Amazon, Apple, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA czy Palo Alto Networks.
Skąd takie ostrożność?
A wiecie, co jest w tym wszystkim najciekawsze i pewnie najbardziej zaskakujące? Mythos nie był szkolony z myślą o cyberbezpieczeństwie. Jego zdolności wyłoniły się jako efekt uboczny ogólnych postępów w rozumowaniu, kodowaniu i autonomii działań. No dobra, ale skoro działa, jest dobry w tym, co robi (nawet biorąc pod uwagę, że mógł to być „przypadek”), to w czym problem? Ano w tym, że te same umiejętności, które sprawiają, że model świetnie łata dziury w kodzie, równie skutecznie pozwalają mu je znajdować i wykorzystywać.
Liczby są niepokojące. Poprzedni flagowy model Anthropic, Opus 4.6, z luk znalezionych w silniku JavaScript przeglądarki Firefox wytworzył działające exploity zaledwie dwa razy na kilkaset prób. Mythos w wersji preview powtórzył ten sam eksperyment — i osiągnął wynik 181 udanych exploitów. W ciągu ostatnich tygodni model autonomicznie odkrył tysiące problemów typu zero-day w każdym głównym systemie operacyjnym i każdej popularnej przeglądarce, w tym błędów liczących sobie kilkanaście lub kilkadziesiąt lat, niezauważonych dotąd przez człowieka.
Co dalej?
Logan Graham, szef Frontier Red Team w Anthropic, powiedział wprost: możliwości podobne do Mythosa i tak trafią do szerokiego obiegu, czy to udostępnione przez konkurencję, czy też modele open source, w ciągu sześciu do dwunastu miesięcy. To nie jest pytanie o to, CZY hakerzy dostaną narzędzie tej klasy. Bo najprawdopodobniej dostaną. Pytanie brzmi, czy obrońcy zdążą wcześniej załatać krytyczne luki?
Właśnie dlatego Anthropic przeznacza 100 milionów dolarów w kredytach obliczeniowych, żeby partnerzy z Project Glasswing mogli użyć modelu do defensywnego skanowania własnej infrastruktury. Dodatkowe 4 miliony dolarów trafiają bezpośrednio do organizacji zajmujących się bezpieczeństwem open source.
Czy zatrzymanie Mythosa cokolwiek zmieni?
Nie wszyscy są przekonani do decyzji Anthropic. Badacze z firmy AISLE opublikowali analizę, w której sugerują, że część z opisywanych luk można wykryć znacznie tańszymi, publicznie dostępnymi modelami, bez potrzeby sięgania po Mythosa. To ważna obserwacja, bo zmienia pytanie z „czy zatrzymać Mythosa?” na „czy zatrzymanie jednego modelu cokolwiek zmienia?”.
Anthropic zapowiada, że doświadczenia zebrane przy wdrożeniu Mythosa posłużą do budowy nowych zabezpieczeń, które trafią do przyszłych, publicznie dostępnych modeli z serii Opus. Kiedy to nastąpi i czy te zabezpieczenia będą wystarczające tego jeszcze tego na razie nie wie nikt.
Źródło: anthropic, techcrunch




Dodaj komentarz