Badania nad danymi wykorzystywanymi do szkolenia modeli sztucznej inteligencji wykazały poważne zagrożenie dla cyberbezpieczeństwa. Eksperci z firmy Truffle Security przeanalizowali zasoby Common Crawl, publicznie dostępnego zbioru danych, wykorzystywanego m.in. do szkolenia modeli LLM (Large Language Models). Okazało się, że w zasobach znalazło się niemal 12 000 aktywnych kluczy API oraz haseł, co otwiera cyberprzestępcom drogę do przejęcia kont i zasobów należących do firm oraz użytkowników.

 

Czym jest Common Crawl i co ma wspólnego z AI?

Common Crawl to gigantyczny zbór danych publicznych, zawierający miliardy stron internetowych. Jest dostępny dla każdego i od lat stanowi podstawowe źródło danych dla wielu projektów badawczych, w tym dla twórców modeli AI takich jak OpenAI, Google, Meta czy DeepSeek. Modele LLM analizują ogromne ilości tekstu, aby uczyć się generowania treści przypominających ludzki styl pisania. Jednak dane w Common Crawl nie są filtrowane pod kątem poufnych informacji, co prowadzi do przypadkowego przejmowania kluczy API, haseł i innych wrażliwych danych.

Jakie dane znaleziono w zbiorze CC?

Zespoły badawcze przeanalizowały 400 terabajtów danych pochodzących z 2,76 miliarda stron internetowych. W wyniku skanowania wykryto 11 908 unikalnych kluczy API oraz haseł, które były aktywne, co oznacza, że mogły być wykorzystane do logowania i autoryzacji w różnych systemach. Szczególnie niepokojący był fakt, że:

  • 63% tych kluczy było wielokrotnie powielonych – niektóre pojawiały się nawet na tysiącach podstron,
  • najczęściej ujawniane były klucze API Amazon Web Services (AWS) oraz MailChimp,
  • w jednym przypadku klucz WalkScore API został znaleziony 57 029 razy na 1 871 subdomenach, co świadczy o ogromnej skali problemu.

 

Konsekwencje dla bezpieczeństwa

Tego rodzaju przecieki niosą ze sobą poważne zagrożenia. Cyberprzestępcy mogą wykorzystywać skradzione klucze API i hasła do:

  • przejęcia kont w chmurze, co pozwala na kradzież danych i zasobów obliczeniowych,
  • omijania zabezpieczeń serwisów i podszywania się pod znane firmy (np. w kampaniach phishingowych),
  • uzyskania dostępu do prywatnych repozytoriów kodu i eksfiltracji danych,
  • wykorzystania AI do generowania szkodliwych treści, w tym deepfake’ów czy kampanii dezinformacyjnych.

LLMJacking – nowe cyber-zagrożenie

Eksperci zwracają uwagę na rosnący trend określany jako LLMJacking, czyli przejmowanie tożsamości maszynowych wykorzystywanych do trenowania modeli AI. Zjawisko to polega na przejęciu kontroli nad infrastrukturą obliczeniową lub dostępem do usług AI, często poprzez wykorzystanie skradzionych kluczy API. Przestępcy mogą następnie sprzedawać te zasoby na czarnym rynku, umożliwiając nieautoryzowane korzystanie z zaawansowanych technologii AI przez osoby trzecie.

LLMJacking niesie ze sobą poważne konsekwencje – od zwiększenia kosztów operacyjnych dla firm, których zasoby są nieświadomie wykorzystywane, po umożliwienie generowania szkodliwych treści i ataków cybernetycznych. Co więcej, skradzione dostępy mogą być używane do prowadzenia kampanii dezinformacyjnych, przeprowadzania oszustw czy omijania zabezpieczeń systemów AI. Dlatego organizacje powinny wdrażać mechanizmy monitorowania dostępu, a także stosować wielopoziomowe zabezpieczenia i systematyczną rotację kluczy API, aby minimalizować ryzyko takich incydentów.

 

Czy twórcy AI usuwają wrażliwe dane przed szkoleniem modeli?

W teorii dane wykorzystywane do trenowania modeli AI przechodzą przez proces oczyszczania, aby usunąć zbędne i wrażliwe informacje. Jednak żaden proces filtrowania nie daje gwarancji, że wszystkie poufne dane zostaną skutecznie wyeliminowane. Modele uczą się na podstawie ogromnych zbiorów danych, a nawet nieaktywny klucz API może sugerować programistom niebezpieczne praktyki, takie jak hardcodowanie haseł w kodzie, czyli zapisywanie ich bezpośrednio w plikach źródłowych aplikacji zamiast przechowywania w zmiennych środowiskowych lub systemach zarządzania tajemnicami. Taka praktyka może prowadzić do wycieku danych, jeśli kod zostanie udostępniony publicznie.

 

Jak można zabezpieczyć się przed takim zagrożeniem?

Eksperci zalecają podjęcie kilku kluczowych działań, aby zmniejszyć ryzyko ujawnienia poufnych informacji w zbiorach danych AI:

  • Używanie zmiennych środowiskowych zamiast hardcodowania kluczy API – zamiast zapisywać klucz na stałe w kodzie, lepiej przechowywać go w bezpiecznym magazynie kluczy.
  • Monitorowanie logowań i anomalii w dostępie do zasobów – dzięki temu można szybko wykryć podejrzane zachowania.
  • Wprowadzenie uwierzytelniania wieloskładnikowego (MFA) – utrudnia to atakującym przejęcie konta nawet w przypadku uzyskania hasła.
  • Regularne audyty bezpieczeństwa i skanowanie kodu pod kątem ujawnionych tajemnic – narzędzia takie jak TruffleHog pomagają wykrywać wrażliwe dane w kodzie.
  • Współpraca z dostawcami AI i hostingodawcami – firmy, których klucze API znalazły się w Common Crawl, powinny je jak najszybciej unieważnić i wymusić ich rotację.

Podsumowanie

Odkrycie tysięcy aktywnych kluczy API i haseł w publicznych zbiorach danych pokazuje, jak duże znaczenie ma cyberbezpieczeństwo w kontekście rozwijającej się sztucznej inteligencji. Modele AI, trenowane na nieoczyszczonych danych, mogą przypadkowo generować niebezpieczne instrukcje lub ułatwiać ataki cyberprzestępców. Dlatego konieczne są surowsze standardy ochrony danych oraz szeroka edukacja na temat bezpiecznego kodowania

źródła: scworld.com, bleepingcomputer.com, trufflesecurity.com