Ukryty przełącznik w umysłach AI – naukowcy odkrywają moment przejścia między „czytaniem pozycyjnym” a semantycznym

Intrygujące badania z Politechniki Federalnej w Lozannie (EPFL) ujawniają fundamentalną zmianę w sposobie, w jaki sztuczna inteligencja przetwarza język, otwierając drogę do bardziej przewidywalnych i bezpieczniejszych systemów.

W dzisiejszym świecie systemy sztucznej inteligencji, takie jak ChatGPT czy Gemini, zadziwiają swoją płynnością w prowadzeniu naturalnych rozmów, niemal dorównując ludzkim zdolnościom językowym. Mimo tych zdumiewających osiągnięć, nasza wiedza na temat wewnętrznych procesów, które prowadzą do tak niezwykłych rezultatów, pozostaje ograniczona. Nowe badanie, opublikowane w prestiżowym Journal of Statistical Mechanics: Theory and Experiment (JSTAT), częściowo rozwikłuje tę tajemnicę, wskazując na nagłą i znaczącą zmianę w strategiach rozumienia tekstu przez sieci neuronowe podczas ich treningu.

Od porządku słów do ich znaczenia – przejście fazowe w uczeniu AI

We wczesnych etapach nauki model traktuje tekst jak układankę, w której znaczenie zdania jest odczytywane z pozycji słów. Przykład: w języku angielskim „Mary eats the apple” sugeruje relację: podmiot — orzeczenie — dopełnienie. Taka strategia opiera się na prostych zależnościach gramatycznych wynikających z kolejności wyrazów.

– To pierwsza strategia, jaka spontanicznie pojawia się podczas treningu sieci. Ale gdy model otrzymuje coraz więcej danych, po przekroczeniu pewnego progu dzieje się coś zaskakującego – strategia nagle się zmienia. Model zaczyna bazować na znaczeniu słów – tłumaczy dr Hugo Cui, jeden z głównych autorów badania.

Owa zmiana podejścia nie zachodzi stopniowo, lecz pojawia się jako wyraźna granica między dwiema fazami uczenia: pozycyjną i semantyczną. Naukowcy porównują ją do zjawisk znanych z fizyki, takich jak wrzenie wody czy przejście metalu w stan nadprzewodnictwa.

Zespół badawczy w akcji

Za tym przełomowym odkryciem stoi zespół badaczy z Politechniki Federalnej w Lozannie (EPFL): Hugo Cui, Freya Behrens, Florent Krzakala oraz Lenka Zdeborová. Ich praca, zatytułowana „A Phase Transition between Positional and Semantic Learning in a Solvable Model of Dot-Product Attention” („Przejście fazowe między uczeniem się pozycyjnym a semantycznym w rozwiązywalnym modelu uwagi iloczynu skalarnego”), została opublikowana w JSTAT w ramach specjalnego wydania Machine Learning 2025 i jest częścią materiałów konferencji NeurIPS.

Badanie opierało się na uproszczonym, ale matematycznie rozwiązywalnym modelu warstwy uwagi (attention) — podstawowego mechanizmu działania transformerów, czyli sieci neuronowych o architekturze wykorzystywanej w większości nowoczesnych modeli językowych.

Autorzy przyjrzeli się temu, jak zmienia się strategia uczenia modelu, gdy zwiększana jest liczba próbek treningowych. Kluczowym narzędziem była analiza tzw. uwagi opartej na iloczynie skalarnym (dot-product attention) z ograniczoną liczbą parametrów.

W uproszczeniu: model miał do dyspozycji dwa źródła informacji — zakodowaną pozycję słowa w zdaniu oraz jego zawartość semantyczną. Badacze odkryli, że w zależności od liczby przykładów treningowych model wybiera jedną z tych dwóch strategii. Do pewnego momentu sieć uczy się wyłącznie na podstawie pozycji — dopiero po przekroczeniu krytycznej wartości nagle przechodzi do analizy znaczenia.

– Chcieliśmy jedynie sprawdzić, które strategie wybiorą sieci. Tymczasem odkryliśmy wyraźny próg: poniżej niego model opierał się tylko na pozycjach, powyżej — tylko na znaczeniu – podkreśla dr Hugo Cui.

Przemiana fazowa w AI

Zjawisko przemiany fazowej, przeniesione z fizyki do dziedziny sztucznej inteligencji, odnosi się do sytuacji, gdy system gwałtownie zmienia swoje właściwości po przekroczeniu określonego parametru. W fizyce może to być zmiana stanu skupienia, w AI — zmiana strategii uczenia.

Sieci neuronowe

To systemy obliczeniowe inspirowane strukturą i funkcjonowaniem ludzkiego mózgu. Składają się z wielu połączonych „węzłów” (neuronów), które przetwarzają informacje. Inteligencja systemu wyłania się z interakcji tych neuronów, co można opisać metodami statystycznymi.

Modele transformatorowe (np. ChatGPT, Gemini)

Specyficzny typ architektury sieci neuronowej, która stała się podstawą nowoczesnych, zaawansowanych modeli językowych (LLM). Kluczowym elementem transformerów jest mechanizm uwagi (self-attention), który pozwala modelowi ważyć znaczenie różnych słów w zdaniu w zależności od kontekstu.

Zespół Cui zademonstrował, że w ich modelu takim parametrem jest tzw. złożoność próbki (sample complexity) — czyli stosunek liczby przykładów do wymiarowości danych. Gdy ta wartość przekracza określony próg, następuje przeskok do bardziej zaawansowanego trybu semantycznego.

Kluczowe wyniki i konsekwencje

Badanie wykazało, że globalne minimum w krajobrazie funkcji straty odpowiada albo mechanizmowi uwagi pozycyjnej, albo mechanizmowi uwagi semantycznej. Co więcej, wraz ze wzrostem złożoności próbki następuje wyraźne przejście fazowe od mechanizmu pozycyjnego do semantycznego. Kiedy model otrzymuje wystarczającą ilość danych, mechanizm semantyczny znacząco przewyższa wydajnością liniowy, pozycyjny punkt odniesienia, co potwierdza przewagę architektury uwagi w tego typu zadaniach.

Uwaga pozycyjna (positional attention)

Mechanizm, w którym tokeny (jednostki tekstu, np. słowa) w zdaniu „zwracają uwagę” na siebie nawzajem głównie na podstawie swoich względnych pozycji, czyli kolejności. Sieć uczy się, gdzie dane słowo znajduje się w zdaniu i jak ta pozycja wpływa na jego funkcję.

Uwaga semantyczna (semantic attention)

Mechanizm, w którym tokeny zwracają uwagę na siebie nawzajem na podstawie swojego znaczenia, niezależnie od pozycji w zdaniu. Model identyfikuje związki między słowami na podstawie ich treści.

Uwaga oparta na iloczynie skalarnym (dot-product attention)

Specyficzny typ mechanizmu uwagi, który oblicza siłę relacji pomiędzy parami tokenów poprzez iloczyn skalarny ich reprezentacji wektorowych. Im wyższy wynik, tym silniejszy związek między tokenami.

W rozwiązaniu pozycyjnym macierz uwagi, którą nauczył się model, zależy głównie od pozycji słów, a nie od ich faktycznej treści. Macierz ta jest niemal niezależna od konkretnej sekwencji wejściowej i służy głównie do jednorodnego agregowania tokenów, podczas gdy warstwa w pełni połączona (fully connected layer) uczy się operacji takich jak zliczanie.

W przeciwieństwie do tego, w rozwiązaniu semantycznym macierz uwagi wykazuje, że identyczne tokeny (słowa) „zwracają na siebie większą uwagę”. Ten mechanizm nie opiera się na pozycjach, lecz na treści semantycznej tokenów. Oznacza to, że model rzeczywiście rozpoznaje znaczenie słów i zależności między nimi. Oba podejścia (pozycyjne i semantyczne) są wykonalnymi algorytmami, które pozwalają transformatorowi rozwiązać zadanie, ale to rozwiązanie semantyczne prowadzi do głębszego zrozumienia języka.

– To pierwszy raz, kiedy udało się ściśle teoretycznie opisać przejście między tymi strategiami w modelach uwagi – wyjaśnia prof. Lenka Zdeborová z EPFL.

Dlaczego to ważne?

Wyniki tego badania mają znaczenie wykraczające poza sam model. Pokazują, że sposób, w jaki uczą się systemy AI, nie jest procesem liniowym. Strategia przyjmowana przez model może zależeć od subtelnych zmian w liczbie danych lub architekturze sieci. To wiedza kluczowa dla:

  • projektowania bardziej przewidywalnych i bezpiecznych modeli,
  • tworzenia efektywniejszych strategii trenowania,
  • kontrolowania zachowań LLM-ów (np. minimalizowania halucynacji).

– Zrozumienie z teoretycznego punktu widzenia, że zmiana strategii następuje właśnie w ten sposób, jest bardzo istotne – podkreśla znaczenie tego odkrycia dr Hugo Cui.

Dodaje również, że choć badane sieci są uproszczone w porównaniu do złożonych modeli wykorzystywanych na co dzień, mogą dostarczyć cennych wskazówek do zrozumienia warunków, które sprawiają, że model utrwala jedną ze strategii.

– Ta wiedza teoretyczna może w przyszłości pomóc uczynić korzystanie z sieci neuronowych bardziej wydajnym i bezpieczniejszym – podkreśla dr Cui.

Badanie to otwiera nowe ścieżki do projektowania bardziej efektywnych i niezawodnych systemów AI. Poznanie, w jaki sposób i kiedy modele przechodzą od powierzchownego przetwarzania składniowego do głębokiego rozumienia semantycznego, jest kluczowe dla optymalizacji procesów treningowych i budowy sztucznej inteligencji, która nie tylko „mówi” językiem ludzkim, ale również go naprawdę „rozumie”.

źródła: sciencedaily.com, eurekalert.org, iopscience.iop.org

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *