“A może ciasteczko?” Kto kogo śledzi w Internecie

Internet przez bardzo długi czas uchodził za medium anonimowe: “Cóż Ci po moim adresie IP, skoro nie zdołasz powiązać go z informacjami na mój temat?” Niestety. Już w późnych latach dziewięćdziesiątych zainteresowane ich pozyskiwaniem firmy mogły to zrobić z wielką łatwością.

Pliki cookies: czym są i co robią?

Obecnie – wchodząc na dowolną stronę – musimy wyrazić całą serię zgód, w tym również na przetwarzanie naszych danych (osobowych i nieoznaczonych) oraz późniejsze działania reklamowe.

Zgodę, osobną lub nie, w zależności od polityki konkretnego serwisu, wyrażamy również “na pliki cookies”, zwane również “ciasteczkami”.

O co chodzi z tymi cookies? W telegraficznym skrócie: ciasteczko to niewielki plik tekstowy umieszczany przez powiązane z witryną narzędzia (np. analityczne) w plikach naszej przeglądarki. W pliku tym zapisywane są zaszyfrowane informacje dotyczące naszych wizyt na stronie. Zakres zapisywanych w ciasteczku informacji może być różny; najczęściej są one bardzo podstawowe (np. data ostatniej wizyty), ale zdarzają się też ciasteczka z ciekawszym nadzieniem. ;- )

Listę połkniętych przez naszą przeglądarkę plików cookies możemy zobaczyć w jej ustawieniach. W Chromie wygląda to w ten sposób:

Informacje zapisane w takim ciasteczku, dla nas kompletnie niezrozumiałe, nabierają sensu “w oczach” powiązanych z witryną narzędzi. O jakich konkretnie narzędziach mówimy? No cóż – do najpopularniejszych należą ciasteczka od Facebooka i Google; przykładowymi narzędziami mogą być więc Facebook, Google Analytics, Google Ads etc. I właśnie za pośrednictwem tych narzędzi najczęściej śledzą nas internetowi reklamodawcy. Narzędzie “zaczytuje” zapisane w ciasteczkach informacje – a następnie przetwarza je w swoim silniku i na ich podstawie konstruuje raporty, do których dostęp otrzymuje właściciel witryny.

Jakie informacje posiadają na nasz temat właściciele stron internetowych?

Jakie informacje posiadają na nasz temat właściciele stron internetowych? Na szczęście zazwyczaj jest to niewiele. Jeżeli wszystko odbyło się zgodne z obowiązującym prawem (m.in. RODO, ale nie tylko), to do narzędzi analitycznych właścicieli witryn nie przedostają się *żadne* dane osobowe. Poprawnie skonfigurowane narzędzia analityczne nie tyle odfiltrowują nasze IP i inne dane osobowe z generowanych przez siebie raportów; one nawet ich nie pozyskują. Dane osobowe nie trafiają więc do silników tych narzędzi. A zatem nie ma ich także w raportach.

A w każdym razie tak jest w teorii, bo – jak pokazują niedawne zdarzenia – w praktyce często bywa z tym różnie.

No dobrze: ale skoro nie dane osobowe, to co trafia do raportów generowanych przez Facebooka i Google? Otóż – jeżeli narzędzie skonfigurowano w pełni poprawnie – trafiają do nich tzw. dane nieoznaczone, a w najgorszym wypadku – spseudonimizowane dane osobowe (czyli np. zaszyfrowane adresy email).

Co to są dane nieoznaczone? To dane, których nie da się w żaden sposób powiązać z konkretną osobą – a więc wszystkie te dane na mój i Twój temat, które nie pozwoliłyby człowiekowi z ulicy rozpoznać w przechodzącej obok nich osobie mnie albo Ciebie. Ale właścicielowi strony internetowej mogą się przydać – np. do oceny, które z zamieszczanych w witrynie treści “konsumuje się” najlepiej, a które najgorzej.

Z danych tych korzystają również reklamodawcy. Oni z kolei najczęściej wykorzystują je do… prowadzenia działań reklamowych. Np. serwowania internautom komunikatów związanych z ich zainteresowaniami lub miejscem pobytu. I ma to wiele sensu – wyświetlanie reklam nowojorskich banków na komputerze osoby, która nigdy w Nowym Jorku nie była, raczej mija się z celem.

W panelu administracyjnym narzędzi analitycznych (np. Google Analytics) dane te wyglądają mniej więcej w ten sposób:

Dlaczego “chodzą za mną” bannery?

Chyba każdemu z nas zdarzyło się kiedyś zostać ofiarą “złych” akcji promocyjnych. Złych – czyli nie przynoszących korzyści nikomu: ani nam, użytkownikom, ani nadawcom konkretnej reklamy.

Prosty przykład. Wchodzę na stronę sprzedawcy rowerów. Przez najbliższe pięć tygodni oglądam wszędzie reklamy rowerów.

Bannery podążające stały się zmorą Internetu – i to właśnie one odpowiadają za tak ogromną popularność adblocków. W fachowej nomenklaturze działania tego rodzaju – polegające na emitowaniu “podążających” za użytkownikami materiałów reklamowych – określa się mianem “remarketingu” (a czasem także “retargetingu”).

W świecie reklamy internetowej – szczególnie tej prowadzonej “nie do końca umiejętnie” – remarketing wciąż robi ogromną furorę. Dlaczego? Powodów może być mnóstwo. Jednym z nich może być fakt, że wielu dzisiejszych marketingowców nie potrafi określić swojej grupy docelowej w inny sposób niż po prostu “wszyscy, którzy weszli na moją stronę internetową”. Czy wszyscy, którzy weszli na stronę sklepu rowerowego, rzeczywiście chcą kupić ten rower? Nie; niekoniecznie. Ale część z nich pewnie kupi. Czy jest to dowodem skuteczności reklamy? Dla niektórych – jak widać – wciąż jest.

Innym powodem może być fakt, że wielu reklamodawców odpowiadających za emisję takich bannerów najzwyczajniej w świecie nie potrafi poprawnie zinterpretować danych, które tak pieczołowicie pozyskują. Bo gdyby spędzili choć chwilę na analizie własnych raportów, szybko doszliby do wniosku, że skoro 95% klientów prowadzonego przez nich sklepu rowerowego kupuje rower w przeciągu trzech dni od wizyty, to atakowanie ich bannerami przez kolejne pięć tygodni zwyczajnie bez sensu.

Jak walczyć z natrętnymi bannerami?

Po pierwsze: adblock, choć skuteczny, rzadko jest najlepszym rozwiązaniem. Większość adblocków – co zakrawa na paradoks – również pozyskuje dane o naszym zachowaniu. I nie są to już tylko dane na temat naszych zachowań na jednej witrynie – to dane dotyczące całokształtu naszej aktywności w Internecie (a przynajmniej w danej przeglądarce – tej, w której zainstalowaliśmy sobie adblocka). A co z nimi robią?

Oczywiście – sprzedają je reklamodawcom. Jakże mogło być inaczej?

Jeżeli podążające za nami bannery zaczynają nas męczyć, to mamy dwie opcje. Po pierwsze: niektóre z przeglądarek oferują możliwość całkowitego wyłączenia tej funkcji. Wystarczy pogrzebać w ustawieniach – odpowiedni przycisk najczęściej skrywa się pod nazwą “Funkcje reklamowe” albo “Funkcje remarketingowe”. Po jego wyłączeniu bannery podążające przestaną nas nękać. Ich miejsce zajmą… inne bannery, ale niezwiązane z historią naszych odwiedzin na stronach internetowych. To tyle w kwestii tego roweru…

Inną opcją jest częściowe wyczyszczenie historii przeglądania. Nie musimy usuwać wszystkich informacji o wizytach – wystarczy, że usuniemy pliki cookie. Reklamy podążające podążają bowiem najczęściej nie tyle za konkretnym użytkownikiem, co za konkretnym plikiem cookie. Po jego usunięciu przestaną nas nękać.

Na pohybel reklamodawcom? Pliki cookies – miecz obosieczny

Na pociechę – zabawny fakt. Otóż… większość reklamodawców nie ma wcale możliwości śledzenia “rzeczywistych” użytkowników. De facto śledzą oni… właśnie zapisane w przeglądarkach pliki cookies.

Co to oznacza w praktyce? Mnóstwo frajdy i zabawy. Jeżeli jeden użytkownik korzysta z dwóch lub większej liczby urządzeń, to dla większości narzędzi analitycznych będzie on dwoma różnymi użytkownikami. W przeglądarce na jednym urządzeniu zainstalowany zostanie jeden plik cookie, a w przeglądarce na drugim – drugi. Jeszcze gorzej: jeżeli z jednego urządzenia korzysta więcej niż jedna osoba, to narzędzie analityczne zinterpretuje je jako… pojedynczego użytkownika. Co z tego, że w pierwszej połowie dnia użytkownik ten wykazuje zainteresowania typowe dla licealistki, a w drugiej – jej dziadka; internetowy analityk może co najwyżej postawić hipotezę, że dziewczyna lubi sprzęt retro. Trudno się dziwić – hipsterzy są wszędzie. ;- )

Oczywiście poprawnie skonfigurowane narzędzia pozwalają reklamodawcom unikać części z tych sytuacji. Ale poprawne skonfigurowanie tych narzędzi wcale nie jest takie proste. A wielu nie stać na specjalistę.

Ostatecznie więc – mnóstwo reklam trafia nie tam, gdzie powinno.

Tym gorzej dla nas – użytkowników.

Dane nieoznaczone = dane (nie)oznaczone?

Oczywiście mówimy tutaj o prostych przypadkach. Większość z nich jest niewinna. Ale na tym, co zrozumiałe, świat się nie kończy.

Dane nieoznaczone są nieoznaczone tak długo, jak długo nie możemy powiązać ich z danymi osobowymi. Ale co stoi na przeszkodzie, by tego powiązania faktycznie dokonać?

Odpowiadam: nic.

Naprawdę.

Wystarczy, że zalogujesz się na swoje konto w banku; bank to bardzo dobry przykład. Potężne systemy analityczne natychmiast dokonają właściwego przetwarzania. Obsługująca Cię instytucja finansowa wie o Tobie bardzo dużo. I na pewno znajdzie sposób, żeby tę wiedzę wykorzystać. Które strony produktów bankowych przeglądasz? Czy są to kredyty? Hipoteczne? Gotówkowe? Czy korzystałeś z narzędzi do symulacji? itd. itp.

Czy instytucje tego rodzaju mogą to robić? A czy wchodząc na ich stronę wyraziłeś zgodę na przetwarzanie danych?*

No właśnie.

Tak zaawansowane przetwarzanie opiera się – na szczęście lub nieszczęście – na dużo bardziej zaawansowanej technologii. Poczciwe ciasteczko jest tu niewinne. Ale warto o tym wiedzieć. Tu nie pomoże Ci już ani adblock, ani tryb incognito w przeglądarce, ani – najprawdopodobniej – nic.

*Na szczęście w świetle RODO banki nie mogą dłużej odwoływać się do automatycznego profilowania w celach związanych np. z decyzjami kredytowymi. To akurat dobre wieści.

Ciasteczko ciasteczku nierówne: first-party cookies i third-party cookies

Ale ciasteczka także są różne – i nie wszystkie są niewinne. A konkretniej: niewinne są tak zwane ciasteczka stron pierwszych (first-party cookies). Ciasteczka stron trzecich (third-party cookies) to temat na całkiem inną rozmowę.

W największym skrócie: ciasteczka stron pierwszych to ciasteczka powiązane ze stronami, na których połknęła je nasza przeglądarka. Wchodząc na stronę polskiego rządu, łykamy ciasteczko polskiego rządu. Smaczne jak smaczne, ale bezpieczne.

Gorzej natomiast z tymi drugimi. Jeżeli wchodząc na stronę polskiego rządu łykamy ciasteczko powiązane z inną stroną – np. stroną znanego polskiego producenta seriali komediowych – to robi się gorzej. A czy może się tak zdarzyć? Tak – i zdarza się codziennie (choć niekoniecznie akurat na stronach rządowych).

Wchodzisz na stronę produktu A i klikasz w niewinnie wyglądający przycisk. W Twojej przeglądarce zainstalowane zostają ciasteczka produktów B, C, D i E. Od tej pory producenci B, C, D i E posiadają na Twój temat informacje; ich zakres zależy tylko od uczciwości producenta A. Może chodzić wyłącznie o Twoje działania na stronie producenta A. Ale może chodzić też o coś więcej.

Na szczęście coraz więcej przeglądarek blokuje instalowanie ciasteczek stron trzecich. Domyślnie i zawsze blokuje je Safari, a niedawno do applowskiej przeglądarki dołączył także Firefox. Inne prawdopodobnie również to zrobią – pytanie tylko, czy wcześniej, czy później.

Jak rozpoznać, kto nas śledzi w Internecie?

To bardzo proste: robią to wszyscy.

A tak poważnie. Jest parę sposobów.

Pierwszy, choć niekoniecznie najłatwiejszy, to sprawdzenie, czy w kodzie odwiedzanej przez nas strony znajduje się któryś z najpopularniejszych kodów trackingowych. Aby to zrobić, wystarczy wyświetlić źródło strony i wyszukać podejrzanie wyglądający fragment kodu JavaScript.

Kod śledzący narzędzia Google Analytics wygląda w ten sposób:

<!-- Global site tag (gtag.js) - Google Analytics -->
<script async src="https://www.googletagmanager.com/gtag/js?id=UA-109517031-1"></script>
<script>
window.dataLayer = window.dataLayer || [];
function gtag(){dataLayer.push(arguments);}
gtag('js', new Date());

gtag('config', '[numer usługi]');
</script>

A kod śledzący Facebooka w ten sposób:

<!-- Facebook Pixel Code -->
<script>
  !function(f,b,e,v,n,t,s)
  {if(f.fbq)return;n=f.fbq=function(){n.callMethod?
  n.callMethod.apply(n,arguments):n.queue.push(arguments)};
  if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0';
  n.queue=[];t=b.createElement(e);t.async=!0;
  t.src=v;s=b.getElementsByTagName(e)[0];
  s.parentNode.insertBefore(t,s)}(window, document,'script',
  'https://connect.facebook.net/en_US/fbevents.js');
  fbq('init', '[id usługi]');
  fbq('track', 'PageView');
</script>
<noscript>
  <img height="1" width="1" style="display:none" 
       src="https://www.facebook.com/tr?[id usługi]&ev=PageView&noscript=1"/>
</noscript>
<!-- End Facebook Pixel Code -->

Z innych opcji: możemy skorzystać z jednej z dziesiątek dostępnych w Sieci wtyczek do przeglądarki (z których, nawiasem mówiąc, dobre 90% również nas śledzi, chociaż w całkiem inny sposób). Dobrze sprawdzi się popularny Wappalyzer. Co bardziej złośliwi mogą wykorzystać też pluginy służące w założeniu do debugowania implementacji kodów śledzących – np. Facebook Pixel Helper albo Google Tag Assistant. Nie tylko dowiemy się, czy śledzenie przebiega poprawnie, ale także z jakich konkretnie funkcji śledzących korzysta właściciel konkretnej witryny.

Życie jak z filmu? Tak – szpiegowskiego!

Marzenia wczesnych Internautów o anonimowym medium legły więc – jak widać – w gruzach. Czy to dobrze? Tak i nie. Tak – ponieważ Sieć jest dobrem wspólnym. I chociażby już z tego powodu nie powinna funkcjonować jak Dziki Zachód. Nie – ponieważ z dużą ilością danych można zrobić dużo rzeczy. I nie zawsze będą to rzeczy właściwe.

Reklama podążająca może być reklamą natrętną – ale jest reklamą (przynajmniej częściowo) personalizowaną. Z dwojga złego – lepsze to niż całkowicie przypadkowe reklamy emitowane na co dzień w telewizji. Ileż razy mogę oglądać tę samą reklamę największej w Polsce sieci komórkowej czy równie popularnego środka na kaszel? Może i oglądanie jednego i tego samego roweru codziennie przez miesiąc – w dodatku nawet po jego zakupie – nie jest miłym doświadczeniem. Ale na pewno jest lepsze od reklamy telewizyjnej: często irytującej nie tyle przez nieudolność, co w stu procentach celowo, bo przecież “każdy sposób na przyciągnięcie uwagi jest dobry” (biblia telewizyjnego marketingu).

Natomiast z jednym musimy się pogodzić – i chyba niewiele może to zmienić. Nikt z nas nie wie, w jak wielu bazach składowane są i przetwarzane nasze dane osobowe.

I stawiam połowę polskiego Internetu, że większość z nas wolałaby się tego nie dowiedzieć.

TESTY I RECENZJE

Słabe standardy ochrony danych pacjentów w polskich szpitalach i przychodniach

Infinix Note 40 oraz Note 40 Pro trafiły do polskich sklepów. Smartfony wciąż są niedrogie i mają czym się pochwalić

Czy wyświetlacze QDEL zastąpią niedługo OLED-y? Jest taka szansa, ale potrzeba jeszcze paru lat

TESTY I RECENZJE

Hama EMW-700 – recenzja. Wertykalna mysz biurowa w bardzo dobrej cenie

Iiyama G-Master Red Eagle GCB3480WQSU-B1 – recenzja. Kolejna szybka panorama z ekranem VA

Lenovo ThinkPad P16v Gen 1 – recenzja. Zmiany, ale bez rewolucji

PORADNIKI

Posiadacze kryptowalut na celowniku – nowe metody działania cyberprzestępców

Jak bezpiecznie wysłać szyfrowane wiadomości oraz udostępniać wrażliwe dane – radzi ekspert ESET

Laptopy biznesowe A.D. 2024 – jak wybrać optymalnie dopasowane narzędzie pracy?

Top 5 laptopów pierwszej połowy 2023 roku

5 aplikacji do zamawiania jedzenia online.

Top 5 – najlepsze 14-calowe laptopy biurowe

Top 5 – notebooki konwertowalne z wyższej półki

PO GODZINACH

Ameryka wypowiada wojnę TikTokowi. Dlaczego lepiej omijać chińską „wideo-społecznościówkę” szerokim łukiem?

25 lat Polski w NATO i 20. rocznica dołączenia do Unii Europejskiej z perspektywy cyberbezpieczeństwa

Diuna: część druga – ni to recenzja, ni to felieton. O Herbercie, Asimovie, Lynchu i Villeneuve’ie i nie tylko.

Lenovo ThinkBook 16p G4 – wideorecenzja

Asus Vivobook S15 (K5504V) – wideorecenzja

Asus ProArt Studiobook 16 OLED (H7604) – wideorecenzja

Samsung ViewFinity S9 (S90PC) – wideorecenzja

share