testy wydajnosci crawlerow

Testy wydajnosci crawlerow AI – porownanie GPTBot, ClaudeBot, PerplexityBot i Google-Extended

Roznica miedzy tym, co widzi Googlebot, a tym, co widzi GPTBot jest wieksza niz zakladaja wiekszosc SEO-owcow. Testy wydajnosci crawlerow AI, ktore przeprowadzilismy w 1. kwartale 2026 roku, pokazuja, ze poszczegolne boty odwiedzaja rozne podstrony, z inna czestotliwoscia i przestrzegaja innych regul robots.txt. Ta nierownosc wplywa na to, co LLM wiedza o Twojej stronie.

Artykul zbiera wyniki testow na 4 witrynach roznych branz (SaaS, e-commerce, media, lokalny biznes) i pokazuje, jak kazdy crawler AI zachowuje sie inaczej. Przekazuje tez metodologie, ktora mozesz powtorzyc u siebie — wymaga tylko dostepu do logow serwera i podstawowej analizy w Pythonie lub BigQuery.

W skrocie

  • GPTBot odwiedza srednio 4-6% stron Googlebot w tym samym okresie. ClaudeBot ok. 2-3%. PerplexityBot 1-2%. Google-Extended jest „cichym” dodatkiem do Googlebota bez oddzielnych wizyt.
  • Crawlery AI preferuja strony z duza iloscia tekstu (1500+ slow), pomijaja gallerie zdjec i strony tag/archive.
  • Srednie opoznienie miedzy publikacja a pierwsza wizyta AI bota — GPTBot 6-14 dni, ClaudeBot 10-21 dni, PerplexityBot 3-7 dni.
  • 30-40% stron z duzym ruchem organicznym nie zostalo ani razu odwiedzonych przez ClaudeBot w ciagu 90 dni.
  • Blokowanie crawlerow AI w robots.txt powoduje spadek widocznosci o 20-40% w odpowiednim LLM w ciagu 3-6 miesiecy.

Dlaczego warto testowac crawlery AI

Widocznosc w ChatGPT, Perplexity i Gemini zalezy nie tylko od jakosci contentu, ale od tego, czy bot w ogole widzi strone. Wiele witryn ma problem techniczny — content jest, ale bot ClaudeBot nie moze go pobrac (blokuje CDN, robots.txt, JavaScript-only rendering). Test wydajnosci ujawnia te blokady.

Drugi powod to budzet. Jesli plans zaklada, ze widocznosc w LLM wzrosnie w 3 miesiace, ale bot odwiedzil tylko 10% stron, plan nie ma szans. Bez pomiaru crawlu decyzje opieraja sie na wierze.

Trzeci powod — priorytyzacja napraw technicznych. Jesli GPTBot indeksuje 80% stron ale PerplexityBot tylko 20%, wiesz gdzie sa problemy. To konkretne zadanie techniczne, nie abstrakcyjna dyskusja o „optymalizacji AIO”. Wiecej o tym w przewodniku po widocznosci w AI.

Czwarty powod — znajomosc zachowania crawlera pozwala decydowac o blokowaniu lub nie. Niektore witryny celowo blokuja GPTBot (praw autorskich, content ekskluzywny), ale nie wiedza, ze blokuja tez crawlery uzywane przez ChatGPT do zywego wyszukiwania (browse with web). Test pokaze, czy zachowanie rozniaja.

Piaty, praktyczny powod — narracja w rozmowie z klientem. „ClaudeBot odwiedzil 85% Twoich stron pillarowych, ale tylko 12% stron produktowych” jest konkretnym, mierzalnym argumentem do przebudowy. Bez liczb zostaja tylko opinie, ktore klient odbija.

Jakie crawlery AI warto monitorowac

W 2026 roku aktywnych jest kilkanascie crawlerow AI, ale 5 dominuje ruch. Reszta to eksperymenty lub niszowe projekty. Poniżej lista.

Bot User agent Co napadzi Cel Mozna blokowac?
GPTBot GPTBot/1.x OpenAI Trening modelu Tak, robots.txt
ChatGPT-User ChatGPT-User/1.x OpenAI Browse with web (live) Tak, ale wylacza live
ClaudeBot ClaudeBot/1.x Anthropic Trening modelu Tak, robots.txt
Claude-Web Claude-Web/1.x Anthropic Web search w chacie Tak, wylacza search
PerplexityBot PerplexityBot/1.x Perplexity Wyszukiwarka AI Tak, ale tracisz cytowania
Google-Extended (cichy) Google Gemini, Bard trening Tak, przez robots.txt
Bingbot bingbot/2.x Microsoft Bing + Copilot Nie rekomendowane

Bingbot jest w szczegolnej roli – zasila Bing Search i Copilot (GPT-4 w MS ekosystemie). Wiekszosc widocznosci w Copilot pochodzi z indeksu Bing, wiec blokada bingbota = brak widocznosci w Copilot. Nikt tego nie blokuje swiadomie.

Rozroznienie miedzy botem treningowym (np. GPTBot) a zywym wyszukiwaniem (ChatGPT-User) jest wazne. Blokada GPTBot chroni przed treningiem, ale nie wplywa na to, co widzi uzytkownik ChatGPT wlaczajacy „Search the web”. Oddzielna blokada to oddzielne konsekwencje.

Jak ustawic test crawlerow krok po kroku

Test wymaga 3 rzeczy: dostepu do logow serwera, prostej analizy w SQL/Pythonie, i okresu obserwacji 30-90 dni. Szczegoly konfiguracji nizej.

  1. Wlacz logowanie dostepow. W nginx dodaj log format z user-agent. W Apache — CustomLog z LogFormat combined. Rotacja logow 90 dni minimum.
  2. Eksport do bazy analitycznej. Codziennie wysylaj logi do BigQuery, ClickHouse lub PostgreSQL. Narzedzia: Vector.dev, Fluentd, lub prosty skrypt cron + awk.
  3. Filtrowanie po user-agent. Zapytanie SQL: WHERE user_agent LIKE '%GPTBot%' OR user_agent LIKE '%ClaudeBot%'.... Grupowanie po bocie i dniu.
  4. Metryki wyliczone. Unikalne URLe odwiedzone, czestotliwosc odwiedzin, response codes, srednie opoznienie miedzy publikacja a wizyta.

Waznym krokiem jest weryfikacja tozsamosci bota. Niektore boty udaja GPTBot. OpenAI publikuje range IP dla swojego bota — warto sprawdzic (reverse DNS lookup, pasuje do *.openai.com), zeby odfiltrowac falszywki. W ten sposob znajdziesz takze niektore boty konkurencyjne udajace legalne.

Dla testu porownawczego warto dodac jedna „kontrolna” witryne identyczna co do struktury, ale bez specjalnych optymalizacji AIO. Dzieki temu ocenisz, czy Twoje optymalizacje przyciagaja boty, czy tylko zwykly trend ruchu crawlerowego.

Typowy okres obserwacji to 60-90 dni. Krocej — dane zbyt zaszumione. Dluzej — tracisz reaktywnosc. Jesli potrzebujesz szybszej informacji, skup sie na top 100 stronach i sprawdzaj je codziennie przez 30 dni.

Jakie sa typowe wyniki testow

Z 4 witryn ktore przeanalizowalismy w I kwartale 2026 wylaniaja sie 3 powtarzajace wzorce. Pokazuje je nizej, z procentami dla kazdej witryny.

Witryna Typ Stron lacznie Googlebot pokrycie GPTBot pokrycie ClaudeBot pokrycie PerplexityBot pokrycie
A SaaS B2B 320 98% 76% 42% 28%
B E-commerce 12 400 94% 8% 3% 1%
C Portal medialny 2 800 99% 85% 61% 38%
D Lokalny biznes 85 100% 45% 22% 12%

Widac, ze crawlery AI preferuja witryny contentowe (portal medialny, SaaS z poradnikami) nad e-commerce z tysiacami stron produktowych. Dla sklepu B top 500 produktow GPTBot odwiedzil 60%, a reszty 12 000 – prawie wcale. To logiczne z perspektywy budzetu crawlu LLM, ale bolesne dla sklepow.

Srednie opoznienie publikacji do wizyty GPTBot dla witryny A (SaaS) wynosilo 9 dni dla stron pillarowych i 17 dni dla stron supporting. Dla witryny B (e-commerce) nowy produkt musial czekac srednio 28 dni na pierwsza wizyte. Dla witryny C (media) 6 dni — wysoki autorytet doomenowy przyspieszyl.

Zaskakujace — witryna D (lokalny biznes) miala lepsze pokrycie niz witryna B (e-commerce). Klucz to rozmiar. 85 stron o wysokiej jakosci tekstu kazda pokryto na 45% przez GPTBot. 12 400 stron produktowych z krotkimi opisami pokryto na 8%. Liczy sie gestosc informacji na strone, nie liczba stron.

Jak interpretowac logi crawlera AI

Surowe logi sa trudne w interpretacji. Zmien je w konkretne wnioski odpowiadajac na 5 pytan.

Pytanie 1: ktore strony bot ignoruje? Filtruj URLe z zerowym ruchem od AI bota w ostatnich 90 dniach. Sprawdz ich wspolne cechy — cienki content? Duplikat? Blokada robots.txt? Slow Core Web Vitals? Praktyczna akcja: popraw top 50 pomijanych.

Pytanie 2: jak szybko bot reaguje na nowe strony? Wybierz 20 stron opublikowanych w ostatnich 30 dniach. Policz dni do pierwszej wizyty bota. Dla dobrze zoptymalizowanej witryny powinno byc 7-14 dni. Powyzej 30 dni — jest problem z indexability lub site-wide trust.

Pytanie 3: ktore sekcje witryny sa faworyzowane? Grupuj URLe po katalogu top-level. Sprawdz procent pokrycia w kazdej sekcji. Jesli /blog/ ma 90% a /pricing/ 20%, zastanow sie dlaczego. Moze pricing ma za duzo JS-a?

Pytanie 4: jaki jest response code? Policz ile wizyt bota dostaje 200, 301, 404, 500. Wysoki procent 404 — masz broken internal links, ktore tylko bot widzi. Ponad 5% 500 — serwer padaje pod obciazeniem, trzeba optymalizowac. 301 w przeciwnosci to zazwyczaj migracja, ok.

Pytanie 5: czy bot pobiera JavaScript-rendered content? Porownaj plaintext strony (co widzi bot bez JS) z renderowana. Wiele crawlerow AI NIE wykonuje JS (w przeciwnosci do Googlebota). Jesli caly content jest w React-hydration, bot dostaje pusta strone. Rozwiazanie — SSR albo pre-rendering. Wiecej w custom dashboardzie do analiz AI.

Jakie optymalizacje wplywaja na crawling AI

Z danych z 4 witryn wylania sie 6 optymalizacji z mierzalnym wplywem na pokrycie crawlerow AI. Podaje z szacowanym wplywem, zebranym z testow A/B na czesciach witryny.

  1. SSR zamiast client-side rendering – pokrycie GPTBot +40-60%. Kluczowe dla React/Vue/Next.js.
  2. Sitemap XML aktualizowany codziennie – opoznienie publikacja-crawl skraca sie o 30-50%.
  3. Internal linking z pillarow – strony dobrze zlinkowane maja pokrycie 2x wyzsze.
  4. Core Web Vitals w zielonym – boty rezygnuja z wolnych stron (>5s load). Optymalizacja poprawia pokrycie o 15-25%.
  5. Unikalne title i meta description – boty czesciej ignoruja duplikaty.
  6. Canonical poprawny – bez canonicali lub z bledami boty indeksuja rzadziej.

Nie dziala (lub ma marginalny wplyw): meta tag „Author”, dane strukturalne typu Article, autorzy z biogramem, sidebar z polecanymi artykulami. To nie znaczy, ze nie warto — Google je lubi, wplywaja na SEO — ale nie podniosly pokrycia AI bota w naszych testach.

Warto pamietac, ze Google sam uzywa danych strukturalnych do wnioskowania o encjach (wiecej w dokumentacji Google Search Central), ale to inna warstwa niz to, co GPTBot zbiera dla treningu. Dane strukturalne pomagaja w SEO, nie w szybszym crawlu przez LLM.

Jak zmienic robots.txt zeby optymalizowac AI crawl

Robots.txt to pierwsza linia obrony i jednoczesnie pierwsza blokada widocznosci. Zle skonfigurowany zamyka Cie w LLM bez wiedzy. Oto rekomendowana konfiguracja dla witryny, ktora chce byc widoczna w AI.

User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/

Sitemap: https://example.com/sitemap.xml

Jawny Allow dla kazdego AI bota jest rekomendowany, bo niektore CDN-y (np. Cloudflare z wlaczonym AI Scrapers blocker) blokuja domyslnie. Explicit Allow zawsze nadpisuje.

Jesli chcesz zablokowac konkretny LLM (np. nie chcesz aby OpenAI trenowal na twoich tekstach), uzywasz Disallow: / dla tego user-agenta. Uwaga — to moze obnizyc widocznosc w ChatGPT. Zalezy od strategii biznesowej.

Dla witryn polskich i europejskich nie rekomenduje blokowania — rynek jest mniejszy, kazda widocznosc zlicza sie. Blokady sens maja dla duzych contentowych korporacji (NYT, Guardian), ktore negocjuja platne licencje na trening.

Jak ustawic alerty gdy bot przestaje odwiedzac

Krytyczny moment — bot przestaje odwiedzac stronne. Przyczyny: blokada, zmiana CDN, blad SSL, problem indexability. Bez alertu dowiesz sie po miesiacu, gdy widocznosc spadnie.

Prosty alert: daily job w BigQuery lub Supabase sprawdza licze wizyt kazdego bota w ostatnich 24h wzgledem 7-dniowej sredniej. Jesli spadek wiekszy niz 50%, wysyl alert na Slacka lub mail. Konfiguracja 1 godzina.

Drugi alert — nowe response codes. Jesli GPTBot nagle dostaje 80% 500, cos sie zepsulo serwerze. Alert na ponad 10% niepoprawnych response codes to standardowa konfiguracja uratuje wiele godzin zgadywania. Wiecej o zaawansowanych alertach w kontekscie AI mozesz zbudowac korzystajac z wskazowek z artykulu o custom dashboardzie.

Trzeci alert — spadek udzialu crawlu AI do googlebot. Jesli zwykle GPTBot to 10% Googlebota, a spadl do 3%, to sygnal. Moze Google zmienil politykie, moze my cos popsulismy. Alert dziennie uruchamiany oszczedza detektywke.

Najczestsze bledy przy analizie crawlerow

W analizie logow crawlerow powtarzaja sie 4 bledy, ktore prowadza do falszywych wnioskow. Kazdy mozna uniknac, jesli o nich wiedziec.

  • Nieweryfikowanie tozsamosci bota. 5-15% ruchu podajacego sie za GPTBot to scrapery. Weryfikacja przez reverse DNS eliminuje te falszywki.
  • Brak segmentacji po typie strony. Sumowanie wszystkich wizyt w jedna liczbe ukrywa, ze boty indeksuja jedne sekcje a ignoruja inne. Zawsze grupuj po katalogach.
  • Ignorowanie response codes. Bot odwiedzil, ale dostal 500 — efekt zero dla widocznosci. Licz tylko successful hits.
  • Mylenie ilosci wizyt z pokryciem. Jesli GPTBot 5 000 razy odwiedzil jedna strone, to 5 000 hitow ale 1 URL. Pokrycie liczysz po unique URL.

Piaty blad, rzadszy — analiza zbyt krotkiego okresu. 7 dni to szum. Minimum 30 dni dla wiarygodnych wnioskow. Dla witryn z mala liczba stron (<200) — 90 dni.

FAQ — najczestsze pytania

Czy Google-Extended to oddzielny crawler czy dodatek do Googlebota?

Google-Extended nie jest fizycznie oddzielnym botem. To flaga w robots.txt, ktora mowi Google-owi „nie uzywaj mojego contentu do treningu Gemini”. Sam crawl odbywa sie przez Googlebota, ale dane trafiaja do roznych pipeline-ow na podstawie flagi. Jesli blokujesz Google-Extended, tracisz widocznosc w Gemini, ale zachowujesz w wynikach Google Search. Wprowadzono to we wrzesniu 2023 roku.

Jak czesto GPTBot wraca na te sama strone?

Srednio co 14-30 dni dla witryn o wysokim autorytecie, co 60-90 dni dla srednich, rzadziej niz raz na 6 miesiecy dla malych. Strony aktualizowane czesto (news, blog aktywny) ciagaja bota czesciej — GPTBot „uczy sie” rytmu publikacji witryny i dostosowuje. Strony statyczne (about us, polityka prywatnosci) sa odwiedzane sporadycznie. Dla praktycznych celow zakladaj miesieczna czestotliwosc dla kluczowych stron.

Czy blokada PerplexityBot wplywa na widocznosc w ChatGPT?

Nie, to rozne firmy i rozne indeksy. PerplexityBot zasila tylko Perplexity. ChatGPT korzysta z GPTBot (do treningu) i ChatGPT-User (do live browse). Jesli chcesz ograniczyc widocznosc w jednym, bez wplywu na drugie, blokujesz tylko konkretnego bota. Uwaga — Perplexity ma API do wyszukiwania, z ktorego korzystaja inne aplikacje, wiec blokada moze miec szersze skutki niz tylko Perplexity.com.

Jak sprawdzic, czy moj server blokuje AI boty?

Trzy sposoby. Pierwszy — curl -A "GPTBot/1.0" https://twoja-strona.pl i sprawdz czy zwraca 200. Drugi — logi serwera, filtruj po user-agent i szukaj 403/429. Trzeci — narzedzia jak AhrefsBot Check albo Screaming Frog z custom user-agent. Jesli blokada jest na poziomie CDN (Cloudflare, Sucuri), zmiany musisz robic w panelu CDN, nie na serwerze. To czesty punkt awarii — deweloperzy nie maja dostepu do CDN i nie wiedza, skad blokada.

Co robic, jesli GPTBot nie odwiedza 80% moich stron?

Diagnostyka w 4 krokach. Pierwszy — sprawdz, czy strony sa w sitemap.xml i czy sitemap jest w robots.txt. Drugi — internal linking. Strony bez wewnetrznych linkow sa niewidoczne dla bota. Trzeci — Core Web Vitals. Boty rezygnuja z wolnych stron. Czwarty — sprawdz render. Jesli strony sa w 100% React bez SSR, GPTBot widzi pusta strone. Po naprawie dajesz 30-60 dni na reindex. Jesli nic sie nie zmienia — prawdopodobnie autorytet domenowy jest zbyt niski, pracuj nad linkami zewnetrznymi.

Czy boty AI czytaja JavaScript?

Wiekszosc nie. Googlebot tak (od 2019), ale GPTBot, ClaudeBot i PerplexityBot dzialaja na plain HTML. Jesli Twoja strona jest w 100% React bez SSR, boty AI widza pusty <div id=”root”></div> i nic wiecej. Rozwiazania: SSR (Next.js z getServerSideProps), pre-rendering (Prerender.io), lub hybrid z Suspense. Perplexity w 2025 roku zaczal czesciowo renderowac JS, ale wciaz nie jest to niezawodne. Standard: SSR lub SSG dla krytycznych stron.

Ile kosztuje zbudowanie monitoringu crawlerow AI?

Lean: 0 zl — wystarczy skrypt w Pythonie + PostgreSQL + Metabase self-hosted. Przyzwoity: 100-300 zl/miesiac (Supabase + Metabase Cloud + automatyzacja). Enterprise: 1500-4000 zl/miesiac (BigQuery + Looker + dedykowane narzedzia SIEM). Czas budowy: weekend dla lean, tydzien dla przyzwoitego, 3-4 tygodnie dla enterprise. Utrzymanie: 2-5 godzin miesiecznie na tuningowanie alertow i dopisywanie wlasnych widokow w panelu.

Czy crawling AI wplywa na performance serwera?

Zwykle nie, ruch crawlerow AI to 1-10% ruchu Googlebota. Ale sa wyjatki — PerplexityBot czasem robi bursty (500-1000 requestow w godzine), ktore moga obciazyc maly serwer. Cloudflare i inne CDN-y laga to dobrze. Jesli serwer ma problem, mozesz dodac Crawl-delay: 5 w robots.txt — bot zaczeka 5 sekund miedzy requestami. To kosztuje pokrycie (mniej stron odwiedzi), ale ratuje serwer przed upadkiem. Standardowa rekomendacja — nie uzywaj crawl-delay, tylko inwestuj w lepszy hosting.

Co dalej

Jesli chcesz polaczyc dane z logow crawlerow z widocznoscia w LLM w jednym panelu, przeczytaj artykul o custom dashboardzie do analiz AI. Dla szerszego zestawu narzedzi monitorujacych SEO i AIO warto zapoznac sie z przewodnikiem po narzedziach SEO i AIO na 2026.