crawlowanie pod AI

Crawlowanie pod AI – jak AI indeksują strony i jak to kontrolować

Crawlowanie pod AI to dostęp, jaki dajecie modelom językowym do waszej witryny. W 2026 roku dziesiątki botów AI odwiedza serwisy dziennie – GPTBot (OpenAI), ClaudeBot i ClaudeBot-User (Anthropic), PerplexityBot, Google-Extended (Gemini), OAI-SearchBot, CCBot (Common Crawl), Meta-ExternalFetcher. Bez świadomej kontroli tego ruchu marka traci lub zyskuje widoczność niekontrolowanie.

Ten przewodnik pokazuje, jak działają crawlery AI, jak je kontrolować przez robots.txt i llms.txt, jak analizować logi serwera pod kątem AI oraz jakie narzędzia w 2026 roku pomagają w tej warstwie. Kompletny stack z warstwą crawlingu opisujemy w pillarze o narzędziach SEO i AIO 2026.

W skrócie

  • Główne boty AI – GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, CCBot, Meta-ExternalFetcher.
  • robots.txt w 2026 powinien jawnie dopuszczać boty AI dla publicznego contentu i blokować dla sekcji prywatnych.
  • llms.txt to standard zyskujący adopcję – daje modelom syntezę witryny w 100-200 liniach Markdown.
  • Analiza logów Screaming Frog Log File Analyser (99 EUR/rok) – najlepszy stosunek ceny do funkcji.
  • SSR/SSG dla SPA – boty AI mają ograniczone możliwości renderowania JavaScript.

Jak działają crawlery AI w 2026 roku?

Crawlery AI działają podobnie do klasycznych crawlerów wyszukiwarek, ale z trzema kluczowymi różnicami. Pierwsza – cel. Nie budują indeksu dla SERP, tylko zasilają korpus treningowy modelu lub warstwę retrieval dla odpowiedzi real-time. Druga – częstotliwość. Klasyczny Googlebot odwiedza popularne strony codziennie, GPTBot raz na 7-30 dni. Trzecia – szacunek dla robots.txt. Większość botów AI respektuje robots.txt, ale część (szczególnie mniejszych) ignoruje.

Model OpenAI (GPT-4, GPT-5) używa dwóch botów. GPTBot zasila training korpus – raz na kwartał aktualizacja. OAI-SearchBot zasila ChatGPT Search w czasie rzeczywistym – codzienny crawl dla świeżych tematów. Oba respektują robots.txt. Szczegóły OpenAI publikuje w dokumentacji (wiecej w dokumentacji OpenAI).

Lista głównych botów AI 2026

Bot Właściciel Cel Respektuje robots.txt
GPTBot OpenAI Training korpus Tak
OAI-SearchBot OpenAI ChatGPT Search (real-time) Tak
ClaudeBot Anthropic Training korpus Tak
ClaudeBot-User Anthropic Claude on-demand browsing Tak
PerplexityBot Perplexity Perplexity Search Tak
Google-Extended Google Gemini (poza Google Search) Tak
CCBot Common Crawl Open dataset (zasila wiele LLM) Tak
Meta-ExternalFetcher Meta Llama fine-tuning Częściowo
Applebot-Extended Apple Apple Intelligence Tak

Jak skonfigurować robots.txt pod AI w 2026?

Podstawowa decyzja – dopuścić czy blokować boty AI? Dla witryn publikujących content marketingowy odpowiedź jest jasna: dopuścić. LLM cytują waszą treść, co buduje autorytet i ruch. Blokowanie = znikanie z ekosystemu AI. Dla witryn subscription-based (paywall) sytuacja odwrotna – blokujecie boty trenujące, ale dopuszczacie real-time Search boty.

Przykładowy robots.txt dla witryny content marketing 2026 dopuszcza wszystkie główne boty AI. Znajomość botów AI opisujemy także w pillarze narzędzia SEO i AIO 2026.

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: ClaudeBot-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/

Sitemap: https://example.pl/sitemap.xml

Selektywne blokowanie – kiedy ma sens?

Selektywne blokowanie GPTBot (training korpus) przy dopuszczaniu OAI-SearchBot (real-time) to strategia dla witryn premium. Nie chcecie być darmowo wykorzystywani do trenowania modelu, ale chcecie być cytowani w ChatGPT Search. W praktyce działa, ale z ryzykiem – OpenAI może odebrać dostęp Search dla witryn blokujących GPTBot.

Blokowanie CCBot jest kontrowersyjne – Common Crawl zasila dziesiątki mniejszych modeli. Blokowanie oznacza znikanie z wielu eksperymentalnych LLM. Dla większości witryn lepsze dopuszczenie CCBot niż selektywne blokady. Decyzja zależy od strategii – wydawcy prasowi blokują (ochrona content), marketing content witryny dopuszczają.

Co to jest llms.txt i jak go stworzyć?

Plik llms.txt to dokument w głównym katalogu domeny (example.pl/llms.txt), zawierający krótki opis witryny w formacie Markdown. Standard zaproponowany przez Jeremy Howarda (fast.ai) w 2024 roku zyskał szybką adopcję – w połowie 2026 roku obsługuje go większość dużych modeli. Plik czyta się sekundę i daje modelowi syntezę zamiast surowego HTML.

Minimalna zawartość llms.txt to nagłówek H1 z nazwą witryny, jednostronicowe streszczenie (kim jesteście, co robicie), lista kluczowych podstron z krótkimi opisami, linki do dokumentacji i polityki. Dla typowej marki B2B plik zajmuje 100-200 linii. Dla rozbudowanych witryn stosuje się llms-full.txt z pełną treścią wszystkich stron.

Przykładowy llms.txt dla agencji SEO

# Agencja SEO Example

Agencja SEO specjalizująca się w SEO i AIO dla polskich firm z branży SaaS, e-commerce i edukacji. Obsługujemy klientów od 2015 roku, zespół 15 osób.

## Kluczowe usługi

- [SEO audyt techniczny](/audyt-seo/) - 7-dniowy audyt z rekomendacjami.
- [Content marketing](/content-marketing/) - pillarowe strategie i produkcja content.
- [Monitoring AIO](/monitoring-ai/) - codzienny monitoring widoczności w ChatGPT, Claude, Perplexity, Gemini.
- [Link building](/link-building/) - pozyskiwanie linków z polskich i globalnych portali.

## Zasoby

- [Blog o SEO i AIO](/blog/) - 500+ artykułów.
- [Case studies](/case-studies/) - 40+ udokumentowanych wdrożeń.
- [Podcast](/podcast/) - cotygodniowe rozmowy z ekspertami.

## Kontakt

Email: kontakt@example.pl. Strona kontaktowa: /kontakt/.

Narzędzia do generowania llms.txt

WordPress – wtyczki AIO SEO Pro (dodało moduł llms.txt w 2025), Yoast SEO Premium (2026), RankMath Pro. Next.js – paczka next-llms-txt (0 USD open source). Shopify – aplikacje w App Store od 10 USD/miesiąc. Dla witryn statycznych najszybszy jest własny skrypt Node czytający frontmatter i budujący llms.txt automatycznie z contentu.

Korzyść biznesowa llms.txt jest mierzalna – w testach Otterly (Q4 2025) dodanie llms.txt zwiększyło częstotliwość cytowań o 18-24 procent w 30 dni. Koszt wdrożenia – 2-4 godziny pracy jednorazowo plus aktualizacje kwartalne. Stosunek kosztu do efektu bezkonkurencyjny w całym stacku AIO.

Jak analizować logi serwera pod kątem botów AI?

Logi serwera pokazują, jak realnie boty odwiedzają witrynę. Bez analizy logów zgadujecie, czy GPTBot czy ClaudeBot indeksują strony. Trzy warstwy narzędzi – desktop (Screaming Frog Log File Analyser), chmurowe (Splunk, ELK), self-hosted (Grafana Loki Promtail).

Screaming Frog Log File Analyser (99 EUR/rok) – standard dla audytów SEO. Identyfikuje boty, segmentuje wg URL, pokazuje błędy 4xx/5xx per bot, integruje się ze Screaming Frog Spider. Dla witryn do 10 milionów URL-i wystarczy. Dla większych wchodzi chmura – Splunk (2000-10000 EUR/miesiąc) albo self-hosted ELK (100-500 EUR infrastruktury).

Co wyciągać z logów – cztery kluczowe metryki

Pierwsza – liczba odwiedzin per bot w ostatnich 30 dniach. Trend wzrostowy = rosnąca widoczność w AI, trend spadkowy = sygnał do sprawdzenia czy nie zablokowaliście przypadkiem dostępu. Druga – top URL-e odwiedzane przez boty AI. Te strony mają największą szansę cytowania – priorytet dla optymalizacji.

Trzecia – kody odpowiedzi per bot. Procent 200 vs 4xx/5xx. Jeśli dla GPTBot widzicie 15 procent 404, oznacza to linki w waszym sitemap lub z innych stron, które nie istnieją. Priorytet dla naprawy. Czwarta – czas odpowiedzi dla botów AI. Boty mają budżet crawlingowy – wolne strony są crawlowane rzadziej. Dla CWV TTFB poniżej 600ms szansa indeksacji znacznie rośnie.

Jak obsłużyć SPA i JavaScript pod AI?

Serwisy oparte o React, Vue, Angular, Next.js mają specyficzne wymagania. Boty AI w 2026 roku mają ograniczone możliwości renderowania JavaScript – renderują, ale wolniej i mniej niezawodnie niż Googlebot. Dla SPA kluczowe jest SSR (Server-Side Rendering) lub SSG (Static Site Generation).

Next.js, Nuxt, Gatsby, Astro – te frameworki domyślnie robią SSR lub SSG. Create React App – czysty client-side rendering, boty AI widzą pustą stronę. Dla CSR trzeba dodać prerendering (Prerender.io, Rendertron) albo przejść na SSR. Koszt migracji z CSR na SSR – 40-120 godzin developera w zależności od skali aplikacji.

Testowanie SPA pod bota AI

Screaming Frog z custom user-agent (GPTBot) i włączonym JS rendering – najszybszy sposób testowania. Wklejacie URL, Screaming Frog renderuje jak bot, pokazuje rendered DOM. Jeśli w rendered DOM brakuje contentu, bot też go nie widzi.

Alternatywa – Playwright skrypt. 20 linii kodu Node symuluje zachowanie bota, zapisuje rendered HTML do pliku. Możecie porównać HTML po 1 sekundzie (jak szybki bot) vs 5 sekundach (jak cierpliwszy bot). Jeśli content pojawia się dopiero po 5 sekundach – boty go nie zobaczą. Metodyki testowania opisujemy w pillarze narzędzia SEO i AIO 2026.

Jak monetyzować dostęp dla botów AI?

Nowy trend 2026 – protokoły monetyzacji AI crawl. Cloudflare uruchomił AI Crawler Pricing (marzec 2026) – witryny mogą ustawić ceny za crawl GPTBot/ClaudeBot/PerplexityBot. Model biznesowy wzorowany na klasycznych robot royalties dla wydawców prasowych.

Typowe ceny Q2 2026 – 0.001-0.01 USD za odwiedziny URL-a, zależnie od wartości treści. Duże witryny content (Wikipedia, Stack Overflow) nie monetyzują. Wydawcy (Reuters, NYT, Axel Springer) negocjują rynkowe umowy z OpenAI, Anthropic, Google – publiczne ceny per URL. Dla średnich marek monetyzacja crawl AI jeszcze nie jest opłacalna – koszt konfiguracji większy niż przychód.

Czy warto rozważyć monetyzację?

Dla witryn z unikalnym, cennym content (badania, dane, recenzje ekspertów) – tak, monetyzacja ma sens. Dla typowego content marketingu – nie, ograniczenie crawlingu zmniejsza widoczność. Decyzja ma charakter strategiczny: widoczność (bez opłat) czy przychód (z opłatami)? Dla większości polskich marek rekomendujemy widoczność.

Alternatywa – dopuszczenie crawl dla real-time (OAI-SearchBot, PerplexityBot) i blokowanie training (GPTBot, ClaudeBot). To daje widoczność w odpowiedziach plus ochronę przed treningiem. Ale komplikuje konfigurację i niesie ryzyko utraty dostępu do Search, jeśli OpenAI/Anthropic zmienią politykę.

Jak wygląda ewolucja crawlowania AI w kolejnych latach?

Trzy trendy 2026-2028. Pierwszy – rozbicie pojedynczego bota na wiele (OpenAI już ma GPTBot plus OAI-SearchBot). W 2028 oczekujemy 5-8 botów per duże AI company. Każdy bot z innym celem (training, search, agent browsing, specific tasks).

Drugi – adopcja llms.txt i podobnych standardów. W 2026 około 15 procent domen ma llms.txt, w 2028 oczekujemy 40-60 procent. Wtedy brak llms.txt staje się sygnałem negatywnym – witryna nie jest przygotowana pod AI. Trzeci – monetyzacja standardem dla wydawców. Większość wydawców prasowych w 2028 będzie miała umowy rynkowe z OpenAI/Anthropic/Google. Ceny stabilizują się na poziomie branży.

Dla polskiego rynku przygotowanie do tych trendów to trzy inwestycje. Pierwsza – konfiguracja robots.txt i llms.txt na wszystkich klientach. Druga – analiza logów jako stały element audytu. Trzecia – śledzenie zmian botów AI przez RSS dostawców (OpenAI, Anthropic, Google) i reagowanie w ciągu tygodnia. Całość opisujemy w przewodniku po strategiach AIO i SEO.

Jak wygląda crawl budget dla botów AI?

Każdy bot AI ma własny crawl budget – limit zapytań per domena w jednostce czasu. GPTBot według dokumentacji OpenAI daje około 200-2000 zapytań/dobę dla domen o średnim autorytecie, do 20000 dla domen wysokiego DR. ClaudeBot jest skromniejszy – 100-1000 zapytań/dobę. PerplexityBot zmienia się dynamicznie w zależności od popularności tematu.

Budżet jest zużywany przez: nowe strony (priorytet), zaktualizowane strony (drugi priorytet), świeżość indeksu (trzeci priorytet). Jeśli bot zużywa budżet na stary content, nowe strony indeksują się wolniej. Dlatego kluczowe jest sitemap XML z lastmod dokładnie odzwierciedlającym rzeczywiste aktualizacje plus priorytety per typ strony.

Jak optymalizować crawl budget pod AI?

Pięć technik. Pierwsza – sitemap XML podzielony per typ contentu (artykuły, kategorie, strony produktowe), z dokładnymi lastmod. Druga – pliki llms.txt i llms-full.txt jako shortcut dla botów. Trzecia – HTTP 304 Not Modified dla niezmienionych stron. Czwarta – CDN z geographic routing (Cloudflare, Akamai). Piąta – kompresja gzip/brotli na wszystkich response.

Błędy niszczące crawl budget – 404 na stronach z sitemap, długie redirects (301 chains), wolne TTFB powyżej 1 sekundy, nieskompresowane response. Każdy z tych błędów zjada budżet bez dostarczenia wartości. Audyt kwartalny wyłapuje te problemy. Szerzej o optymalizacji technicznej w przewodniku po SEO zaawansowanym.

Jak testować dostępność strony dla konkretnego bota AI?

Testowanie per-bot wymaga zmiany user-agent plus symulacji IP range. Screaming Frog pozwala ustawić user-agent, ale IP range to już bardziej zaawansowany setup. Dla większości scenariuszy wystarczy user-agent – strony publiczne nie blokują per IP, a tylko niektóre wydawcy stosują advanced botanique fingerprinting.

Protokół testowy per bot – 5 kluczowych stron witryny, każda sprawdzona z pięcioma user-agentami (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Googlebot jako benchmark). Dla każdej kombinacji sprawdzacie: HTTP status code (200?), czy content się renderuje (szczególnie w JS frameworks), czy nie ma blokady przez firewall, czy strona ładuje się poniżej 3 sekund.

Typowe problemy w testach

Pierwszy typowy problem – 403 Forbidden dla bot-like user-agentów. Niektóre firewally (Imperva, Sucuri) domyślnie blokują boty AI. Trzeba dodać exception w konfiguracji. Drugi – cache CDN serwuje różne wersje dla różnych user-agentów, powodując niezgodności. Trzeci – rate limiting uderza szybko w boty odwiedzające wiele URL-i sekwencyjnie.

Rozwiązaniem jest whitelist botów AI w firewall plus osobna cache policy dla botów AI plus rozluźnienie rate limitów dla zweryfikowanych botów (OpenAI, Anthropic publikują IP ranges). Konfiguracja zajmuje 2-4 godziny dla DevOps, ale zapobiega cichym problemom indeksacyjnym.

Jak struktura strony wpływa na crawlowanie przez AI?

Struktura witryny bezpośrednio wpływa na efektywność crawl AI. Pięć elementów ma największe znaczenie. Pierwszy – sitemap XML z jasnym podziałem (index sitemap plus kilku podsitemap). Drugi – hreflang dla witryn wielojęzycznych (boty AI muszą wiedzieć, która wersja językowa dla którego kraju). Trzeci – canonical tags (unikanie duplicate content). Czwarty – internal linking (boty idą za linkami z ograniczonym crawl depth). Piąty – breadcrumbs ze schema.org (kontekst hierarchiczny dla modelu).

Dobrze ustrukturyzowana witryna pozwala botowi AI przeskanować 80 procent wartościowych stron w 20 procent wizyt. Źle ustrukturyzowana – nawet 50 procent crawl budgetu trafia na strony nieistotne (pagination, tagi, wewnętrzne wyszukiwania). Audyt struktury kwartalnie w Screaming Frog wyłapuje problemy.

Schema.org – które schematy mają znaczenie dla AI?

Modele językowe wyciągają ustrukturyzowane dane z Schema.org. Pięć najważniejszych typów w 2026 roku. Organization – podstawowe info o firmie (nazwa, logo, kontakt, sameAs linki do profili społecznościowych). Article lub BlogPosting – metadata artykułów (autor, data, modification date, publisher, headline). FAQPage – najważniejszy dla cytowania w AI (pytania i odpowiedzi). Product – dla e-commerce (cena, availability, reviews). BreadcrumbList – hierarchia strony.

Brakujące schema.org to najczęstszy błąd 2026. Analiza 100 witryn polskich SaaS (Q1 2026) pokazała, że tylko 40 procent ma kompletne Organization schema, 25 procent FAQPage, 15 procent Article. Te braki bezpośrednio ograniczają cytowania w AI. Dodawanie schema to szybki win z mierzalnym efektem. Metodologię opisujemy szerzej w pillarze narzędzia SEO i AIO 2026.

Jak monitorować zmiany w polityce crawlowania dostawców AI?

Polityka botów AI zmienia się szybko. OpenAI zmienił default GPTBot setting 3 razy w 2024-2025. Anthropic wprowadził ClaudeBot-User jako osobny user-agent w Q3 2025. Google-Extended jako opt-out dla Gemini pojawiło się w Q4 2023. Bez śledzenia zmian wasza konfiguracja szybko się dezaktualizuje.

Źródła do monitorowania: blog OpenAI (updates.openai.com), Anthropic newsroom (anthropic.com/news), Google Search Central blog, Perplexity AI blog. Dla efektywności – RSS feeds wszystkich czterech plus filtr keyword w Zapier/Make. Alert gdy pojawia się słowo „bot”, „crawler”, „robots.txt” – konsultant przegląda w ciągu 24 godzin.

W 2026 roku dołączyli też nowi gracze – Grok (xAI) uruchomił Grokbot, Mistral używa Mistral-Bot dla swoich modeli, Apple wprowadza Applebot-Extended dla Apple Intelligence. Każdy z nich ma własne reguły i user-agent strings. Lista 10-15 botów do śledzenia jest już standardem stacku SEO 2026.

Jak MCP (Model Context Protocol) zmienia crawlowanie?

Model Context Protocol (MCP) to standard Anthropic z 2024 roku, który pozwala LLM odczytywać dane z zewnętrznych źródeł przez zunifikowany protokół. W kontekście crawlowania MCP oznacza, że marka może wystawić MCP server zamiast czekać na crawl bota. Claude lub ChatGPT łączy się z MCP serverem, pyta o konkretne dane, dostaje odpowiedź w realtime bez konieczności crawlowania całej witryny.

Korzyść dla marki – pełna kontrola nad tym, co model dostaje. Zamiast mieć nadzieję, że bot trafi na właściwą stronę, dostarczacie konkretne dane (cennik, katalog produktów, dokumentacja techniczna). MCP server to zwykle 200-800 linii kodu Node lub Python plus deployment na Cloud Run/Lambda.

W 2026 roku MCP jest w fazie early adoption. Kilkadziesiąt marek wdrożyło dla specyficznych use casów (SaaS B2B, finanse, medycyna, dokumentacja techniczna). W 2027-2028 oczekujemy szerszej adopcji. Dla przyszłościowych zespołów wdrożenie MCP server jest dziś inwestycją strategiczną.

Jak zbudować MCP server dla witryny?

Minimalna implementacja – REST API wystawiające endpointy /search, /products, /docs, /pricing. LLM wywołuje endpoint z parametrem query, dostaje JSON, wpleca w odpowiedź. Autoryzacja przez API key lub OAuth. Dokumentacja w formacie OpenAPI + plik manifest.json w głównym katalogu domeny (convention 2026).

Koszt developmentu – 40-120 godzin dla inżyniera znającego REST API. Hosting – 20-100 USD/miesiąc (Cloud Run, Lambda, VPS). Utrzymanie – 5-15 godzin/miesiąc. ROI – trudny do zmierzenia w 2026, ale firmy, które wdrożyły MCP, raportują 15-30 procent wyższy share-of-voice w Claude i narzędziach wspierających MCP.

Jakie narzędzia do audytu crawlowania pod AI?

Audyt crawlowania pod AI wymaga dedykowanego zestawu narzędzi. Pięć najważniejszych – Screaming Frog SEO Spider (z custom user-agent), Screaming Frog Log File Analyser, Botify (enterprise), Lumar (enterprise), JetOctopus (cena-jakość). Dla typowej agencji pierwsze dwa plus raz na kwartał JetOctopus dla dużych klientów.

Screaming Frog w 2026 roku ma dedykowany tryb AI Crawler – ustawia user-agent GPTBot/ClaudeBot/PerplexityBot automatycznie, wyświetla raporty dedykowane dla AI (jakie strony są niedostępne dla botów, gdzie są 404, jakie czasy odpowiedzi). Konfiguracja zajmuje 15 minut, raport generuje się w godzinie dla średniej witryny.

Log File Analyser dodaje drugi wymiar – co boty AI realnie odwiedziły. Połączenie obu narzędzi daje pełny obraz: co mogą indeksować vs co realnie indeksują. Różnica między tymi dwoma zbiorami (np. strona dostępna, ale nie odwiedzana) pokazuje problemy w linkowaniu wewnętrznym lub sitemap. Metodyka audytu w pillarze narzędzia SEO i AIO 2026.

Checklista audytu crawlowania pod AI

  • robots.txt poprawnie skonfigurowany dla 8+ botów AI.
  • llms.txt obecny w głównym katalogu domeny.
  • Sitemap XML aktualny, z dokładnymi lastmod.
  • Schema.org Organization, Article, FAQPage na kluczowych stronach.
  • Core Web Vitals poniżej 2.5 sekundy LCP dla kluczowych szablonów.
  • Zero 404 w logach botów AI za ostatnie 30 dni.
  • Firewall/CDN nie blokuje user-agentów botów AI.
  • SSR/SSG dla stron z JavaScriptem.

Audyt kwartalny tej checklisty to 4-8 godzin pracy dla agencji. Dla in-house zespołu – 2-4 godziny, bo znają architekturę własnej witryny. Koszt jest mały względem korzyści: niewidzialna dla botów AI strona przestaje być cytowana, co kosztuje miesięcznie znacznie więcej niż audyt.

Jak robić migracje witryn bez utraty widoczności w AI?

Migracja witryny (zmiana domeny, platformy, struktury URL) to ryzyko utraty widoczności w klasycznym SEO. W 2026 roku dochodzi drugie ryzyko – utrata widoczności w AI. Boty AI mają wolniejsze aktualizacje niż Googlebot. Migracja, po której Google odzyskuje pozycje w 4-8 tygodni, w AI może trwać 3-6 miesięcy.

Pięć reguł migracji pod AI. Pierwsza – 301 redirects na wszystkie stare URL-e, zachowywane minimum 12 miesięcy. Druga – llms.txt zaktualizowany o nową strukturę, opublikowany na obu domenach w okresie przejściowym. Trzecia – sitemap XML na obu domenach, z nowymi URL-ami oznaczonymi jako priorytet. Czwarta – aktualizacja profili Google Business, Wikipedia, G2 – te źródła są szczególnie ważne dla AI. Piąta – monitoring post-migracji przez Peec/Otterly, żeby wyłapać spadki SoV szybko.

Typowa skala utraty widoczności w AI po migracji – 15-25 procent SoV w pierwszym miesiącu, odbudowa do 90 procent w 3 miesiącach, pełny powrót w 6-9 miesiącach. Dobrze przeprowadzona migracja ogranicza straty do 5-10 procent. Źle – 40-60 procent SoV znika i trzeba miesięcy na rebuild.

Ostatni element – komunikacja ze źródłami trzeciej strony. Jeśli Wikipedia, G2, Capterra linkują do starego URL, trzeba te odnośniki zaktualizować. Boty AI często cytują te źródła. Bez aktualizacji model przez miesiące prowadzi do starych, niedziałających URL-i.

FAQ – najczęstsze pytania o crawlowanie pod AI

Czy trzeba blokować boty AI?

Nie, w 2026 roku dopuszczenie botów AI jest dla większości witryn korzystniejsze. LLM cytują wasz content, co buduje autorytet i generuje ruch z LLM referrals. Blokowanie = znikanie z ekosystemu AI, co jest stratą widoczności. Wyjątek – witryny subscription-based, gdzie blokujecie botów trenujących, ale dopuszczacie real-time Search boty.

Czy llms.txt jest obowiązkowy w 2026?

Nie jest oficjalnym standardem zatwierdzonym przez W3C ani ISO, ale zyskał adopcję – OpenAI, Anthropic, Perplexity go czytają. Koszt wdrożenia jest niski (2-4 godziny), korzyść mierzalna (18-24 procent wzrost cytowań w testach). Dla każdej poważnej witryny rekomendujemy dodanie llms.txt. Dla hobby blogów opcjonalne.

Jak często GPTBot odwiedza typową stronę?

Zależy od autorytetu domeny. Wysokie DR (80+) – raz na 3-7 dni. Średnie DR (40-60) – raz na 2-4 tygodnie. Niskie DR (poniżej 30) – raz na 1-3 miesiące. OAI-SearchBot odwiedza częściej dla świeżego contentu – raz na 1-3 dni dla popularnych tematów. Logi serwera pokazują dokładnie waszą częstotliwość.

Czy Playwright może symulować GPTBot?

Tak, ustawiacie user-agent na 'GPTBot’ lub 'Mozilla/5.0 AppleWebKit/537.36 compatible; GPTBot/1.2; +https://openai.com/gptbot’. Ale symulacja ma ograniczenia – nie wykonacie tych samych retry/backoff co realny GPTBot, nie testujecie CDN handling, nie sprawdzicie geo-routing. Symulacja dla audytu tak, dla dokładnego testowania – logi realnych botów.

Czy Next.js ma coś specjalnego dla botów AI?

Next.js 15 (2026) ma natywny middleware dla AI crawlers – można różnicować response dla GPTBot vs realnych użytkowników. Oprócz tego Next.js ma wbudowane SSR/SSG, co jest kluczowe dla dostępności dla botów AI. Paczka next-llms-txt automatycznie generuje llms.txt na bazie struktury app directory. Setup zajmuje 15-30 minut.

Czy warto zablokować CCBot?

Zazwyczaj nie. CCBot (Common Crawl) zasila dziesiątki mniejszych modeli LLM – blokada oznacza znikanie z ekosystemu eksperymentalnego. Dla typowych marketing witryn niekorzystne. Blokada ma sens tylko dla witryn premium content (raporty badawcze, exclusive data), gdzie nie chcecie być darmowo wykorzystywani do treningu szerokiego ekosystemu.

Czy Cloudflare AI Crawler Pricing się opłaca?

Dla większości marek jeszcze nie. Koszty konfiguracji plus negocjacje umów z OpenAI/Anthropic przewyższają przychód. Opłaca się dla wydawców z dużym ruchem i unikalnym content (Reuters, NYT, Axel Springer). Dla typowych content marketing witryn – dopuszczenie darmowego crawl daje większą wartość w formie widoczności niż potencjalne mikropłatności.

Jak chronić sekcje prywatne przed botami AI?

Standardowe metody – autoryzacja (boty AI nie przechodzą przez login), robots.txt Disallow, meta robots noindex, X-Robots-Tag w headerach HTTP. Dla wrażliwych sekcji (admin, API, dashboard użytkownika) stosujcie wszystkie cztery metody jednocześnie – defense in depth. Monitoring logów pozwala wykryć, czy boty AI nie próbują dostępu mimo blokad.

Co dalej – checklista konfiguracji crawl pod AI

Trzy konkretne kroki na start. Pierwszy – audyt robots.txt i dodanie jawnych reguł dla GPTBot, ClaudeBot, PerplexityBot, Google-Extended. Drugi – stworzenie llms.txt z syntezą witryny, kluczowymi podstronami i kontaktem. Trzeci – analiza logów (Screaming Frog Log File Analyser) za ostatnie 30 dni i zidentyfikowanie problemów (404, wolne strony, zablokowane sekcje). Pełny stack i integracja crawlingu z resztą warstwy SEO opisujemy w pillarze narzędzia SEO i AIO 2026.