Bulk AI content dla sklepu z ponad 1000 produktów to realny problem operacyjny, nie ćwiczenie z promptu. Ręczne napisanie 1000 opisów po 500 słów to okolo 2500 godzin pracy redaktora – budżet, którego 90% sklepów nie ma. Generatywny AI skraca ten nakład 8-12-krotnie, ale tylko pod warunkiem, że proces ma trzy etapy: przygotowanie danych wejściowych, generowanie w partiach, kontrola jakości.
Ten przewodnik opisuje cały ciąg procesów – od eksportu bazy SKU, przez szablon promptu i wybór modelu, po walidację schema i pomiar widoczności w ChatGPT, Perplexity i Gemini. Całość wpisuje się w architekturę sklepu opisaną w przewodniku SEO dla e-commerce.
W skrócie
- Realny koszt bulk AI content to 0,15-0,80 zł per produkt przy generacji + 4-8 zł przy pełnej redakcji human-in-the-loop.
- Trzy-etapowy proces: eksport danych –> generowanie w partiach po 50-200 –> walidacja + redakcja punktowa.
- Minimum jakości: 15-25 atomowych faktów per opis, tabela spec, FAQ 3-5 pytań, schema Product bez błędów.
- Model produkcyjny: GPT-4o-mini lub Claude 3.5 Haiku do 95% produktów, top 5% SKU przez GPT-4o lub Claude 3.7 Sonnet.
- Walidacja: Rich Results API + losowy sampling 5% partii, alert przy >3% błędów strukturalnych.
Co znaczy „bulk” w kontekście AI content
Bulk AI content to generacja setek lub tysięcy jednostek treści w jednym przebiegu, z jednym szablonem promptu i spójnym zestawem parametrów. W e-commerce jednostką jest najczęściej opis produktu + krótki lead + meta tytuł + meta opis + FAQ – pięć pól na SKU, razem 600-900 słów wygenerowanych w jednym wywołaniu.
Skala dzieli się na trzy progi. Do 200 produktów ręczna redakcja nadal wygrywa na jakości. Między 200 a 2000 SKU AI daje najlepszy zwrot z inwestycji. Powyżej 2000 potrzebny jest pełen potok automatyzacji z kolejką zadań, monitoringiem i audytem. Ramy tego procesu łączymy z architekturą sklepu pod AI.
Czym różni się bulk od automatyzacji ciągłej
Bulk to jednorazowa kampania (np. „wygeneruj opisy dla 1500 nowych produktów w ciągu 10 dni”). Automatyzacja ciągła to stały proces, w którym każdy nowy SKU przechodzi przez pipeline od dodania do katalogu. W praktyce zaczyna się od bulk, a po 2-3 kampaniach przechodzi w tryb ciągły – o tym opisujemy w artykule o procesie aktualizacji produktów AI.
Jakie dane wejściowe potrzebujesz dla każdego SKU
Model generujący opis nie wymyśli faktów – jeżeli nie ma wagi w danych wejściowych, nie pojawi się w opisie. Dlatego pierwszy krok to audyt kompletności danych. Minimum dla generatora to 12 pól.
| Pole | Typ | Priorytet | Uwaga |
|---|---|---|---|
| nazwa | tekst | wymagane | marka + model + wariant |
| kategoria | tekst | wymagane | pełna ścieżka w drzewie |
| marka | tekst | wymagane | producent, nie sklep |
| cena | liczba | wymagane | brutto, 2 miejsca po przecinku |
| GTIN/EAN | tekst | silnie zalecane | 13-cyfrowy dla większości produktów fizycznych |
| waga | liczba + jednostka | wymagane | do wysyłki i opisu technicznego |
| wymiary | trzy liczby | zalecane | format „45 x 30 x 12 cm” |
| materiał | tekst | sytuacyjne | meble, odzież, AGD |
| kolor | tekst | sytuacyjne | głównie odzież i akcesoria |
| specyfikacja techniczna | tabela | wymagane | 10-20 pól zależnie od kategorii |
| gwarancja | tekst | zalecane | długość, zakres, serwis |
| unique selling points | 3-5 zdań | zalecane | różnicowanie od konkurencji |
Dane eksportujemy do CSV lub bezpośrednio z bazy (PostgreSQL, MySQL) w formacie JSON. Jeden wiersz = jeden SKU = jeden prompt. Dla sklepów z pomocniczą dokumentacją producenta (karty PDF) warto dodać krok ekstrakcji tekstu – GPT-4o lub Claude 3.7 Sonnet z vision czyta PDF i zwraca JSON z polami.
Wybór modelu – koszt vs jakość
Na dzień dzisiejszy produkcyjne generowanie opisów obsługują cztery warstwy modeli. Każda ma inny profil kosztów i jakości.
| Model | Koszt per opis (600 słów) | Jakość faktów | Tempo |
|---|---|---|---|
| GPT-4o-mini | 0,05-0,12 zł | 85% | 40-80 SKU/min |
| Claude 3.5 Haiku | 0,08-0,15 zł | 87% | 35-70 SKU/min |
| Gemini 2.0 Flash | 0,04-0,10 zł | 83% | 50-100 SKU/min |
| GPT-4o | 0,40-0,80 zł | 94% | 15-30 SKU/min |
| Claude 3.7 Sonnet | 0,50-1,00 zł | 95% | 12-25 SKU/min |
Strategia dwupoziomowa: modelem budżetowym (GPT-4o-mini, Haiku) generujesz 90-95% katalogu, modelem top-tier (GPT-4o, Sonnet) tylko produkty flagowe i premium. Rozróżnienie robisz po marży, pozycji w rankingu sprzedaży lub jawnym tagu w bazie. Dla zapytań typu „najlepszy X dla Y” opisywanych w przewodniku o contencie pod AI liczy się właśnie jakość opisów top-tier.
Dlaczego nie model otwarty
Modele open-weight (Llama, Mistral, Qwen) w teorii dają zero kosztu na token, ale w praktyce koszt infrastruktury (GPU, hosting) przy skali 1000+ SKU miesięcznie dorównuje modelom SaaS. Dodatkowo jakość polskiego w otwartych modelach jest 10-20% gorsza niż w GPT-4o-mini. Do bulk content modele zamknięte są pragmatycznym wyborem.
Szablon promptu – konkretny przykład
Prompt dla generatora ma trzy sekcje: kontekst, dane wejściowe, instrukcja formatowania. Trzymaj go poniżej 2500 tokenów, żeby model nie zgubił instrukcji.
Rola: Jestes redaktorem opisow produktow dla polskiego sklepu X.
Zadanie: Napisz opis produktu w formacie HTML z polami.
Dane produktu:
{nazwa, marka, kategoria, cena, gtin, waga, wymiary, material, spec, usp, gwarancja}
Struktura wyniku:
1. Lead (2-3 zdania, nazwa + kategoria + glowna zaleta + dla kogo)
2. Tabela specyfikacji (10-15 wierszy, dwie kolumny: pole, wartosc)
3. Sekcja "Dla kogo" (3 persony po 2-3 zdania)
4. 3 zalety (liczby, fakty) i 2 ograniczenia (szczere)
5. FAQ (4 pytania, odpowiedzi 60-90 slow)
Styl: konkretny, polski, bez anglicyzmow, bez em-dash.
Dlugosc calosci: 500-700 slow.
Zwroc wylacznie HTML, bez znacznikow h1 i script.
Dodaj też negatywną listę: „nie uzywaj slow typu rewolucyjny, najlepszy, niesamowity, idealny, ekskluzywny”. Te przymiotniki zmniejszają wskaźnik cytowania w LLM o 15-25%, bo nie wnoszą faktów.
Few-shot w szablonie
Dodanie 2-3 przykładów gotowych opisów (innej kategorii) podnosi spójność stylu o 20-30%. Przykłady zajmują 800-1200 tokenów, ale oszczędzają redakcję. Dla 1000+ SKU to netto plus.
Generowanie w partiach – architektura
Generowanie pojedynczo przez API blokuje wątek na 5-15 sekund per SKU. Przy 1000 produktów to 4-8 godzin ciągłej pracy. Zamiast tego używamy kolejki zadań z równoległym wykonaniem.
- Kolejka zadań – Redis + BullMQ, Celery, lub natywna kolejka w chmurze (AWS SQS, GCP Pub/Sub).
- Pula workerów – 10-30 równoległych procesów, każdy obsługuje 1 SKU naraz.
- Rate limiting – OpenAI daje 500 RPM dla GPT-4o-mini na tier 2; Claude 1000 RPM dla Haiku. Worker musi respektować limit, żeby nie dostawać 429.
- Retry – błędy sieci lub timeout = retry 3 razy z exponential backoff.
- Idempotentność – SKU już przetworzony (zapisany w DB z flagą) nie jest ponownie wywoływany.
Czas generacji 1000 SKU przy 20 workerach i Haiku: około 25-40 minut. Przy 5 workerach i GPT-4o-mini: 70-120 minut. Budżet API do 150 zł per 1000 opisów.
Temperatura i parametry
Dla bulk contentu: temperature 0,3-0,5 (niska = konsystentna, wyższa = kreatywna ale mniej przewidywalna). top_p 0,9. max_tokens dobrze ustawić na 1400 (covering 600-900 słów + trochę buforu). seed ustaw losowo na partie, żeby przy retry otrzymać deterministyczny wynik.
Kontrola jakości – sampling i walidacja
Bez QA bulk content psuje markę. Standard produkcyjny to sampling 5-10% partii przez redaktora + automatyczne reguły walidacyjne na 100% opisów.
Automatyczne reguły
- Długość między 400 a 900 słów (odrzuć outliers).
- Każda sekcja obecna (lead, spec, dla kogo, zalety, FAQ).
- Brak słów z czarnej listy (rewolucyjny, najlepszy, idealny).
- Brak halucynacji ceny (porównanie z wartością wejściową).
- Poprawny HTML (walidacja przez cheerio lub htmlparser2).
- Schema Product wygenerowany razem z opisem, walidacja przez Rich Results API.
Odrzucone opisy wracają do kolejki z innym seed lub ręcznej kolejki redaktora. Przy dobrze dobranym prompcie odrzut wynosi 3-7% – koszt akceptowalny.
Sampling ludzki
Redaktor czyta losowo 50-100 opisów z każdej partii 1000 SKU (5-10%). Wskaźniki: czytelność (1-5), zgodność z danymi (1-5), faktograficzność (1-5). Partia przechodzi jeżeli średnia >=4/5 na wszystkich wymiarach. Przy niższych wynikach poprawiamy prompt i re-generujemy odrzucone klastry.
Integracja z sklepem – WooCommerce, Shopify, PrestaShop
Wygenerowane opisy trzeba wrzucić z powrotem do sklepu. Trzy najczęstsze scenariusze.
| Platforma | Metoda importu | Uwagi |
|---|---|---|
| WooCommerce | REST API (wp-json/wc/v3/products) | Token aplikacji; 100 SKU/partię; retry na 429 |
| Shopify | Admin API GraphQL | Cost-based rate limit; batch 20-50 SKU |
| PrestaShop | Webservice lub CSV import | API wolniejsze; CSV częsty wybór |
| Magento 2 | REST API | Async endpoints dla masowych operacji |
| Sklep custom | Direct DB + cache invalidation | Najszybciej, wymaga dostępu |
Dla Shopify szczególnie zwróć uwagę na architekturę – szczegóły konfiguracji w artykule o Shopify pod AI.
Pomiar efektu – widoczność w AI po bulk
Przed kampanią bulk wykonaj benchmark: 50 losowych zapytań typu „polec mi [kategoria]” w ChatGPT, Perplexity i Gemini. Zapisz ile razy sklep się pojawia, w jakim kontekście, z jakim zdaniem zacytowania. Powtórz to samo 4 tygodnie po wdrożeniu. Metodyka pomiaru – w artykule o pomiarze widoczności.
Realistyczne oczekiwania
- Tydzień 1-2 po wdrożeniu: Google zaczyna re-indeksować kart produktów, schema aktualizuje się w Search Console.
- Tydzień 3-6: pojawiają się pierwsze wzrosty ruchu organicznego na kart (+15-35%).
- Miesiąc 2-3: pierwsze cytowania w LLM (Perplexity zwykle pierwszy, ChatGPT drugi).
- Miesiąc 4-6: stabilny wzrost cytowania w zapytaniach zakupowych (wzrost 20-60% dla top 100 SKU).
Koszty – pełna kalkulacja 1500 SKU
Realistyczny budżet dla kampanii 1500 produktów w sklepie DIY z pomocą agencji lub zespołu in-house.
| Pozycja | Czas | Koszt |
|---|---|---|
| Audyt danych wejściowych | 3-5 dni | 3-5 tys zł |
| Przygotowanie szablonu promptu | 2-3 dni | 2-3 tys zł |
| Generacja API (Haiku 90%, Sonnet 10%) | 2 dni | 0,3-0,8 tys zł |
| Automatyczna walidacja | 1 dzień | 0,5-1 tys zł |
| Sampling redaktor 5% | 8-12 dni | 8-12 tys zł |
| Import do sklepu + QA | 3-5 dni | 3-5 tys zł |
| Razem | 3-4 tygodnie | 17-27 tys zł |
Koszt per SKU netto: 11-18 zł. Dla porównania – pełna ręczna redakcja tego samego zakresu: 90-140 zł per SKU, czyli 135-210 tys zł. Bulk AI daje oszczędność 85-90% przy zachowaniu 80-85% jakości manualnej.
Co idzie źle – typowe błędy w bulk
- Halucynacja faktów – model dodaje wagę, której nie ma w danych. Rozwiązanie: explicit „nie dodawaj faktów niebędących w danych wejściowych” + walidacja.
- Duplikaty – 100 SKU w jednej kategorii dostaje opisy z tym samym zdaniem otwierającym. Rozwiązanie: prompt z losowymi seedami + post-process deduplikacji na zdanie otwierające.
- Polglish w wynikach – model wrzuca „workflow”, „engagement”. Rozwiązanie: explicit lista anglicyzmów do unikania w promptcie.
- Zbyt długie opisy – niektóre SKU dostają 1200+ słów. Rozwiązanie: max_tokens=1400 + post-process ucięcia.
- Brak schema – generator robi HTML ale zapomina o schema Product. Rozwiązanie: oddzielne wywołanie lub ustrukturyzowane pole w odpowiedzi.
- Brak alt-text dla zdjęć – schema Product bez
imagez alt. Rozwiązanie: oddzielny ciąg procesów dla obrazów (patrz opisy kategorii). - Za niska temperatura – wszystkie opisy brzmią identycznie. Rozwiązanie: temp 0,4-0,5 i zmienne przykłady few-shot per partia.
- Za wysoka temperatura – opisy bywają nielogiczne. Rozwiązanie: temp nie wyżej niż 0,6 dla bulk.
- Brak wariantów – SKU wariantowe (5 kolorów) dostają identyczny opis. Rozwiązanie: generowanie per wariant z sekcją specyficzną.
- Meta opis dłuższy niż 160 znaków – Google go obetnie. Rozwiązanie: max_tokens dla pola meta = 60 tokens.
Plan wdrożenia krok po kroku
- Tydzień 1: audyt danych; wyłonienie top 100 SKU do pilotażu.
- Tydzień 2: przygotowanie szablonu promptu; few-shot z 3 przykładów; walidacja ręczna 20 SKU.
- Tydzień 3: pilot na 100 SKU; analiza QA; iteracja promptu.
- Tydzień 4: rollout na 500 SKU; sampling 10%; poprawki.
- Tydzień 5-6: pozostałe 900 SKU; sampling 5%; import do sklepu.
- Tydzień 7-8: walidacja schema na 100% katalogu; benchmark widoczności; pierwsze pomiary w LLM.
Po tym etapie przechodzisz w tryb ciągły – nowe SKU przetwarzane automatycznie w pipeline opisanym w artykule o aktualizacjach produktowych. Kontekst strategiczny dla całego e-commerce zbieramy w przewodniku po strategiach AIO i SEO.
Bulk content dla kategorii i stron wsparcia
Ten sam proces stosuje się do opisów kategorii (150-300 słów per sztuka) oraz stron wsparcia (FAQ, przewodniki zakupowe). Różnica w prompcie: inne dane wejściowe (lista produktów w kategorii zamiast specyfikacji), inny format wyjściowy (lead + tabela cech wspólnych + CTA). Szczegóły w dedykowanym artykule o opisach kategorii.
Bezpieczeństwo i compliance
Bulk AI content w regulowanych branżach (suplementy, kosmetyki, elektronika RTV) wymaga dodatkowego kroku compliance. Model może wygenerować frazę medyczną lub energetyczną, której nie wolno używać (RODO, UOKiK, regulacje branżowe). Dodaj do promptu listę zakazanych terminów i post-process filter. Oficjalna dokumentacja od Anthropic dla enterprise opisuje techniki ograniczania halucynacji (więcej w dokumentacji Anthropic).
Dane osobowe w opiniach
Jeżeli prompt zawiera przykłady opinii klientów, usuń imiona, nazwiska i adresy e-mail przed wysłaniem do modelu. Dane osobowe w promptach są ryzykiem RODO – większość dostawców AI deklaruje, że nie trenuje na danych API, ale audytor tego nie sprawdzi. Anonimizacja regex jest tania i bezpieczna.
Zapisywanie logów
Loguj każde wywołanie API: prompt, dane wejściowe, odpowiedź, koszt, status walidacji. Przy 1000+ SKU bez logów nie odtworzysz, który opis pochodzi z którego wywołania. Logi w BigQuery albo Postgres z indeksem po SKU i dacie. Retencja logów: 90-180 dni wystarczy dla audytu.
Co jeszcze zmienia bulk AI na stronie
Generowanie opisów produktowych to punkt wyjścia, ale efekt biznesowy rośnie kiedy bulk rozszerzasz na pozostałe typy treści. Każda nowa sekcja zwiększa powierzchnię cytowalną i zaufanie modelu do sklepu.
- Opisy kategorii – 200-400 słów per kategoria, struktura H2 „co znaleźć” + „jak wybrać” + FAQ.
- Przewodniki zakupowe – 1500-3000 słów na kategorię, z tabelą porównawczą top 10 produktów.
- Strony marek – 400-600 słów per producent, historia + profil + linki do produktów.
- Mikro-FAQ – 5-8 pytań per kategoria osobno renderowanych dla Google.
- Sekcje porównawcze – „Produkt A vs Produkt B” jako automatyczne porównanie 2-3 SKU.
Każdy z tych formatów ma własny szablon promptu i wymaga oddzielnej walidacji. Planowanie w cyklu kwartalnym daje najlepszy balans kosztu i efektu. Strategiczne mapowanie treści do ścieżki klienta opisujemy w przewodniku po contencie pod AI.
Integracja z PIM
Większe sklepy (5000+ SKU) używają systemu PIM (Product Information Management) jako źródła prawdy o danych produktowych. PIM staje się wtedy pierwszym krokiem ciągu procesów: PIM –> eksport JSON –> generator AI –> walidacja –> import do PIM –> synchronizacja do sklepu. Popularne PIM-y (Akeneo, Pimcore, Plytix) mają natywne API, co upraszcza integrację do 2-5 dni developmentu.
Bez PIM proces jest wciąż wykonalny, ale każda zmiana danych technicznych wymaga re-generacji opisu. Z PIM zmiana specyfikacji w jednym polu triggeruje re-generate tylko dla SKU, którego dotyczy. Oszczędność kosztu operacyjnego 40-60% dla sklepów zmieniających katalog często.
Harmonogram rekrutacji zespołu
Dla kampanii 1500 SKU potrzebujesz zazwyczaj trzech ról: inżyniera prompt/pipeline (full-time przez 4-6 tygodni), redaktora samplingu (20-40 godzin tygodniowo przez 4 tygodnie), koordynatora projektu (10 godzin tygodniowo). Możliwa kombinacja: agencja zewnętrzna + wewnętrzny redaktor branżowy. Cena rynkowa inżyniera prompt 150-280 zł/h, redaktora 60-120 zł/h, koordynatora 120-200 zł/h.
Po dwóch kampaniach proces jest powtarzalny i można go utrzymać w 0,2-0,5 etatu łącznie, niezależnie od rozmiaru katalogu. To moment, w którym ROI bulk AI jest najwyższy – stały koszt marginalny przy skali.
Kiedy nie warto bulkować
Nie każdy sklep zyska na bulk AI. Trzy sytuacje, w których lepiej zainwestować w dedykowanego redaktora branżowego. Sklepy z ręcznie robionymi, unikalnymi produktami (rzemiosło, rękodzieło) – tam każdy opis ma własną historię, a AI będzie wymyślać generalizacje. Sklepy z regulowanym językiem (medyczne wyroby klasy II, III) – ryzyko prawne wyższe niż oszczędność. Sklepy premium z 30-50 SKU i wysoką marżą – koszt ręcznej redakcji jest niski, a jakość opisu wpływa bezpośrednio na konwersję.
Poza tymi trzema scenariuszami bulk AI wygrywa kosztowo. Granica opłacalności to około 200-300 SKU – powyżej tego progu koszt per produkt dla AI spada wyraźnie poniżej ręcznej redakcji. Decyzję warto zweryfikować pilotażem 100 SKU przed dużą kampanią.
Cykl życia szablonu promptu
Szablon promptu to żywy dokument. Typowy cykl życia wygląda tak: wersja 1.0 przy pilotażu, wersja 2.0 po feedbacku z pierwszej partii, wersja 3.0 po pierwszym tygodniu produkcji, wersja 4.0 po trzech miesiącach. Każda kolejna wersja dodaje 2-5 subtelnych instrukcji, które wyłapują konkretny typ błędu.
Wersjonuj prompt w Git lub dedykowanej bazie. Zapisuj dla każdej wersji: datę, autora, zmianę, obserwowany efekt. Po roku masz pełną historię decyzji i możesz łatwo rollbackować zmianę, która pogorszyła wyniki. Koszt obsługi wersjonowania: 15-30 minut tygodniowo.
A/B testing szablonów
Przy partiach 1000+ SKU warto testować dwie wersje promptu równolegle. 500 SKU z wersją A, 500 z wersją B, losowa alokacja. Po walidacji porównaj wskaźniki: odrzut, średnia długość, liczba halucynacji, ocena sampling. Zwycięzca idzie na pozostałe SKU. Ta metoda daje o 10-20% lepsze wyniki niż wybór szablonu intuicyjnie.
Prompt engineering – co naprawdę działa
Po pięciu kampaniach bulk w różnych branżach (odzież, AGD, akcesoria, oświetlenie, kosmetyki) wyłoniło się kilka technik, które stabilnie podnoszą jakość opisów. Wszystkie są łatwe do dodania w istniejącym prompcie.
Explicit schema wyjściowa
Zamiast prosić „napisz opis”, proś o dokładnie wypełnione pola w HTML. Model, który ma strukturalną szablon, popełnia 40-60% mniej błędów typu zapomniana sekcja czy nieprawidłowy format. Przykład fragmentu promptu: „Zwróć HTML w dokładnie takim porządku: <p> lead </p>, <table> specyfikacja </table>, <h3> Dla kogo </h3>…”.
Constrained vocabulary
Czarna lista słów („rewolucyjny”, „niesamowity”, „perfekcyjny”) redukuje przeciętne AI-isms w wynikach o 70-85%. Czerwona lista Polglish („workflow”, „dashboard”, „performance”) zmniejsza anglicyzmy do 1-2% opisów. Biała lista terminów branżowych (np. dla oświetlenia: „strumień świetlny”, „barwa światła”, „CRI”) upewnia, że model używa profesjonalnego języka.
Referencje do danych wejściowych
Dodaj w prompcie: „zawsze podaj wagę dokładnie z pola weight_kg, wymiary z pola dimensions, kolor z pola color_label”. Model, który dostaje instrukcję, skąd brać konkretne fakty, rzadziej je wymyśla. Spadek halucynacji z 8-12% do 1-3%.
Format FAQ jako gotowy chunk
FAQ z <details>/<summary> generuj jako oddzielny blok, po reszcie opisu. Model ma wtedy kontekst całego opisu i pisze FAQ komplementarne, a nie powtórzenie. Wskaźnik cytowania FAQ w LLM jest wyższy o 30-50% przy tej kolejności.
Case: bulk 2300 SKU w sklepie z oświetleniem
Sklep niszowy z lampami LED (2300 SKU, rocznik 2019) uruchomił bulk AI content w październiku 2025. Stan wyjściowy: opisy importowane z hurtowni, 60-150 słów per SKU, duplikaty między wariantami, brak FAQ, schema Product bez AggregateRating.
Proces trwał 5 tygodni. Tydzień 1-2 audyt i szablon. Tygodnie 3-4 generacja Claude 3.5 Haiku dla 2100 SKU + GPT-4o dla top 200. Tydzień 5 walidacja i import. Koszt łączny: 31 tys zł (szablon + API + redakcja 10%). Stawka godzinowa zespołu: 120 zł/h średnio.
Efekty po 4 miesiącach: ruch organiczny na karty +68% (Search Console), cytowania w Perplexity w zapytaniach typu „najlepsza lampa LED do kuchni” wzrost z 0 do 4-6 razy tygodniowo, konwersja z ruchu organicznego +22%. ROI kampanii w pierwszym kwartale po wdrożeniu: 3,4x.
Czego nauczył ten case
- Pilotaż 100 SKU skrócił iterację promptu z 3 tygodni do 5 dni.
- Claude Haiku radzi sobie z polskim znacznie lepiej niż rok wcześniej – różnica 1-2 punktów QA vs GPT-4o.
- Sampling 10% w pierwszej partii dał najlepszy feedback dla promptu; od drugiej partii wystarczyło 3-5%.
- Import do WooCommerce przez REST API z batchingiem po 50 SKU nie generował 429 dla tej skali.
- Kategoria „lampy zewnętrzne” wymagała innego szablonu – termin „IP65” był kluczowy, dodanie go do promptu zwiększyło dokładność o 18%.
Co wybrać na start – macierz decyzyjna
| Skala sklepu | Rekomendowany model | Sampling | Narzędzia |
|---|---|---|---|
| 100-500 SKU | Claude 3.5 Haiku + manual finish | 20-30% | Arkusz + prosty script |
| 500-2000 SKU | Haiku + GPT-4o top 5% | 10% | Skrypt Python + Postgres |
| 2000-10000 SKU | Haiku / Gemini Flash masowo | 5% | Kolejka Redis + worker pool |
| 10000+ SKU | Fine-tuned model + warstwowanie | 2-3% | Pełny pipeline + obserwowalność |
Obserwowalność pipeline
Pipeline produkcyjny wymaga metryk. Minimalny zestaw dashboardów: throughput (SKU/h), koszt API dzienny, wskaźnik odrzutów, średnia długość opisu, liczba halucynacji wykrytych walidatorem. Dashboard w Grafana lub Metabase nad bazą Postgres wymaga 2-3 dni pracy i wraca się w pierwszym miesiącu – wczesne wykrywanie anomalii (np. wzrost odrzutów z 3% do 15%) oszczędza regeneracji setek SKU. Narzędziowe otoczenie opisujemy w przewodniku po narzędziach SEO i AIO.
FAQ – najczęstsze pytania
Czy Google karze treść generowaną przez AI?
Nie, Google nie karze AI content per se – zasada „helpful content” ocenia wartość dla użytkownika, nie metodę produkcji. Karze treść niskiej jakości, duplikaty i spam. Bulk AI content z redakcją i walidacją jest w pełni zgodny z wytycznymi. Stanowisko Google Search Central jest tu jednoznaczne od 2023 roku.
Ile SKU realnie da się przerobić w tydzień?
Przy gotowym szablonie i pipeline – 1500-3000 SKU tygodniowo z sampling QA 5%. Przy pierwszej kampanii i nieustabilizowanym prompcie: 300-600 SKU tygodniowo, bo każda partia wymaga iteracji. Tempo rośnie wykładniczo po pierwszych dwóch cyklach.
Czy lepiej generować jeden długi prompt czy dzielić na pola?
Dla 95% zastosowań jeden prompt z jedną odpowiedzią zwracającą wszystkie pola (lead, spec, FAQ, meta). Oszczędza tokeny wejściowe i utrzymuje spójność stylu. Dzielenie na pola ma sens tylko wtedy, gdy schema wyjścia jest bardzo skomplikowana lub różne pola potrzebują różnych modeli.
Jak obsłużyć SKU, które zmieniają cenę co tydzień?
Nie regeneruj całego opisu – opis zostaje stały, a cena i availability są polami dynamicznymi schema Product. Generuj opis raz, aktualizuj tylko Offer. Pełny re-run opisu robimy tylko przy zmianie specyfikacji lub rebrandingu.
Czy GPT-4o-mini radzi sobie z polskim?
Tak, od września 2024. Jakość polskiego jest na poziomie 90-93% GPT-4o przy 10x niższym koszcie. Dla bulk content to optymalny wybór. Claude 3.5 Haiku podobnie – polskie wyniki są produkcyjnie akceptowalne.
Jak zabezpieczyć się przed halucynacjami?
Trzy warstwy: explicit „nie wymyślaj faktów” w prompcie, walidacja post-generate (porównanie wag, wymiarów, ceny z danymi wejściowymi), sampling ludzki 5-10%. Przy tych trzech warstwach halucynacje spadają do 1-3% opisów, a każda jest wyłapana przed importem.
Czy warto używać fine-tuningu modelu?
Dla sklepów z 50 000+ SKU i stałą produkcją – tak, fine-tuning GPT-4o-mini na 500-1000 własnych opisów daje 15-25% lepszą jakość. Dla mniejszych sklepów few-shot w prompcie jest wystarczające i tańsze. Fine-tuning kosztuje 1-3 tys zł jednorazowo plus 20-30% wyższy koszt inferencji.
Co z tłumaczeniem opisów na inne języki?
Model tłumaczy polskie opisy na angielski, niemiecki, czeski z dobrą jakością (90%+). Proces: generuj polski jako master, tłumacz w osobnym wywołaniu. Koszt tłumaczenia 0,03-0,08 zł per opis przy GPT-4o-mini. Post-review tłumaczenia obowiązkowy dla każdego nowego języka.
Co dalej
Kiedy masz pilotaż na 100 SKU, przejdź do generowania opisów kategorii pod AI oraz ustabilizowanego procesu aktualizacji produktów. Całość zakotwiczona jest w przewodniku SEO dla e-commerce.










