Bulk AI content 1000+ produktów - proces i koszty 2026

Bulk AI content dla sklepu z ponad 1000 produktów to realny problem operacyjny, nie ćwiczenie z promptu. Ręczne napisanie 1000 opisów po 500 słów to okolo 2500 godzin pracy redaktora – budżet, którego 90% sklepów nie ma. Generatywny AI skraca ten nakład 8-12-krotnie, ale tylko pod warunkiem, że proces ma trzy etapy: przygotowanie danych wejściowych, generowanie w partiach, kontrola jakości.

Ten przewodnik opisuje cały ciąg procesów – od eksportu bazy SKU, przez szablon promptu i wybór modelu, po walidację schema i pomiar widoczności w ChatGPT, Perplexity i Gemini. Całość wpisuje się w architekturę sklepu opisaną w przewodniku SEO dla e-commerce.

W skrócie

Realny koszt bulk AI content to 0,15-0,80 zł per produkt przy generacji + 4-8 zł przy pełnej redakcji human-in-the-loop.
Trzy-etapowy proces: eksport danych –> generowanie w partiach po 50-200 –> walidacja + redakcja punktowa.
Minimum jakości: 15-25 atomowych faktów per opis, tabela spec, FAQ 3-5 pytań, schema Product bez błędów.
Model produkcyjny: GPT-4o-mini lub Claude 3.5 Haiku do 95% produktów, top 5% SKU przez GPT-4o lub Claude 3.7 Sonnet.
Walidacja: Rich Results API + losowy sampling 5% partii, alert przy >3% błędów strukturalnych.

Co znaczy „bulk” w kontekście AI content

Bulk AI content to generacja setek lub tysięcy jednostek treści w jednym przebiegu, z jednym szablonem promptu i spójnym zestawem parametrów. W e-commerce jednostką jest najczęściej opis produktu + krótki lead + meta tytuł + meta opis + FAQ – pięć pól na SKU, razem 600-900 słów wygenerowanych w jednym wywołaniu.

Skala dzieli się na trzy progi. Do 200 produktów ręczna redakcja nadal wygrywa na jakości. Między 200 a 2000 SKU AI daje najlepszy zwrot z inwestycji. Powyżej 2000 potrzebny jest pełen potok automatyzacji z kolejką zadań, monitoringiem i audytem. Ramy tego procesu łączymy z architekturą sklepu pod AI.

Czym różni się bulk od automatyzacji ciągłej

Bulk to jednorazowa kampania (np. „wygeneruj opisy dla 1500 nowych produktów w ciągu 10 dni”). Automatyzacja ciągła to stały proces, w którym każdy nowy SKU przechodzi przez pipeline od dodania do katalogu. W praktyce zaczyna się od bulk, a po 2-3 kampaniach przechodzi w tryb ciągły – o tym opisujemy w artykule o procesie aktualizacji produktów AI.

Jakie dane wejściowe potrzebujesz dla każdego SKU

Model generujący opis nie wymyśli faktów – jeżeli nie ma wagi w danych wejściowych, nie pojawi się w opisie. Dlatego pierwszy krok to audyt kompletności danych. Minimum dla generatora to 12 pól.

Pole	Typ	Priorytet	Uwaga
nazwa	tekst	wymagane	marka + model + wariant
kategoria	tekst	wymagane	pełna ścieżka w drzewie
marka	tekst	wymagane	producent, nie sklep
cena	liczba	wymagane	brutto, 2 miejsca po przecinku
GTIN/EAN	tekst	silnie zalecane	13-cyfrowy dla większości produktów fizycznych
waga	liczba + jednostka	wymagane	do wysyłki i opisu technicznego
wymiary	trzy liczby	zalecane	format „45 x 30 x 12 cm”
materiał	tekst	sytuacyjne	meble, odzież, AGD
kolor	tekst	sytuacyjne	głównie odzież i akcesoria
specyfikacja techniczna	tabela	wymagane	10-20 pól zależnie od kategorii
gwarancja	tekst	zalecane	długość, zakres, serwis
unique selling points	3-5 zdań	zalecane	różnicowanie od konkurencji

Dane eksportujemy do CSV lub bezpośrednio z bazy (PostgreSQL, MySQL) w formacie JSON. Jeden wiersz = jeden SKU = jeden prompt. Dla sklepów z pomocniczą dokumentacją producenta (karty PDF) warto dodać krok ekstrakcji tekstu – GPT-4o lub Claude 3.7 Sonnet z vision czyta PDF i zwraca JSON z polami.

Wybór modelu – koszt vs jakość

Na dzień dzisiejszy produkcyjne generowanie opisów obsługują cztery warstwy modeli. Każda ma inny profil kosztów i jakości.

Model	Koszt per opis (600 słów)	Jakość faktów	Tempo
GPT-4o-mini	0,05-0,12 zł	85%	40-80 SKU/min
Claude 3.5 Haiku	0,08-0,15 zł	87%	35-70 SKU/min
Gemini 2.0 Flash	0,04-0,10 zł	83%	50-100 SKU/min
GPT-4o	0,40-0,80 zł	94%	15-30 SKU/min
Claude 3.7 Sonnet	0,50-1,00 zł	95%	12-25 SKU/min

Strategia dwupoziomowa: modelem budżetowym (GPT-4o-mini, Haiku) generujesz 90-95% katalogu, modelem top-tier (GPT-4o, Sonnet) tylko produkty flagowe i premium. Rozróżnienie robisz po marży, pozycji w rankingu sprzedaży lub jawnym tagu w bazie. Dla zapytań typu „najlepszy X dla Y” opisywanych w przewodniku o contencie pod AI liczy się właśnie jakość opisów top-tier.

Dlaczego nie model otwarty

Modele open-weight (Llama, Mistral, Qwen) w teorii dają zero kosztu na token, ale w praktyce koszt infrastruktury (GPU, hosting) przy skali 1000+ SKU miesięcznie dorównuje modelom SaaS. Dodatkowo jakość polskiego w otwartych modelach jest 10-20% gorsza niż w GPT-4o-mini. Do bulk content modele zamknięte są pragmatycznym wyborem.

Szablon promptu – konkretny przykład

Prompt dla generatora ma trzy sekcje: kontekst, dane wejściowe, instrukcja formatowania. Trzymaj go poniżej 2500 tokenów, żeby model nie zgubił instrukcji.

Rola: Jestes redaktorem opisow produktow dla polskiego sklepu X.
Zadanie: Napisz opis produktu w formacie HTML z polami.

Dane produktu:
{nazwa, marka, kategoria, cena, gtin, waga, wymiary, material, spec, usp, gwarancja}

Struktura wyniku:
1. Lead (2-3 zdania, nazwa + kategoria + glowna zaleta + dla kogo)
2. Tabela specyfikacji (10-15 wierszy, dwie kolumny: pole, wartosc)
3. Sekcja "Dla kogo" (3 persony po 2-3 zdania)
4. 3 zalety (liczby, fakty) i 2 ograniczenia (szczere)
5. FAQ (4 pytania, odpowiedzi 60-90 slow)

Styl: konkretny, polski, bez anglicyzmow, bez em-dash.
Dlugosc calosci: 500-700 slow.
Zwroc wylacznie HTML, bez znacznikow h1 i script.

Dodaj też negatywną listę: „nie uzywaj slow typu rewolucyjny, najlepszy, niesamowity, idealny, ekskluzywny”. Te przymiotniki zmniejszają wskaźnik cytowania w LLM o 15-25%, bo nie wnoszą faktów.

Few-shot w szablonie

Dodanie 2-3 przykładów gotowych opisów (innej kategorii) podnosi spójność stylu o 20-30%. Przykłady zajmują 800-1200 tokenów, ale oszczędzają redakcję. Dla 1000+ SKU to netto plus.

Generowanie w partiach – architektura

Generowanie pojedynczo przez API blokuje wątek na 5-15 sekund per SKU. Przy 1000 produktów to 4-8 godzin ciągłej pracy. Zamiast tego używamy kolejki zadań z równoległym wykonaniem.

Kolejka zadań – Redis + BullMQ, Celery, lub natywna kolejka w chmurze (AWS SQS, GCP Pub/Sub).
Pula workerów – 10-30 równoległych procesów, każdy obsługuje 1 SKU naraz.
Rate limiting – OpenAI daje 500 RPM dla GPT-4o-mini na tier 2; Claude 1000 RPM dla Haiku. Worker musi respektować limit, żeby nie dostawać 429.
Retry – błędy sieci lub timeout = retry 3 razy z exponential backoff.
Idempotentność – SKU już przetworzony (zapisany w DB z flagą) nie jest ponownie wywoływany.

Czas generacji 1000 SKU przy 20 workerach i Haiku: około 25-40 minut. Przy 5 workerach i GPT-4o-mini: 70-120 minut. Budżet API do 150 zł per 1000 opisów.

Temperatura i parametry

Dla bulk contentu: temperature 0,3-0,5 (niska = konsystentna, wyższa = kreatywna ale mniej przewidywalna). top_p 0,9. max_tokens dobrze ustawić na 1400 (covering 600-900 słów + trochę buforu). seed ustaw losowo na partie, żeby przy retry otrzymać deterministyczny wynik.

Kontrola jakości – sampling i walidacja

Bez QA bulk content psuje markę. Standard produkcyjny to sampling 5-10% partii przez redaktora + automatyczne reguły walidacyjne na 100% opisów.

Automatyczne reguły

Długość między 400 a 900 słów (odrzuć outliers).
Każda sekcja obecna (lead, spec, dla kogo, zalety, FAQ).
Brak słów z czarnej listy (rewolucyjny, najlepszy, idealny).
Brak halucynacji ceny (porównanie z wartością wejściową).
Poprawny HTML (walidacja przez cheerio lub htmlparser2).
Schema Product wygenerowany razem z opisem, walidacja przez Rich Results API.

Odrzucone opisy wracają do kolejki z innym seed lub ręcznej kolejki redaktora. Przy dobrze dobranym prompcie odrzut wynosi 3-7% – koszt akceptowalny.

Sampling ludzki

Redaktor czyta losowo 50-100 opisów z każdej partii 1000 SKU (5-10%). Wskaźniki: czytelność (1-5), zgodność z danymi (1-5), faktograficzność (1-5). Partia przechodzi jeżeli średnia >=4/5 na wszystkich wymiarach. Przy niższych wynikach poprawiamy prompt i re-generujemy odrzucone klastry.

Integracja z sklepem – WooCommerce, Shopify, PrestaShop

Wygenerowane opisy trzeba wrzucić z powrotem do sklepu. Trzy najczęstsze scenariusze.

Platforma	Metoda importu	Uwagi
WooCommerce	REST API (wp-json/wc/v3/products)	Token aplikacji; 100 SKU/partię; retry na 429
Shopify	Admin API GraphQL	Cost-based rate limit; batch 20-50 SKU
PrestaShop	Webservice lub CSV import	API wolniejsze; CSV częsty wybór
Magento 2	REST API	Async endpoints dla masowych operacji
Sklep custom	Direct DB + cache invalidation	Najszybciej, wymaga dostępu

Dla Shopify szczególnie zwróć uwagę na architekturę – szczegóły konfiguracji w artykule o Shopify pod AI.

Pomiar efektu – widoczność w AI po bulk

Przed kampanią bulk wykonaj benchmark: 50 losowych zapytań typu „polec mi [kategoria]” w ChatGPT, Perplexity i Gemini. Zapisz ile razy sklep się pojawia, w jakim kontekście, z jakim zdaniem zacytowania. Powtórz to samo 4 tygodnie po wdrożeniu. Metodyka pomiaru – w artykule o pomiarze widoczności.

Realistyczne oczekiwania

Tydzień 1-2 po wdrożeniu: Google zaczyna re-indeksować kart produktów, schema aktualizuje się w Search Console.
Tydzień 3-6: pojawiają się pierwsze wzrosty ruchu organicznego na kart (+15-35%).
Miesiąc 2-3: pierwsze cytowania w LLM (Perplexity zwykle pierwszy, ChatGPT drugi).
Miesiąc 4-6: stabilny wzrost cytowania w zapytaniach zakupowych (wzrost 20-60% dla top 100 SKU).

Koszty – pełna kalkulacja 1500 SKU

Realistyczny budżet dla kampanii 1500 produktów w sklepie DIY z pomocą agencji lub zespołu in-house.

Pozycja	Czas	Koszt
Audyt danych wejściowych	3-5 dni	3-5 tys zł
Przygotowanie szablonu promptu	2-3 dni	2-3 tys zł
Generacja API (Haiku 90%, Sonnet 10%)	2 dni	0,3-0,8 tys zł
Automatyczna walidacja	1 dzień	0,5-1 tys zł
Sampling redaktor 5%	8-12 dni	8-12 tys zł
Import do sklepu + QA	3-5 dni	3-5 tys zł
Razem	3-4 tygodnie	17-27 tys zł

Koszt per SKU netto: 11-18 zł. Dla porównania – pełna ręczna redakcja tego samego zakresu: 90-140 zł per SKU, czyli 135-210 tys zł. Bulk AI daje oszczędność 85-90% przy zachowaniu 80-85% jakości manualnej.

Co idzie źle – typowe błędy w bulk

Halucynacja faktów – model dodaje wagę, której nie ma w danych. Rozwiązanie: explicit „nie dodawaj faktów niebędących w danych wejściowych” + walidacja.
Duplikaty – 100 SKU w jednej kategorii dostaje opisy z tym samym zdaniem otwierającym. Rozwiązanie: prompt z losowymi seedami + post-process deduplikacji na zdanie otwierające.
Polglish w wynikach – model wrzuca „workflow”, „engagement”. Rozwiązanie: explicit lista anglicyzmów do unikania w promptcie.
Zbyt długie opisy – niektóre SKU dostają 1200+ słów. Rozwiązanie: max_tokens=1400 + post-process ucięcia.
Brak schema – generator robi HTML ale zapomina o schema Product. Rozwiązanie: oddzielne wywołanie lub ustrukturyzowane pole w odpowiedzi.
Brak alt-text dla zdjęć – schema Product bez image z alt. Rozwiązanie: oddzielny ciąg procesów dla obrazów (patrz opisy kategorii).
Za niska temperatura – wszystkie opisy brzmią identycznie. Rozwiązanie: temp 0,4-0,5 i zmienne przykłady few-shot per partia.
Za wysoka temperatura – opisy bywają nielogiczne. Rozwiązanie: temp nie wyżej niż 0,6 dla bulk.
Brak wariantów – SKU wariantowe (5 kolorów) dostają identyczny opis. Rozwiązanie: generowanie per wariant z sekcją specyficzną.
Meta opis dłuższy niż 160 znaków – Google go obetnie. Rozwiązanie: max_tokens dla pola meta = 60 tokens.

Plan wdrożenia krok po kroku

Tydzień 1: audyt danych; wyłonienie top 100 SKU do pilotażu.
Tydzień 2: przygotowanie szablonu promptu; few-shot z 3 przykładów; walidacja ręczna 20 SKU.
Tydzień 3: pilot na 100 SKU; analiza QA; iteracja promptu.
Tydzień 4: rollout na 500 SKU; sampling 10%; poprawki.
Tydzień 5-6: pozostałe 900 SKU; sampling 5%; import do sklepu.
Tydzień 7-8: walidacja schema na 100% katalogu; benchmark widoczności; pierwsze pomiary w LLM.

Po tym etapie przechodzisz w tryb ciągły – nowe SKU przetwarzane automatycznie w pipeline opisanym w artykule o aktualizacjach produktowych. Kontekst strategiczny dla całego e-commerce zbieramy w przewodniku po strategiach AIO i SEO.

Bulk content dla kategorii i stron wsparcia

Ten sam proces stosuje się do opisów kategorii (150-300 słów per sztuka) oraz stron wsparcia (FAQ, przewodniki zakupowe). Różnica w prompcie: inne dane wejściowe (lista produktów w kategorii zamiast specyfikacji), inny format wyjściowy (lead + tabela cech wspólnych + CTA). Szczegóły w dedykowanym artykule o opisach kategorii.

Bezpieczeństwo i compliance

Bulk AI content w regulowanych branżach (suplementy, kosmetyki, elektronika RTV) wymaga dodatkowego kroku compliance. Model może wygenerować frazę medyczną lub energetyczną, której nie wolno używać (RODO, UOKiK, regulacje branżowe). Dodaj do promptu listę zakazanych terminów i post-process filter. Oficjalna dokumentacja od Anthropic dla enterprise opisuje techniki ograniczania halucynacji (więcej w dokumentacji Anthropic).

Dane osobowe w opiniach

Jeżeli prompt zawiera przykłady opinii klientów, usuń imiona, nazwiska i adresy e-mail przed wysłaniem do modelu. Dane osobowe w promptach są ryzykiem RODO – większość dostawców AI deklaruje, że nie trenuje na danych API, ale audytor tego nie sprawdzi. Anonimizacja regex jest tania i bezpieczna.

Zapisywanie logów

Loguj każde wywołanie API: prompt, dane wejściowe, odpowiedź, koszt, status walidacji. Przy 1000+ SKU bez logów nie odtworzysz, który opis pochodzi z którego wywołania. Logi w BigQuery albo Postgres z indeksem po SKU i dacie. Retencja logów: 90-180 dni wystarczy dla audytu.

Co jeszcze zmienia bulk AI na stronie

Generowanie opisów produktowych to punkt wyjścia, ale efekt biznesowy rośnie kiedy bulk rozszerzasz na pozostałe typy treści. Każda nowa sekcja zwiększa powierzchnię cytowalną i zaufanie modelu do sklepu.

Opisy kategorii – 200-400 słów per kategoria, struktura H2 „co znaleźć” + „jak wybrać” + FAQ.
Przewodniki zakupowe – 1500-3000 słów na kategorię, z tabelą porównawczą top 10 produktów.
Strony marek – 400-600 słów per producent, historia + profil + linki do produktów.
Mikro-FAQ – 5-8 pytań per kategoria osobno renderowanych dla Google.
Sekcje porównawcze – „Produkt A vs Produkt B” jako automatyczne porównanie 2-3 SKU.

Każdy z tych formatów ma własny szablon promptu i wymaga oddzielnej walidacji. Planowanie w cyklu kwartalnym daje najlepszy balans kosztu i efektu. Strategiczne mapowanie treści do ścieżki klienta opisujemy w przewodniku po contencie pod AI.

Integracja z PIM

Większe sklepy (5000+ SKU) używają systemu PIM (Product Information Management) jako źródła prawdy o danych produktowych. PIM staje się wtedy pierwszym krokiem ciągu procesów: PIM –> eksport JSON –> generator AI –> walidacja –> import do PIM –> synchronizacja do sklepu. Popularne PIM-y (Akeneo, Pimcore, Plytix) mają natywne API, co upraszcza integrację do 2-5 dni developmentu.

Bez PIM proces jest wciąż wykonalny, ale każda zmiana danych technicznych wymaga re-generacji opisu. Z PIM zmiana specyfikacji w jednym polu triggeruje re-generate tylko dla SKU, którego dotyczy. Oszczędność kosztu operacyjnego 40-60% dla sklepów zmieniających katalog często.

Harmonogram rekrutacji zespołu

Dla kampanii 1500 SKU potrzebujesz zazwyczaj trzech ról: inżyniera prompt/pipeline (full-time przez 4-6 tygodni), redaktora samplingu (20-40 godzin tygodniowo przez 4 tygodnie), koordynatora projektu (10 godzin tygodniowo). Możliwa kombinacja: agencja zewnętrzna + wewnętrzny redaktor branżowy. Cena rynkowa inżyniera prompt 150-280 zł/h, redaktora 60-120 zł/h, koordynatora 120-200 zł/h.

Po dwóch kampaniach proces jest powtarzalny i można go utrzymać w 0,2-0,5 etatu łącznie, niezależnie od rozmiaru katalogu. To moment, w którym ROI bulk AI jest najwyższy – stały koszt marginalny przy skali.

Kiedy nie warto bulkować

Nie każdy sklep zyska na bulk AI. Trzy sytuacje, w których lepiej zainwestować w dedykowanego redaktora branżowego. Sklepy z ręcznie robionymi, unikalnymi produktami (rzemiosło, rękodzieło) – tam każdy opis ma własną historię, a AI będzie wymyślać generalizacje. Sklepy z regulowanym językiem (medyczne wyroby klasy II, III) – ryzyko prawne wyższe niż oszczędność. Sklepy premium z 30-50 SKU i wysoką marżą – koszt ręcznej redakcji jest niski, a jakość opisu wpływa bezpośrednio na konwersję.

Poza tymi trzema scenariuszami bulk AI wygrywa kosztowo. Granica opłacalności to około 200-300 SKU – powyżej tego progu koszt per produkt dla AI spada wyraźnie poniżej ręcznej redakcji. Decyzję warto zweryfikować pilotażem 100 SKU przed dużą kampanią.

Cykl życia szablonu promptu

Szablon promptu to żywy dokument. Typowy cykl życia wygląda tak: wersja 1.0 przy pilotażu, wersja 2.0 po feedbacku z pierwszej partii, wersja 3.0 po pierwszym tygodniu produkcji, wersja 4.0 po trzech miesiącach. Każda kolejna wersja dodaje 2-5 subtelnych instrukcji, które wyłapują konkretny typ błędu.

Wersjonuj prompt w Git lub dedykowanej bazie. Zapisuj dla każdej wersji: datę, autora, zmianę, obserwowany efekt. Po roku masz pełną historię decyzji i możesz łatwo rollbackować zmianę, która pogorszyła wyniki. Koszt obsługi wersjonowania: 15-30 minut tygodniowo.

A/B testing szablonów

Przy partiach 1000+ SKU warto testować dwie wersje promptu równolegle. 500 SKU z wersją A, 500 z wersją B, losowa alokacja. Po walidacji porównaj wskaźniki: odrzut, średnia długość, liczba halucynacji, ocena sampling. Zwycięzca idzie na pozostałe SKU. Ta metoda daje o 10-20% lepsze wyniki niż wybór szablonu intuicyjnie.

Prompt engineering – co naprawdę działa

Po pięciu kampaniach bulk w różnych branżach (odzież, AGD, akcesoria, oświetlenie, kosmetyki) wyłoniło się kilka technik, które stabilnie podnoszą jakość opisów. Wszystkie są łatwe do dodania w istniejącym prompcie.

Explicit schema wyjściowa

Zamiast prosić „napisz opis”, proś o dokładnie wypełnione pola w HTML. Model, który ma strukturalną szablon, popełnia 40-60% mniej błędów typu zapomniana sekcja czy nieprawidłowy format. Przykład fragmentu promptu: „Zwróć HTML w dokładnie takim porządku: <p> lead </p>, <table> specyfikacja </table>, <h3> Dla kogo </h3>…”.

Constrained vocabulary

Czarna lista słów („rewolucyjny”, „niesamowity”, „perfekcyjny”) redukuje przeciętne AI-isms w wynikach o 70-85%. Czerwona lista Polglish („workflow”, „dashboard”, „performance”) zmniejsza anglicyzmy do 1-2% opisów. Biała lista terminów branżowych (np. dla oświetlenia: „strumień świetlny”, „barwa światła”, „CRI”) upewnia, że model używa profesjonalnego języka.

Referencje do danych wejściowych

Dodaj w prompcie: „zawsze podaj wagę dokładnie z pola weight_kg, wymiary z pola dimensions, kolor z pola color_label”. Model, który dostaje instrukcję, skąd brać konkretne fakty, rzadziej je wymyśla. Spadek halucynacji z 8-12% do 1-3%.

Format FAQ jako gotowy chunk

FAQ z <details>/<summary> generuj jako oddzielny blok, po reszcie opisu. Model ma wtedy kontekst całego opisu i pisze FAQ komplementarne, a nie powtórzenie. Wskaźnik cytowania FAQ w LLM jest wyższy o 30-50% przy tej kolejności.

Case: bulk 2300 SKU w sklepie z oświetleniem

Sklep niszowy z lampami LED (2300 SKU, rocznik 2019) uruchomił bulk AI content w październiku 2025. Stan wyjściowy: opisy importowane z hurtowni, 60-150 słów per SKU, duplikaty między wariantami, brak FAQ, schema Product bez AggregateRating.

Proces trwał 5 tygodni. Tydzień 1-2 audyt i szablon. Tygodnie 3-4 generacja Claude 3.5 Haiku dla 2100 SKU + GPT-4o dla top 200. Tydzień 5 walidacja i import. Koszt łączny: 31 tys zł (szablon + API + redakcja 10%). Stawka godzinowa zespołu: 120 zł/h średnio.

Efekty po 4 miesiącach: ruch organiczny na karty +68% (Search Console), cytowania w Perplexity w zapytaniach typu „najlepsza lampa LED do kuchni” wzrost z 0 do 4-6 razy tygodniowo, konwersja z ruchu organicznego +22%. ROI kampanii w pierwszym kwartale po wdrożeniu: 3,4x.

Czego nauczył ten case

Pilotaż 100 SKU skrócił iterację promptu z 3 tygodni do 5 dni.
Claude Haiku radzi sobie z polskim znacznie lepiej niż rok wcześniej – różnica 1-2 punktów QA vs GPT-4o.
Sampling 10% w pierwszej partii dał najlepszy feedback dla promptu; od drugiej partii wystarczyło 3-5%.
Import do WooCommerce przez REST API z batchingiem po 50 SKU nie generował 429 dla tej skali.
Kategoria „lampy zewnętrzne” wymagała innego szablonu – termin „IP65” był kluczowy, dodanie go do promptu zwiększyło dokładność o 18%.

Co wybrać na start – macierz decyzyjna

Skala sklepu	Rekomendowany model	Sampling	Narzędzia
100-500 SKU	Claude 3.5 Haiku + manual finish	20-30%	Arkusz + prosty script
500-2000 SKU	Haiku + GPT-4o top 5%	10%	Skrypt Python + Postgres
2000-10000 SKU	Haiku / Gemini Flash masowo	5%	Kolejka Redis + worker pool
10000+ SKU	Fine-tuned model + warstwowanie	2-3%	Pełny pipeline + obserwowalność

Obserwowalność pipeline

Pipeline produkcyjny wymaga metryk. Minimalny zestaw dashboardów: throughput (SKU/h), koszt API dzienny, wskaźnik odrzutów, średnia długość opisu, liczba halucynacji wykrytych walidatorem. Dashboard w Grafana lub Metabase nad bazą Postgres wymaga 2-3 dni pracy i wraca się w pierwszym miesiącu – wczesne wykrywanie anomalii (np. wzrost odrzutów z 3% do 15%) oszczędza regeneracji setek SKU. Narzędziowe otoczenie opisujemy w przewodniku po narzędziach SEO i AIO.

FAQ – najczęstsze pytania

Czy Google karze treść generowaną przez AI?

Nie, Google nie karze AI content per se – zasada „helpful content” ocenia wartość dla użytkownika, nie metodę produkcji. Karze treść niskiej jakości, duplikaty i spam. Bulk AI content z redakcją i walidacją jest w pełni zgodny z wytycznymi. Stanowisko Google Search Central jest tu jednoznaczne od 2023 roku.

Ile SKU realnie da się przerobić w tydzień?

Przy gotowym szablonie i pipeline – 1500-3000 SKU tygodniowo z sampling QA 5%. Przy pierwszej kampanii i nieustabilizowanym prompcie: 300-600 SKU tygodniowo, bo każda partia wymaga iteracji. Tempo rośnie wykładniczo po pierwszych dwóch cyklach.

Czy lepiej generować jeden długi prompt czy dzielić na pola?

Dla 95% zastosowań jeden prompt z jedną odpowiedzią zwracającą wszystkie pola (lead, spec, FAQ, meta). Oszczędza tokeny wejściowe i utrzymuje spójność stylu. Dzielenie na pola ma sens tylko wtedy, gdy schema wyjścia jest bardzo skomplikowana lub różne pola potrzebują różnych modeli.

Jak obsłużyć SKU, które zmieniają cenę co tydzień?

Nie regeneruj całego opisu – opis zostaje stały, a cena i availability są polami dynamicznymi schema Product. Generuj opis raz, aktualizuj tylko Offer. Pełny re-run opisu robimy tylko przy zmianie specyfikacji lub rebrandingu.

Czy GPT-4o-mini radzi sobie z polskim?

Tak, od września 2024. Jakość polskiego jest na poziomie 90-93% GPT-4o przy 10x niższym koszcie. Dla bulk content to optymalny wybór. Claude 3.5 Haiku podobnie – polskie wyniki są produkcyjnie akceptowalne.

Jak zabezpieczyć się przed halucynacjami?

Trzy warstwy: explicit „nie wymyślaj faktów” w prompcie, walidacja post-generate (porównanie wag, wymiarów, ceny z danymi wejściowymi), sampling ludzki 5-10%. Przy tych trzech warstwach halucynacje spadają do 1-3% opisów, a każda jest wyłapana przed importem.

Czy warto używać fine-tuningu modelu?

Dla sklepów z 50 000+ SKU i stałą produkcją – tak, fine-tuning GPT-4o-mini na 500-1000 własnych opisów daje 15-25% lepszą jakość. Dla mniejszych sklepów few-shot w prompcie jest wystarczające i tańsze. Fine-tuning kosztuje 1-3 tys zł jednorazowo plus 20-30% wyższy koszt inferencji.

Co z tłumaczeniem opisów na inne języki?

Model tłumaczy polskie opisy na angielski, niemiecki, czeski z dobrą jakością (90%+). Proces: generuj polski jako master, tłumacz w osobnym wywołaniu. Koszt tłumaczenia 0,03-0,08 zł per opis przy GPT-4o-mini. Post-review tłumaczenia obowiązkowy dla każdego nowego języka.

Co dalej

Kiedy masz pilotaż na 100 SKU, przejdź do generowania opisów kategorii pod AI oraz ustabilizowanego procesu aktualizacji produktów. Całość zakotwiczona jest w przewodniku SEO dla e-commerce.