Dlaczego automatyczna analiza sentymentu myli się na polszczyźnie – i kiedy czytać ręcznie

9 czerwca 2026 · Analiza sentymentu · 6 min czytania

“No pięknie, trzecia przesyłka z rzędu uszkodzona, gratulacje dla pakowni” – człowiek czyta to zdanie i od razu wie, że klient jest wściekły. Automat widzi słowa “pięknie” i “gratulacje”, więc spora część systemów oznaczy tę wypowiedź jako pozytywną. Na polszczyźnie takie pomyłki nie są wyjątkiem, tylko codziennością. Nie znaczy to, że automatyczna analiza sentymentu jest bezużyteczna – znaczy to, że musisz wiedzieć, gdzie się myli i jak te pomyłki kontrolować.

W tym tekście rozbieramy pięć typowych pułapek: ironię, sarkazm, podwójne przeczenia, branżowy żargon i opinie mieszane. Na końcu dostajesz prostą zasadę, kiedy automat wystarcza, a kiedy trzeba usiąść i przeczytać wzmianki ręcznie.

Dlaczego polszczyzna jest trudniejsza, niż się wydaje

Automatyczna klasyfikacja wydźwięku działa na dwa sposoby. Starsze podejście opiera się na słownikach: każde słowo ma przypisany ładunek (“super” plus, “tragedia” minus), a system sumuje punkty. Nowsze modele uczą się na tysiącach oznaczonych wypowiedzi i patrzą na całe zdania, nie pojedyncze wyrazy. Oba podejścia trenowano jednak głównie na angielskim, a polszczyzna stawia im dodatkowy opór.

Po pierwsze, fleksja: “zawiodłem się”, “zawiedziona”, “nie zawiedziecie się” to formy tego samego czasownika o zupełnie różnym wydźwięku w kontekście. Po drugie, swobodny szyk zdania – przeczenie potrafi stać daleko od słowa, które neguje. Po trzecie, zdrobnienia i partykuły (“no”, “ale”, “niby”, “jakby”), które zmieniają ton wypowiedzi, a dla słownika są przezroczyste. Jeśli dopiero układasz sobie podstawy pomiaru wydźwięku, zacznij od tekstu o tym, czym jest analiza sentymentu i jak mierzyć wydźwięk opinii – tutaj skupiamy się na tym, co automat psuje.

Ironia i sarkazm: słowa mówią co innego niż autor

To pułapka numer jeden. Ironiczna wypowiedź składa się niemal wyłącznie z pozytywnych słów: “świetnie”, “brawo”, “rewelacja”, “polecam serdecznie”. Automat sumuje plusy i wystawia zielony znacznik, a klient właśnie publicznie wystawił Ci rachunek za nieudane zamówienie.

Po czym poznać ironię, zanim zrobi to człowiek? Kilka sygnałów da się wychwycić nawet maszynowo: zderzenie pozytywnych słów z negatywnym kontekstem (“super, znowu nie działa”), wielokropki i cudzysłowy (“‘ekspresowa’ dostawa”), nagromadzenie wykrzykników przy banalnej treści. Ale sarkazm pisany na chłodno, bez emotikon i bez interpunkcyjnych fajerwerków, pozostaje praktycznie niewykrywalny. “Gratuluję podejścia do klienta. Zamówienie numer 8841, trzeci tydzień oczekiwania” – żaden słownik nie znajdzie tu minusa, a to jedna z najgroźniejszych form krytyki, bo pisze ją osoba opanowana i zdeterminowana.

W praktyce przyjmij, że w polskich social media od kilku do kilkunastu procent negatywnych wypowiedzi ma formę ironiczną. Im młodsza grupa odbiorców i im bardziej “internetowa” branża, tym ten odsetek wyższy.

Podwójne przeczenia i zdania, które nie mieszczą się w szufladce

Polszczyzna kocha przeczenia piętrowe. “Nie powiem, żebym był niezadowolony” to wypowiedź umiarkowanie pozytywna. “Nie jest tak, że nie mają racji” – przyznanie racji. “Nie polecam, ale nie jest źle” – klasyk, który człowieka zmusza do zastanowienia, a automat po prostu wywraca. Systemy słownikowe liczą wystąpienia “nie” i gubią się przy drugim. Modele uczone radzą sobie lepiej, ale na polskich danych wciąż mylą się na tego typu zdaniach wyraźnie częściej niż na prostych deklaracjach.

Osobny problem to zdania warunkowe i porównania: “byłoby super, gdyby nie pakowanie”, “lepsze to niż to, co miałem wcześniej”. Wydźwięk zależy tu od punktu odniesienia, którego automat nie zna. Wniosek praktyczny: jeśli w Twojej branży klienci piszą długimi, złożonymi zdaniami (usługi profesjonalne, B2B, finanse), odsetek błędnych klasyfikacji będzie wyższy niż w branżach, gdzie dominują krótkie “polecam” i “omijać”.

Branżowy żargon: “masakra” bywa komplementem

Slang potrafi odwrócić ładunek słowa o 180 stopni. “Masakra, jakie dobre”, “chory ten burger, sztos”, “to jest jakiś obłęd, biorę drugi raz” – wszystkie trzy wypowiedzi są entuzjastyczne, a słownikowy automat zobaczy w nich masakrę, chorobę i obłęd. Działa to też w drugą stronę: “spoko” bywa letnim, zawiedzionym minimum, a nie pochwałą.

Do tego dochodzi żargon czysto branżowy. W gastronomii “padło” znaczy co innego niż w IT, a “wyłożyć się” co innego na siłowni niż w logistyce. Jeżeli korzystasz z narzędzia do nasłuchu, sprawdź, czy pozwala dodawać własne reguły albo korygować klasyfikację – po miesiącu poprawek na własnych danych trafność potrafi zauważalnie wzrosnąć. Jak w ogóle ustawić zbieranie wzmianek z różnych kanałów, opisaliśmy w przewodniku po monitoringu marki w sieci.

Opinie mieszane: pochwała i skarga w jednym wpisie

“Jedzenie pyszne, obsługa miła, ale czekaliśmy 50 minut i nikt nie podszedł” – jaki to wydźwięk? Automat zwykle uśrednia i wystawia neutralny, czyli żaden. A przecież ta opinia niesie dwa konkretne sygnały: produkt broni się sam, proces obsługi wymaga naprawy. Uśrednienie kasuje oba.

Mieszane opinie to w wielu firmach 20–30% wszystkich dłuższych wypowiedzi, a przy recenzjach z ocenami środkowymi (trzy gwiazdki) – większość. Dlatego sensowne podejście to rozbijanie wypowiedzi na aspekty: osobny wydźwięk dla produktu, dostawy, ceny, obsługi. Część narzędzi robi to automatycznie pod nazwą analizy aspektowej, ale przy małej skali równie dobrze działa ręczne tagowanie w arkuszu. Jak rozłożyć wypowiedź na polaryzację, emocję i intencję, pokazujemy krok po kroku w tekście o czytaniu nastrojów klientów z opinii i komentarzy.

Kiedy automat wystarcza

Mimo wszystkich powyższych zastrzeżeń automat ma swoje miejsce i nie warto z niego rezygnować. Sprawdza się, gdy:

liczysz trend, nie pojedyncze wpisy – błędy klasyfikacji są mniej więcej stałe w czasie, więc kierunek zmian (rośnie czy spada udział negatywnych) automat pokaże poprawnie, nawet jeśli pojedyncze wzmianki oznaczy źle,
masz dużą skalę – powyżej 150–200 wzmianek miesięcznie ręczne czytanie wszystkiego przestaje być realne, a przy takich liczbach kilkanaście procent błędów nie zmienia obrazu całości,
wypowiedzi są krótkie i dosłowne – recenzje produktowe typu “działa, polecam” automat klasyfikuje z trafnością, której człowiek nie poprawi na tyle, żeby było warto,
potrzebujesz alertu, nie diagnozy – nagły skok liczby negatywnych wzmianek automat wychwyci szybciej niż Ty, a fałszywy alarm kosztuje tylko pięć minut sprawdzenia.

Które metryki liczyć na takich danych i jak nie dać się zwieść ładnym wykresom, rozpisaliśmy w przeglądzie wskaźników reputacji i sentymentu.

Kiedy konieczna jest próba ręczna

Ręcznego czytania nie unikniesz w czterech sytuacjach. Pierwsza: decyzja na podstawie danych. Zanim na bazie raportu sentymentu zmienisz ofertę, cennik albo proces obsługi, przeczytaj samodzielnie próbkę wzmianek, które za tym raportem stoją. Druga: sytuacja kryzysowa. Gdy coś się dzieje, liczy się treść i intencja każdej wypowiedzi, nie statystyka. Trzecia: mała skala. Poniżej mniej więcej 100 wzmianek miesięcznie automat nie daje przewagi – szybciej przeczytasz wszystko, a przy okazji zobaczysz niuanse. Czwarta: kalibracja narzędzia, czyli regularne sprawdzanie, jak często automat się myli na Twoich danych.

Ta ostatnia praktyka jest najcenniejsza i zajmuje pół godziny w miesiącu. Wylosuj 50 wzmianek, oceń je samodzielnie, porównaj z klasyfikacją automatu. Jeśli zgodność przekracza 80%, możesz ufać trendom. Jeśli spada poniżej 70%, raporty z tego narzędzia traktuj wyłącznie jako listę wzmianek do ręcznego przejrzenia, a nie jako gotowe wnioski. Zapisuj też, na czym automat się wykłada – po dwóch, trzech miesiącach zobaczysz wzorzec i będziesz wiedzieć, które kategorie wypowiedzi zawsze wymagają ludzkiego oka.

Podsumowanie

Automatyczna analiza sentymentu po polsku myli się najczęściej tam, gdzie znaczenie rozjeżdża się ze słowami: na ironii i sarkazmie, na piętrowych przeczeniach, na slangu i żargonie oraz na opiniach mieszanych, które uśrednia do nijakiego “neutralnego”. Nie wybieraj między automatem a człowiekiem, tylko podziel pracę: automat liczy trend, pilnuje skali i alarmuje, człowiek czyta próbki, kalibruje narzędzie i podejmuje decyzje. Comiesięczna ręczna próba 50 wzmianek kosztuje pół godziny, a chroni przed budowaniem strategii na danych, które od początku były źle policzone.