8 minut na jeden raport. Kilkadziesiąt raportów dziennie. Jedno wdrożenie, które skróciło to do 12 sekund.
Zanim napiszę o technologii, zacznę od problemu, bo technologia jest tu najmniej interesującą częścią.
Klient prowadzi działalność na rynku FMCG z wieloma punktami sprzedaży. Każdy sprzedawca na koniec dnia składa raport kasowy: taśma z terminala, ręcznie przepisana do arkusza, zsumowana, zatwierdzona. Brzmi jak formalność. W praktyce, przy kilkudziesięciu punktach dziennie, ktoś spędzał na tym kilka godzin. Każdego dnia.
8 minut na jeden raport. Pomnóż przez liczbę sprzedawców. Pomnóż przez dni robocze w roku. Wychodzi kilka etatów, tylko na przepisywanie danych z papieru do arkusza.
Dlaczego standardowy OCR nie zadziałał
Pierwsze pytanie, które zawsze zadajemy w takim przypadku: czy da się to zrobić prostszym narzędziem?
Klasyczne OCR działa świetnie na dokumentach z przewidywalnym układem. Faktury od jednego dostawcy, które zawsze wyglądają tak samo. To dobry kandydat. Drukuje się template, wskazuje gdzie szukać NIPu i kwoty, gotowe.
Problem z paragonami kasowymi polega na tym, że nie ma jednego szablonu. Każdy producent terminala drukuje inaczej. Inne marginesy, inne kroje pisma, inne rozmieszczenie pól. Część paragonów jest wyblakła, część zagnieciona, część urwana na brzegu. Klasyczny OCR przy takich danych regularnie się myli, a przy danych finansowych jeden błąd w tysiącu jest jednym za dużo.
Co zbudowaliśmy
Zamiast OCR opartego na szablonach, użyliśmy modelu wizyjnego (VLM, Visual Language Model). VLM nie szuka danych w z góry określonych miejscach. Rozumie zawartość obrazu jak człowiek: czyta paragon tak, jak przeczytałbyś go Ty, niezależnie od układu i jakości wydruku.
Pipeline wygląda tak:
- Sprzedawca fotografuje paragon telefonem lub skanuje go na biurku
- Zdjęcie trafia do systemu
- Model wizyjny odczytuje wartości (kwota, data, numer terminala, kategorie sprzedaży)
- Dane trafiają ustrukturyzowane do arkusza lub systemu finansowego klienta
- Flaga wyjątku, jeśli model nie jest pewny odczytu, do weryfikacji ręcznej
Cały proces od zdjęcia do gotowego wpisu: 12 sekund.
Co teraz robi ta osoba
To pytanie, które lubię zadawać po każdym wdrożeniu. Nie „ile zaoszczędziliśmy", tylko co konkretna osoba robi teraz zamiast tego.
W tym przypadku: nadzoruje wyjątki. Spędza kilkanaście minut dziennie na weryfikacji kilku przypadków, których model nie był pewny. Zamiast przepisywać dane z papieru, patrzy na raporty i szuka anomalii, które wcześniej były niewidoczne, bo nie było czasu na analizę.
To jest zmiana, którą warto pokazywać. Nie „AI zabrało komuś pracę". Raczej: monotonne przepisywanie zastąpiło sensowne patrzenie na dane.
Kiedy to podejście działa, a kiedy nie
Ten typ automatyzacji sprawdza się, gdy:
- Dokumenty mają zmienną strukturę (różni dostawcy, różne terminale, różne formaty)
- Wolumen jest wysoki i reguluje się sam (codziennie, przewidywalnie)
- Koszt błędu przy ręcznym przepisywaniu jest realny (dane finansowe, magazyn, zamówienia)
Nie sprawdza się, gdy dokumenty są bardzo uszkodzone (zamazane, rozmazane, brakuje fragmentów) albo gdy proces jest na tyle nieregularny, że koszt utrzymania nie zwraca się z wolumenu.
Zawsze warto liczyć: czas ręczny miesięcznie × koszt godziny pracy = wartość, którą automatyzacja musi bić.
Najczęściej zadawane pytania
Czym różni się OCR od modelu wizyjnego (VLM)?
Klasyczny OCR szuka danych w z góry określonych miejscach na dokumencie. Model wizyjny rozumie zawartość obrazu jak człowiek — czyta dokument niezależnie od układu, jakości wydruku czy formatu. Przy zmiennych dokumentach (różne terminale, dostawcy) VLM jest znacznie dokładniejszy.
Ile kosztuje automatyzacja OCR paragonów?
Zależy od złożoności dokumentów i wolumenu. Proste faktury od jednego dostawcy: kilka tysięcy złotych. Paragony z wielu terminali wymagające modelu wizyjnego: około 20 tysięcy złotych.
Czy automatyzacja OCR radzi sobie z nieczytelnymi dokumentami?
Model wizyjny obsługuje wyblakłe, zagniecione i nierówno wydrukowane dokumenty znacznie lepiej niż klasyczny OCR. Przy bardzo uszkodzonych dokumentach (zamazane, brakujące fragmenty) system flaguje je do weryfikacji ręcznej zamiast zgadywać.
Jak szybko działa automatyczny odczyt paragonów?
W opisywanym wdrożeniu: 12 sekund od zdjęcia do gotowego wpisu w arkuszu. Ręcznie ten sam proces zajmował 8 minut na jeden raport.