Добри практики при сканиране за добър OCR

Какви грешки да не допускаме? Кой скенер е подходящ - има ли универсално решение?

07 Ноември 2020, автор Константин Стоянов, дата на последна редакция 07.05.2022

 

Здравейте, казвам се Константин Стоянов и съм създател на CONTROLISY accounting. През 20 годишния си опит като главен счетоводител натрупах много опит със сканиране на фактури и други документи, който обобщавам в тази статия. Целта на статията е да представи добрите практики при сканиране с цел да се допускат по-малко грешки, които водят до некачествено оптично разпознаване (OCR), трудности при подреждането и търсене на документи, загуба на време.

В статията ще разгледаме:

  1. Грешки и проблематични обстоятелства [#]
  2. Обобщение на добрите практики [#]
  3. Кой е най-подходящия скенер? Има ли универсално решение? [#]

Оптимални резултати от OCR се постигат с добре сканирани изображения. Не можем да очакваме добър резултат от оптично разпознаване при лошо сканиран документ. Винаги базирайте очакванията си за това, което системата ще Ви върне като резултат въз основа на качеството на входните данни, които й подавате.

Първоначално подробно ще се спра на най-често допусканите грешки при сканиране, които е добре да избягвате. Вследствие на анализа, ще обобщя добрите практики и най-важните насоки как да постигнете максимално добри резултати в работата Ви с OCR.

1. Грешки и проблематични обстоятелства

  • Скенери, които сами правят OCR [#]
  • Изображение под ъгъл [#] - CONTROLISY автоматично се справя с този проблем :)
  • Усукано изображение [#] - CONTROLISY автоматично се справя с този проблем :)
  • Релефно изображение тип хармоника [#] - CONTROLISY автоматично се справя с този проблем :)
  • Размазано изображение [#]
  • Нисък контраст [#] - CONTROLISY автоматично се справя с този проблем :)
  • Цветни изображения [#]
  • Нисък dpi (Dots per inch) [#]
  • Файлове с ненужно голям размер [#]
  • Множество документи в един файл [#] - CONTROLISY разполага с инструмент за разделяне на страници, което решава този проблем :)
  • Няколко фактури на една страница [#] - CONTROLISY разполага с инструмент за изрязване на част от страница, което решава този проблем :)
  • Миксирана ориентация на текстовете [#] - CONTROLISY автоматично се справя с този проблем :)
  • Използване на скенери без автоматично подаване [#]
  • Стари и неподдържани скенери [#]
  • Ръчно написан текст [#]
  • Тънка хартия, която прозира [#]
  • Закриване на част от изображението с друг документ [#]
  • Фактури от матрични принтери [#] - CONTROLISY разполага с инструмент за повишаване качеството на разпознаване на фактури, принтирани на матрични принтери :)
  • Шрифтове с пресечена нула [#] - CONTROLISY автоматично се справя с този проблем :)
  • Наличие на воден знак [#]
  • Дребен шрифт [#]

x Скенери, които сами правят OCR

Скенерите, които сами правят OCR обикновено не се справят добре с кирилицата (с някои изключения). Напоследък много често наблюдавам в настройките на драйвера, който използва скенера да е заложено по подразбиране скенерът да прави автоматичен OCR и да го добавя като невидим слой върху картинката на PDF файла, по който слой може да се търси, да се селектира и копира. И тъй като обикновено този слой е погрешно разпознат, той не просто не решава, а създава проблеми. Мога да посоча 2 проблема, които произтичат - първият проблем е свързан с това, че сканирането ще е по-бавно, тъй като има добавен OCR процес. Вторият проблем е, че когато документът постъпи в CONTROLISY accounting, системата ще констатира, че има вече разпознат текст в PDF файла и наготово ще вземе този текст без да направи класическо разпознаване. Това разбира се ще доведе до лошо извлечен текст, тъй като източника съдържа лошо извлечен текст.

Какво трябва да направите? Освен, ако скенерът, който използвате разпознава отлично и кирилица, трябва задължително да намерите в настройките му опцията, която кара скенера да прави пълнотекстово разпознаване. Тази опция може да се намери с различни имена като например "OCR", "Добавяне на текст за търсене", "Пълнотекстово разпознаване", "OCR after scan", "Create a PDF file that supports keyword search" и т.н.

x Изображение под ъгъл

CONTROLISY автоматично се справя с този проблем :)

Изместването на изображението под някакъв ъгъл е често срещано особено при скенерите с автоматично подаване. Изместване до 1-2 градуса обикновено не оказва съществено влияние върху качеството на разпознаване, но по-големи измествания със сигурност водят до по-лоши резултати.

CONTROLISY accounting има автоматичен инструмент, с който системата открива изкривявания и изправя изображението, което значително намалява възможностите за лош резултат. Въпреки това, добра практика е изображенията, резултат на сканиране, да са максимално изправени.

x Усукано изображение

CONTROLISY автоматично се справя с този проблем :)

За разлика от изображенията под ъгъл, за които има инструмент за автоматична корекция, при усуканите изображения проблемът е по-голям. Усукването най-често се проявява при скенери с автоматично подаване и при снимане с телефон. При усукването текстът се разпъва или свива и води до лош резултат в секторите на усукване.

x Релефно изображение тип хармоника

CONTROLISY автоматично се справя с този проблем :)

Обикновено този проблем не се проявява при сканиране чрез скенер. Но когато изображението се сканира през камерата на телефон и хартиеният документ не е добре изправен, често се случва да се появят релефни изкривявания върху картинката, което води до разпъване и свиване на текста и лош резултат в рамките на тези сектори.

x Размазано изображение

Най-често размазано изображение съм срещал при скенери с автоматично подаване. Ако попаднете на сканирани документи, които имат размазване е добре да се консултирате с техника, който поддържа скенера, за да му се направи пълна профилактика. Също така, скенери от по-нисък клас, които поддържат по-висока скорост на автоматично подаване може да не се справят добре с качеството на изображението и това също да води до леко замъгляване на образа на буквите.

Размазаният текст намалява вероятността да бъде разпознат правилно.

x Нисък контраст

CONTROLISY автоматично се справя с този проблем :)

Пълнотекстовото извличане е с по-ниско качество, когато контрастът между буквите и фона на документа е малък. Това например често се случва при фактури, които се отпечатват на матричен принтер (например фактури МЕТРО). Може да се наблюдава и при шаблони на фактури, създадени от дизайнер, който изцяло се е фокусирал върху оригиналния дизайн на документа, но не и как автоматично в последствие ще се извлече и обработи текста.

Инструментите в CONTROLISY accounting за обработка на изображението преди пускането му за OCR автоматично се опитват да подобрят контраста, но при прекалено крайни случаи успехите са по-малки.

За управление на контраста няма универсално правило, още повече, че често това зависи от контраста на оригиналното изображение на хартиения документ. Въпреки това, можете да направите тестове с настройките за контраст на скенера си и така да намерите стойности, които дават добър резултат.

x Цветни изображения

Цветното изображение има своите визуални предимства. Въпреки това сканирането ще е по-бавно, а крайният резултат ще е твърде голям файл. Най-добре е сканирането да се прави в grayscale (нюанси на сивото).

Разбира се, можете да имате своите съображения да сканирате цветно, но трябва да имате предвид горните причини.

Настройката за цветност е част от настройките на скенера, който използвате.

x Нисък dpi (Dots per inch)

Както повечето от вас знаят, dpi е съкращение от Dots per inch (брой точки на инч), с което се измерва наситеността от точки върху линия от 1 инч (2.54 см). Колкото dpi е по-малък, толкова по некачествено ще изглежда изображението. Препоръчвам да сканирате при 300dpi, за да получите оптимални резултати при разпознаването с OCR. Ако фактурата е с по-дребен шрифт е добре да работите с 400dpi. Колкото е по-голяма стойността на dpi, толкова по-голям ще е размера на генерирания файл.

Настройката за dpi е част от настройките на скенера, който използвате.

x Файлове с ненужно голям размер

Избягвайте файловете с прекалено големи размери. Освен, че заемат много повече място, трафикът им през Интернет е много по-бавен, а и вероятно е имало забавяне и при процеса на сканиране. Обикновено големите файлове са резултат от цветно сканиране, сканиране с прекалено голям dpi (например 600dpi) и некомпресирани изображения.

Практиката показва, че PDF от една страница с добро качество за разпознаване трябва да е между 200 и 300kB.

x Множество документи в един файл

CONTROLISY разполага с инструмент за разделяне на страници, което решава този проблем :)

Вероятно защото е по-лесно всички документи да се сканират в един файл, това е често срещана грешка. Когато счетоводителите получат 1 документ с много страници те трябва да отделят допълнителни усилия и време да разделят този файл на отделни фактури и да генерират съответния брой счетоводни документи. И тъй като е добре да ценим труда си взаимно, най-добрата практика е, този, който сканира документите да ги сканира в отделни файлове.

CONTROLISY чрез своето масово сканиране има много ефективен инструмент, който позволява сканиране на множество страници и след това, ако е необходимо отделни страници могат да се обединят с провлачване в отделни документи. По този начин с междинен интерфейс може лесно се създават множество документи и файлове наведнъж.

CONTROLISY разполага с инструмент за разделяне на страници, който може да се използва както в момента на качване, така и при вече качени файлове.

x Няколко фактури на една страница

CONTROLISY разполага с инструмент за изрязване на част от страница, което решава този проблем :)

Понякога е по-лесно няколко фактури (например такива за гориво от тип "касова бележка") да се подредят на една страница и да се сканират заедно. В повечето случаи това е проблем, тъй като страницата не може да се раздели на подстраници.

За щастие CONTROLISY разполага с инструмент за изрязване на част от страница, което решава този проблем.

x Миксирана ориентация на текстовете

CONTROLISY автоматично се справя с този проблем :)

Тъй като може би заглавието не звучи много ясно ще дам пример - фактура с портретна ориентация и Фискален бон, поставен под фактурата, но завъртян на 90 градуса, така че да се събере на страницата на фактурата. В този случай информацията от фискалния бон няма да бъде разпозната качествено и можем да изгубим ценни данни за това, че фактурата е платена касово и системата автоматично да отрази това.

Т.е. ако фактурата е изправена и касовата бележка трябва да е изправена и обратно. Това правило не влиза в противоречие с фактури, които са с пейзажно изображение (Landscape). При тях разпознаването правилно успява да извлече текста.

x Използване на скенери без автоматично подаване

Въпреки, че скенерите без автоматично подаване понякога може да генерират по-качествен образ, работата с тях е бавна и неефективна. Използвайте скенери с автоматично подаване, те значително ще ускорят процеса на сканиране.

Ако започнете да избирате скенер, най-добре говорете с ваши колеги, които вече ползват скенери, от тях ще научите най-добре как се справят съответните модели. Като ценови диапазон, среден клас скенер с автоматично подаване струва в диапазона 600-1200 лева в зависимост от марката, модела и характеристиките. Всеки скенер има разни предимства и недостатъци. Важен е броят на страници в минута, като при някои модели това число се удвоява поради наличие на сканиране едновременно от двете страни на листа. Има скенери, които могат да сканират с телбод, вкл. по-дебела хартия или друг по-твърд носител - преценете дали такава характеристика е необходима за работата ви. Преценявайте обещаните функционалности и класа, и цената на скенера. Няма как скенер с прекалено ниска цена да може едновременно да сканира със 100 страници в минута с отлично качество.

x Стари и неподдържани скенери

Ако използвате прекалено стар скенер, вероятно вече имате нужда да го смените. Това ще налее ефективност и бързина при сканирането, а и вероятно ще повиши качеството на сканирания образ.

Скенерите имат нужда от поддръжка. Редовно трябва да се почистват. Някои части направо можете да третирате като консуматив. Добре е за поддръжката да се грижи техник, който разбира какво прави. Всички тези усилия ще удължат жизнения цикъл на скенера ви и по-дълго време ще получавате желания резултат.

x Ръчно написан текст

Ако върху ръчно написаната фактура има фабрично изписани данни (номер, данни за доставчика), тези данни ще бъдат правилно извлечени. Ръчно написани данни като дата, сума и т.н., ако са изписани с букви, близки до печатните, също имат голям шанс да бъдат разпознати.

Често ми задават въпроса, ако фактурата е написана на ръка, OCR ще върне ли резултат. Отговорът е, че колкото хора има на земята, толкова и ръкописни шрифтове съществуват. Това означава, че в повечето случаи пълнотекстовото разпознаване няма да се справи. Като цяло в световен мащаб няма надеждно решение за универсално разпознаване на ръкописен шрифт. Ако ръкописният шрифт се доближава до печатен, вероятността за разпознаване се увеличава.

Добрата новина е, че фактурите от кочан стават все по-рядко срещан инструмент за фактуриране.

x Тънка хартия, която прозира

При тънката хартия можем да наблюдаваме 2 проблема. При първия, валяците на скенера не винаги добре улавят документа и увеличават шансовете при сканиране, документът да се изкриви и усуче, което ще доведе до някои от горепосочените проблеми с пълнотекстовото разпознаване. Вторият проблем е, че понякога тези документи имат печат и на обратната страна на листа и често прозрачността на хартията води до отбелязване на текста от обратната страна върху картинката на горната страна и така се получава какафония от текстове, които объркват OCR.

x Закриване на част от изображението с друг документ

Много често тази грешка възниква при фактури, върху които е поставен фискален бон или бележка от ПОС терминал. В тези случаи допълнителният документ закрива определена част от същинския документ и това неминуемо води до нарушаване структурата на текста и пропускане на част от информацията.

В тези случаи документът, който закрива, трябва да се постави под основния, вкл. ако е необходимо и на отделна страница. Както по-горе написах, не поставяйте фискалните бележки завъртяни на 90 градуса с идеята да ги съберете на един лист с фактурата. Поставяйте фискалния бон винаги изправен, така ще бъде разчетен правилно. Ако е възможно, залепете го с малко лепило на гърба на фактурата и настройте скенера да сканира двустранно, по този начин ще постави касовата бележка на втора страница в PDF файла, който ще се генерира. Говорете с вашите доставчици да поставят фискалния бон на обратната страна на фактурата, това ще спести време за местене на касовата бележка.

x Фактури от матрични принтери

CONTROLISY разполага с инструмент за повишаване качеството на разпознаване на фактури, принтирани на матрични принтери :)

При матричните принтери се проявяват различни проблеми, свързани с последващото пълнотекстово разпознаване. При тях често текстът е блед, т.е. контрастът между цвят на букви и фон е малък. Също така понякога отпечатването се прави върху бланка и е възможно част от текста да се принтира върху предварително напечатаните в печатница части на бланката, като това води до невъзможност да се постигне качествено разпознаване. Хартията е тънка и понякога при сканиране може да се види текст, който стои на обратната страна на фактурата (обикновено това са някакви рекламни текстове, които са поставени на гърба на фактурата). Текстът е на точки което обърква понякога OCR енджина.

x Шрифтове с пресечена нула

CONTROLISY автоматично се справя с този проблем :)

Ако получавате фактура, в която шрифтът прави нулата да е пресечена, едва ли има какво да направите, но трябва да се има предвид, че пресечената нула понякога обърква OCR енджина и вместо 0, може да се разпознае като 8 или 6.

x Фактури с воден знак

Наличието на деликатно поставен воден знак в повечето случаи не е проблем, но когато цялата фактура е осеяна с водни знаци, това създава затруднение за качественото разпознаване.

x Дребен шрифт

Букви и цифри, отпечатани със ситен шрифт могат да създадат затруднение в качественото разпознаване. В тези случаи препоръчваме сканирането да се прави при 400 или 600dpi, което обаче ще увеличи големината на файловете.

2. Обобщение на добрите практики

  • Изключете автоматичното разпознаване на скенера, който използвате, освен ако не разпознава качествено кирилица
  • Използвайте скенер с автоматично подаване, това ще ви спести много време. Обикновено среден клас от такива скенери обработват от 20 до 60 листа в минута. За фактури с фискални бонове или с нестандартни размери можете да използвате т.нар. "Г-образни" скенери за документи.
  • Старайте се скенерът да взима листите така, че да не ги криви и усуква
    CONTROLISY автоматично се справя с криви и усукани изображения, така че тази препоръка не е задължителна, ако използвате CONTROLISY :)
  • Когато сканирате с камерата на телефон, уверете се, че хартиеният документ не е смачкан или определени негови части не са повдигнати или вдлъбнати
    CONTROLISY автоматично се справя със смачкани изображения, така че тази препоръка не е задължителна, ако използвате CONTROLISY :)
  • Ако установите, че скенерът Ви прави размазани изображения, вероятно трябва да се обърнете към специализиран сервиз за почистване, диагностика или консултация за настройване
  • Независимо, от най-разнообразните шаблони на фактури, които сканирате, опитайте се контрастът да е балансиран така, че да има максимална разлика между цвета на буквите и цвета на фона
    CONTROLISY автоматично се справя с изображения с нисък контраст, така че тази препоръка не е задължителна, ако използвате CONTROLISY :)
  • Сканирайте изображенията в grayscale
  • Сканирайте при 300dpi. Ако фактурата е с по-дребен шрифт е добре да сканирате при 400dpi или 600dpi.
  • PDF файловете, които ще генерирате трябва да са между 200-300 kB на страница
  • Избягвайте да слагате множество несвързани документи в един файл. Това ще спести много време на колегите Ви.
    Тъй като CONTROLISY разполага с удобен интерфейс за разделяне на PDF файлове на съставни страници (вкл. и съединяване на страници), ако Ви е по-удобно, можете да продължите да сканирате в един файл всички фактури от конкретната партида :)
  • Ако в един PDF сте поставили 2 или повече свързани документа, нека всички да са или само вертикално или само хоризонтално ориентирани
    CONTROLISY автоматично се справя със изображения, сканирани в различни посоки, така че тази препоръка не е задължителна, ако използвате CONTROLISY :)
  • Вашият скенер се нуждае от редовна поддръжка, особено при интензивно използване. Ползвайте услугите на сервизни фирми
  • Не възлагайте големи очаквания за добро разпознаване при фактури с ръчно написан текст. Въпреки това CONTROLISY ще разпознае фабрично изписаните данни като номер и данни за доставчика, както и ръчно написани данни като дата, сума и т.н. ако са изписани с букви, близки до печатните.
  • При фактури, които прозират, можете да използвате бял лист за подложка. За да не се разместват фактурата и белият лист можете да ги поставите в прозрачен джоб който да сканирате.
  • Винаги разполагайте документите така, че да не закриват информация от други документи. Ако е необходимо, разкачете и залепете касовата бележка на друго място, но винаги я поставяйте изправена. Говорете с вашите доставчици да поставят фискалния бон на обратната страна на фактурата, това ще спести време за местене на касовата бележка.
  • Ако в един файл искате да сканирате множество малки документи като квитанции, фискални бонове и др. подобни, добра практика е бележките да ги закрепите на бял лист (възможно е да използвате малко лепило) и така получената конструкция да я поставите в прозрачен джоб, който да сканирате.
    CONTROLISY в последствие ще предостави инструмент за изрязване на част от страницата, така че тези фактури да попаднат в отделни документи, така че системата да индексира всяка от тях отделно.

3. Кой е най-подходящия скенер? Има ли универсално решение?

Тай като редовно обсъждам с наши клиенти този въпрос, реших да обобщя добрите практики тук.

В практиката, при сканиране обикновено се използват 2 вида скенери - скенери с автоматично подаване и "Г-образни" скенери за документи.

  • Скенери с автоматично подаване
    В повечето случаи скенерите с автоматично подаване са по-бързи и продуктивни. Подходящи са за по-стандартни фактури (например тип A4), за които не се налага премахване или отместване на фискален бон.
  • "Г-образни" скенери за документи
    В случаите, в които се налага премахване или преместване на фискален бон от фактура или фактурата е с нестандартни размери (което прави невъзможно сканирането й чрез скенер с автоаматично подаване), може да се използва "Г-образен" скенер за документ. Този вид скенери са с по-ниска производителност от скенерите с автоматично подаване, но повишават ефективността там, където скенерите с автоматично подаване не са ефективни. При "Г-образните" скенери за документи е възможно да се постави класьорът с документи под камерата на скенера и чрез разлистване да се снима всяка фактура, като не е необходимо премахване на фискалния бон, а може само да се повдигне, така че да се покаже информацията, която закрива. Обикновено тези скенери са снабдени с педал, който се поставя под бюрото, така че снимката се прави чрез натискане на педала с крак, а ръцете са свободни за разлистване на фактурите.

От разговорите с клиенти на CONTROLISY стигам до извода, че е добре да се разполага и с 2та вида скенери, тъй като всеки от тях е ефективен в определена група документи, които сканира. Това означава, че преди да се сканират фактурите може да се мине през процес на разделяне в 2 групи - по една за всеки от скенерите.

В списъка по-долу показваме кой скенер е по-подходящ за използване в зависимост от вида на фактурата, вкл. наличието на фискален бон, в съчетание с възможностите на CONTROLISY:

  • Според метода на закрепяне на фискалния бон
    • Фискалният бон е закрепен с телбод - "Г-образен" скенер за документи, освен ако скенера с автоматично подаване може да работи безопасно с документи, съдържащи телбод
    • Фискалният бон е закрепен с лепило - Скенер с автоматично подаване
  • Според местоположението на фискалния бон
    • Фискалният бон е разположен на гърба на фактурата - Скенер с автоматично подаване
    • Фискалният бон е разположен на лицето на фактурата и не закрива информация - Скенер с автоматично подаване
    • Фискалният бон е разположен на лицето на фактурата и закрива само данните на доставчика - Скенер с автоматично подаване
    • Фискалният бон е разположен на лицето на фактурата и закрива важна информация като обща сума, дата, номер, данни за клиента - "Г-образен" скенер за документи
  • Според ъгъла на разполагане на фискалния бон
    • Фискалният бон е разположен така, както върви основният поток от информация върху фактурата - Скенер с автоматично подаване
    • Фискалният бон е разположен под ъгъл (например завъртян на 90 градуса) спрямо основния поток на информацията във фактурата - Скенер с автоматично подаване
  • Според формата на фактурата
    • По-стандартни фактури (тип A4 и сходни) - Скенер с автоматично подаване
    • По-нестандартни фактури, които не могат да бъдат сканирани чрез скенер с автоматично подаване - "Г-образен" скенер за документи

Сканиране чрез телефон:

Сканирането чрез телефон е алтернатива на класическото сканиране със скенер. В определени случаи може да е по-ефективно и не изисква първоначална инвестиция (предвид това, че обикновено всеки има мобилен телефон).

CONTROLISY използва приложението UPLOADS, чрез което фактурите много лесно и бързо се снимат чрез телефон и се качват в системата. Приложението се отваря чрез уеб браузър през телефон/таблет и компютър и е платформено независимо - работи под Windows, Android, Mac OS, iOS, Linux.

UPLOADS се достъпва чрез уеб браузър на адрес accounting.controlisy.bg/uploads.php. Линк за достъп до приложението е наличен и под логин формата на CONTROLISY, бутон "към UPLOADS".

Повече за начина на използване на приложението можете да прочетете ТУК.

Видео, в което сканираме 60 фактури за 1 минута чрез CONTROLISY и скенер с автоматично подаване:

Данни за потребителя (1/4)

Име и фамилия е задължително. Допустими са 2 думи.
Имейл е задължително
Телефон e задължително
ПРОДЪЛЖИ

Данни за профила (2/4)

Име на профил e задължително
Потребителско име e задължително и трябва да съдържа от 8 до 25 символа (цифри и латински букви)
Имейл е задължително
Посочете кой счетоводен софтуер използвате
ПРОДЪЛЖИ

Данни за компанията (3/4)

ЕИК е задължително и трябва да съдържа 9 символа
Моля, въведете валидно ЕИК
ИЗВЛЕЧИ ДАННИ

Данни за компанията (3/4)

Име на компания е задължително и трябва да съдържа от 6 до 100 символа
ДДС номер е задължително и трябва да съдържа 11 символа
Управител е задължително и трябва да съдържа от 6 до 100 символа
Адрес по седалище е задължително и трябва да съдържа от 10 до 200 символа
ПРОДЪЛЖИ

Съгласия (4/4)

Трябва да се съгласите с условията за ползване


Трябва да се съгласите със Споразумението за обработване на лични данни


Трябва да посочите, че се сте информиран за Политиката за защита на личните данни


Трябва да се съгласите с политиката за "бисквитки"


РЕГИСТРАЦИЯ
При регистрацията възникна грешка. Моля опитайте отново.
Благодарим Ви за интереса към Controlisy accounting!
На посочения от Вас имейл ще получите съобщение, с което трябва да потвърдите имейла си. Ако до 5 минути не получите съобщението, моля проверете спам папката на пощенската си кутия.