Добри практики при сканиране за добър OCR

Какви грешки да не допускаме, когато сканираме документи

Тествайте безплатно за 3 месеца
регистрация

07 Ноември 2020, автор Константин Стоянов

Казвам се Константин Стоянов, имам над 20 години опит като счетоводител и съм създател на Controlisy Accounting. През годините натрупах много опит със сканиране на фактури и други докумети, който обобщавам в тази статия. Целта на статията е да представи добрите практики при сканиране с цел да се допускат по-малко грешки, които водят до некачествено оптично разпознаване (OCR), трудности при подреджането и търсене на документи, загуба на време.

Оптимални резултати от OCR се постигат с добре сканирани изображения. Не можем да очакваме добър резултат от оптично разпознаване при лошо сканиран документ. Винаги базирайте очакванията си за това, което системата ще Ви върне като резултат въз основа на качеството на информацията, която й подавате.

В тази статия, първоначално подробно ще се спра на най-често допусканите грешки при сканиране, които е добре да избягвате. Вследствие на анализа, ще обобщя добрите практики и най-важните насоки как да постигнете максимално добри резултати в работата Ви с OCR.

Най-често допусканите грешки и проблематични обстоятелства можем да обобщим в следните групи

  • Скенери, които сами правят OCR [#]
  • Изображение под ъгъл [#]
  • Усукано изображение [#]
  • Релефно изображнеие тип хармоника [#]
  • Размазано изображение [#]
  • Нисък контраст [#]
  • Цветни изображения [#]
  • Нискък dpi (Dots per inch) [#]
  • Файлове с ненужно голям размер [#]
  • Множество документи в един файл [#]
  • Различен поток на текста на изображението [#]
  • Използване на скенери без автоматично подаване [#]
  • Стари и неподдържани скенери [#]
  • Ръчно написан текст [#]
  • Тънка хартия, която прозира [#]
  • Закриване на част от изображението с друг документ [#]
  • Фактури от матрични принтери [#]
  • Шрифтове с пресечена нула [#]
  • Наличие на воден знак [#]
  • Дребен шрифт [#]

x Скенери, които сами правят OCR

Скенерите, които сами правят OCR обикновено не се справят добре с кирилицата (с някои изключения). Напоследък много често наблюдавам в настройките на драйвера, който използва скенера да е заложено по подразбиране скенерът да прави автомтатичен OCR и да го добавя като невидим слой върху картинката на PDF файла, по който слой може да се търси, да се селектира и копира. И тъй като обикновено този слой е погрешно разпознат, той не просто не решава, а създава проблеми. Мога да посоча 2 проблема, които произтичат - първият проблем е свързан с това, че сканирането ще е по-бавно, тъй като има добавен OCR процес. Вторият проблем е, че когато документът постъпи в CONTROLISY accounting, системата ще констатира, че има вече разпознат текст в PDF файла и наготово ще вземе този текст без да направи класическо разпознаване. Това разбира се ще доведе до лошо извлечен текст, тъй като източника съдържа лошо извлечен текст.

Какво трябва да направите? Освен, ако скенерът, който използвате разпознава отлично и кирилица, трябва задължително да намерите в настройките му опцията, която кара скенера да прави пълнотекстово разпознаване. Тази опция може да се намери с различни имена като например "OCR", "Добавяне на текст за търсене", "Пълнотекстово разпознаване", "OCR after scan", "Create a PDF file that supports keyword search" и т.н.

x Изображение под ъгъл

Изместването на изображението под някакъв ъгъл е често срещано особено при скенерите с автоматично подаване. Изместване до 1-2 градуса обикновено не оказват съществено влияние върху качеството на разпознаване, но по-големи измествания със сигурност водят до по-лоши резултати.

CONTROLISY accounting има автоматичен инструмент, с който системата открива изкривявания и изправя изображението, което значително намалява възможностите за лош резултат. Въпреки това, добра практика е изображенията, резултат на сканиране, да са максимално изправени.

x Усукано изображение

За разлика от изображенията под ъгъл, за които има инструмент за автоматична корекция, при усуканите изображения проблемът е по-голям. Усукването най-често се проявява при скенери с автоматично подаване и при снимане с телефон. При усукването текстът се разпъва или свива и води до лош резултат в секторите на усукване.

x Релефно изображнеие тип хармоника

Обикновено този проблем не се проявава при сканиране чрез скенер. Но когато изображението се сканира през камерата на телефон и хартиеният документ не е добре изправен, често се случва да се появат релефни изкривявания върху картинката, което води до разпъване и свиване на текста и лош резултат в рамките на тези сектори.

x Размазано изображение

Най-често размазано изображение съм срещал при скенери с автоматично подаване. Ако попаднете на сканирани документи, които имат размазване е добре да се консултирате с техника, който поддъжра скенера, за да му се направи пълна профилактика. Също така, скенери от по-нисък клас, които поддържат по-висока скорост на автоматично подаване може да не се справят добре с качеството на изображението и това също да води до леко замъгляване на образа на буквите.

Размазаният текст намалява вероятността да бъде разпознат правилно.

x Нисък контраст

Пълнотекстовото извличане е с по-ниско качество, когато контрастът между буквите и фона на документа е малък. Това например често се случва при фактури, които се отпечатват на матричен принтер (например фактури МЕТРО). Може да се наблюдава и при шаблони на фактури, създадени от дизайнер, който изцяло се е фокусирал върху оригиналния дизайн на документа, но не и как автоматично в последствие ще се извлече и обработи текста.

Инструментите в CONTROLISY accounting за обработка на изображението преди пускането му за OCR автоматично се опитват да подобрят контраста, но при прекалено крайни случаи успехите са по-малки.

За управление на контраста няма универсално правило, още повече, че често това зависи от контраста на оригиналното изборажение на хартиения документ. Въпреки това, можете да направите тестове с настройките за контраст на скенера си и така да намерите стойности, които дават добър резултат.

x Цветни изображения

Цветното изображение има своите визуални предимства, но не само, че сканирането ще е по-бавно, но и файловете ще са станат твърде големи. Най-добре е да сканирате в grayscale или черно и бяло, като grayscale е препоръчително.

Разбира се, можете да имате своите съображения да сканирате цветно, но трябва да имате предвид горните причини да го избягвате.

x Нискък dpi (Dots per inch)

Както повечето от вас знаят, dpi е съкращение от Dots per inch (брой точки на инч), с което се измерва наситеността от точки върху линия от 1 инч (2.54 см). Колкото dpi е по-малък, толкова по некачествено ще изглежда изображението. Препоръчвам да сканирате при 300dpi, за да получите оптимални резултати при разпознаването с OCR. Ако фактурата е с по-дребен шрифт е добре да работите с 400dpi. Колкото е по-голяма стойността на dpi, толкова по-голям ще е размера на генерирания файл.

Настройката за dpi е част от настройките на скенера, който използвате.

x Файлове с ненужно голям размер

Избягвайте файловете с прекалено големи размери. Освен, че заемат много повече място, трафикът им през Интренет е много по-бавен, а и вероятно е имало забавяне и при процеса на сканиране. Обикновено големите файлове са резултат от цветно сканиране, сканиране с прекалено голям dpi (например 600dpi) и некопресирани изображения.

Практиката показва, че PDF от една страница с добро качество за разпознаване трябва да е между 200 и 300kB.

x Множество документи в един файл

Вероятно защото е по-лесно всички документи да се сканират в един файл, това е често срещана грешка. Когато счетоводителите получат 1 документ с много страници те трябва да отделят допълнителни усилия и време да разделят този файл на отделни фактури и да генерират съответния брой счетоводни документи. И тъй като е добре да ценим труда си взаимно, най-добрата практика е, този, който сканира документите да ги сканира в отделни файлове.

CONTROLISY accounting чрез своето масово сканиране има много ефективен инструмент, който позволява сканиране на множество страници и след това, ако е необходимо отделни страници могат да се обединят с провлачване в отделни документи. По този начин с междинен интерфейс може лесно се създават множество документи и файлове наведнъж.

x Различен поток на текстовете в изображението

Тъй като може би заглавието не звучи много ясно ще дам пример - фактура с портретна ориентация и касова бележка, поставена под фактурата, но завъртяна на 90 градуса, така че да се събере на страницата на фактурата. В този случай информацията от касовата бележка няма да бъде разпозната качествено и можем да изгубим ценни данни за това, че фактурата е платена касово и системата автоамтично да отрази това.

Т.е. ако фактурата е изправена и касовата бележка трябва да е изправена и обратно. Това правило не влиза в противоречие с фактури, които са с лендскейп ориентация. При тях разпознаването правилно успява да извлече текста.

x Използване на скенери без автоматично подаване

Въпреки, че скенерите без автоматино подаване понякога може да генерират по-качествен образ, работата с тях е бавна и неефективна. Използвайте скенери с автоматично подаване, те значително ще ускорят процеса на сканиране.

Ако започнете да избирате скенер, най-добре говорете с ваши колеги, които вече ползват скенери, от тях ще научите най-добре как се справят съответните модели. Като ценови диапазон, среден клас скенер с автоматично подаване струва в диапазона 600-1200 лева в зависимост от марката, модела и характеристиките. Всеки скенер има разни предимства и недостатъци. Важен е броят на страници в минута, като при някои модели това число се удвоява поради наличие на сканиране едновременно от двете страни на листа. Има скенери, които могат да сканират с телбод, вкл. по-дебела хартия или друг по-твърд носител - преценете дали такава характеристика е необходима за работата ви. Преценявайте обещаните функицоналности и класа и цената на скенера. Няма как скенер с прекалено ниска цена да може едновременно да сканира със 100 листа в минута с отлично качество.

x Стари и неподдържани скенери

Ако използвате прекалено стар скенер, вероятно вече имате нужда да го смените. Това ще налее ефективност и бързина при сканирането, а и вероятно ще повиши качеството на сканирания образ.

Скенерите имат нужда от поддръжка. Редовно трябва да се почистват. Някои части направо можете да третирате като консуматив. Добре е за поддръжката да се грижи техник, който разбира какво прави. Всички тези усилия ще удължат жизнения цикъл на скенера ви и по-дълго време ще получавате желания резултат.

x Ръчно написан текст

Често ми задават въпроса, ако фактурата е написана на ръка, OCR ще върне ли резултат. Отговорът е, че колкото хора има на земята, толкова и ръкописни шрифтове съществуват. Това означава, че в повечето случаи пълнотекстовото разпознаване няма да се справи. Като цяло в световен мащаб няма надежно решение за универсално разпознаване на ръкописен шрифт. Ако ръпописният шрифт се доближава до печатен, вероятността за разпознаване се увеличева.

Добрата новина е, че фактурите от кочан стават все по-рядко срещан инструмент за фактуриране.

x Тънка хартия, която прозира

При тънката хартия можем да наблюдаваме 2 проблема. При първия, валяците на скенера не винаги добре улавят документа и увеличават шансовете при сканиране, документът да се изкриви и усуче, което ще доведе до някои от горепосочените проблеми с пълнотекстовото разпознаване. Вторият проблем е, че понякога тези документи имат печат и на обратната страна на листа и често прозрачността на хартията води до отбелязване на текста от обратната страна върху картинката на горната страна и така се получава какафония от текстове, които обркват OCR.

x Закриване на част от изображението с друг документ

Много често тази грешка възниква при фактури, върху които е поставен фискален бон или бележка от ПОС терминал. В тези случаи допълнителният документ закрива определена част от същинския докумет и това неминуемо води до нарушване структурата на текста и пропускане на част от информацията.

В тези случаи документът, който закрива, трябва да се постави под основния, вкл. ако е необходимо и на отделна страница. Както по-горе написах, не поставяйте фискалните бележки завъртяни на 90 градуса с идеята да ги съберете на един лист с фактурата. Поставяйте фискалния бон винаги изправен, така ще бъде разчетен правилно. Ако е възможно, залепете го с малко лепило на гърба на фактурата и настройте скенера да сканира двустранно, по този начин ще постави касовата бележка на втора страница в PDF файла, който ще се генерира. Говорете с вашите доставчици да поставят фискалния бон на обратната страна на фактурата, това ще спести време за местене на касовата бележка.

x Фактури от матрични принтери

При матричните принтери се проявяват различни проблеми, свързани с последващото пълнотекстово разпознаване. При тях често текстът е блед, т.е. контрастът между цвят на букви и фон е малък. Също така понякога отпечатването се прави върху бланка и е възможно част от текста да се принтира върху предварително напечатаните в печатница части на бланката, като това води до невъзможност да постигне качествено разпознаване. Хартията е тънка и понякога при сканиране може да се види текст, който стои на обратната страна на фактурата (обикновено това са някакви рекламни текстове, които са поставени на гърба на фактурата). Текстът е на точки което обървка понякога OCR енджина

x Шрифтове с пресечена нула

Ако получавате фактура, в която шрифтът прави нулата да е пресечена, едва ли има какво да направите, но трябва да се има предвид, че пресечената нула понякога обърква OCR енджина и вместо 0, може да се разпознае като 8 или 6.

x Фактури с воден знак

Наличието на деликатно поставен воден знак в повечето случаи не е проблем, но когато цялата фактура е осеяна с водни знаци, това създава затруднение за качественото разпознаване.

x Дребен шрифт

Букви и цифри, отпечатани със ситен шрифт могат да създадат затрудение в качественото разпознаване.

Ето и обобщение на добрите практики

  • Изключете автоматичното разпознаване на скенера, който използвате, освен ако не разпознава качествено кирилица
  • Изпозвайте скенер с автоматично подаване, това ще ви спести много време. Обикновено следен клас от такива скенери обработват от 20 до 60 листа в минута.
  • Старайте се скенерът да взима листите така, че да не ги криви и усуква
  • Когато сканирате с камерата на телефон, уверете се, че хартиеният документ не е смачкан или определени негови части не повдигнатили или вдлъбнати
  • Ако установите, че скенерът Ви прави размазани изображнеия, вероятно трябва да се обърнете към специализиран сервиз за почистване, диагностика или консултация за настройване
  • Независимо, от най-разнообразинте шаблони на фактури, които сканирате, опитайте се контрастът да е балансиран така, че да има максимална разлика между цвета на буквите и цвета на фона
  • Сканирайте изображенията в grayscale
  • Сканирайте при 300dpi. Ако фактурата е с по-дребен шрифт е добре да сканирате при 400dpi
  • PDF файловете, които ще генерирате трябва да са между 200-300 kB на страница
  • Избягвайте да слагате множество несвързани документи в един файл. Това ще спести много време на колегите Ви
  • Ако в един PDF сте поставили 2 или повече свързани документа, нека всички да са или само вертикално или само хоризонтално ориентирани
  • Вашият скенер се нуждае от редовна поддръжка, особено при интензивно използване. Ползвайте услугите на сервизни фирми
  • Не възлагайте големи очаквания за добро разпознаване при фактури с ръчно написан текст
  • При фактури, които прозират, можете да използвате бял лист за подложка и за да не се размества, фактурата и белият лист можете да поставите в прозрачен джоб, който да сканирате
  • Винаги разполагайте документите така, че да не закриват информация от други документи. Ако е необходимо, разкачете и залепете касовата бележка на друго място, но винаги я поставяйте изправена. Говорете с вашите доставчици да поставят фискалния бон на обратната страна на фактурата, това ще спести време за местене на касовата бележка.
  • Ако в един файл искате да сканирате множество малки документи като квитанции, фискални бонове и др. подобни, добра практика е бележките да ги закрепите на бял лист (възможно е да използвате малко лепило) и така получената конструкция да я поставите в прозрачен джоб, който да сканирате

Организирайте по-ефективно дейността
на вашата счетоводна къща още днес!

Или вашия счетоводен отдел.

Тествайте безплатно за 3 месеца

Не намирате отговор на вашия въпрос?

Изпратете ни запитване