Здравейте, казвам се Константин Стоянов и съм създател на CONTROLISY accounting. През 20 годишния си опит като главен счетоводител натрупах много опит със сканиране на фактури и други документи, който обобщавам в тази статия. Целта на статията е да представи добрите практики при сканиране с цел да се допускат по-малко грешки, които водят до некачествено оптично разпознаване (OCR), трудности при подреждането и търсене на документи, загуба на време.
В статията ще разгледаме:
Оптимални резултати от OCR се постигат с добре сканирани изображения. Не можем да очакваме добър резултат от оптично разпознаване при лошо сканиран документ. Винаги базирайте очакванията си за това, което системата ще Ви върне като резултат въз основа на качеството на входните данни, които й подавате.
Първоначално подробно ще се спра на най-често допусканите грешки при сканиране, които е добре да избягвате. Вследствие на анализа, ще обобщя добрите практики и най-важните насоки как да постигнете максимално добри резултати в работата Ви с OCR.
1. Грешки и проблематични обстоятелства
x Скенери, които сами правят OCR
Скенерите, които сами правят OCR обикновено не се справят добре с кирилицата (с някои изключения). Напоследък много често наблюдавам в настройките на драйвера, който използва скенера да е заложено по подразбиране скенерът да прави автоматичен OCR и да го добавя като невидим слой върху картинката на PDF файла, по който слой може да се търси, да се селектира и копира. И тъй като обикновено този слой е погрешно разпознат, той не просто не решава, а създава проблеми. Мога да посоча 2 проблема, които произтичат - първият проблем е свързан с това, че сканирането ще е по-бавно, тъй като има добавен OCR процес. Вторият проблем е, че когато документът постъпи в CONTROLISY accounting, системата ще констатира, че има вече разпознат текст в PDF файла и наготово ще вземе този текст без да направи класическо разпознаване. Това разбира се ще доведе до лошо извлечен текст, тъй като източника съдържа лошо извлечен текст.
Какво трябва да направите? Освен, ако скенерът, който използвате разпознава отлично и кирилица, трябва задължително да намерите в настройките му опцията, която кара скенера да прави пълнотекстово разпознаване. Тази опция може да се намери с различни имена като например "OCR", "Добавяне на текст за търсене", "Пълнотекстово разпознаване", "OCR after scan", "Create a PDF file that supports keyword search" и т.н.
x Изображение под ъгъл
CONTROLISY автоматично се справя с този проблем :)
Изместването на изображението под някакъв ъгъл е често срещано особено при скенерите с автоматично подаване. Изместване до 1-2 градуса обикновено не оказва съществено влияние върху качеството на разпознаване, но по-големи измествания със сигурност водят до по-лоши резултати.
CONTROLISY accounting има автоматичен инструмент, с който системата открива изкривявания и изправя изображението, което значително намалява възможностите за лош резултат. Въпреки това, добра практика е изображенията, резултат на сканиране, да са максимално изправени.
x Усукано изображение
CONTROLISY автоматично се справя с този проблем :)
За разлика от изображенията под ъгъл, за които има инструмент за автоматична корекция, при усуканите изображения проблемът е по-голям. Усукването най-често се проявява при скенери с автоматично подаване и при снимане с телефон. При усукването текстът се разпъва или свива и води до лош резултат в секторите на усукване.
x Релефно изображение тип хармоника
CONTROLISY автоматично се справя с този проблем :)
Обикновено този проблем не се проявява при сканиране чрез скенер. Но когато изображението се сканира през камерата на телефон и хартиеният документ не е добре изправен, често се случва да се появят релефни изкривявания върху картинката, което води до разпъване и свиване на текста и лош резултат в рамките на тези сектори.
x Размазано изображение
Най-често размазано изображение съм срещал при скенери с автоматично подаване. Ако попаднете на сканирани документи, които имат размазване е добре да се консултирате с техника, който поддържа скенера, за да му се направи пълна профилактика. Също така, скенери от по-нисък клас, които поддържат по-висока скорост на автоматично подаване може да не се справят добре с качеството на изображението и това също да води до леко замъгляване на образа на буквите.
Размазаният текст намалява вероятността да бъде разпознат правилно.
x Нисък контраст
CONTROLISY автоматично се справя с този проблем :)
Пълнотекстовото извличане е с по-ниско качество, когато контрастът между буквите и фона на документа е малък. Това например често се случва при фактури, които се отпечатват на матричен принтер (например фактури МЕТРО). Може да се наблюдава и при шаблони на фактури, създадени от дизайнер, който изцяло се е фокусирал върху оригиналния дизайн на документа, но не и как автоматично в последствие ще се извлече и обработи текста.
Инструментите в CONTROLISY accounting за обработка на изображението преди пускането му за OCR автоматично се опитват да подобрят контраста, но при прекалено крайни случаи успехите са по-малки.
За управление на контраста няма универсално правило, още повече, че често това зависи от контраста на оригиналното изображение на хартиения документ. Въпреки това, можете да направите тестове с настройките за контраст на скенера си и така да намерите стойности, които дават добър резултат.
x Цветни изображения
Цветното изображение има своите визуални предимства. Въпреки това сканирането ще е по-бавно, а крайният резултат ще е твърде голям файл. Най-добре е сканирането да се прави в grayscale (нюанси на сивото).
Разбира се, можете да имате своите съображения да сканирате цветно, но трябва да имате предвид горните причини.
Настройката за цветност е част от настройките на скенера, който използвате.
x Нисък dpi (Dots per inch)
Както повечето от вас знаят, dpi е съкращение от Dots per inch (брой точки на инч), с което се измерва наситеността от точки върху линия от 1 инч (2.54 см). Колкото dpi е по-малък, толкова по некачествено ще изглежда изображението. Препоръчвам да сканирате при 300dpi, за да получите оптимални резултати при разпознаването с OCR. Ако фактурата е с по-дребен шрифт е добре да работите с 400dpi. Колкото е по-голяма стойността на dpi, толкова по-голям ще е размера на генерирания файл.
Настройката за dpi е част от настройките на скенера, който използвате.
x Файлове с ненужно голям размер
Избягвайте файловете с прекалено големи размери. Освен, че заемат много повече място, трафикът им през Интернет е много по-бавен, а и вероятно е имало забавяне и при процеса на сканиране. Обикновено големите файлове са резултат от цветно сканиране, сканиране с прекалено голям dpi (например 600dpi) и некомпресирани изображения.
Практиката показва, че PDF от една страница с добро качество за разпознаване трябва да е между 200 и 300kB.
x Множество документи в един файл
CONTROLISY разполага с инструмент за разделяне на страници, което решава този проблем :)
Вероятно защото е по-лесно всички документи да се сканират в един файл, това е често срещана грешка. Когато счетоводителите получат 1 документ с много страници те трябва да отделят допълнителни усилия и време да разделят този файл на отделни фактури и да генерират съответния брой счетоводни документи. И тъй като е добре да ценим труда си взаимно, най-добрата практика е, този, който сканира документите да ги сканира в отделни файлове.
CONTROLISY чрез своето масово сканиране има много ефективен инструмент, който позволява сканиране на множество страници и след това, ако е необходимо отделни страници могат да се обединят с провлачване в отделни документи. По този начин с междинен интерфейс може лесно се създават множество документи и файлове наведнъж.
CONTROLISY разполага с инструмент за разделяне на страници, който може да се използва както в момента на качване, така и при вече качени файлове.
x Няколко фактури на една страница
CONTROLISY разполага с инструмент за изрязване на част от страница, което решава този проблем :)
Понякога е по-лесно няколко фактури (например такива за гориво от тип "касова бележка") да се подредят на една страница и да се сканират заедно. В повечето случаи това е проблем, тъй като страницата не може да се раздели на подстраници.
За щастие CONTROLISY разполага с инструмент за изрязване на част от страница, което решава този проблем.
x Миксирана ориентация на текстовете
CONTROLISY автоматично се справя с този проблем :)
Тъй като може би заглавието не звучи много ясно ще дам пример - фактура с портретна ориентация и Фискален бон, поставен под фактурата, но завъртян на 90 градуса, така че да се събере на страницата на фактурата. В този случай информацията от фискалния бон няма да бъде разпозната качествено и можем да изгубим ценни данни за това, че фактурата е платена касово и системата автоматично да отрази това.
Т.е. ако фактурата е изправена и касовата бележка трябва да е изправена и обратно. Това правило не влиза в противоречие с фактури, които са с пейзажно изображение (Landscape). При тях разпознаването правилно успява да извлече текста.
x Използване на скенери без автоматично подаване
Въпреки, че скенерите без автоматично подаване понякога може да генерират по-качествен образ, работата с тях е бавна и неефективна. Използвайте скенери с автоматично подаване, те значително ще ускорят процеса на сканиране.
Ако започнете да избирате скенер, най-добре говорете с ваши колеги, които вече ползват скенери, от тях ще научите най-добре как се справят съответните модели. Като ценови диапазон, среден клас скенер с автоматично подаване струва в диапазона 600-1200 лева в зависимост от марката, модела и характеристиките. Всеки скенер има разни предимства и недостатъци. Важен е броят на страници в минута, като при някои модели това число се удвоява поради наличие на сканиране едновременно от двете страни на листа. Има скенери, които могат да сканират с телбод, вкл. по-дебела хартия или друг по-твърд носител - преценете дали такава характеристика е необходима за работата ви. Преценявайте обещаните функционалности и класа, и цената на скенера. Няма как скенер с прекалено ниска цена да може едновременно да сканира със 100 страници в минута с отлично качество.
x Стари и неподдържани скенери
Ако използвате прекалено стар скенер, вероятно вече имате нужда да го смените. Това ще налее ефективност и бързина при сканирането, а и вероятно ще повиши качеството на сканирания образ.
Скенерите имат нужда от поддръжка. Редовно трябва да се почистват. Някои части направо можете да третирате като консуматив. Добре е за поддръжката да се грижи техник, който разбира какво прави. Всички тези усилия ще удължат жизнения цикъл на скенера ви и по-дълго време ще получавате желания резултат.
x Ръчно написан текст
Ако върху ръчно написаната фактура има фабрично изписани данни (номер, данни за доставчика), тези данни ще бъдат правилно извлечени. Ръчно написани данни като дата, сума и т.н., ако са изписани с букви, близки до печатните, също имат голям шанс да бъдат разпознати.
Често ми задават въпроса, ако фактурата е написана на ръка, OCR ще върне ли резултат. Отговорът е, че колкото хора има на земята, толкова и ръкописни шрифтове съществуват. Това означава, че в повечето случаи пълнотекстовото разпознаване няма да се справи. Като цяло в световен мащаб няма надеждно решение за универсално разпознаване на ръкописен шрифт. Ако ръкописният шрифт се доближава до печатен, вероятността за разпознаване се увеличава.
Добрата новина е, че фактурите от кочан стават все по-рядко срещан инструмент за фактуриране.
x Тънка хартия, която прозира
При тънката хартия можем да наблюдаваме 2 проблема. При първия, валяците на скенера не винаги добре улавят документа и увеличават шансовете при сканиране, документът да се изкриви и усуче, което ще доведе до някои от горепосочените проблеми с пълнотекстовото разпознаване. Вторият проблем е, че понякога тези документи имат печат и на обратната страна на листа и често прозрачността на хартията води до отбелязване на текста от обратната страна върху картинката на горната страна и така се получава какафония от текстове, които объркват OCR.
Много често тази грешка възниква при фактури, върху които е поставен фискален бон или бележка от ПОС терминал. В тези случаи допълнителният документ закрива определена част от същинския документ и това неминуемо води до нарушаване структурата на текста и пропускане на част от информацията.
В тези случаи документът, който закрива, трябва да се постави под основния, вкл. ако е необходимо и на отделна страница. Както по-горе написах, не поставяйте фискалните бележки завъртяни на 90 градуса с идеята да ги съберете на един лист с фактурата. Поставяйте фискалния бон винаги изправен, така ще бъде разчетен правилно. Ако е възможно, залепете го с малко лепило на гърба на фактурата и настройте скенера да сканира двустранно, по този начин ще постави касовата бележка на втора страница в PDF файла, който ще се генерира. Говорете с вашите доставчици да поставят фискалния бон на обратната страна на фактурата, това ще спести време за местене на касовата бележка.
x Фактури от матрични принтери
CONTROLISY разполага с инструмент за повишаване качеството на разпознаване на фактури, принтирани на матрични принтери :)
При матричните принтери се проявяват различни проблеми, свързани с последващото пълнотекстово разпознаване. При тях често текстът е блед, т.е. контрастът между цвят на букви и фон е малък. Също така понякога отпечатването се прави върху бланка и е възможно част от текста да се принтира върху предварително напечатаните в печатница части на бланката, като това води до невъзможност да се постигне качествено разпознаване. Хартията е тънка и понякога при сканиране може да се види текст, който стои на обратната страна на фактурата (обикновено това са някакви рекламни текстове, които са поставени на гърба на фактурата). Текстът е на точки което обърква понякога OCR енджина.
x Шрифтове с пресечена нула
CONTROLISY автоматично се справя с този проблем :)
Ако получавате фактура, в която шрифтът прави нулата да е пресечена, едва ли има какво да направите, но трябва да се има предвид, че пресечената нула понякога обърква OCR енджина и вместо 0, може да се разпознае като 8 или 6.
x Фактури с воден знак
Наличието на деликатно поставен воден знак в повечето случаи не е проблем, но когато цялата фактура е осеяна с водни знаци, това създава затруднение за качественото разпознаване.
x Дребен шрифт
Букви и цифри, отпечатани със ситен шрифт могат да създадат затруднение в качественото разпознаване. В тези случаи препоръчваме сканирането да се прави при 400 или 600dpi, което обаче ще увеличи големината на файловете.
2. Обобщение на добрите практики
CONTROLISY автоматично се справя с криви и усукани изображения, така че тази препоръка не е задължителна, ако използвате CONTROLISY :)
CONTROLISY автоматично се справя със смачкани изображения, така че тази препоръка не е задължителна, ако използвате CONTROLISY :)
CONTROLISY автоматично се справя с изображения с нисък контраст, така че тази препоръка не е задължителна, ако използвате CONTROLISY :)
Тъй като CONTROLISY разполага с удобен интерфейс за разделяне на PDF файлове на съставни страници (вкл. и съединяване на страници), ако Ви е по-удобно, можете да продължите да сканирате в един файл всички фактури от конкретната партида :)
CONTROLISY автоматично се справя със изображения, сканирани в различни посоки, така че тази препоръка не е задължителна, ако използвате CONTROLISY :)
CONTROLISY в последствие ще предостави инструмент за изрязване на част от страницата, така че тези фактури да попаднат в отделни документи, така че системата да индексира всяка от тях отделно.
3. Кой е най-подходящия скенер? Има ли универсално решение?
Тай като редовно обсъждам с наши клиенти този въпрос, реших да обобщя добрите практики тук.
В практиката, при сканиране обикновено се използват 2 вида скенери - скенери с автоматично подаване и "Г-образни" скенери за документи.
От разговорите с клиенти на CONTROLISY стигам до извода, че е добре да се разполага и с 2та вида скенери, тъй като всеки от тях е ефективен в определена група документи, които сканира. Това означава, че преди да се сканират фактурите може да се мине през процес на разделяне в 2 групи - по една за всеки от скенерите.
В списъка по-долу показваме кой скенер е по-подходящ за използване в зависимост от вида на фактурата, вкл. наличието на фискален бон, в съчетание с възможностите на CONTROLISY:
Сканиране чрез телефон:
Сканирането чрез телефон е алтернатива на класическото сканиране със скенер. В определени случаи може да е по-ефективно и не изисква първоначална инвестиция (предвид това, че обикновено всеки има мобилен телефон).
CONTROLISY използва приложението UPLOADS, чрез което фактурите много лесно и бързо се снимат чрез телефон и се качват в системата. Приложението се отваря чрез уеб браузър през телефон/таблет и компютър и е платформено независимо - работи под Windows, Android, Mac OS, iOS, Linux.
UPLOADS се достъпва чрез уеб браузър на адрес accounting.controlisy.bg/uploads.php. Линк за достъп до приложението е наличен и под логин формата на CONTROLISY, бутон "към UPLOADS".
Повече за начина на използване на приложението можете да прочетете ТУК.
Видео, в което сканираме 60 фактури за 1 минута чрез CONTROLISY и скенер с автоматично подаване: