Optičko prepoznavanje znakova (OCR). Programi za optičko prepoznavanje znakova: ABBYY FineReader, CuneiForm

Područja primjene OCR-A
Proces određivanja tačnosti teksta
Optička tehnologija za Brajevu azbuku
Izbor programa za prepoznavanje teksta
Popularni softver za mobilne uređaje
Google Docs
Abbyy Optičko Prepoznavanje
Adobe Acrobat Cloud Service
Najbolji besplatni softver
Prepoznavanje znakova u Linuxu

Tehnologija OCR (Optical Character Recognition) može se koristiti za pretvaranje štampane kopije dokumenta u elektronsku verziju. Na primjer, ako se kopija sa više stranica skenira u TIFF fajl, onda se učitava u OCR program koji prepoznaje tekst, a zatim prevodi u fajl koji se može uređivati. Neke aplikacije vam omogućavaju da skenirate stranice i konvertujete sadržaj u dokument u jednom koraku.

Iako je tehnologija prvobitno razvijena za optičko prepoznavanje štampanih znakova, može se koristiti i za rukom pisane. Na primjer, poštanske usluge poput USPS-a koriste OCR softver za automatski obradite pisma i pakete čitanjem adrese.

Područja primjene OCR-A

OCR je skraćenica za optičko prepoznavanje znakova. Ovo je široko rasprostranjena tehnologija za prepoznavanje teksta unutar slika u obliku skeniranih dokumenata i fotografija. Tehnologija se koristi za pretvaranje gotovo svih vrsta slika koje sadrže pisani, rukom pisani ili štampani tekst u mašinski čitljive tekstualne podatke.

OCR je postao popularan početkom 1990 - ih kada je pokušavao digitalizirati historijske materijale. Od tada, metoda je prošla značajna poboljšanja i trenutno pruža gotovo savršenu tačnost optičkog prepoznavanja znakova. Koriste se napredne tehnike poput zonalnog OCR-A za automatizaciju složeni tokovi rada zasnovani na pretvaranju pisanih tekstova u digitalne dokumente. Nakon obrade skeniranog materijala, tekst se može uređivati pomoću programa kao što su Microsoft Word ili Google Docs, koji su uređivači teksta.

Prije nego što se pojavila ova tehnologija, jedina opcija za digitalizaciju štampanih dokumenata bilo je ručno kucanje. Ovo ne samo da je trebalo dosta vremena, već je dovelo i do netačnosti i grešaka prilikom reprodukcije kopije. OCR se često koristi kao" skrivena " tehnologija u mnogim poznatim sistemima i uslugama, uključujući automatizaciju unosa podataka i indeksiranje za , automatsko optičko prepoznavanje simbola registarskih tablica, kao i pomoć slijepim i slabovidim osobama.

Proces određivanja tačnosti teksta

Svaki korak OCR procesa važan je za određivanje tačnosti konačnog teksta. Počinje pretvaranjem štampanog dokumenta. Ako na njemu postoje tragovi, tačke i loš kontrast, softver će praviti greške tokom prepoznavanja, a rezultat će biti netačan. Da biste izbjegli ove probleme, možete napraviti poboljšanu fotokopiju ispisa.

Prvi korak rada je skeniranje ispisanog teksta. OCR softver radi sa slikovnim datotekama. Skener ili dobra digitalna kamera stvaraju jasne fotokopije dokumenata. Bolje je pretvoriti skenirane datoteke u crno-bijeli format. Proces je binarni. Uz pomoć crne boje na slici, pojavljuje se OCR prepoznavanje teksta, a bijela, zauzvrat, djeluje kao pozadina.

Druga faza je definicija simbola. Brzina ovog procesa zavisi od korišćenog OCR programa. Većina njih analizira svaki element jedan po jedan. Svrha aplikacije je identificirati znakove, ali dobri programi prepoznaju ne samo tekst, već i tabele i druge elemente izgleda.

Proces nije savršen, kao što postoje mnogi faktori koji utiču na tačnost. Koji su programi dizajnirani za optičko prepoznavanje znakova, razmotrite u nastavku. A korisnik može samostalno izabrati šta je bolje. OCR imaju ugrađene alate za provjeru pravopisa i ističu pogrešno napisane riječi. Neki od njih su toliko složeni da primjećuju neslaganje riječi i gramatičke greške, korisnik mora samo izvršiti potrebnu ispravku.

Posljednji korak je spremanje gotovog dokumenta u željeni format. Ako aplikacija ne pruža potrebne, tada možete koristiti brojne besplatne konvektore na mreži.

Optička tehnologija za Brajevu azbuku

Tehnologija optičkog prepoznavanja znakova (OCR) pruža slijepim ili slabovidim osobama mogućnost da identifikuju tekst i izgovore ga naglas. U ovom slučaju se koristi govorni izlaz, kao i informacije se prikazuju na Brajevom azbuku.

Postoje tri glavna elementa optičkih sistema za prepoznavanje znakova: akvizicija slike, prepoznavanje i čitanje teksta. Prvo, štampani dokument snima kamera, zatim ga OCR softver pretvara u prepoznate znakove i riječi, a nakon toga sintisajzer u sistemu izgovara određeni materijal naglas ili ga prikazuje na Brajevom displeju. Informacije se mogu čuvati u elektronskom formatu na uređaju na kojem radi OCR softver ili u memoriji autonomnog uređaja.

Proces uzima u obzir logičku strukturu jezika. Sistem će zaključiti da je, na primjer, veznik " ovo "na početku rečenice greška i da ga treba čitati kao "ovo". Koristi leksikon i primjenjuje tehnike provjere pravopisa slične onima koje se koriste u mnogim uređivačima teksta.

Svi OCR sistemi kreiraju privremene datoteke koje sadrže simbole i izgled stranice. U nekim sistemima mogu se pretvoriti u formate koji se mogu pronaći pomoću široko korištenih računarskih aplikacija kao što su uređivač teksta, proračunska tablica i baze podataka.

Izbor programa za prepoznavanje teksta

Preporučuje se za svjesno pristup boja označenog prostora softvera za prepoznavanje teksta. Bolje je sprovesti vlastito testiranje ili uzeti u obzir mišljenje naprednih korisnika.

, testiranje se vrši uzimajući u obzir sljedeće faktore:

Tačnost je ono što razlikuje dobar OCR od lošeg. Ipak, nerealno je očekivati 100% tačnost od aplikacije za prepoznavanje rukopisa. Faktori kao što je kvalitet originalnih dokumenata a rezolucija slike značajno utiče na konačni rezultat. Dobar OCR dostiže 98% kada se koristi savremeni skener i izvori u zadovoljavajućem stanju.
Višejezičnost - danas većina programa ima ovo svojstvo. OCR skenira jedan znak, da to definišem. Ako je dizajniran da prepoznaje samo engleska slova, neće moći precizno tumačiti posebne znakove, na primjer, poput slova S naglaskom na "e". Takav softver predstavljaće ove likove sa najbližim ekvivalentom na engleskom jeziku. Kada koristite aplikaciju koja podržava višejezičnost, navedite jezik dokumenta kako biste osigurali tačnost priznavanja.
Podrška za rukopis. Tekst kreiran pomoću tastature lako prepoznaje svaki program. Međutim, rukopis je potpuno drugačija metoda skeniranja. Ljudi imaju veoma različit rukopis. Neki pišu pažljivo, dok kao i Većina rukopis nije dovoljno čitljiv. Visokokvalitetni OCR može prepoznati bilo koji rukopis. Stoga će za arhiviranje rukopisnog materijala biti potrebni programi za rukom pisani tekst.
Nivo automatizacije. OCR se može pokrenuti automatski ili interaktivno. Ako vam je potrebno za skeniranje više stranica u isto vrijeme, bolje je uzeti u obzir automatski programi. Pomoću ove funkcije možete skenirati dokumente u nekoliko klikova dok obavljate druge zadatke i lako pronaći rezultirajuću PDF, txt ili doc datoteku. Većina besplatnih programa za prepoznavanje teksta ima ograničenu automatizaciju.
Spremanje izgleda. Osnovna svrha ovih programa je prevođenje teksta u elektronski oblik. Neki ne čuvaju izgled originalnog dokumenta. Stoga je potrebno dosta vremena za uređivanje konačne verzije. Dobar program treba da sačuva originalni izgled, tada će u konačnoj kopiji biti potrebno manje uređivanje. Takve aplikacije zadržavaju kolone, tabele i grafičke slike, kao u originalnoj verziji.

Popularni softver za mobilne uređaje

OCR je odličan za prenos teksta iz fizičkih izvora direktno u digitalni dokument. Postoje različite vrste programa i aplikacija za desktop i mobilne uređaje. Razlikuju se po cijeni i imaju svoje ključne karakteristične karakteristike.

Najpopularniji "Android"-skeneri:

Office Lens-besplatno pruža skeniranje stranica i OCR za korisnike Androida. Za konverziju je potrebna internet veza.
ABBYY TextGrabber, CamScanner, MDScan, OCR odmah) - izvršite skeniranje nakon čega slijedi OCR. Nema ograničenja u broju skeniranih stranica u softveru i nema vodenih žigova.
Online OCR. Može se naći na internetu, usluga je veoma jednostavna i laka za korišćenje. Posebnost je da podržava 46 jezika, izlazni dokument teži ne više od 5 MB, lako ga je pretvoriti u Microsoft Word, Excel ili običan format teksta. Nakon registracije možete pretvoriti PDF, RTF, Excel i datoteke veličine do 100 MB. Postoji plaćena verzija za velike količine priznanja.

Google Docs

Za one koji su već upoznati sa Google dokumentima, možete koristiti OCR ugrađen u Google disk. Za najbolje rezultate, font treba postaviti na Arial ili Times New Roman. Rezultat možete poboljšati pazeći da skenirana slika ima ujednačeno osvjetljenje i jasan kontrast. Foto materijali se mogu obrađivati pojedinačno u datotekama: jpg, png, gif ili u PDF dokumentima sa više stranica. Proširenje podržava većinu jezika.

Od Googlea postoji mnogo Tutorijali i mogućnosti obrade oblaka. Mnogi korisnici vjeruju da Usluga nema dovoljno naprednih funkcija i opcija. Međutim, ako koristite aplikaciju Google disk za Android, možete skenirati stranice direktno iz aplikacije pomoću kamere na pametnom telefonu. U suprotnom, oni učitavaju dokumente pomoću skenera spojenog na računar ili na bilo koji drugi način za početak obrade prepoznavanja na Google disku. Za pojedince, Google disk nudi besplatan nivo skladištenja od oko 19 GB sa mogućnošću proširenja na 100 GB putem Google One-a za 1,99 dolara. SAD.

Abbyy Optičko Prepoznavanje

Abbyy FineReader optičko prepoznavanje već duže vrijeme radi sa dokumentima. Ovo je kompletno rješenje i za poslovne i za obične korisnike. U njemu možete dobiti sve potrebne funkcije za izdvajanje sadržaja tekstova sa skenera uz potpunu čitljivost, uredno organizovane digitalizovane materijale. Pored prepoznavanja teksta i konverzije u PDF, Microsoft Office ili druge formate, program ih takođe može uporediti, dodati napomene i komentare.

Abbyy FineReader može pretvoriti materijal u batch modu i obraditi mnoge izlazne formate na 192 različita jezika. Postoje prateće mobilne aplikacije kada je potrebno da izvršite Brzo skeniranje sa svog telefona.

Softver nije najmoderniji, ali je jednostavan, funkcionalan i savršeno radi svoj posao. Uslužni program ima jaku reputaciju kao jedna od najboljih opcija u oblasti optičkog prepoznavanja znakova. Možete koristiti besplatnu probnu verziju. Troškovi softvera od 199,99 dolara. US$ za standardnu jednokratnu trajnu licencu.

Ako neko smatra da je ovo skupa opcija, možete koristiti dobru alternativu za ABBYY FineReader - online verziju. Ograničeno je na činjenicu da vam omogućava skeniranje samo 10 stranica mjesečno. Ali dolazi sa svim ostalim karakteristikama premium verzije. Za pristup će biti potrebna registracija. Podržava mnogo formata ulaznih datoteka, a možete odabrati izlaz, kao što su PDF, Word, Excel, PowerPoint i e-Pub.

Adobe Acrobat Cloud Service

Adobe Acrobat ispunjava sve uslove i nudi impresivnu listu karakteristika i opcija, iako je cena malo strmija od konkurencije. Za sve funkcije optičkog prepoznavanja teksta odaberite Pro verziju Adobe Acrobat. DC je skraćenica za" Document Cloud " i prilično se jasno integriše sa Adobeovim Cloud rješenjem ako trebate pristupiti svojim datotekama sa bilo kojeg računara. Postoji i jednostavna i besprijekorna integracija sa svim ostalim Adobe uslugama, na primjer, kao što je Photoshop.

Ukoliko korisnik odluči da plati Pro verziju Adobe Acrobat DC, dobiće sve alate za prepoznavanje teksta, mogućnost dodavanja komentara i recenzija sadržaju, specijalizovanu uslugu za skeniranje tabela, mogućnost brzog poređenja dva dokumenta zajedno. Materijali se mogu uređivati direktno na ekranu nekoliko sekundi nakon skeniranja.

Adobe značka garantuje određeni nivo kvaliteta, a korisnici su impresionirani intuitivnošću i mogućnostima Adobe Acrobat DC. Pretplata na uslugu počinje od 12,99 USD. SAD.

Najbolji besplatni softver

Free OCR to Word je najbolji besplatni softver za optičko prepoznavanje znakova koristeći najnovije mehanizme. Tesseract je najmoćniji alat za ovu vrstu softvera i smatra se jednom od najtačnijih metoda. Program podržava nekoliko formata slika i TIFF više stranica. Ova usluga se može koristiti potpuno besplatno za izdvajanje teksta iz priloženog foto materijala.

Tesseract motor je prvobitno razvio Hewlett Packard Labs 1985-1994. Neke promjene su napravljene na njemu 1996. godine. Godine 1995. uvršten je u prva tri mehanizma za prepoznavanje. Radi sa Windows, Linux i Mac OS X. FreeOCR može da obrađuje slike sa više kolona i višejezičnim tekstom. Rukuje PDF formatima i podržava TWAIN uređaje kao što su skeneri, ima široko rasprostranjen interfejs sa dvostrukim prozorom, čija su podešavanja lako razumljiva.

Besplatan OCR u Word može uštedjeti puno vremena bez potrebe za ponovnim unosom već napisanog djela. Program uzima dokument, skenirani objekt ili sliku i pretvara ga u čitljiv, uređiv i tačan materijal. Softver se može besplatno preuzeti u Word. OCR za Word je optimiziran za posao sa svim vrstama skenera i ima ocjenu tačnosti od 98%, moderan interfejs koji olakšava pristup svim zadacima, postoje funkcije rotacije u slučaju da fotografija ne stane ispravno na ekran. Softver izvlači tekst sa snimljenih slika pomoću pametnih telefona ili digitalnih kamera sa visokom preciznošću i kvalitetom.

Prepoznavanje znakova u Linuxu

Ocrfeeder paket pruža korisnički prilagođeni Linux GUI, koji je u osnovi eksterni interfejs za neke slike, OCR i tekstualne alate kao što su štampanje ili provera pravopisa. Ne čita znakove sam po sebi, već koristi druge OCR aplikacije kroz takozvane postavke " motora za prepoznavanje. Ima unaprijed definirane parametre za Tesseract, CuneiForm, GOCR i Ocrad.

Korisnik treba samo da instalira jedan ili više motora po svom izboru u Ubuntu, a zatim ih otkrije u postavkama ulagača. Možete dodati druge motore i promijeniti ovi parametri ručno. U jednoj aplikaciji može postojati više različitih motora. Glavni prozor ulagača vam omogućava da u letu odaberete koji ćete koristiti za određeno područje, postoji i postavka za odabir po defaultu. Da biste odabrali jezik pročitanog teksta, u slučaju Tesseract i CuneiForm, morate dodati prekidač "-l" sa odgovarajućim kodom jezika/skripte, na primjer, "- l pol "za poljski ili" - l dan-frak " za danski na Postavke ovog motora

Optička tehnologija prepoznavanja znakova za štampane znakove "Tesseract" na početku je mogao prepoznati samo tekst na engleskom jeziku, verzija 2.x ga čini višejezičnim. Ako je potrebno, možete da instalirate više od jednog rečnika. Nove verzije digitaliziraju tekst na osnovu ISO 963-2.

Nakon uspješne instalacije, koristiti komandu "tesseract>putanja slike>osnovno ime datoteke". Tesseract će automatski dajte izlaz dokumentirajte ekstenziju ".txt", možete odrediti opciju "-l", slijedi kod jezika. Za verzije Tesseracta ranije od treće, veoma je važno da slika bude u formatu datoteke vrijednosti oznake i da ima ekstenziju ".tif", i ne ".tiff". Komandna linija bi trebala izgledati ovako:"$ tesseract ~ / ulaz.TIF izlaz".

Gde "ulaz.tif" - da li se dokument za konverziju nalazi u početnoj fascikli i "izlaz" - je li materijal koji će Tesseract stvoriti kao "izlaz.txt". Često se skenirani tekstovi čuvaju kao bitmapa u velikom PDF dokumentu. Koristeći ImageMagick, pojedinačne stranice se mogu izdvojiti kao TIFF datoteke za obradu pomoću Tesseracta. Sljedeća skripta može pomoći u automatizaciji ovog procesa.

CuneiForm program je još jedan optički sistem za prepoznavanje teksta koji je prvobitno razvijen i zasnovan na kognitivnim tehnologijama otvorenog koda. Verzija Windowsa, to ima svoj grafički interfejs može se pokrenuti sa nekim rezultatima u Wine-u. Njegov Linux port se razvija na Launchpad-u i iako trenutno nema vlastiti GUI, CuneiForm se može uspješno pokrenuti iz OCRFEEDER GUI-a.

Ispod je primer kako uspešno pretvoriti neke snimke ekrana slika .JPEG oglasne ploče na internetu u korisne tekstualne datoteke.

Pdfocr je skripta koja vrši OCR za PDF datoteke sa više stranica, a takođe ga implementira kao pretraživi sloj teksta. On može koristiti "Tesseract" ili klinasto pismo kao mehanizam za prepoznavanje. Sam scenario se može dobiti od Github-a ili od PPA. Da biste pokrenuli naredbu, upišite u terminal: "pdfocr-i input.PDF-o izlaz.pdf".

OCR tehnologija ne stoji mirno, u budućnosti, prepoznavanje inteligentnog optičkog sistema za prepoznavanje znakova-ICR. Ovaj standard je napredan. Većina ICR-a ima sistem za samoučenje koji se naziva neuronska mreža koja automatski ažurira bazu podataka za nove uzorke rukopisa. Proširuje korisnost uređaja za skeniranje u svrhu obrade dokumenata od prepoznavanja štampanog teksta (OCR funkcija) do rukopisnih materijala i može postići više od 97% tačnosti prilikom čitanja rukopisnog materijala u strukturiranim oblicima.