OCR tehnoloģija palīdz valodas tulkošanas attīstībā

Aug 15, 2022 Atstāj ziņu

Kas ir OCR?

Optiskā rakstzīmju atpazīšana (OCR) attiecas uz teksta attēlu konvertēšanas procesu mašīnlasāmā teksta formātā. Piemēram, ja skenējat veidlapu vai kvīti, dators skenēto failu saglabā kā attēla failu. Jūs nevarat rediģēt, meklēt vai saskaitīt tekstu attēla failā, izmantojot teksta redaktoru. Tomēr varat izmantot OCR, lai pārvērstu attēlus teksta dokumentos un saglabātu saturu kā teksta datus.

png

Kāpēc OCR ir tik svarīga?

Lielākā daļa biznesa darbplūsmu ietver piekļuvi informācijai, izmantojot drukātos medijus. Papīra veidlapas, rēķini, skenēti juridiskie dokumenti un drukāti līgumi ir daļa no biznesa procesa. Šo apjomīgo dokumentu glabāšana un pārvaldība aizņem daudz laika un vietas. Neskatoties uz tendenci uz elektronisku dokumentu pārvaldību, dokumentu skenēšana attēlos joprojām ir sarežģīta. Process prasa cilvēka iejaukšanos, ir apgrūtinošs un lēns.

Turklāt dokumentu satura digitalizācija var novest pie attēlu failiem ar slēptu tekstu. Teksta procesori nevar apstrādāt tekstu attēlos tāpat kā teksta dokumentus. OCR atrisina šo problēmu, pārvēršot teksta attēlus teksta datos, ko var analizēt ar citu komerciālu programmatūru. Pēc tam varat izmantot datus, lai analizētu, uzlabotu darbības, automatizētu procesus un palielinātu produktivitāti.

7d9be6872456af033802d073206010b

Kā darbojas OCR?


Attēlu iegūšana

Skeneri nolasa dokumentus un pārvērš tos bināros datos. OCR programmatūra analizē skenēto attēlu, klasificējot gaišos apgabalus kā fonu un tumšos apgabalus kā tekstu.

pirmapstrāde

OCR programmatūra vispirms notīra attēlu un noņem kļūdas, gatavojoties lasīšanai. Šeit ir daži tīrīšanas paņēmieni, kas tiek izmantoti:

Neliela nobīdes korekcija vai skenēto dokumentu sašķiebums skenēšanas laikā, lai novērstu izlīdzināšanas problēmas.

Noņemiet troksni, noņemiet plankumus no digitālajiem attēliem vai izlīdziniet teksta attēlu malas.

Notīriet attēla apmales un līnijas.

Skriptu atpazīšana ar daudzvalodu OCR tehnoloģiju

Teksta atpazīšana

Divi galvenie OCR algoritmu vai programmatūras procesu veidi, ko OCR programmatūra izmanto teksta atpazīšanai, ir modeļu saskaņošana un funkciju iegūšana.


Rakstu saskaņošana

Rakstu saskaņošana atdala rakstzīmes attēlu (ko sauc par glifu) un salīdzina to ar saglabātajiem līdzīgiem glifiem. Rakstu saskaņošana darbojas tikai tad, ja saglabātajam glifam ir līdzīgs fonts un izmērs kā ievades glifam. Šī metode labi darbojas skenētiem dokumentu attēliem, kas ievadīti zināmos fontos.


Funkciju izvilkšana

Līdzekļu izvilkšana segmentē vai sadala glifus tādos objektos kā līnijas, slēgtas cilpas, līniju orientācija un līnijas fokuss. Pēc tam tas izmanto šīs funkcijas, lai atrastu labāko vai tuvāko atbilstību starp dažādiem saglabātajiem glifiem.


Pēcapstrāde

Pēc analīzes sistēma pārvērš iegūtos teksta datus datorizētos failos. Dažas OCR sistēmas var izveidot anotētus PDF failus, kas satur skenēto dokumentu pirms- un pēcskenēšanas versijas.