Paras vastaus
Tulin suosittelemaan myös pytesseractia (jota muut jo suosittelivat), se on erittäin siistiä.
Vaikka se riippuu usein verkkotunnuksestasi, joten kannattaa ehkä tehdä se ”talossa”.
Jos pidät kiinni pythonista, on melko suoraviivaista käyttää skimage-toimintoja regionprops , -tunniste , clear\_border , kynnys\_otsu ja sika (liukuvärin histogrammi) Merkit74k -luokittelija. Joissakin verkkotunnuksissa käytettävissä olevat OCR-lib-tiedostot eivät sovi liian hyvin, koska joissakin OCR-tapauksissa tietojoukossasi on tiettyjä ominaisuuksia, jotka ovat hieman kapeita verkkotunnuksellesi (vinot katukyltit viivakameroista, anime-käännös matalalla p-kehyksellä arvo pakkauksen tai lomituksen aikana DVD-kloonista, jpeg-artefakteista pdf-skannauksissa jne.).
Kuulin, että myös OCRopus kannattaa tutkia (en ole käyttänyt sitä henkilökohtaisesti), koska se “ käyttää tesseract-ocr, mutta lisää asetteluanalyysin. ”
Vastaa
Tämä riippuu todella siitä, kuinka rakeinen / tyhjennä kuvasi.
Toistuva ongelma kuvion tunnistamisessa on kuvan selkeys.
Jatkuva haaste, joka palaa jatkuvasti, on tosiasia, että vaikka meillä voi olla kohtalainen / suuri menestys selkeillä kuvilla ..
Näin ei ole kuvissa, jotka eivät ole selkeitä.
Tarkoitus, siksi meillä on oltava koneoppiminen ja syvällinen oppiminen, jotta voimme suodattaa pois, virhemarginaali arviointimme oikeellisuudesta.
Jos kuitenkin kuvasi on selkeä, voin suositella Tesseract OCR -tekniikkaa.
Sen lisäksi voit myös kokeile 4.2. Ominaisuuden poiminta
Haluan kuitenkin korostaa, että kuten aina, selkeää helppoa polkua ei ole.
Se tulee aina olemaan suhteessa millaiseen lähestymistapaan valitset, kuinka matemaattinen, kuinka rakeinen ja mitä työkaluja sinulla on käytettävissänne.
Onnea.