¿Cuál es la mejor biblioteca de Python OCR?


Mejor respuesta

Vine a recomendar Pytesseract también (que otros ya recomendaron), es genial.

A menudo, aunque depende de su dominio, por lo que podría valer la pena hacerlo «en casa».

Si se apega a Python, es bastante sencillo usar las funciones de skimage regionprops , etiqueta , clear\_border , umbral\_otsu y hog (histograma de degradados) para alimentar un clasificador Chars74k . En algunos dominios, las librerías de OCR disponibles no encajan demasiado bien, ya que en algunos casos de OCR hay características específicas en su conjunto de datos que son un poco nicho para su dominio (letreros de calles sesgados de cámaras de tablero, traducción de anime con p-frame bajo durante la compresión o el entrelazado de un clon de DVD, artefactos jpeg en escaneos de pdf, etc.).

Escuché que podría valer la pena investigar OCRopus (no lo he usado personalmente), ya que = «a60d4e3bda»>

usa tesseract-ocr pero agrega análisis de diseño. ”

Respuesta

Esto realmente depende de cuán granular / clara sea su imagen.

Un problema recurrente en términos de reconocimiento de patrones, en general, es la claridad de la imagen.

Un desafío constante que sigue apareciendo, es el hecho de que, si bien podemos tener moderados / gran éxito con imágenes claras ..

Este no es el caso con imágenes que no son claras.

Es decir, es por eso que tenemos que tener Machine Learning y Deep Learning, para que podamos «filtrar», el margen de error en cuanto a lo correcta que es nuestra evaluación.

Sin embargo, supongo que si su imagen es clara, puedo recomendar Tesseract OCR.

Aparte de eso, también podría, intente 4.2. Extracción de características

Aunque, me gustaría enfatizar, que, como siempre, rara vez hay un camino fácil «claro».

Siempre va a ser en relación con el tipo de enfoque que adopte, qué tan matemático, qué tan granular y qué herramientas tiene a su disposición.

Mucha suerte.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *