ベストアンサー
私もpytesseractを推奨するようになりました(他の人はすでに推奨しています)、それはとてもクールです。
ドメインによって異なる場合が多いので、「社内」で行う価値があるかもしれません。
Pythonに固執する場合は、skimage関数を使用するのは非常に簡単です regionprops 、 label 、 clear\_border 、 threshold\_otsu と hog (勾配のヒストグラム)を使用して、 Charles74k 分類子。一部のドメインでは、利用可能なOCRライブラリがうまく適合しない場合があります。これは、一部のOCRの場合、ドメインに少しニッチな特定の機能がデータセットにあるためです(ダッシュカムからの斜めの道路標識、低pフレームのアニメ翻訳圧縮中またはDVDクローンからのインターレース中の値、pdfスキャンのjpegアーティファクトなど)。
OCRopusも調べる価値があると聞きました(個人的には使用していません)。 = “a60d4e3bda”>