Identifier le document numérisé manuscrit ou imprimé

JamesYTL

Identifier le document numérisé manuscrit ou imprimé


En utilisant C #, j’essaie de détecter si un document (facture pour être plus spécifique) est manuscrit ou imprimé.

Modifié: je n’ai pas à convertir l’écriture manuscrite en mots réels. Il suffit de savoir que l’écriture manuscrite existe dans le document numérisé.

Méthode OCR éprouvée en vérifiant que le pourcentage de caractères dénués de sens dépasse un certain seuil, mais donne souvent un résultat incorrect en raison d’un comportement inattendu tel qu’une ligne tracée sur les mots imprimés qui amène l’OCR à capturer un résultat incorrect.

Toute autre recommandation sur la façon de détecter un document manuscrit ou imprimé?

Document imprimé entrez la description de l'image ici
Exemple de document imprimé / Exemple de document manuscrit

Pas vraiment spécifique à c # uniquement car ce que je recherche est un outil pour aider à identifier l’existence de l’écriture manuscrite dans un document numérisé. C # est ce que j’utilise principalement maintenant donc je l’ai mentionné.

Steve Barnes

Une facture imprimée signée à la main compterait-elle? Que diriez-vous d’un avec PAYÉ écrit dessus?

JamesYTL

@SteveBarnes Dans un cas optimal, je veux considérer un document imprimé avec une écriture manuscrite minimale (par exemple: PAYÉ, signature, image dessinée au hasard comme une étoile comme signet) comme document imprimé non manuscrit.

Réponses


 Steve Barnes

Une différenciation possible pourrait être le nombre de couleurs différentes présentes dans plusieurs zones de l’image. Les factures imprimées, à l’exception de l’en-tête, n’ont généralement que 2 couleurs (couleur du papier et couleur d’impression), tandis que les factures manuscrites auront au moins 3 couleurs distinctes sur un nombre important de zones (papier, impression et encre). utilisé pour l’écriture manuscrite), la couleur de l’encre dans les stylos correspond rarement à celle de l’impression.

Je suggère de tester en utilisant ImageMagick , éventuellement l’histogramme , à partir de la ligne de commande pour voir si cela fonctionnera pour vous. Si cela semble, Magick.Net devrait donner à votre application la fonctionnalité ImageMagick.

Vous pouvez également regarder le pourcentage de chaque couleur qui est aligné avec les limites du papier, les éléments imprimés et le texte s’alignent généralement bien avec les limites du papier tandis que le texte manuscrit a tendance à avoir une gamme d’alignements – pour ce type d’analyse, vous devrez probablement utilisez OpenCV – il existe des interfaces C # possibles. Bien sûr, si vous utilisez OpenCV 3.3 ou une version ultérieure, vous pouvez également essayer les classificateurs d’apprentissage en profondeur.

JamesYTL

Désolé pour la réponse tardive. La différenciation par la couleur n’est pas vraiment une option pour moi car nous numérisons des documents en niveaux de gris à des fins d’OCR futures.

Steve Barnes

@JamesYTL Vous jetez potentiellement d’autres informations utiles en faisant cela, certes tout en réduisant quelque peu les exigences de stockage . Les logos, etc., ne se convertissent souvent pas trop bien en niveaux de gris.

JamesYTL

Veuillez vous excuser pour la réponse tardive (encore). J’essaierai de persuader et d’obtenir une image colorée à la place. Mettra à jour si j’ai réussi à le faire fonctionner * doigt croisé. Merci pour la suggestion

Mawg

Toujours en attente de cette mise à jour … 🙂

JamesYTL

@Mawg Actuellement, nous ne nous concentrions plus sur ce projet, il n’y aura donc pas de mises à jour si tôt

 

#ou, document, identifier, imprimé, Le, manuscrit, numérisé

 

wiki

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *