Existe-t-il un moyen de désactiver le mode OCR dans Tika sans désinstaller tesseract

Santhosh:

J'utilise tika-app jar pour mon projet et existe-t-il un moyen de désactiver Tesseract OCR dans tika. Il y a deux choses qui doivent être conservées comme telles:

1.tesseract ne peut pas être désinstallé

2.tika.xml ne peut pas être modifié, car tika-app.jar est utilisé dans le commerce

Existe-t-il un moyen de définir la configuration dans le code java en définissant la propriété context ou parser pour désactiver l'OCR?

J'ai essayé le code ci-dessous mais OCR extrait toujours le texte des fichiers image lors de l'analyse.

            PDFParserConfig pdfConfig = new PDFParserConfig();
            pdfConfig.setOcrStrategy(OCR_STRATEGY.NO_OCR);
            context.set(PDFParserConfig.class, pdfConfig);```

suraj huljute:

<?xml version="1.0" encoding="UTF-8"?>
<properties>
    <parsers>
        <parser class="org.apache.tika.parser.DefaultParser">
       <parser-exclude class="org.apache.tika.parser.ocr.TesseractOCRParser"/>
        </parser>
    </parsers>
</properties>

Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.

En cas d'infraction, veuillez [email protected] Supprimer.

modifier le2020-09-14

laisse moi dire quelques mots

0commentaires

connexionAprès avoir participé à la revue

Article précédent:Longueur du contenu en Golang

TOP liste

article

Existe-t-il un moyen de désactiver le mode OCR dans Tika sans désinstaller tesseract

Existe-t-il un moyen de désactiver le mode OCR dans Tika sans désinstaller tesseract

comment afficher un bouton au-dessus d'un autre élément ?

impossible d'obtenir l'image d'arrière-plan en plein écran dans reactjs

Je continue à obtenir l'objet 'WSGIRequest' n'a pas d'attribut 'Get' sur django

comment supprimer "compte de connexion google" à des fins de développement - actions sur google

Conversion double en BigDecimal en Java

Impossible d'accéder à la vue personnalisée pendant le test de l'interface utilisateur dans XCode

Algorithme: diviser de manière optimale une chaîne en 3 sous-chaînes

Passer la taille d'un tableau 2D à une fonction ?

Comment obtenir l'intégration contextuelle d'une phrase dans une phrase à l'aide de BERT ?

Comment changer le navigateur par défaut en Microsoft Edge pour Jupyter Notebook sous Windows 10 ?

CSS: before ne fonctionne pas sur certains éléments,: after fonctionne très bien

Comment créer un bot à compte à rebours dans Discord en utilisant Python

Comment ajouter une entrée à une table de base de données pour une combinaison de deux tables

Exporter la table de l'arborescence vers CSV avec mise en forme

Comment activer le message Pylint "too-many-locals" dans VS Code?

Créer un système Buzzer à l'aide de python

Spring @RequestParam DateTime format comme ISO 8601 Date Heure facultative

Empêcher l'allocation de mémoire dans la génération de combinaison récursive

Déplacement des moindres carrés d'ajustement pour les déplacements de points ayant des problèmes

Comment choisir le nombre de fragments et de répliques Elasticsearch

Microsoft.WebApplication.targets