J'utilise tika-app jar pour mon projet et existe-t-il un moyen de désactiver Tesseract OCR dans tika. Il y a deux choses qui doivent être conservées comme telles:
1.tesseract ne peut pas être désinstallé
2.tika.xml ne peut pas être modifié, car tika-app.jar est utilisé dans le commerce
Existe-t-il un moyen de définir la configuration dans le code java en définissant la propriété context ou parser pour désactiver l'OCR?
J'ai essayé le code ci-dessous mais OCR extrait toujours le texte des fichiers image lors de l'analyse.
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setOcrStrategy(OCR_STRATEGY.NO_OCR);
context.set(PDFParserConfig.class, pdfConfig);```
<?xml version="1.0" encoding="UTF-8"?>
<properties>
<parsers>
<parser class="org.apache.tika.parser.DefaultParser">
<parser-exclude class="org.apache.tika.parser.ocr.TesseractOCRParser"/>
</parser>
</parsers>
</properties>
Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.
En cas d'infraction, veuillez [email protected] Supprimer.
laisse moi dire quelques mots