我已经使用Apache PDFBox库将PDF转换为文本。我想在公司名称后获取整数索引。例如,我在控制台中看到的这样的文本:
Some infos
..
53252
..
Some infos
..
Company
Bla Bla LTD.
12312
..
我可以通过以下方式获得公司的起点指数:
int IndexFirst = pdfText.indexOf("Company");
String companyName = pdfText.substring(IndexFirst+7, ?? )
我想获得我所有的公司名称,因此我需要最后一个整数索引。如果您想问我为什么不将公司名称总索引号添加到IndextFirst以查找最后的索引并获取公司名称,我还有许多其他PDF,并且公司名称将是动态的。我可以找到起点,因为PDF的Company是静态的,但是Company索引的长度不是。其他静态文本是公司名称后的编号。我想说“在公司名称后得到第一个整数的索引”的Java
如果公司名称后pdf以整数继续,则可以使用正则表达式。
Pattern pattern = Pattern.compile("[0-9]");
Matcher matcher = pattern.matcher(pdfText.substring(unvanIndexFirst)); // If pdfText text file which came from your PDF with PDFBox lib.
unvanIndexLast = unvanIndexFirst + matcher.start();
unvan = pdfText.substring(unvanIndexFirst, unvanIndexLast);
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句