如何从命令行以CSV格式从PDF提取表数据？

用户名

我想从这里提取所有行，而忽略列标题以及所有页面标题，即Supported Devices。

pdftotext -layout DAC06E7D1302B790429AF6E84696FCFAB20B.pdf - \
 | sed '$d'                                                  \
 | sed -r 's/ +/,/g; s/ //g'                                 \
 > output.csv

生成的文件应为CSV电子表格格式（逗号分隔的值字段）。

换句话说，我想改进上述命令，以使输出完全不会制动。有任何想法吗？

库尔特·菲佛

我也会为您提供另一种解决方案。

虽然在这种情况下，该pdftotext方法会尽力而为，但是在某些情况下，并非每个页面的列宽都相同（如您的良性PDF所示）。

在这里，不太知名但很酷的Free and OpenSource SoftwareTabula-Extractor是最佳选择。

我本人正在使用直接GitHub签出：

$ cd $HOME ; mkdir svn-stuff ; cd svn-stuff
$ git clone https://github.com/tabulapdf/tabula-extractor.git git.tabula-extractor

我为自己编写了一个非常简单的包装器脚本，如下所示：

$ cat ~/bin/tabulaextr

 #!/bin/bash
 cd ${HOME}/svn-stuff/git.tabula-extractor/bin
 ./tabula $@

既然~/bin/在我里面$PATH，我就跑步

$ tabulaextr --pages all                                 \
         $(pwd)/DAC06E7D1302B790429AF6E84696FCFAB20B.pdf \
        | tee my.csv

从所有页面提取所有表格并将其转换为单个CSV文件。

CVS的前十行（总共8727条）如下所示：

$ head DAC06E7D1302B790429AF6E84696FCFAB20B.csv 

 Retail Branding,Marketing Name,Device,Model
 "","",AD681H,Smartfren Andromax AD681H
 "","",FJL21,FJL21
 "","",Luno,Luno
 "","",T31,Panasonic T31
 "","",hws7721g,MediaPad 7 Youth 2
 3Q,OC1020A,OC1020A,OC1020A
 7Eleven,IN265,IN265,IN265
 A.O.I. ELECTRONICS FACTORY,A.O.I.,TR10CS1_11,TR10CS1
 AG Mobile,Status,Status,Status

在原始PDF中如下所示：

示例PDF第一页顶部的屏幕截图

甚至在最后一页293的右边都有这些行：

 nabi,"nabi Big Tab HD\xe2\x84\xa2 20""",DMTAB-NV20A,DMTAB-NV20A
 nabi,"nabi Big Tab HD\xe2\x84\xa2 24""",DMTAB-NV24A,DMTAB-NV24A

在PDF页面上看起来像这样：

PDF样本的最后一页

TabulaPDF和Tabula-Extractor对于这样的工作真的非常酷！

更新资料

这是ASCiinema的截屏视频（您也可以在命令行工具的帮助下，在Linux / MacOSX / Unix终端中本地下载和重放asciinema）tabula-extractor：

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-28

我来说两句

0 条评论

登录后参与评论

上一篇：德国货币的LocalString方法？

如何从命令行编辑pdf元数据？

Bash：从命令行程序中提取数据

如何从命令行中的PGP键提取图像？

如何从命令行提取.msi功能？

如何从命令行为增量创建提取

如何从命令行快速提取各种存档文件？

如何从命令行自动设置代码格式？

如何从命令行搜索PDF文件？

如何从命令行将ppt转换为pdf？

如何从命令行查询pdf页面大小？

如何从命令行翻译大型pdf？

如何从命令行创建空白PDF？

如何从命令行更改 regedit 注册表？

如何从命令行删除所有MySQL表？

如何从命令行向表添加描述？

如何从命令行下载数据 URL？

如何从命令行删除MongoDB数据库？

从命令行导入PostgreSQL CSV

从命令行加入 CSV

从命令行刷新Excel数据

如何从命令行更新Steam？

如何从命令行杀死libreoffice

如何从命令行禁用无线

如何从命令行打开HUD。

如何从命令行关闭Rserve

如何从命令行创建项目？

如何从命令行下载python？

如何从命令行卸载emacs？

如何从命令行启动tty？

TOP 榜单

文章