我有一个快要用完的旧硬盘驱动器,无法使用TestDisk恢复文件,因此我改用PhotoRec扫描HDD以恢复所有可以恢复的文件。
最后,我得到了许多似乎已损坏的Word文档(.doc文件)。打开它们时,会出现以下窗口:
有什么方法可以扫描Word文档的目录,以便仅得到有效的(未损坏的)Word文档?这样可以避免我单独打开和检查每个文档。
更新:
这些.doc文件中每个文件的前32个字节的数据都是相同的...
D0 CF 11 E0 A1 B1 1A E1 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 3E 00 03 00 FE FF 09 00
文件签名D0 CF 11 E0 A1 B1 1A E1
告诉我,这些是Microsoft Office文档。我试图打开具有以下扩展名的文件之一:DOC,DOT,PPS,PPT,XLA,XLS,WIZ。在每种情况下,都会产生一个错误。
您可以使用Antiword尝试读取DOC
文件。您可以从此处获取Windows版本。
C:\antiword\
使用命令提示符将“ Antiword”解压缩到该文件夹并导航到该文件夹。
然后,您可以使用以下命令:
反词PATH_TO_DOC_FILES \ *。doc> tmpfile.txt
Antiword将输出DOC
能够读取的文件的纯文本内容,tmpfile.txt
然后可以对所需文件进行排序并删除损坏的文件。
Antiword的输出可能类似于以下内容:
:::::::::::::::: Document 1.doc ::::::::::::::::: Sample Document 1 这是一个示例Word文档。 :::::::::::::::: Document 2.doc ::::::::::::::::: Sample Document 2 这是另一个示例Word文档。 :::::::::::::: 舞弊Document.doc :::::::::::::: :::::::::::::: 另一个损坏文献。 doc :::::::::::::::
然后,您可以使用grep
或进行一些正则表达式匹配来查找损坏的文档的名称并将其删除。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句