使用 Python 读写非 .txt 文件

J.鹧鸪

如果您愿意,请帮助我找出解决以下问题的更充分的方法。

我正在为一个应用程序编写代码,用于替换文本中的单词,从某种书写方式到另一种书写方式;例如,将所有单词“颜色”替换为“颜色”。

代码正在这样做,但只能通过读取和写入 .txt 文件来完成,Python 很清楚地做到了这一点。

但是,我希望它读取(并最终写入)其他文本格式。所以,我去寻找解决方案,我找到了两个:textract 和 pandoc。Textract 需要事先安装完整的库和程序列表。

Pandoc 只需要你在 pip install pypandoc 之前安装自己并使用它,这看起来更好。(Pandoc 安装指南指的是,如果您还想在 PDF 上书写,则需要安装 LaTex...)

我的目标是构建一个独立于平台的应用程序。我的问题是(是):

应用程序用户是否必须在他的机器上安装 Pandoc(并最终安装 LaTex)才能使用该应用程序?

警告用户他只能在应用程序中使用(复制并粘贴到).txt 文件是否更可取(虽然我认为这很不专业)?

J.鹧鸪

几个“月亮”之后,我对自己的问题有了答案。所以,我正在分享它。(这不是我们都来这里的原因吗?)应用程序的代码是完整的并且可以运行,实际上我最终没有使用 textract 或 pandoc。这是我使用的模块列表:PyPDF、docx、ezodf、beautifulsoup、ebooklib - 以及其他一些作为辅助工具。

我不高兴有这么多进口。有人告诉我,我可以只使用 NLTK 库来完成所有这些工作。在我开始研究这件事之前,有人证实过这一点吗?谢谢你。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章