如何使用python和bs4读取和覆盖文件夹中的所有* .txt文件?

Dom355

我有一个包含数千个文件的文件夹。我正在尝试使用beautifulsoup4解析其中的XML标记。

我能够分别为每个文件执行此操作,但是无法使用for循环使脚本工作。

到目前为止,这是我的代码:

import bs4 as bs
import glob


path = r"~/Desktop/pythontest/*.txt"
files = glob.glob(path)

# ------------------------READ AND PARSE TEXT-----------------------------------------


for f in files:
    # open file in read mode
    source = open(f, "rt")

    # parse xml as soup
    soup = bs.BeautifulSoup(source, "lxml")
    soupText = soup.get_text()
    text = soupText.replace(r"\n", " ")

    # close file
    source.close()


# --------------------------OVERWRITE FILE---------------------------------------------
for f in files:
    # open file in write mode
    source = open(f, "wt")

    # overwrite the file with the soup
    source.write((text))
    # # close file
    source.close()

print(text)

当我运行它时,控制台会显示以下信息:

Traceback (most recent call last):
  File "./camltest.py", line 34, in <module>
    print(text)
NameError: name 'text' is not defined

我怀疑这是一个范围问题,但无法解决。有什么建议?谢谢

阿伦迪普乔汉

您可以在同一循环中简单地读取然后写入文件。

for f in files:
    source = open(f, "w+")
    soup = bs.BeautifulSoup(source, "lxml")
    soupText = soup.get_text()
    text = soupText.replace(r"\n", " ")
    source.write(text)
    source.close()

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何使用spring-batch和MultiResourceItemReader读取文件夹中的所有文件?

如何从Java读取文件夹中的所有文件?

使用arraylist读取.txt文件时如何忽略主文件夹中的某些文件

Java-读取文件夹中的所有.txt文件

逐行读取文件夹中的所有.txt文件

如何使用php从特定文件夹中获取所有图片和视频?

如何读取,转换和输出文件夹中的所有文件?

如何随机读取文件夹中的所有文件

从文件夹中读取所有.txt文件?

如何使用read_excel有效读取和rbind一个文件夹中的所有.xlsx文件

如何使用python和os合并特定文件夹中的所有csv文件

如何使用浏览器中的JavaScript通过File System Access API递归读取文件夹的所有文件和目录

读取文件夹和子文件夹中的所有文件-进度和大小

列出文件夹和子文件夹中的文件,并带有.txt文件的路径

Python txt文件-读取和使用文件中的信息

如何使用PowerShell从文件夹和所有子文件夹中删除所有访问规则?

读取特定文件夹中的所有txt文件,并将所有内容写入一个txt文件

使用.txt输入文件创建文件夹和子文件夹

获取文件夹和子文件夹中所有.txt文件的路径

如何使用Groovy读取文件夹中的所有文件并替换文件中的模式

如何使用Java脚本打印文件夹中的所有txt文件

从文件夹Python导入和读取所有文件

wc -l计算文件夹和子文件夹中所有txt文件的行数

如何使用bs4 / python从Wikipedia网站获取txt文件中单词的搜索结果?

批处理文件以合并每个txt文件开头和结尾处文件夹中的所有txt文件

Windows 批处理覆盖文件夹和子文件夹中的现有文件

使用 Python 3 在 CSV 文件中的子文件夹/TXT 中查找和替换

如何使用 Python 读取文件夹中的所有 .txt 文件并将其内容附加到一个 .txt 文件中?

如何读取和写入项目文件夹之外的 txt 文件 (Unity)

TOP 榜单

热门标签

归档