将一个文本文件文件夹与一个单元格中的每个内容合并为一个CSV文件

埃托尔·里扎(Ettore Rizza)

我有一个包含数千个.txt文件的文件夹。我想根据以下模型将它们合并为一个大.csv文件:

在此处输入图片说明

我发现应该执行此任务的R脚本(https://gist.github.com/benmarwick/9265414),但它显示此错误。

Error in read.table(file = file, header = header, sep = sep, quote = quote,  : duplicate 'row.names' are not allowed 

我不明白我的错是什么。

没关系,我很确定没有R也可以做到这一点。如果您知道一个非常优雅而简单的方法,将不胜感激(这对像我这样的很多人很有用)

精度:文本文件为法语,而不是ASCII。这是一个示例:https : //www.dropbox.com/s/rj4df94hqisod5z/Texts.zip?dl=0

比尔·贝尔

可以使用pathlib更加紧凑地编写

>>> import os
>>> os.chdir('c:/scratch/folder to process')
>>> from pathlib import Path
>>> with open('big.csv', 'w') as out_file:
...     csv_out = csv.writer(out_file)
...     csv_out.writerow(['FileName', 'Content'])
...     for fileName in Path('.').glob('*.txt'):
...         csv_out.writerow([str(fileName),open(str(fileName.absolute())).read().strip()])

由该glob产生的项目提供对完整路径名和文件名的访问,因此不需要级联。

编辑:我检查了一个文本文件,发现阻塞处理的字符之一看起来像“ fi”,但实际上这两个字符一起作为一个字符。考虑到此csv可能的实际用途,我建议进行以下处理,该处理将忽略诸如此类的奇怪字符。我删除了结尾部分,因为我怀疑这会使csv处理更加复杂,并且可能成为另一个问题的话题。

import csv
from pathlib import Path

with open('big.csv', 'w', encoding='Latin-1') as out_file:
    csv_out = csv.writer(out_file)
    csv_out.writerow(['FileName', 'Content'])
    for fileName in Path('.').glob('*.txt'):
        lines = [ ]
        with open(str(fileName.absolute()),'rb') as one_text:
            for line in one_text.readlines():
                lines.append(line.decode(encoding='Latin-1',errors='ignore').strip())
        csv_out.writerow([str(fileName),' '.join(lines)])

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

在文件夹中创建一个文本文件

批量将两个文本文件合并为一个文件

将多个文本文件中的特定列合并到一个文件中

读入多个文件夹,并将多个文本文件内容组合到每个文件夹一个文件中-Python

在Unix中将多个单行文本文件合并为一个单行文本文件

打开2个文本文件并将它们合并为一个

使用Pandas将每个文件夹的所有csv文件合并为一个大csv文件

将多个文本文件合并为一个文件

从文本文件中读取行并为每行中的每个名称创建一个文本文件

Windows GUI工具可将子文件夹中的文本文件合并为一个文件?

将多个文本文件_ + filenames_合并为一个文本文件

使用批处理或perl脚本将两个文本文件合并为一个

将文本文件合并为一个文本文件

创建一个批处理文件,该文件将文本文件和文件夹中的文件名进行比较,如果匹配,它将文件复制到另一个文件夹

将文本文件合并为一个

用Java将多个文本文件合并为一个

将文件合并为一个

Powershell将文本文件从一个文件夹移动到另一个文件夹

[Python]将两个文本文件合并为一个(一行一行)

将递归文件夹中的多个缩小的 javascript 文件合并为一个文件

将文件从一个文件夹从文本文件的文件名列表移动到另一个文件夹

如何将多个文本文件合并为一个文件?

将多个文本文件合并为一个文本文件?

使用系统调用在 Linux 中使用 C 将两个文本文件合并为一个新文件(来回每个新行)

在每个子文件夹中将 2 个文本文件合并为一个,并将它们保存在名为 csv 文件的日期和文件所在的文件夹中。

如何将 2 个文本文件合并为一个文件?

如何使用文本文件中定义的文件列表将多个文件夹中的文件复制到一个公共文件夹中

使用python将2个文本文件合并为一个文件

循环批处理文件,用于将不同文件夹中的多个文本文件合并到另一个不同文件夹中的一个文本文件