使用Python将文本文件重新格式化为csv的Python脚本

笑话杀手94

我被要求阅读一个包含以下内容的文本文件:

1.

Wicked Stepmother (1989) as Miranda

A couple comes home from vacation to find that their grandfather has …

2.

Directed By William Wyler (1988) as Herself

During the Golden Age of Hollywood, William Wyler was one of the …

3.

Whales of August, The (1987) as Libby Strong

Drama revolving around five unusual elderly characters, two of whom …

4.

As Summers Die (1986) as Hannah Loftin

Set in a sleepy Southern Louisiana town in 1959, a lawyer, searches …

并创建一个如下所示的.csv输出文件:

1,Wicked Stepmother ,1989, as Miranda,A couple comes home from vacation …
2,Directed By William Wyler ,1988, as Herself,During the Golden Age of …
3,"Whales of August, The ",1987, as Libby Strong,Drama revolving around five…

我知道,如果我可以将行分开,那么可以再次将它们重新加在一起,并在其之间加上逗号,然后将这些字符串写入到我的输出文件中。我的问题是格式。对于我只想要的数字:

line1=stringname[0]+','
line2= stringname[:stringname.find('(')-1]+','+stringname[stringname.find('(')+1:stringname.find(')')-1]+','+stringname[stringname.find(')')+1:]

无需更改第3行,然后将其写入文件

result=line1+line2+line3

问题是我不知道我在任何给定的时间解析哪一行。我在想for循环中的某些内容,可以确保我一次以3行为一组来解析代码,但是我不确定如何同时管理文件处理。我也不确定如何防止循环结束程序的结尾。

马丁·埃文斯(Martin Evans)

使用正则表达式可以轻松完成此操作,但我想您不希望使用该表达式。

取而代之的是,可以一次读取一行中的文件,然后确定该行是否以数字开头,然后以来解决该问题.如果是这样,请开始建立行列表,直到找到下一个数字。

使用Python的int()函数将尝试将字符串转换为数字。find('.')函数尝试找到数字的结尾。

如果返回的字符串不是数字,则会引发ValueError异常。在这种情况下,请将行添加到行列表中。

如果有数字,请首先将任何现有条目写入csv文件,然后开始一个新条目。

最后,将没有最后一个数字行来触发下一次写入,因此添加另一个调用以将最后一行写入csv。

例如:

import csv        

with open('text.txt') as f_input, open('output.csv', 'wb') as f_output:
    csv_output = csv.writer(f_output)
    entry = []

    for line in f_input:
        line = line.strip()    # Remove the trailing newline

        if len(line):          # Does the line containing anything?
            try:
                number = int(line[:line.find('.')])

                if len(entry):
                    csv_output.writerow(entry)
                entry = [number]
            except ValueError:
                entry.append(line)

    csv_output.writerow(entry)

Python的csv库用于获取列表,并在写入csv输出文件时自动在条目之间添加必要的逗号。如果条目包含逗号,它将自动添加引号。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章