我被要求阅读一个包含以下内容的文本文件:
1.
Wicked Stepmother (1989) as Miranda
A couple comes home from vacation to find that their grandfather has …
2.
Directed By William Wyler (1988) as Herself
During the Golden Age of Hollywood, William Wyler was one of the …
3.
Whales of August, The (1987) as Libby Strong
Drama revolving around five unusual elderly characters, two of whom …
4.
As Summers Die (1986) as Hannah Loftin
Set in a sleepy Southern Louisiana town in 1959, a lawyer, searches …
并创建一个如下所示的.csv输出文件:
1,Wicked Stepmother ,1989, as Miranda,A couple comes home from vacation …
2,Directed By William Wyler ,1988, as Herself,During the Golden Age of …
3,"Whales of August, The ",1987, as Libby Strong,Drama revolving around five…
我知道,如果我可以将行分开,那么可以再次将它们重新加在一起,并在其之间加上逗号,然后将这些字符串写入到我的输出文件中。我的问题是格式。对于我只想要的数字:
line1=stringname[0]+','
line2= stringname[:stringname.find('(')-1]+','+stringname[stringname.find('(')+1:stringname.find(')')-1]+','+stringname[stringname.find(')')+1:]
无需更改第3行,然后将其写入文件
result=line1+line2+line3
问题是我不知道我在任何给定的时间解析哪一行。我在想for循环中的某些内容,可以确保我一次以3行为一组来解析代码,但是我不确定如何同时管理文件处理。我也不确定如何防止循环结束程序的结尾。
使用正则表达式可以轻松完成此操作,但我想您不希望使用该表达式。
取而代之的是,可以一次读取一行中的文件,然后确定该行是否以数字开头,然后以来解决该问题.
。如果是这样,请开始建立行列表,直到找到下一个数字。
使用Python的int()
函数将尝试将字符串转换为数字。该find('.')
函数尝试找到数字的结尾。
如果返回的字符串不是数字,则会引发ValueError
异常。在这种情况下,请将行添加到行列表中。
如果有数字,请首先将任何现有条目写入csv
文件,然后开始一个新条目。
最后,将没有最后一个数字行来触发下一次写入,因此添加另一个调用以将最后一行写入csv。
例如:
import csv
with open('text.txt') as f_input, open('output.csv', 'wb') as f_output:
csv_output = csv.writer(f_output)
entry = []
for line in f_input:
line = line.strip() # Remove the trailing newline
if len(line): # Does the line containing anything?
try:
number = int(line[:line.find('.')])
if len(entry):
csv_output.writerow(entry)
entry = [number]
except ValueError:
entry.append(line)
csv_output.writerow(entry)
Python的csv
库用于获取列表,并在写入csv输出文件时自动在条目之间添加必要的逗号。如果条目包含逗号,它将自动添加引号。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句