使用Python将文本文件重新格式化为csv的Python脚本

笑话杀手94

我被要求阅读一个包含以下内容的文本文件：

1.

Wicked Stepmother (1989) as Miranda

A couple comes home from vacation to find that their grandfather has …

2.

Directed By William Wyler (1988) as Herself

During the Golden Age of Hollywood, William Wyler was one of the …

3.

Whales of August, The (1987) as Libby Strong

Drama revolving around five unusual elderly characters, two of whom …

4.

As Summers Die (1986) as Hannah Loftin

Set in a sleepy Southern Louisiana town in 1959, a lawyer, searches …

并创建一个如下所示的.csv输出文件：

1,Wicked Stepmother ,1989, as Miranda,A couple comes home from vacation …
2,Directed By William Wyler ,1988, as Herself,During the Golden Age of …
3,"Whales of August, The ",1987, as Libby Strong,Drama revolving around five…

我知道，如果我可以将行分开，那么可以再次将它们重新加在一起，并在其之间加上逗号，然后将这些字符串写入到我的输出文件中。我的问题是格式。对于我只想要的数字：

line1=stringname[0]+','
line2= stringname[:stringname.find('(')-1]+','+stringname[stringname.find('(')+1:stringname.find(')')-1]+','+stringname[stringname.find(')')+1:]

无需更改第3行，然后将其写入文件

result=line1+line2+line3

问题是我不知道我在任何给定的时间解析哪一行。我在想for循环中的某些内容，可以确保我一次以3行为一组来解析代码，但是我不确定如何同时管理文件处理。我也不确定如何防止循环结束程序的结尾。

马丁·埃文斯（Martin Evans）

使用正则表达式可以轻松完成此操作，但我想您不希望使用该表达式。

取而代之的是，可以一次读取一行中的文件，然后确定该行是否以数字开头，然后以来解决该问题.。如果是这样，请开始建立行列表，直到找到下一个数字。

使用Python的int()函数将尝试将字符串转换为数字。该find('.')函数尝试找到数字的结尾。

如果返回的字符串不是数字，则会引发ValueError异常。在这种情况下，请将行添加到行列表中。

如果有数字，请首先将任何现有条目写入csv文件，然后开始一个新条目。

最后，将没有最后一个数字行来触发下一次写入，因此添加另一个调用以将最后一行写入csv。

例如：

import csv        

with open('text.txt') as f_input, open('output.csv', 'wb') as f_output:
    csv_output = csv.writer(f_output)
    entry = []

    for line in f_input:
        line = line.strip()    # Remove the trailing newline

        if len(line):          # Does the line containing anything?
            try:
                number = int(line[:line.find('.')])

                if len(entry):
                    csv_output.writerow(entry)
                entry = [number]
            except ValueError:
                entry.append(line)

    csv_output.writerow(entry)

Python的csv库用于获取列表，并在写入csv输出文件时自动在条目之间添加必要的逗号。如果条目包含逗号，它将自动添加引号。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-05-10

我来说两句

0 条评论

登录后参与评论

上一篇：Azure DocumentDB受限制的请求

使用Python将文本文件重新格式化为csv的Python脚本

使用Python将文本文件重新格式化为csv的Python脚本

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

SQL Server中的非确定性数据类型

如何避免每次重新编译所有文件？

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

HttpClient中的角度变化检测

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

在Wagtail管理员中，如何禁用图像和文档的摘要项？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

构建类似于Jarvis的本地语言应用程序

Camunda-根据分配的组过滤任务列表

如何了解DFT结果

Embers js中的更改侦听器上的组合框

ggplot：对齐多个分面图-所有大小不同的分面

使用分隔符将成对相邻的数组元素相互连接

PHP Curl PUT 在 curl_exec 处停止

您如何通过 Nativescript 中的 Fetch 发出发布请求？

错误：找不到存根。请确保已调用spring-cloud-contract：convert

应用发明者仅从列表中选择一个随机项一次