替换元素以重新格式化数据集

用户名

我正在尝试解析基因型数据，本质上是将其转换为其他软件使用，如果问题过于具体，抱歉，但是任何评论和建议都将不胜感激。

ID, exp, control
1, aa, bb
2, ab, aa
3, ab, -

我会这样转换：

重复每一列，但重复第一列。
替换'aa'，'bb'因为'a'，'b'当它是'ab'作为第一个将被替换'a'，重复的将被替换为'b'。

例如

    ID exp exp control control
    1 a a b b
    2 a b a a
    3 a b 0 0

我以某种方式设法实现了第一个目标，但是我发现打印输出有点奇怪，并且所有替换都没有执行：

ID exp   exp     control
     control

1 aa     aa  bb
     bb

2 ab     ab  aa
     aa

3 ab     ab  -
     -

这是我的代码：

#!/usr/bin/env python

inputfile = open("test.txt", 'r')
outputfile = open("solomon.txt", 'w')
matchlines = inputfile.readlines()

for line in matchlines: 
        line_parts = line.strip() #strip the end space
        line_parts = line.split(',') #split the line
        output_parts = []
        for part in line_parts[1:]:  #start from 2nd element, so 1st column not duplicate

            if part == 'aa':
               part = part.replace('aa', 'a')
            elif part == 'bb':
               part = part.replace('bb', 'b')
            elif part == '-':
               part = part.replace('-', '0')
            elif part == 'ab':
                 '''the original one will be replaced with 'a' the duplciatd on will be replaced as 'b' '''
            else:
                 print 'Nothing is matched'
            output_part = part + '\t' + part #duplicate each element (1st goal)             
            output_parts.append(output_part) #populate the line      
            line = '\t'.join(output_parts)   #join elements in the line with a tab                
        outputfile.write(line_parts[0] + line + "\n")

inputfile.close()
outputfile.close()

琼斯·哈珀

我建议为此使用一个单独的功能，从而使其更容易与其他元素分开进行开发和测试。

def process_line(line_parts):
    out = line_parts[:1]
    for part in line_parts[1:]:
        if part == "-":
            out.extend('00')
        else:
            out.extend(part)
    return out

这给出了，例如

>>> process_line(['1', 'aa', '-'])
['1', 'a', 'a', '0', '0']

>>> process_line(['1', 'ab', 'bb'])
['1', 'a', 'b', 'b', 'b']

您可以使用以下命令轻松地将其用空格分隔str.join：

>>> " ".join(['1', 'a', 'a', '0', '0'])
'1 a a 0 0'

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-19

我来说两句

0 条评论

登录后参与评论

上一篇：将Angular元素绑定到控制器外部的作用域

重新格式化熊猫数据框

重新格式化数据帧的索引

重新格式化输入的DATE数据

重新格式化JSON数据

Excel VBA 重新格式化数据

格式化数据集的问题

如何重新格式化数据集以使其具有特定的结构而没有for循环？

如何使用行的值作为新列来重新格式化数据集？

根据元素重新格式化分层数据的输出

如何在r中重新格式化因子数据

如何使用AWK重新格式化表格数据？

Python重新格式化Pandas数据框

如何重新格式化数据框，抑制指数

在熊猫中重新格式化数据框

重新格式化数据框而不使用for循环

循环数组以重新格式化数据结构

重新格式化数据帧而不使用循环

重新格式化R中的数据帧

在Python中重新格式化数据（排列）

在R中重新格式化数据框

如何在javascript中重新格式化数据

如何重新格式化嵌套数据数组？

按行重新格式化数据框

使用Jquery重新格式化json数据

转换表数据并重新格式化

根据 R 中的模式重新格式化数据

如何为全卷积网络格式化数据集？

按端点请求格式化数据集

格式化SpaCy NER的训练数据集

TOP 榜单

文章

替换元素以重新格式化数据集

替换元素以重新格式化数据集

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID