在一个大熊猫数据框中将3个文本列折叠为1

伦伍德

我有一个数据集，其中一种数据类型分布在多列中。我想将它们简化为一列。我有一个函数可以完成此任务，但是它的过程很繁琐，我希望有一种更干净的方法可以完成此任务。这是我的数据的一个玩具样本：

UID    COMPANY    EML    MAI   TEL
273    7UP        nan    nan   TEL
273    7UP        nan    MAI   nan
906    WSJ        nan    nan   TEL
906    WSJ        EML    nan   nan
736    AIG        nan    MAI   nan

我想要得到的是：

UID    COMPANY   CONTACT_INFO
273    7UP       MT
906    WSJ       ET
736    AIG       M

我已经写一个函数转换解决了这个EML，MAI或者TEL来一个质数，汇总结果，则总和转换为成分接触的类型。这行得通，而且相当快。这是一个示例：

def columnRedux(df):
    newDF = df.copy()
    newDF.fillna('-', inplace=True)
    newDF['CONTACT_INFO'] = newDF['EML'] + newDF['MAI'] + newDF['TEL']
    newDF.replace('EML--', 7, inplace=True)
    newDF.replace('-MAI-', 101, inplace=True)
    newDF.replace('--TEL', 1009, inplace=True)

    small = newDF.groupby(['UID', 'COMPANY'], as_index=False)['CONTACT_INFO'].sum()

    small.replace(7, 'E', inplace=True)
    small.replace(101, 'M', inplace=True)
    small.replace(108, 'EM', inplace=True)
    small.replace(1009, 'T', inplace=True)
    small.replace(1016, 'ET', inplace=True)
    small.replace(1110, 'MT', inplace=True)
    small.replace(1117, 'EMT', inplace=True)

    return small

df1 = pd.DataFrame(
    {'EML' : [np.nan, np.nan, np.nan, 'EML', np.nan, np.nan, 'EML', np.nan, np.nan, 'EML', 'EML', np.nan],
    'MAI' : [np.nan, 'MAI', np.nan, np.nan, 'MAI', np.nan, np.nan, np.nan, 'MAI', np.nan, np.nan, 'MAI'],
    'COMPANY' : ['7UP', '7UP', 'UPS', 'UPS', 'UPS', 'WSJ', 'WSJ', 'TJX', 'AIG', 'CDW', 'HEB', 'HEB'],
    'TEL' : ['TEL', np.nan, 'TEL', np.nan, np.nan, 'TEL', np.nan, 'TEL', np.nan, np.nan, np.nan, np.nan],
    'UID' : [273, 273, 865, 865, 865, 906, 906, 736, 316, 458, 531, 531]},
    columns=['UID', 'COMPANY', 'EML', 'MAI', 'TEL'])

cleanDF = columnRedux(df1)

我的问题是我有几个数据集，每个数据集都有自己的“宽”列集。有些减少了5列以上。对所有变体进行硬编码转换并非易事。有没有更清洁的方式来实现这一目标？

安东vBR

也许不是“最好的”解决方案。但是一个方法是使用一个简单的groupby并对包含的元素进行条件处理：

df = df.groupby(['UID','COMPANY'])[['EML','MAI','TEL']]\
    .apply(lambda x: ''.join(sorted([i[0] for y in x.values for i in y if pd.notnull(i)])))\
    .reset_index()\
    .rename(columns={0:'CONTACT_INFO'})

或替代方法是将分组的数据帧转换为类型str并替换字符串和sum。我会说很可读。

m = {
    'nan':'',
    'EML':'E',
    'MAI':'M',
    'TEL':'T'
}

df = df.groupby(['UID','COMPANY'])[['EML','MAI','TEL']]\
       .apply(lambda x: x.astype(str).replace(m).sum().sum())\
       .reset_index()\
       .rename(columns={0:'CONTACT_INFO'})

完整示例：

import pandas as pd
import numpy as np

data = '''\
UID    COMPANY    EML    MAI   TEL
273    7UP        nan    nan   TEL
273    7UP        nan    MAI   nan
906    WSJ        nan    nan   TEL
906    WSJ        EML    nan   nan
736    AIG        nan    MAI   nan'''

fileobj = pd.compat.StringIO(data)
df = pd.read_csv(fileobj, sep='\s+').replace('NaN',np.nan)

# use a nested list comprehension to flatten the array and remove nans.
df = df.groupby(['UID','COMPANY'])[['EML','MAI','TEL']]\
    .apply(lambda x: ''.join(sorted([i[0] for y in x.values for i in y if pd.notnull(i)])))\
    .reset_index()\
    .rename(columns={0:'CONTACT_INFO'})

print(df)

返回值：

UID  COMPANY  CONTACT_INFO
273      7UP            MT
736      AIG             M
906      WSJ            ET
dtype: object

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-2

我来说两句

0 条评论

登录后参与评论

在一个大熊猫数据框中将3个文本列折叠为1

在一个大熊猫数据框中将3个文本列折叠为1

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成