根据其他列更新列值

Chris 发表于 Dev

克里斯

我对Pandas的了解较弱，对Python的了解也不深。

我想d.Alias根据现有列（d.Company和d2.Alias）的值更新列（）。d.Alias应该等于d2.Aliasifd2.Alias是的子字符串d.Company。

示例数据集：

d = {'Company': ['The Cool Company Inc', 'Cool Company, Inc', 'The Cool 
        Company', 'The Shoe Company', 'Muffler Store', 'Muffler Store'],
    'Position': ['Cool Job A', 'Cool Job B', 'Cool Job C', 'Salesman', 
        'Sales', 'Technician'],
    'City': ['Tacoma', 'Tacoma','Tacoma', 'Boulder', 'Chicago', 'Chicago'],
    'State': ['AZ', 'AZ', 'AZ', 'CO', 'IL', 'IL'],
    'Alias': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]}
d2 = {'Company': ['The Cool Company, Inc.', 'The Shoe Company', 'Muffler 
         Store LLC'],
    'Alias': ['Cool Company', np.nan, 'Muffler'],
    'First Name': ['Carol', 'James', 'Frankie'],
    'Last Name': ['Fisher', 'Smith', 'Johnson']}

之所以如此np.nan，The Shoe Company是因为对于该实例，不需要别名。

我已经尝试使用.loc，for循环，while循环，pandas.where，numpy.where，和每一个没有理想的结果的几个变化。使用for循环时，将的结尾d2.Alias复制到中的所有行d.Alias。但是，我无法重现该内容。

我看过的以前的文章我不能上班，或者我听不懂：基于Pandas中的行匹配，用另一个DataFrame的值有条件地填充列pandas根据其他列的值创建新列

任何帮助是极大的赞赏！

编辑：

预期产量

更新：
经过几天的修补，我达到了预期的结果。在温家宝的回应下，我不得不改变几件事。

首先，我从创建了一个df2.Alias名为的列表aliases：
aliases = df2.Alias.unique()

然后，我必须删除.map(df2.set_index('Company').Alias。生成我要的resutls行：
df1['Alias'] = df1.Company.apply(lambda x: [process.extract(x, aliases, limit=1)][0][0][0])。

BEN_YO

解决方案 fuzzywuzzy

from fuzzywuzzy import process

df1['Alias']=df1.Company.apply(lambda x :[process.extract(x, df2.Company, limit=1)][0][0][0]).map(df2.set_index('Company').Alias)
df1
Out[31]: 
          Alias     City               Company    Position State
0  Cool Company   Tacoma  The Cool Company Inc  Cool Job A    AZ
1  Cool Company   Tacoma     Cool Company, Inc  Cool Job B    AZ
2  Cool Company   Tacoma      The Cool Company  Cool Job C    AZ
3           NaN  Boulder      The Shoe Company    Salesman    CO
4       Muffler  Chicago         Muffler Store       Sales    IL
5       Muffler  Chicago         Muffler Store  Technician    IL

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-23

我来说两句

0 条评论

登录后参与评论

上一篇：在熊猫中使用lambda函数后，索引列消失了

TOP 榜单

文章

根据其他列更新列值

根据其他列更新列值

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException