如何通过熊猫中的set操作从一列中提取多个子字符串?

桑索什·韦尼古帕尔

我用这些名称创建了一个Dataframe df。我试图使用设置操作从列中提取子字符串。但是我不能提取多个单词(多个字符串)我只能提取一个单词。请检查我的获得的输出期望的输出,并为此提供有效的解决方案

import pandas as pd 
import numpy as np

df=pd.DataFrame({"Names":["This is Santhosh","This is Sneha Alphonse Shaji","This is Vikram Karthi"]})
df

Name_set={'Santhosh','Sneha Alphonse Shaji','Vikram Karthi'}
def sub(x):
    df_words= set(x.split(' '))
    extract_words=Name_set.intersection(df_words)
    return ' '.join(extract_words)

df['Extracted Names']= df.Names.apply(sub)
df 

获得输出

预期产量

vb_rises
import pandas as pd 
import numpy as np

df=pd.DataFrame({"Names":["This is Santhosh","This is Sneha Alphonse Shaji","This is Vikram Karthi"]})
df

Name_set=['Santhosh','Sneha Alphonse Shaji','Vikram Karthi']
def sub(x):
    ans =  [y for y in Name_set if y in x]
    return ' '.join(ans)


df['Extracted Names']= df.Names.apply(sub)
df 

               Names                Extracted Names
0   This is Santhosh                Santhosh
1   This is Sneha Alphonse Shaji    Sneha Alphonse Shaji
2   This is Vikram Karthi           Vikram Karthi

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何从一列中提取字符串并将其保存在熊猫数据框中的新列中?

如何从一个字符串中提取多个子字符串?

从pyspark中的列中提取多个子字符串

从一列中提取部分字符串,粘贴到新列中

使用R从一列中的字符串中提取数值

从熊猫中的字符串中提取多个子字符串

如何在熊猫数据框+ python的一列中的<>之间找到多个子字符串

熊猫-从一列中提取多个数据

从一个字符串中提取多个子字符串

如何从C#中的字符串中提取多个子字符串匹配项?

熊猫:从一列的子字符串中提取首字母缩写词,并将其与具有条件的另一列匹配

从一列中提取以“ Unit”开头的字符串并将其复制到新列中:Pandas

在 MySQL 中,如何从一列输入不一致的日期中提取年份作为字符串?

如何从日志文件中提取多个子字符串

创建一个基于R中的另一列对从一列中提取的字符串文本进行分组的列

如何在SQL Server中提取多个子字符串关键字并在多列中显示结果?

熊猫-计算并从一列中获取唯一的字符串值

熊猫-从一列的浮点数中删除字符串

在更新中使用replace()函数更改一列中的多个子字符串

如何在 Python 中返回整个字符串并从中提取一列?

从一个字符串中提取两个子字符串

从Python中的一列字符串中提取连续的大写单词

如何从Python中的熊猫数据框中的列中提取关键字(字符串)

从字符串中提取字词的最后一个作为熊猫中的新列

修改熊猫数据框中的一列,选择一个子字符串

如何从熊猫数据框中的可变长度列中提取子字符串?

如何从“对象”的熊猫列中的字符串中提取数字?

如何从熊猫数据框中的字符串中提取最后一个日期

熊猫:计算一列中的空字符串