标记文本并为数据框中的每一行创建更多行

流放者

我想用pythonand做到这一点pandas

假设我有以下内容:

file_id   text
1         I am the first document. I am a nice document.
2         I am the second document. I am an even nicer document.

我终于想要以下内容:

file_id   text
1         I am the first document
1         I am a nice document
2         I am the second document
2         I am an even nicer document

所以我希望每个文件的文本在每个句号处被拆分,并为这些文本的每个标记创建新行。

执行此操作的最有效方法是什么?

耶斯列

用:

s = (df.pop('text')
      .str.strip('.')
      .str.split('\.\s+', expand=True)
      .stack()
      .rename('text')
      .reset_index(level=1, drop=True))

df = df.join(s).reset_index(drop=True)
print (df)
   file_id                         text
0        1      I am the first document
1        1         I am a nice document
2        2     I am the second document
3        2  I am an even nicer document

说明

首先使用DataFrame.pop的提取塔,除去最后.通过Series.str.rstrip与和分裂通过Series.str.split与逃避.,因为特殊的正则表达式字符,通过重塑DataFrame.stack的系列,DataFrame.reset_indexrename为系列的DataFrame.join原始。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

将 R 数据框中的多行合并为一行

创建一个新的数据框,其中现有数据框中的每一行都有很多行

通过两个变量标记大型数据框中的每一行

如何从字典中的每一行中提取文本,如数据框中的列?

如何将两个数据框与日期进行比较,在特定时间间隔内返回匹配日期,并为新数据框中的每一行标记不匹配的日期

如何在Python中为数据框的每一行创建唯一的XML

在python中为Panda数据框的每一行创建一个Radar Chart

为数据框列中的每一行创建一个新变量

VB.NET 多行数据网格值到文本框(在文本框中显示一行)

Spark:遍历每一行中的列以创建新的数据框

为数据框中的每一行创建json字符串

在多行文本框中显示一行一行的文本

为mySQL中的每一行创建弹出框

每 10 行后标记多行而不是 Recyclerview Viewholder 中的一行

熊猫数据框中每一行的随机值

扩展数据框中的每一行

数据框中每一行的条形图

对于R数据框中的每一行

在数据框的每一行中应用textblob

在数据框中拆分每一行

列出数据框列中每一行的接头

组合数据框中每一行的列

如何删除熊猫数据框中的每一行?

将数据框中的每一行与另一个数据框中的多行进行比较并获得结果

对于数据框中的每一行,根据R中的数字from-to创建多个行

R - 当两列或更多列在一行中匹配时在数据框中创建新列

在MS SQL表中为另一表中的每一行创建多行

在nodejs中读取csv并为每一行创建新文件

如何计算每一行的不同数字并在 R 中创建一个新的数据框?