分配给pandas DataFrame中的新列时令人费解的KeyError

MTKnife

我正在做一些自然语言处理,并且我有一个看起来像这样的MultiIndexed DataFrame(除了实际上有大约3,000行):

                             Title                                              N-grams
Period  Date                                                                                                                     
2015-01 2015-01-01 22:00:10  SIRF: Simultaneous Image Registration and Fusi...  [@SENTBEGIN paper, paper propose, propose nove...    
        2015-01-02 16:54:13  Generic construction of scale-invariantly coar...  [@SENTBEGIN encode, encode temporal, temporal ...
        2015-01-04 00:07:00  Understanding Trajectory Behavior: A Motion Pa...  [@SENTBEGIN mining, mining underlie, underlie ...
        2015-01-04 09:07:45  Hostile Intent Identification by Movement Patt...  [@SENTBEGIN the, the recent, recent year, year...
        2015-01-04 14:35:58  A New Method for Signal and Image Analysis: Th...  [@SENTBEGIN brief, brief review, review provid...

我想做的是计算每个n-gram在每个月出现的次数(因此,第一个索引为“ Period”)。这样做很简单,如果很耗时的话(因为“ N-grams”列中的每个单元格都是一个列表,因此我不确定可以做很多事情来加快速度)。我使用以下代码创建一个新的DataFrame来保存计数:

# Create the frequencies DataFrame.
period_index = ngrams.index.unique(level = "Period")
freqs = DataFrame(index = period_index)

# Count the n-grams in each period.
for period in period_index:
    for ngrams_list in ngrams.loc[period, "N-grams"]:
        for ngram in ngrams_list:
            if not ngram in freqs.columns:
                freqs[ngram] = 0
            freqs.loc[period, ngram] += 1

逻辑很简单:如果已经看到了所讨论的n元语法(“频率”中有一列),则将计数增加1。如果未看到,则创建一个新的0列该n-gram,然后正常增加。在大多数情况下,这可以正常工作,但是对于一小部分的n-gram,当循环达到增量行时,我会收到此错误:

KeyError: u'the label [7 85.40] is not in the [index]'

(很抱歉,缺少正确的堆栈跟踪信息-我正在使用Zeppelin笔记本进行此操作,而Zeppelin没有提供正确的堆栈跟踪信息。)

进一步的调试表明,在这种情况下,新列的创建会以静默方式失败(即,它不起作用,但也不会返回异常)。

可能值得注意的是,在早期版本的代码中,我使用“ loc”直接分配给新创建的列中的单元格,而不是像这样先创建列:

if not ngram in freqs.columns:
    freqs.loc[period, ngram] = 1

我进行了更改,因为它通过为该n-gram分配所有其他期间的NaN来引起问题,但是直接分配与新代码完全相同的n-gram阻塞了。

通过将增量线包装在try / except块中,我发现该错误极为罕见:在主体中,该错误发生在总数超过100,000个n-gram中的约20个。这里有些例子:

"7 85.40"
"2014 july"
"2010 3.4"
"and 77"
"1997 and"
"and 2014"
"6 2008"
"879 --"
"-- 894"
"2003 -"
"- 2014"

20个中的大多数都包含数字,但是至少一个完全是字母(两个单词之间用空格隔开-它不在上面的列表中,因为我在键入此问题时重新运行了脚本,但没有得到所有的方式),并且只有数字的n-gram不会引起问题。大多数有问题的问题涉及几年,从表面上看,这可能暗示与DataFrame的DatetimeIndex混淆(假设DatetimeIndex接受部分匹配),但这不能解释非日期,尤其是那些非日期以字母开头。

尽管DatetimeIndex冲突不太可能,但我尝试使用另一种方法来创建每个新列(如将新列添加到Python pandas中的现有DataFrame中的答案所建议),使用“ loc”避免行和列之间的任何混淆:

freqs.loc[:, ngram] = Series(0, index = freqs.index)

...但是这与我通过分配给不存在的列隐式创建每个新列的原始代码完全一样的命运:

KeyError: u'7 85.40'

接下来,我尝试了DataFrame.assign方法(建议使用与上面引用的答案相同的方法,尽管我需要添加对以新列名指定为string的pandas的答案建议的解决方法):

kwarg = {ngram: 0}
freqs = freqs.assign(**kwarg)

las,这会产生完全相同的错误。

有谁对为什么会发生有任何见解?考虑到稀有性,我想我可以忽略有问题的n-gram,但是最好了解发生了什么。

MTKnife

对于我的大约3,000个简短文档的原始数据集,jpp的答案很好,并且在我正在测试的服务器上的Zeppelin中运行了大约10分钟-比我以前使用的代码快一个数量级(除了解决KeyError问题)。但是,当我尝试使用大约10,000个更大的数据集时,代码在运行18小时后仍未完成-我怀疑它与使用时将所有内容保留在内存中有关apply(请参阅https:// ys-l。 github.io/posts/2015/08/28/how-not-to-use-pandas-apply/对于此问题的一些思考)。

考虑到这apply只是创建嵌套循环的一种优雅方式,我决定通过显式编写循环来避免明显的内存问题,同时仍然使用该Series.value_counts方法,这应该是真正提高效率的源泉。由于数据类型的问题,这有点棘手,但这是最终结果:

period_index = ngrams.index.unique(level = "Period")
freqs = DataFrame()

for period in period_index:
    period_ngrams = ngrams.loc[period]
    period_freqs = DataFrame(index = period_ngrams.index)
    for i, doc in period_ngrams.iterrows():
        period_freqs = period_freqs.append(Series(doc["N-grams"]). \
                           value_counts(sort = False), ignore_index = True)
    period_sums = period_freqs.sum()
    period_sums.name = period
    freqs = freqs.append(period_sums)
    print "Processed period " + str(period) + "."

freqs["Totals"] = freqs.sum(axis = 1)
freqs = freqs.fillna(0).astype(int)

事实证明,这不仅适用于较大的数据集,而且实际上速度更快:10,000个文档需要5分钟。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

将列分配给pandas df

将新值分配给Pandas DataFrame的子集

查找值并将值分配给Pandas中的列

将值分配给Pandas中的多个列

无法将值分配给Pandas中的某些列

将系列分配给Pandas DataFrame的几行

将数组值分配给NaN Dataframe Pandas

一次分配给多个列(python pandas)

将 numpy 矩阵分配给 pandas 列

将子项分配给 Pandas 中的主项

分配给 Pandas 中的分组数据框

递归创建并分配给Pandas中的数据框

将变量值分配给 Pandas DataFrame 中的新列

如何使用Pandas DataFrame中的函数添加多个列并分配给新的列名?

Pandas DataFrame:如果满足多个条件,则将整数分配给新列

ValueError:将新列分配给pandas DataFrame时,无法从重复的轴重新索引

根据Pandas中其他列的值将值分配给新列

根据多个条件将现有列的值分配给 Pandas 中的新列

Python:使用其他列将值分配给Pandas中的新列作为列表

我可以将numpy数组分配给pandas 1.0.3中的新列吗

反复将字符[ac]分配给Pandas Dataframe中的行,直到列长结束

创建一个新列,将相同的索引分配给Pandas DataFrame中的重复值

将NumericVector分配给DataFrame的列

如何将pandas.core.series.Series分配给pandas数据框列

使用默认值将pandas.DataFrame列分配给Series

为什么我不能将数组分配给 Pandas DataFrame 列?

如何使用多索引分配给 Pandas.Series 中的新行?

根据另一列中的变量将Pandas中的值分配给该列

在pandas dataframe .loc方法中,如何分配给变量以使其像“:”?