从列表中提取标题，并创建一个与标题并排放置到列表元素的DataFrame

SD垃圾

抓取网站后，我得到了一个看起来像这样的列表：

data = ['\xa0header1', 'element1', 'element2', 'element3', '\xa0header2', 'element4', 'element5']

等等。

我想用抓取的数据创建一个熊猫数据框，如下所示：

          A         B
   0  element1   header1
   1  element2   header1
   2  element3   header1
   3  element4   header2
   4  element5   header2

因此，基本上，我想在下一列中显示标题，该标题位于初始列表的一组元素上方。

考虑到标题前面的特殊字符，如何轻松地在列表中查找它们，该怎么办？

itertools groupby +重复+链

这是使用该itertools模块的一种解决方案。本质上，这些是我们需要执行的唯一操作：

根据项目是否以分组\xa0。
分组后，为列表列表中的每个列表重复标题。
连锁系列的结果，A并B删除嵌套列表。

至关重要的是，这些操作已经在标准库中懒惰而有效地实现了，因此无需使用纯Python进行复制（尽管这本身就是一个很好的学习练习）。

完整的解决方案：

from itertools import chain, groupby, repeat

chainer = chain.from_iterable

data = ['\xa0header1', 'element1', 'element2', 'element3',
        '\xa0header2', 'element4', 'element5']

def condition(x):
    return x.startswith('\xa0')

# create list of lists for elements
elements = [list(j) for i, j in groupby(data, key=condition) if not i]

# create list of headers
headers = [next(j) for i, j in groupby(data, key=condition) if i]

# chain list of lists, and use repeat for headers
df = pd.DataFrame({'A': list(chainer(LoL)),
                   'B': list(chainer(repeat(i, j) for i, j in \
                             zip(headers, map(len, elements))))})

print(df)

          A         B
0  element1   header1
1  element2   header1
2  element3   header1
3  element4   header2
4  element5   header2

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-23

我来说两句

0 条评论

登录后参与评论

上一篇：从令牌头中删除“承载者”，而无需实施自定义身份验证方案或解析令牌？

从列表中提取标题，并创建一个与标题并排放置到列表元素的DataFrame

从列表中提取标题，并创建一个与标题并排放置到列表元素的DataFrame

itertools groupby +重复+链

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException