将pandas df列的值转换为uniqueidentifiers

oakca 发表于 Dev

橡树

我有两个熊猫数据框，如下所示：

df1
            node_id        lat       long
0      [INET_N_855]  53.017810  23.896413
1     [INET_N_1828]  52.984994  22.241386
2      [INET_N_329]  52.881484  20.619795
3     [INET_N_1612]  46.505528  13.592806
4     [INET_N_1009]  46.503733  13.416054
...             ...        ...        ...
4670  [SEQ_12031_p]  49.697490  12.328040
4671      [NO_N_30]  59.272825   5.519794
4672   [INET_N_379]  35.828836  14.556524
4673  [INET_N_1287]  61.638170  21.398810
4674      [Prod_33]  64.982320   6.611590
[4675 rows x 3 columns]

df2
                         node_id  ...                    long
0      [INET_N_855, INET_N_1828]  ...  [23.896413, 22.241386]
1      [INET_N_1828, INET_N_329]  ...  [22.241386, 20.619795]
2     [INET_N_1612, INET_N_1009]  ...  [13.592806, 13.416054]
3     [INET_N_1612, INET_N_1009]  ...  [13.592806, 13.416054]
4     [INET_N_1612, INET_N_1009]  ...  [13.592806, 13.416054]
...                          ...  ...                     ...
6318    [SEQ_6435_p, INET_N_379]  ...   [13.88715, 14.556524]
6319  [N_14_M_LMGN, INET_N_1287]  ...    [23.08042, 21.39881]
6320      [SEQ_12356_p, Prod_33]  ...     [6.755214, 6.61159]
6321  [N_261_M_LMGN, SEQ_2566_p]  ...    [25.34835, 25.25854]
6322  [N_261_M_LMGN, SEQ_2566_p]  ...    [25.34835, 25.25854]
[6323 rows x 3 columns]

df2列'node_id'是由来自项目df1栏'node_id'。遗憾的是，其中的一些项目'node_id'太长了。因此，'node_id'输入模拟程序时，应将这些列表项缩短到等于或小于12 个字符。

为了实现这一点，我需要一个unique_identifier_generator(df1, df2)函数，它将条目转换df1['node_id']为一些等于/小于 12 个字符的唯一 id，并且对df2['node_id']匹配的唯一 id也做同样的事情。

我想我可以做熊猫元素更改部分。但是，我不知道如何创建unique_identifier_generator函数。

你知道用什么吗？或者我应该检查什么 python 包？或者可能是从给定的字符串或给定的熊猫系列生成唯一 id 的简单方法？

安东

这种听起来像散列函数可以做的事情，python hashlib doc中有很多这样的东西，但你可能应该选择一个没有高冲突弱点的

除此之外，您可以从 sklearn 中查看LabelEncoder，这可能会更容易一些，因为那里不应该发生碰撞

添加 id 的基本示例：

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder().fit(df.node_id)
df["id"] = encoder.transform(df.node_id)

id 可以转换为字符串或类似的东西，但在某些情况下 int 可能更有用

转换为 str 可能如下所示：

df["id"] = [f"node_{id}" for id in encoder.transform(df.node_id)]

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-09-14

我来说两句

0 条评论

登录后参与评论

上一篇：使用 openPDF 添加认证/docMDP 签名

Python Pandas如何将df：列值转换为行值？

旋转熊猫 df - 将列值转换为列名

将Pandas df列转换为JSON字符串

将pandas df列转换为配对列表

如何将一些 datetime.datetime 值转换为 pandas df 列中的 datetime.time 值

在Python中，如何将字典转换为键匹配df.index值的df列？

根据一列作为变量和两列作为值，将 pandas df 从长转换为宽

将pandas df转换为json

将嵌套列表转换为Pandas DF

将Spark DataFrame转换为Pandas DF

将pandas DF转换为特殊词典？

将 CSV 转换为 DF Pandas

如何使用 Pandas 将索引值转换为列？

将复合值转换为Pandas数据框中的列

将Pandas DataFrame列值转换为列名

将索引值转换为pandas中的列

将分类值转换为Pandas中的列

将分类值的行转换为 Pandas 中的列

将行值转换为Pandas中的特定列

使用 Pandas DataFrame 将列键/值转换为多行

Python：将 JSON 从 df 列转换为单独的 df 列

将 df 列转换为 json df 列

将值转换为列

Pandas：将列名的子集转换为值

pandas数据框：将2列（值，值）转换为2列（值，类型）

将Pandas df列的字符串列表转换为int

将sav转换为pandas df错过了最后一列

将 Pandas df 中的日期和时间列转换为时间戳

将列值转换为列

TOP 榜单

文章

将pandas df列的值转换为uniqueidentifiers

将pandas df列的值转换为uniqueidentifiers

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用