使用pandas.DataFrame将镶木地板文件写入CSV文件时如何防止表格格式？

梅尔日

我使用pyarrow.parquet读取了作为spark mllib输出的镶木地板文件。输出由一些行组成，每行有两对：一个词和一个向量（每行是一个word2vec对）。像下面这样：

 word1 "[-0.10812066  0.04352815 0.00529436 -0.0492562 -0.0974493533  0.275364409  -0.06501597  -0.3123745185 0.28186324 -0.05055101 0.06338456   -0.0842542  -0.10491376 -0.09692618 0.02451115  0.10766134]"  
 word2 "[-0.10812066  0.04352815 0.1875908 -0.0492562 ...
 ...

当我使用DataFrame将结果写入csv文件时，我得到了这个：

 word1 "[-0.10812066  0.04352815 0.00529436 -0.0492562
    -0.0974493533  0.275364409  -0.06501597  -0.3123745185
    0.28186324 -0.05055101 0.06338456   -0.0842542   
    -0.10491376 -0.09692618 0.02451115  0.10766134]"  
 word2 "[-0.10812066  0.04352815 0.1875908 -0.0492562 ...
 ...

如您所见，特殊位置的每个向量都被分成几行。我怎样才能得到csv输出作为我从镶木地板文件中读取的内容？我的源代码在这里：

import pandas as pd
import pyarrow.parquet as pq

data = pq.read_pandas('C://Users//...//p.parquet', columns=['word', 'vector']).to_pandas()

df = pd.DataFrame(data)

pd.DataFrame.to_csv(df, 'C://Users/...//p.csv', sep=" ", encoding='utf-8', columns=['word', 'vector'], index=False, header=False)

DataFrame 大小为：47524，DataFrame 形状为：(23762, 2)

梅尔日

经过大量搜索，我没有找到直接解决我的问题的方法。但我在 python 中使用列表解决了我的问题。

data = pq.read_pandas('C://...//p.parquet', columns['word','vector']).to_pandas()
df = pd.DataFrame(data)

vector = df['vector'].tolist()
word = df['word'].tolist()

k = [[]]
for i in range(0, word.__len__()):
    l = []
    l.append(word[i])
    l.extend(vector[i])
    k.append(l)

with open('C://...//f.csv', "w", encoding="utf-8") as f:
    writer = csv.writer(f)
    for row in k:
        writer.writerow(row)

因此，输出以与预期相同的形状显示。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-17

我来说两句

0 条评论

登录后参与评论

上一篇：tfidf 向量和 tfidf 向量数组之间的 Sklearn cosine_similarity

如何使用Spark（pyspark）编写镶木地板文件？

使用pandas.DataFrame将镶木地板文件写入CSV文件时如何防止表格格式？

使用pandas.DataFrame将镶木地板文件写入CSV文件时如何防止表格格式？

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序