如何检索实木复合地板文件中的TIMESTAMP列的idAdjustedUTC标志值?

索伦

我有一个实木复合地板文件,其中包含许多类型的列converted_type (legacy): TIMESTAMP_MICROS我想检查标志isAjustedToUTC是否为真。我可以这样得到:

import pyarrow.parquet as pq
import re   
 
arrow = pq.ParquetFile("/Parquet/File/Path/filename.parquet")
timestamp_string = str(arrow.metadata.row_group(0).column(79).statistics.logical_type)
re.search("isAdjustedToUTC=(.*), timeUnit",timestamp_string).group(1)

这给了我要么truefalse作为字符串。是否有另一种isAdjustedToUTC不用正则表达式来检索值的方法?

0x26分辨率

据我所知这是不可能的。logical_type的类型pyarrow._parquet.ParquetLogicalType不会直接公开其基础成员。

唯一可用的字段是:

dir(logical_type)
>> ['__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__ne__',
 '__new__',
 '__pyx_vtable__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'to_json',
 'type']

您可以使用该to_json函数,但是它与您建议的选项一样脏:

import json
json.loads(logical_type.to_json())['isAdjustedToUTC']
>> true

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何在IntelliJ中查看实木复合地板文件

如何查看Apache的实木复合地板的文件在Windows?

读取/写入实木复合地板文件中的pyarrow张量

火花读取实木复合地板中缺少的列

雅典娜为实木复合地板文件中的时间戳字段返回错误的值

读取部分实木复合地板文件

如何从Spark中的分区实木复合地板文件中读取特定日期范围

如何在Python中读取gzip压缩的实木复合地板文件

如何从实木复合地板文件中获取架构/列名称?

如何从实木复合地板文件中读取和编写自定义类

如何在Spark 2.1中保存分区的实木复合地板文件?

如何从S3读取单个实木复合地板文件到dask数据帧中?

如何使用Python在HDFS中打开实木复合地板文件?

如何使用pyarrow从s3中读取分区的实木复合地板文件?

实木复合地板中的索引

如何使用带有特定AWS配置文件的dask从s3中读取实木复合地板文件

读取使用pyarrow保存为实木复合地板的DataFrames,将文件名保存在列中

如何写TIMESTAMP逻辑类型(INT96)以实木复合地板,使用ParquetWriter?

保存到实木复合地板文件中时如何使用新的Int64 pandas对象

如何在不使用Spark软件包的情况下读取R中的实木复合地板文件?

如何使用dask / dask-cudf将单个大型实木复合地板文件读取到多个分区中?

读取时,Spark中的排序文件是否忽略了实木复合地板摘要文件(_metadata)?

为什么Orc文件比Hive中的实木复合地板文件消耗更多的空间?

使用PyArrow从HDFS读取实木复合地板文件

快从Spark读取实木复合地板文件

从多个分区读取多个实木复合地板文件

从分区的实木复合地板文件读取DataFrame

实木复合地板文件-可变频率的时间序列

CUDF错误处理大量实木复合地板文件