将数据从.avro文件导入到配置单元表

克鲁纳·帕尔玛

我通过遵循命令和avro模式创建了一个配置单元表。

CREATE TABLE table_name
PARTITIONED BY (t string, y string, m string, d string, h string, hh string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
TBLPROPERTIES (
'avro.schema.url'='hdfs://location/schema.avsc');

现在我想将HDFS中的数据转储到创建的表中。

我有一个HDFS位置,在这里我的目录结构中的数据为t / y / m / d / h / hh / data.avro。根据分区,我有多个目录,因为这是我的分区列。

我想将所有数据转储到创建的表中。

我尝试使用外部表,但它给出了异常。

拉各斯

如果您在hdfs文件夹中遵循配置单元约定并创建指向该表位置的配置单元表,则应运行msck repair table语句。

例如

CREATE TABLE table_name
PARTITIONED BY (t string, y string, m string, d string, h string, hh string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
TBLPROPERTIES (
'avro.schema.url'='hdfs://location/schema/schema.avsc')
location "hdfs:///location/data;

并像这样加载数据

/location/data/y=2016/m=02/d=03/h=03/hh=12/data.avro / location / data / y = 2016 / m = 02 / d = 03 / h = 03 / hh = 13 / data2.avro

这样,您将能够使用以下语句加载数据,因为Hive会识别分区

msck repair table table_name;

如果您不想这样做,可以使用添加分区,例如

ALTER TABLE table_nameADD PARTITION (y='01',m='02',d='03',h='03',hh='12') location '/yourpath/y=2016/m=02/d=03/h=03/hh=12/'; (or any other folder)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

将数据从csv文件导入到postgres表中,而无需先创建表

如何通过Java代码将CSV文件数据导入到PostgreSQL表中?

将数据表从网页导入到 Google Sheets

将数据从Word 2003(Doc)文件导入到Access?

使用sql将数据从文件csv导入到Oracle

将数据从CSV文件导入到InfluxDB

将数据从 csv 文件导入到 R

将数据从 xls 文件导入到 datagridview?

在增量导入到配置单元中时,是否有人重复数据?

将数据从MySql导入到Stata

将数据从选择导入到输入

将数据从Excel导入到MVC

将数据从Excel导入到Word

将数据从DTS导入到SSIS

将数据从arduino导入到python

使用导入导出向导将DAT文件内容导入到SQL Server表中-错误

将fortran文件导入到python

将文件从Sharepoint导入到R

将多个分隔的文本文件导入到SQL Server数据库中并自动创建表

如何在春季将xml bean配置文件导入到@configuration类?

将交叉表数据从Excel导入到Pandas数据框

将数据从一张工作表导入到另一张工作表中的“仅一个单元格”

如何将数据从txt文件导入到MySQL数据库

将数据从 txt 文件中的数据帧导入到字典中

从Windows中的.csv文件将数据导入到mongodb数据库中

将数据导入到其中具有嵌套表的新表中

如何将excel表中的数据同时导入到关系表中

将数据从excel文件文件夹导入到特定的excel文件进行分析

使用Google Script将多个CSV文件导入到Google工作表