带有标头的 Spark SQLContext 查询

咖啡因

我正在使用 SQLContext 读取这样的 CSV 文件:

val csvContents = sqlContext.read.sql("SELECT * FROM 
                  csv.`src/test/resources/afile.csv` WHERE firstcolumn=21")

但它打印出第一列作为_c0并包括其下的标题。如何设置标题并使用 SQL 查询?我见过这个解决方案:

 val df = spark.read
         .option("header", "true") //reading the headers
         .csv("file.csv")

但这不允许我SELECT使用WHERE子句进行查询有没有办法指定 CSV 标头并进行SQL SELECT查询?

咖啡因

事实证明标题没有被正确解析。CSV 文件以制表符分隔,因此我必须明确指定:

val csvContents = sqlContext.read
        .option("delimiter", "\t")
        .option("header", "true")
        .csv(csvPath)
        .select("*")
        .where(s"col_id=22")

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

Spark DataFrame与sqlContext

Apache Spark SQLContext与HiveContext有什么区别?

Spark:AttributeError:'SQLContext'对象没有属性'createDataFrame'

无法从Apache Spark SQL 1.5.2在SQLContext中运行查询,获取java.lang.NoSuchMethodError

如何模拟 Spark SqlContext 的方法?

spark.sql和SqlContext

Spark SqlContext输出JSON格式

用sqlcontext激发并行查询

如何使用Scala在Spark中创建SQLContext?

Spark Scala:无法导入sqlContext.implicits._

Apache Spark错误:找不到:值sqlContext

使用 Apache Spark SQLContext 写入错误

pyspark:如何获取spark数据帧的Spark SQLContext?

Spark SQL中带有字符串查询的注释

Spark Scala与带有限制的子查询联接

带有HiveContext的Apache Spark查询不起作用

使用urllib.request查询带有一系列x-api-key标头的url

为Spark 2.x SQLContext设置Hadoop Config属性

无法使用Spark(sqlContext)在AWS Redshift中写入CSV数据

如何从Spark SQLContext连接到Netezza数据库

Spark SQL Dataframe-导入sqlContext.implicits._

Spark SQL的SparklyR包装器:sqlContext.sql

NoSuchMethodError:org.apache.spark.sql.SQLContext.sql

选择查询对大型数据集i sqlcontext失败

Scala如何使用sqlContext处理查询中的isnull或ifnull

具有XSLT标头的SQL Server FOR XML查询

没有SQLContext的pyspark中的clearCache

在Scala Spark应用程序中初始化SQLContext后,为什么要导入隐式SqlContext.implicits._

用于指定触发查询文件的语法(带有elasticsearch-spark连接器)