spark读取非UTF-8编码的wholeTextFiles

乔治·海勒

我想通过以下方式读取非 UTF-8 编码的整个文本文件

val df = spark.sparkContext.wholeTextFiles(path, 12).toDF

变成火花。如何更改编码？我想阅读 ISO-8859 编码的文本，但它不是 CSV，它类似于 xml:SGML。

编辑

也许应该使用自定义的 Hadoop 文件输入格式？

巴纳吉

这很简单。

这是源代码，

import java.nio.charset.Charset

import org.apache.hadoop.io.{Text, LongWritable}
import org.apache.hadoop.mapred.TextInputFormat
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD

object TextFile {
  val DEFAULT_CHARSET = Charset.forName("UTF-8")

  def withCharset(context: SparkContext, location: String, charset: String): RDD[String] = {
    if (Charset.forName(charset) == DEFAULT_CHARSET) {
      context.textFile(location)
    } else {
      // can't pass a Charset object here cause its not serializable
      // TODO: maybe use mapPartitions instead?
      context.hadoopFile[LongWritable, Text, TextInputFormat](location).map(
        pair => new String(pair._2.getBytes, 0, pair._2.getLength, charset)
      )
    }
  }
}

从这里复制。

https://github.com/databricks/spark-csv/blob/master/src/main/scala/com/databricks/spark/csv/util/TextFile.scala

使用它。

https://github.com/databricks/spark-csv/blob/master/src/test/scala/com/databricks/spark/csv/util/TextFileSuite.scala

编辑：

如果您需要全文文件，

这是实现的实际来源。

def wholeTextFiles(
      path: String,
      minPartitions: Int = defaultMinPartitions): RDD[(String, String)] = withScope {
    assertNotStopped()
    val job = NewHadoopJob.getInstance(hadoopConfiguration)
    // Use setInputPaths so that wholeTextFiles aligns with hadoopFile/textFile in taking
    // comma separated files as input. (see SPARK-7155)
    NewFileInputFormat.setInputPaths(job, path)
    val updateConf = job.getConfiguration
    new WholeTextFileRDD(
      this,
      classOf[WholeTextFileInputFormat],
      classOf[Text],
      classOf[Text],
      updateConf,
      minPartitions).map(record => (record._1.toString, record._2.toString)).setName(path)
  }

尝试改变：

.map(record => (record._1.toString, record._2.toString))

到（可能）：

.map(record => (record._1.toString, new String(record._2.getBytes, 0, record._2.getLength, "myCustomCharset")))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-1

我来说两句

0 条评论

登录后参与评论

上一篇：为什么kibana的可视化图表中的唯一计数不正确？

如何读取非UTF8编码的csv文件？

我必须使用哪种python编码类型来读取非utf-8字符？

从Golang中的网络调用中读取非utf8编码的数据

Spark utf 8错误，非英语数据变为`??????????`

使用Go从连接读取utf8编码的数据

使用UTF-8编码读取XML文件

以ncurses的方式从键盘读取UTF-8编码的字符

如何在R中读取utf-8编码的文本

Python请求：以非utf-8编码提交JSON

如何在RStudio中检测非UTF-8编码

阅读非utf-8编码的字符列表

克服非utf8网址编码

使用非 utf8 编码的 MySQL SUBSTRING()

Android 数据绑定生成非 UTF-8 编码的文件

UTF8编码问题？

编码（UTF-8）问题

python编码utf-8

HttpServletRequest UTF-8编码

UTF-8编码URL

编码HttpResponse UTF-8

WebBrowser编码UTF-8

HttpServletRequest UTF-8编码

Spark textFile与WholeTextFiles

如何使用wholeTextFiles在Spark中读取gz文件

在Go中读取非UTF-8文本文件

如何在Rust中逐行读取非UTF8文件

UTF-8使用Tomcat编码Servlet表单提交的编码

UTF-8编码与Base-64编码

TOP 榜单

文章

spark读取非UTF-8编码的wholeTextFiles

spark读取非UTF-8编码的wholeTextFiles

编辑

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局