Spark 2.4.4:
Je souhaite importer un fichier CSV, mais il existe deux options. Pourquoi donc? Et lequel est le meilleur? Lequel dois-je utiliser?
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.master("local[2]") \
.config('spark.cores.max', '3') \
.config('spark.executor.memory', '2g') \
.config('spark.executor.cores', '2') \
.config('spark.driver.memory','1g') \
.getOrCreate()
df = spark.read \
.format("com.databricks.spark.csv") \
.option("header", "true") \
.option("inferSchema", "true") \
.load("data/myfile.csv")
df = spark.read.load("data/myfile.csv", format="csv", inferSchema="true", header="true")
À partir de Spark 2, il com.databricks.spark.csv
n'est pas nécessaire d'écrire complètement puisque le lecteur CSV est inclus. Par conséquent, l'option 2 serait préférable.
Ou légèrement plus court,
spark.read.csv("data/myfile.csv", inferSchema=True, header=True)
Mais l'option 2 serait meilleure si vous extrayiez le format d'entrée dans un fichier de configuration
Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.
En cas d'infraction, veuillez [email protected] Supprimer.
laisse moi dire quelques mots