Pourquoi existe-t-il deux options pour lire un fichier CSV dans PySpark? Lequel dois-je utiliser?

phez1 Publié le Dev

2

phez1

Spark 2.4.4:

Je souhaite importer un fichier CSV, mais il existe deux options. Pourquoi donc? Et lequel est le meilleur? Lequel dois-je utiliser?

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .master("local[2]") \
    .config('spark.cores.max', '3') \
    .config('spark.executor.memory', '2g') \
    .config('spark.executor.cores', '2') \
    .config('spark.driver.memory','1g') \
    .getOrCreate()

Option 1

df = spark.read \
    .format("com.databricks.spark.csv") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .load("data/myfile.csv")

Option 2

df = spark.read.load("data/myfile.csv", format="csv", inferSchema="true", header="true")

OneCricketeer

À partir de Spark 2, il com.databricks.spark.csvn'est pas nécessaire d'écrire complètement puisque le lecteur CSV est inclus. Par conséquent, l'option 2 serait préférable.

Ou légèrement plus court,

spark.read.csv("data/myfile.csv", inferSchema=True, header=True)

Mais l'option 2 serait meilleure si vous extrayiez le format d'entrée dans un fichier de configuration

Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.

En cas d'infraction, veuillez [email protected] Supprimer.

modifier le2021-01-21

laisse moi dire quelques mots

0commentaires

connexionAprès avoir participé à la revue

Article précédent:TeamCity avec AWS cloudformation bloqué sur AgentService

Articles connexes

Pourquoi Google propose-t-il autant de bibliothèques clientes? Lequel dois-je utiliser pour la journalisation Stackdriver?

Existe-t-il un fichier de configuration pour Marklogic dans lequel je peux définir les dossiers par défaut pour les nouvelles forêts

Pourquoi existe-t-il deux options pour «Modifier T2 illimité» dans AWS Console?

Quand dois-je utiliser numpy.genfromtxt au lieu de pandas.read_csv pour lire un fichier csv?

Existe-t-il un moyen par lequel je peux nommer le fichier pdf joint dans le courrier flask?

Existe-t-il une autre méthode que je peux utiliser pour lire des lignes dans mon code pour exécuter la fonction d'un readLine ()?

Existe-t-il un moyen d'utiliser le traitement parallèle pour lire des morceaux d'un fichier et joindre la chaîne dans l'ordre?

Pourquoi existe-t-il deux façons de désinstaller un fichier dans Git?

Pourquoi dois-je spécifier la propriété viewBox lorsque je référence SVG à partir d'un autre fichier pour lequel viewBox est spécifié?

Existe-t-il un scénario dans lequel il est logique d'utiliser NOT LIKE ANY ?

Yii2. Pourquoi dois-je télécharger le fichier deux fois pour avoir un effet?

Comment utiliser correctement peek () ou existe-t-il une meilleure solution pour lire à partir d'un fichier texte?

Existe-t-il une astuce pour utiliser des macros dans le même fichier dans lequel elles sont définies?

Est-il judicieux d'utiliser R pour lire et rechercher dans un fichier CSV extrêmement volumineux?

Existe-t-il un moyen d'utiliser deux @* dans un sélecteur XPath pour sélectionner un élément ?

Existe-t-il un moyen de lire une variable à partir d'un fichier .ahk et de l'utiliser dans un autre fichier de script batch

Existe-t-il un moyen d'utiliser la méthode "read_csv" pour lire les fichiers csv dans l'ordre où ils sont répertoriés dans un répertoire?

Où dois-je spécifier le nom de fichier vers lequel créer un lien dans FFI pour Rust?

Existe-t-il un moyen d'utiliser read.fortran () pour lire une chaîne plutôt qu'un fichier?

Est-il possible d'utiliser pandas et / ou pyreadstat pour lire un gros fichier SPSS en morceaux, ou existe-t-il une alternative?

Existe-t-il une ligne simple pour convertir un fichier texte en dictionnaire en Python sans utiliser CSV?

Existe-t-il un moyen d'utiliser le montage de liaison, dans docker, pour un seul fichier uniquement

Existe-t-il un moyen d'utiliser Spark pour charger un fichier dans FTP en utilisant TLS

Existe-t-il une alternative à robocopy que je peux utiliser dans mon fichier batch où je peux utiliser un caractère générique dans le chemin ?

Existe-t-il un moyen d'utiliser deux classes ou plus pour une activité dans Android Studio ?

Existe-t-il un moyen d'ouvrir deux onglets pour le même fichier dans IDEA?

Existe-t-il un dossier dans lequel je peux déposer un fichier .vsix qui entraînera la mise à jour de Visual Studio à partir de ce fichier la prochaine fois qu'il s'ouvrira ?

Existe-t-il un moyen pour cette requête de fonctionner avec des JOINs ou dois-je utiliser un UNION?

Est-il possible de remplacer un seul type de colonne lors de l'utilisation de PySpark pour lire dans un fichier CSV ?

TOP liste

article

chaudétiquette

Archive