Pourquoi existe-t-il deux options pour lire un fichier CSV dans PySpark? Lequel dois-je utiliser?

phez1

Spark 2.4.4:

Je souhaite importer un fichier CSV, mais il existe deux options. Pourquoi donc? Et lequel est le meilleur? Lequel dois-je utiliser?

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .master("local[2]") \
    .config('spark.cores.max', '3') \
    .config('spark.executor.memory', '2g') \
    .config('spark.executor.cores', '2') \
    .config('spark.driver.memory','1g') \
    .getOrCreate()

Option 1

df = spark.read \
    .format("com.databricks.spark.csv") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .load("data/myfile.csv")

Option 2

df = spark.read.load("data/myfile.csv", format="csv", inferSchema="true", header="true")
OneCricketeer

À partir de Spark 2, il com.databricks.spark.csvn'est pas nécessaire d'écrire complètement puisque le lecteur CSV est inclus. Par conséquent, l'option 2 serait préférable.

Ou légèrement plus court,

spark.read.csv("data/myfile.csv", inferSchema=True, header=True)

Mais l'option 2 serait meilleure si vous extrayiez le format d'entrée dans un fichier de configuration

Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.

En cas d'infraction, veuillez [email protected] Supprimer.

modifier le
0

laisse moi dire quelques mots

0commentaires
connexionAprès avoir participé à la revue

Articles connexes

Pourquoi Google propose-t-il autant de bibliothèques clientes? Lequel dois-je utiliser pour la journalisation Stackdriver?

Existe-t-il un fichier de configuration pour Marklogic dans lequel je peux définir les dossiers par défaut pour les nouvelles forêts

Pourquoi existe-t-il deux options pour «Modifier T2 illimité» dans AWS Console?

Quand dois-je utiliser numpy.genfromtxt au lieu de pandas.read_csv pour lire un fichier csv?

Existe-t-il un moyen par lequel je peux nommer le fichier pdf joint dans le courrier flask?

Existe-t-il une autre méthode que je peux utiliser pour lire des lignes dans mon code pour exécuter la fonction d'un readLine ()?

Existe-t-il un moyen d'utiliser le traitement parallèle pour lire des morceaux d'un fichier et joindre la chaîne dans l'ordre?

Pourquoi existe-t-il deux façons de désinstaller un fichier dans Git?

Pourquoi dois-je spécifier la propriété viewBox lorsque je référence SVG à partir d'un autre fichier pour lequel viewBox est spécifié?

Existe-t-il un scénario dans lequel il est logique d'utiliser NOT LIKE ANY ?

Yii2. Pourquoi dois-je télécharger le fichier deux fois pour avoir un effet?

Comment utiliser correctement peek () ou existe-t-il une meilleure solution pour lire à partir d'un fichier texte?

Existe-t-il une astuce pour utiliser des macros dans le même fichier dans lequel elles sont définies?

Est-il judicieux d'utiliser R pour lire et rechercher dans un fichier CSV extrêmement volumineux?

Existe-t-il un moyen d'utiliser deux @* dans un sélecteur XPath pour sélectionner un élément ?

Existe-t-il un moyen de lire une variable à partir d'un fichier .ahk et de l'utiliser dans un autre fichier de script batch

Existe-t-il un moyen d'utiliser la méthode "read_csv" pour lire les fichiers csv dans l'ordre où ils sont répertoriés dans un répertoire?

Où dois-je spécifier le nom de fichier vers lequel créer un lien dans FFI pour Rust?

Existe-t-il un moyen d'utiliser read.fortran () pour lire une chaîne plutôt qu'un fichier?

Est-il possible d'utiliser pandas et / ou pyreadstat pour lire un gros fichier SPSS en morceaux, ou existe-t-il une alternative?

Existe-t-il une ligne simple pour convertir un fichier texte en dictionnaire en Python sans utiliser CSV?

Existe-t-il un moyen d'utiliser le montage de liaison, dans docker, pour un seul fichier uniquement

Existe-t-il un moyen d'utiliser Spark pour charger un fichier dans FTP en utilisant TLS

Existe-t-il une alternative à robocopy que je peux utiliser dans mon fichier batch où je peux utiliser un caractère générique dans le chemin ?

Existe-t-il un moyen d'utiliser deux classes ou plus pour une activité dans Android Studio ?

Existe-t-il un moyen d'ouvrir deux onglets pour le même fichier dans IDEA?

Existe-t-il un dossier dans lequel je peux déposer un fichier .vsix qui entraînera la mise à jour de Visual Studio à partir de ce fichier la prochaine fois qu'il s'ouvrira ?

Existe-t-il un moyen pour cette requête de fonctionner avec des JOINs ou dois-je utiliser un UNION?

Est-il possible de remplacer un seul type de colonne lors de l'utilisation de PySpark pour lire dans un fichier CSV ?

TOP liste

  1. 1

    comment afficher un bouton au-dessus d'un autre élément ?

  2. 2

    impossible d'obtenir l'image d'arrière-plan en plein écran dans reactjs

  3. 3

    Je continue à obtenir l'objet 'WSGIRequest' n'a pas d'attribut 'Get' sur django

  4. 4

    comment supprimer "compte de connexion google" à des fins de développement - actions sur google

  5. 5

    Conversion double en BigDecimal en Java

  6. 6

    Impossible d'accéder à la vue personnalisée pendant le test de l'interface utilisateur dans XCode

  7. 7

    Algorithme: diviser de manière optimale une chaîne en 3 sous-chaînes

  8. 8

    Passer la taille d'un tableau 2D à une fonction ?

  9. 9

    Comment obtenir l'intégration contextuelle d'une phrase dans une phrase à l'aide de BERT ?

  10. 10

    Comment changer le navigateur par défaut en Microsoft Edge pour Jupyter Notebook sous Windows 10 ?

  11. 11

    CSS: before ne fonctionne pas sur certains éléments,: after fonctionne très bien

  12. 12

    Comment créer un bot à compte à rebours dans Discord en utilisant Python

  13. 13

    Comment ajouter une entrée à une table de base de données pour une combinaison de deux tables

  14. 14

    Exporter la table de l'arborescence vers CSV avec mise en forme

  15. 15

    Comment activer le message Pylint "too-many-locals" dans VS Code?

  16. 16

    Créer un système Buzzer à l'aide de python

  17. 17

    Spring @RequestParam DateTime format comme ISO 8601 Date Heure facultative

  18. 18

    Empêcher l'allocation de mémoire dans la génération de combinaison récursive

  19. 19

    Déplacement des moindres carrés d'ajustement pour les déplacements de points ayant des problèmes

  20. 20

    Comment choisir le nombre de fragments et de répliques Elasticsearch

  21. 21

    Microsoft.WebApplication.targets

chaudétiquette

Archive