Kopieren von Dateien von einem Azure-Speicherkonto in ein anderes mit PySpark

Cornel Verster

Ich versuche, Dateien, deren Namen bestimmten Kriterien entsprechen, von einem Azure-Speicherkonto (alle im Data Lake-Speicher) in ein anderes zu kopieren. Ich versuche derzeit, dies mit PySpark zu tun. Ich liste die Ordner auf, die ich mir ansehen möchte, richte dann Spark für den "Von"-Datalake ein und verwende dbutils, um die Dateien in den relevanten Ordnern abzurufen:

spark.conf.set("fs.azure.account.key."+dev_storage_account_name+".dfs.core.windows.net",dev_storage_account_access_key)

for folder in raw_folders:
    list_of_files = dbutils.fs.ls("abfss://[email protected]/" + folder)

Jetzt kann ich überprüfen, ob die Dateinamen den Bedingungen zum Kopieren entsprechen, aber wie kann ich meine Liste der gewünschten Dateien tatsächlich in Ordner in meinem "to"-Datalake verschieben?

KarthikBhyresh-MT

Sie müssen beide Container mounten und wie folgt verwenden, um Dateien zwischen Dateisystemen zu verschieben:

Ersetzen Sie in der Schleife für jede Iteration das Dateinamenfeld durch jedes Element im Array list_of_files

dbutils.fs.mv('abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<directory-name>/demo/test.csv', 'abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<directory-name>/destination/renamedtest.csv')

Ebenfalls....

Wenn Container nicht öffentlich sind (/ wenn es sich um den Stammordner handelt), verwenden Sie dbfs cli, um Dateien/Ordner zwischen den zuvor erstellten Einhängepunkten zu verschieben.

dbfs mv /mnt/folder1 /mnt/folder2

Wenn die Zugriffsebene der Container "anonymer Lesezugriff für Container und Blobs" ist, sollten Sie Dateien direkt verschieben können, ohne sogar Mounts zu erstellen.

Im Databricks-Notizbuch sollte der Code etwa so aussehen -

%fs mv /mnt/folder1 /mnt/folder2

Dieser Artikel stammt aus dem Internet. Bitte geben Sie beim Nachdruck die Quelle an.

Bei Verstößen wenden Sie sich bitte [email protected] Löschen.

bearbeiten am2021-09-15

Lass mich ein paar Worte sagen

0Kommentare

LoginNach der Teilnahme an der Überprüfung

Vorheriger Beitrag:Smartfield-Anmerkung - Werthilfe-Dropdown - zeigt keine Beschreibung an

So kopieren Sie alle Dateien von einem Verzeichnis in ein anderes, mit Ausnahme derer, die mit einer bestimmten Zeichenfolge in einem Bash-Skript beginnen

TOP Liste

Artikel

Kopieren von Dateien von einem Azure-Speicherkonto in ein anderes mit PySpark

Kopieren von Dateien von einem Azure-Speicherkonto in ein anderes mit PySpark

So legen Sie mit dem Interface Builder unterschiedliche führende Speicherplätze für unterschiedliche Geräte fest

Fügen Sie eine weitere Schaltfläche zu gwt Suggest Box hinzu

Wie konvertiere ich einen Vektor von Bytes (u8) in eine Zeichenfolge?

Wie kann ich in SCSS mehrere Klassen zu einer einzigen kombinieren?

Wie konvertiert man einen Datenrahmen im langen Format in eine Liste mit einem geeigneten Format?

Speichern Sie ein MPAndroidChart-Diagramm in einem Bild, ohne es in einer Aktivität anzuzeigen

Gruppieren Sie Datenrahmenspalten nach ihrem Datum (die Spaltentitel enthalten) und fassen Sie die Instanzen von Einsen und Nullen in R . zusammen

Tomcat - Leiten Sie den alten Kontextstamm zum neuen Kontextstamm um

Eclipse Oxygen - Projekte verschwinden

Wie wählt man Unterschiede mit drei Tabellen aus?

Tic Tac Toe-Spiel im React-Reset-Button funktioniert nicht

So berechnen Sie die Verfügbarkeit von Anwendungen (SLA)

ElasticSearch BulkShardRequest ist aufgrund von org.elasticsearch.common.util.concurrent.EsThreadPoolExecutor fehlgeschlagen

Wie kann ich den Kaskadenmodus global einstellen?

Python: Spalten mit demselben Namen zusammenführen, wobei der Mindestwert beibehalten wird

So erhalten Sie eine gleichmäßige Höhe für alle Eingabefelder

Wie erstelle ich einen neuen übergeordneten Knoten außerhalb der .ref (/ path) in der Firebase-Echtzeitdatenbank mithilfe von Cloud-Funktionen (Typescript)?

Was ist schneller: SUM über NULL oder über 0?

Wie kann ich eine verschachtelte Schleife mit lapply in R ersetzen?

Kann ich ein Tkinter-Canvas erstellen, das mehrere Zeilen in einem Text-Widget umfasst?

Ärgerliches Problem mit yaml, das ich nicht lösen kann