So führen Sie mehrere Zeilen mit gemeinsamer ID zu einer einzigen Zeile zusammen (PYSPARK)

Alessio Iannini

Ich habe diesen Datenrahmen in PySpark. Ich möchte eindeutige Werte für col3 erhalten. In SQL würde ich nach col1 gruppieren und max(col3) als col3 erhalten

+----+----+----+ |col1|col2|col3| +----+----+----+ | 0| 1| 0| | 0| 1| 0| | 0| 1| 0| | 1| 1| 0| | 1| 1| 1| | 1| 1| 1| | 2| 1| 0| | 2| 1| 1| | 2| 1| 0| +----+----+----+

Dies ist die erwartete Ausgabe:

+----+----+----+ |col1|col2|col3| +----+----+----+ | 0| 1| 0| | 1| 1| 1| | 2| 1| 1| +----+----+----+

Shu

Sie können dieselbe Logik in pyspark .groupBy auf col1,col2 ausführen und dann agg den maximalen col3-Wert abrufen.

Eine andere Möglichkeit wäre, die Fensterfunktion row_numberund partitionbycol1,col2 und orderby desccol3 zu verwenden und nur die auszuwählenrownumber == 1

Example:

df.show()
#+----+----+----+
#|col1|col2|col3|
#+----+----+----+
#|   0|   1|   0|
#|   0|   1|   0|
#|   0|   1|   0|
#|   1|   1|   0|
#|   1|   1|   1|
#|   1|   1|   1|
#|   2|   1|   0|
#|   2|   1|   1|
#|   2|   1|   0|
#+----+----+----+

df.groupBy("col1","col2").agg(max("col3").alias("col3")).orderBy("col3").show()
#+----+----+----+
#|col1|col2|col3|
#+----+----+----+
#|   0|   1|   0|
#|   1|   1|   1|
#|   2|   1|   1|
#+----+----+----+

Using row_number():

from pyspark.sql.window import Window

w = Window.partitionBy("col1","col2").orderBy(desc("col3"))

df.withColumn("rn", row_number().over(w)).filter(col("rn") == 1).drop("rn").orderBy("col3").show()
#+----+----+----+
#|col1|col2|col3|
#+----+----+----+
#|   0|   1|   0|
#|   1|   1|   1|
#|   2|   1|   1|
#+----+----+----+

Dieser Artikel stammt aus dem Internet. Bitte geben Sie beim Nachdruck die Quelle an.

Bei Verstößen wenden Sie sich bitte [email protected] Löschen.

bearbeiten am2021-08-5

Lass mich ein paar Worte sagen

0Kommentare

LoginNach der Teilnahme an der Überprüfung

Vorheriger Beitrag:Wie erstelle ich ein Box-Plot von verschachtelten / gruppierten Kategorien in rbokeh?

So führen Sie mehrere Zeilen zu einer einzigen Zeile zusammen, jedoch nur für Zeilenblöcke, die durch Leerzeilen getrennt sind

Führen Sie mehrere Zeilen (mit einigen Nicht-Zeichenfolgenwerten) mit derselben ID in einer begrenzten Zeile in Pandas zusammen

TOP Liste

Artikel

So führen Sie mehrere Zeilen mit gemeinsamer ID zu einer einzigen Zeile zusammen (PYSPARK)

So führen Sie mehrere Zeilen mit gemeinsamer ID zu einer einzigen Zeile zusammen (PYSPARK)

Laravel-Namenskonvention, gleiche Entität oder separate Entitäten?

Summieren der Werte von JSON-Objekten in Javascript

Initialisieren Sie das 2d char-Array im c - tic tac toe-Spiel

Installieren Sie optionale Abhängigkeiten mit tox

Async / Await funktioniert in ASP.NET Core Controller-Aktionen nicht wie erwartet

Finden Sie mit NodeJS heraus, ob in einem Bild ein Logo vorhanden ist

Unity Build-Fehler: Der Name 'EditorUtility' ist im aktuellen Kontext nicht vorhanden

Snowflake-Aufgabe, um den Job jeden 2. Tag des Monats (Werktag) auszuführen

Springe zur nächsten Gruppe, wenn die Bedingung erfüllt ist

Wie kann ich eine verschachtelte Schleife mit lapply in R ersetzen?

Fügen Sie eine weitere Schaltfläche zu gwt Suggest Box hinzu

Löschen Sie Text in div mit Javascript

Rekursive Funktion, deren Ausführung ewig dauert

Xamarin.Forms.Android: java.lang.IllegalStateException: Fragment hat keine Ansicht

Wie kann ich eine Schleife mit der Funktion #define erstellen?

So laden Sie Bilder je nach Browserbreite

Was ist schneller: SUM über NULL oder über 0?

So verschieben Sie ein Bild in Flutter/Dart mit einem Draggable

ElasticSearch BulkShardRequest ist aufgrund von org.elasticsearch.common.util.concurrent.EsThreadPoolExecutor fehlgeschlagen

Eclipse Oxygen - Projekte verschwinden

Mein if / else funktioniert nicht richtig