So erhalten Sie die häufigsten Elemente für jedes Element der Array-Liste (pyspark)

stan.steve

Ich habe eine Liste von Arrays, für die ich für jedes Element der Liste das Element mit der höchsten Frequenz finden muss. Für den folgenden Code wird der Fehler "nicht zerlegbarer Typ: 'Liste'" ausgegeben. Ich habe jedoch auch versucht, die Ergebnisliste zu parallelisieren, aber den Fehler Überreste.

    # [array(0,1,1),array(0,0,1),array(1,1,0)] example of list


    def finalml(listn):
        return Counter(listn).most_common(1)


    # the array list is return by this 
    results = sn.rdd.map(lambda xw: bc_knnobj.value.kneighbors(xw, return_distance=False)).collect() 

    labels = results.map(lambda xw: finalml(xw)).collect()

erwartete Leistung [1,0,1]

mrjoseph

Versuchen Sie vielleicht Folgendes:

x = [[0,1,1],[0,0,1],[1,1,0]]
df = spark.createDataFrame(x)
df.show()

Eingabe df:

+---+---+---+
| _1| _2| _3|
+---+---+---+
|  0|  1|  1|
|  0|  0|  1|
|  1|  1|  0|
+---+---+---+

import pyspark.sql.functions as F
@F.udf
def mode(x):
    from collections import Counter
    return Counter(x).most_common(1)[0][0]

cols = df.columns
agg_expr = [mode(F.collect_list(col)).alias(col) for col in cols]
df.groupBy().agg(*agg_expr).show()

Ausgabe df:

+---+---+---+
| _1| _2| _3|
+---+---+---+
|  0|  1|  1|
+---+---+---+

Dieser Artikel stammt aus dem Internet. Bitte geben Sie beim Nachdruck die Quelle an.

Bei Verstößen wenden Sie sich bitte [email protected] Löschen.

bearbeiten am2021-01-12

Lass mich ein paar Worte sagen

0Kommentare

LoginNach der Teilnahme an der Überprüfung

Vorheriger Beitrag:Aktualisieren Sie die Azure DevOps-Wiki-Seiten mit Powershell

Verwandte Artikel

So erhalten Sie für jedes Element die nächsten r Elemente in der mxn-Matrix

So erhalten Sie die n häufigsten Elemente in jeder Gruppe

So erhalten Sie die Indizes von Spalten und Zeilen in einer zweidimensionalen Matrix (Liste), die die am häufigsten angegebenen Elemente bei der Verwendung von numpy in Python enthält

So erhalten Sie die häufigsten Werte eines Datenrahmens in PySpark

So erhalten Sie die Liste der untergeordneten Knoten für jedes übergeordnete Baumansicht

So erhalten Sie die größte Zahl für jedes Element in der Tabelle MySql

Python So erhalten Sie jedes erste Element in der zweidimensionalen Liste

So erhalten Sie die ersten Elemente aus einer Liste von Tupeln, wenn jedes Element auch in ein anderes Tupel eingeschlossen ist

So erhalten Sie eine sortierte Liste der am häufigsten verwendeten Werte für ein Feld in einer Mongodb-Sammlung

So erhalten Sie die Liste der Elemente in einer Transaktion in Paketarules

So drucken Sie jedes dritte Element aus dem aktuellen Index in der Liste der Elemente

So erhalten Sie den nächsten Nachbarn für jedes Element von Array A aus Array B

So erhalten Sie jedes Element aus einer Liste, die durch die x-Nummer teilbar ist

So erhalten Sie Element in Element aus der Liste der Elemente in Java und Selen

So gruppieren Sie Elemente in einem Array nach Zusammenfassung für jedes Element

So erhalten Sie innerHTML für jedes Element in einer Knotenliste

So drucken Sie alle Elemente aus, die in einem Array am häufigsten vorkommen

So finden Sie die häufigsten wiederkehrenden Elemente in einem Array in Javascript

Identifizieren Sie für jedes Produkt in der Spalte die Benutzer-ID, die das Produkt am häufigsten gebracht hat

So färben Sie für jedes Array von x, y-Punkten in der Liste

So überprüfen Sie die If-Bedingung für jedes Element in einer Liste

So erhalten Sie alle Storys und Unteraufgaben von einem bestimmten Benutzer zusammen mit der Zeit, die für jedes Element in JIRA aufgewendet wurde

Erhalten Sie die Gesamtsumme der Videokommentare für jedes Video

Filtern Sie die Elemente der Liste nach Typ jedes Elements

Finden Sie die am häufigsten vorkommenden Elemente in der Datenbanktabelle

Python: Erweitern Sie die Liste der Zeichenfolgen, indem Sie für jedes Originalelement n Elemente hinzufügen

So finden Sie die Anzahl der Zahlen, die kleiner als jedes Element einer Liste sind

Nehmen Sie die Elemente der am häufigsten vorkommenden Zeile einer Matrix in R heraus?

Wie filtere ich alle Elemente der Liste in R? Der Filter verwendet jedoch den Mittelwert jedes Elements, sodass sich die Bedingung für jedes Element ändert

TOP Liste

Artikel

So erhalten Sie die häufigsten Elemente für jedes Element der Array-Liste (pyspark)

So erhalten Sie die häufigsten Elemente für jedes Element der Array-Liste (pyspark)

So legen Sie mit dem Interface Builder unterschiedliche führende Speicherplätze für unterschiedliche Geräte fest

Wie konvertiere ich einen Vektor von Bytes (u8) in eine Zeichenfolge?

Wie kann ich in SCSS mehrere Klassen zu einer einzigen kombinieren?

Eclipse Oxygen - Projekte verschwinden

Wie konvertiert man einen Datenrahmen im langen Format in eine Liste mit einem geeigneten Format?

Wie kann ich den Kaskadenmodus global einstellen?

Wie erstelle ich einen neuen übergeordneten Knoten außerhalb der .ref (/ path) in der Firebase-Echtzeitdatenbank mithilfe von Cloud-Funktionen (Typescript)?

So erhalten Sie eine gleichmäßige Höhe für alle Eingabefelder

Python: Spalten mit demselben Namen zusammenführen, wobei der Mindestwert beibehalten wird

Speichern Sie ein MPAndroidChart-Diagramm in einem Bild, ohne es in einer Aktivität anzuzeigen

Gruppieren Sie Datenrahmenspalten nach ihrem Datum (die Spaltentitel enthalten) und fassen Sie die Instanzen von Einsen und Nullen in R . zusammen

ElasticSearch BulkShardRequest ist aufgrund von org.elasticsearch.common.util.concurrent.EsThreadPoolExecutor fehlgeschlagen

Tic Tac Toe-Spiel im React-Reset-Button funktioniert nicht

Tomcat - Leiten Sie den alten Kontextstamm zum neuen Kontextstamm um

Wie wählt man Unterschiede mit drei Tabellen aus?

Ärgerliches Problem mit yaml, das ich nicht lösen kann

Wie kann ich meine Tabelle abfragen, um sie in mySQL nach 2 Feldern zu gruppieren?

So berechnen Sie die Verfügbarkeit von Anwendungen (SLA)

Fügen Sie eine weitere Schaltfläche zu gwt Suggest Box hinzu

Modbus Python Schneider PM5300

Wie kann eine gleichmäßige Lastverteilung in ElasticSearch mit Indizes mit unterschiedlicher Anzahl von Shards erreicht werden?