Cómo dividir el conjunto de datos en dos partes según el filtro en Spark-scala

usuario2895589

¿Es posible dividir DF en dos partes usando la operación de filtro único? Por ejemplo

digamos que df tiene registros por debajo

UID    Col
 1       a
 2       b
 3       c

si lo hago

df1 = df.filter(UID <=> 2)

¿Puedo guardar registros filtrados y no filtrados en diferentes RDD en una sola operación?

 df1 can have records where uid = 2
 df2 can have records with uid 1 and 3 
zero323

Si solo está interesado en guardar datos, puede agregar una columna de indicador a DataFrame:

val df = Seq((1, "a"), (2, "b"), (3, "c")).toDF("uid", "col")
val dfWithInd = df.withColumn("ind", $"uid" <=> 2)

y utilícelo como una columna de partición para DataFrameWriteruno de los formatos compatibles (como para 1.6 es Parquet, texto y JSON):

dfWithInd.write.partitionBy("ind").parquet(...)

Creará dos directorios separados ( ind=false, ind=true) al escribir.

Sin embargo, en general, no es posible producir múltiples RDDso DataFramesde una sola transformación. Consulte ¿Cómo dividir un RDD en dos o más RDD?

Este artículo se recopila de Internet, indique la fuente cuando se vuelva a imprimir.

En caso de infracción, por favor [email protected] Eliminar

Editado en
0

Déjame decir algunas palabras

0Comentarios
Iniciar sesiónRevisión de participación posterior

Artículos relacionados

Cómo dividir los datos csv en dos temas kafka diferentes según el filtro

Dividir el conjunto de datos en 2 partes estratificadas

Dividir el conjunto de datos en 2 partes estratificadas

¿Dividir el conjunto de datos en dos matrices numpy no redundantes?

Cómo dividir una cadena en dos cadenas según el delimitador en un marco de datos

Cómo dividir una cadena en dos cadenas según el delimitador en un marco de datos

dividir el marco de datos de pandas en dos según el día de la semana

dividir el marco de datos de pandas en dos según el día de la semana

¿Cómo dividir el conjunto de datos en dos conjuntos de datos con filas únicas y duplicadas cada una?

Dividir el conjunto de datos en R

Dividir el conjunto de datos según los nombres de archivo en Pytorch Dataset

¿Cómo dividir archivos csv en dos archivos según el valor de Colum en Windows?

Dividir el número en dos partes en Javascript

Laravel cómo dividir la matriz en dos según el valor de la clave

Dividir el marco de datos en dos subcuadros de datos según la cadena de valores de columna en R

R: ¿Cómo dividir varias columnas en partes iguales y equivalentes, reducir el número de columnas y reasignar datos?

Obtenga un conjunto de datos diferente según el valor en dos tablas

¿Cómo dividir el marco de datos en múltiples marcos de datos según el nombre de la columna?

Dividir un marco de datos en dos partes según las condiciones

¿Cómo dividir datos de una sola columna según el delimitador en el escenario de datos?

¿Cómo dividir una lista en 2 partes según el porcentaje?

Cómo agrupar y calcular el máximo según el filtro en el marco de datos de pandas

Dividir columnas en filas según el tipo de datos

¿Cómo funciona la condición del filtro en el marco de datos Spark?

Dividir la cuerda en 3 partes según el espacio

Consultas según el conjunto de datos en Firestore

Consultas según el conjunto de datos en Firestore

Consultas según el conjunto de datos en Firestore

Dividir un marco de datos en seis partes iguales según el número de filas sin saber el número de filas - pandas