Como colocar em cascata um número desconhecido de condições no Spark sem fazer um loop em cada condição

user1848018

Quero filtrar um quadro de dados com base nas consultas processadas do usuário, no entanto, o número de condições não é constante e mudará de usuário para usuário. Por exemplo, vamos supor que dois usuários terão as seguintes condições diferentes

1- df.filter( ( col('A') == 'book' ) & (col('B') == '1') & (col('C') == '0') )
2- df.filter( ( col('A') == 'film') ) & (col('B') == '0'))

Uma solução é cascatear as condições sequencialmente

for k,v in argList:
   df = df.filter(col(k) == v)

onde argList é uma lista de condições por usuário, por exemplo [('A','book') ,('B','1'), ('C','0')]ou [('A','film') ,('B','0')].....

Existe uma maneira melhor de cascatear várias condições sem repetir todas as condições?

Werner

Não há nada de errado em percorrer as condições, pois o otimizador do Spark combinará todos os filtros em um único:

df = spark.createDataFrame([(1,2),(1,4),(5,6)], ['A', 'B'])
df = df.filter(F.col('A') == 1)
df = df.filter(F.col('B') == 4)
df.explain()

estampas

== Physical Plan ==
*(1) Filter (((isnotnull(A#0L) AND isnotnull(B#1L)) AND (A#0L = 1)) AND (B#1L = 4))
+- *(1) Scan ExistingRDD[A#0L,B#1L]

e apenas uma operação de filtro é executada.

Este artigo é coletado da Internet.

Se houver alguma infração, entre em [email protected] Delete.

editar em
0

deixe-me dizer algumas palavras

0comentários
loginDepois de participar da revisão

Artigos relacionados

TOP lista

  1. 1

    R Shiny: use HTML em funções (como textInput, checkboxGroupInput)

  2. 2

    UITextView não está exibindo texto longo

  3. 3

    Dependência circular de diálogo personalizado

  4. 4

    Acessando relatório de campanhas na AdMob usando a API do Adsense

  5. 5

    Como assinar digitalmente um documento PDF com assinatura e texto visíveis usando Java

  6. 6

    R Folheto. Dados de pontos de grupo em células para resumir muitos pontos de dados

  7. 7

    Setas rotuladas horizontais apontando para uma linha vertical

  8. 8

    O Chromium e o Firefox exibem as cores de maneira diferente e não sei qual deles está fazendo certo

  9. 9

    Definir um clipe em uma trama nascida no mar

  10. 10

    Por que meus intervalos de confiança de 95% da minha regressão multivariada estão sendo plotados como uma linha de loess?

  11. 11

    Como dinamizar um Dataframe do pandas em Python?

  12. 12

    regex para destacar novos caracteres de linha no início e no fim

  13. 13

    Why isn't my C# .Net Core Rest API route finding my method?

  14. 14

    Como obter a entrada de trás de diálogo em treeview pyqt5 python 3

  15. 15

    Tabela CSS: barra de rolagem para a primeira coluna e largura automática para a coluna restante

  16. 16

    How to create dynamic navigation menu select from database using Codeigniter?

  17. 17

    Como recuperar parâmetros de entrada usando C #?

  18. 18

    Changing long, lat values of Polygon coordinates in python

  19. 19

    Livros sobre criptografia do muito básico ao muito avançado

  20. 20

    Método \ "POST \" não permitido no framework Django rest com ações extras & ModelViewset

  21. 21

    Pesquisa classificada, conte números abaixo do valor desejado

quentelabel

Arquivo