Como agrupar por elemento comum na matriz?

Arvind Kumar Anugula

Estou tentando encontrar a solução no spark para agrupar dados com um elemento comum em uma matriz.

 key                            value
[k1,k2]                         v1
[k2]                            v2
[k3,k2]                         v3
[k4]                            v4

Se algum elemento corresponder na chave, temos que atribuir o mesmo groupid a ele. (Elemento comum Groupby)

Resultado:

key                             value  GroupID
[k1,k2]                           v1    G1
[k2]                              v2    G1
[k3,k2]                           v3    G1 
[k4]                              v4    G2

Algumas sugestões já são dadas com Spark Graphx, mas neste momento a curva de aprendizado será mais para implementar isso para um único recurso.

Alper t. Turker

Incluir graphframes(a versão mais recente do Spark compatível é 2.1, mas também deve ser compatível com 2.2; se você usar a mais recente, terá que construir o seu próprio com patch 2.3) substituindo XXXpela versão Spark e YYYpela versão Scala:

spark.jars.packages  graphframes:graphframes:0.5.0-sparkXXX-s_YYY

Adicione chaves de explosão:

import org.apache.spark.sql.functions._

val df = Seq(
   (Seq("k1", "k2"), "v1"), (Seq("k2"), "v2"),
   (Seq("k3", "k2"), "v3"), (Seq("k4"), "v4")
).toDF("key", "value")

val edges = df.select(
  explode($"key") as "src", $"value" as "dst")

Converter para graphframe:

import org.graphframes._

val gf = GraphFrame.fromEdges(edges)

Defina o diretório do ponto de verificação (se não estiver definido):

import org.apache.spark.sql.SparkSession

val path: String = ???
val spark: SparkSession = ???
spark.sparkContext.setCheckpointDir(path)

Encontre componentes conectados:

val components = GraphFrame.fromEdges(edges).connectedComponents.setAlgorithm("graphx").run

Junte o resultado aos dados de entrada:

 val result = components.where($"id".startsWith("v")).toDF("value", "group").join(df, Seq("value"))

Resultado da verificação:

result.show

// +-----+------------+--------+
// |value|       group|     key|
// +-----+------------+--------+
// |   v3|489626271744|[k3, k2]|
// |   v2|489626271744|    [k2]|
// |   v4|532575944704|    [k4]|
// |   v1|489626271744|[k1, k2]|
// +-----+------------+--------+

Este artigo é coletado da Internet.

Se houver alguma infração, entre em [email protected] Delete.

editar em2020-11-6

deixe-me dizer algumas palavras

0comentários

loginDepois de participar da revisão

Postagem anterior:Erro no terminal ao instalar pods para Xcode

TOP lista

artigo

Como agrupar por elemento comum na matriz?

Como agrupar por elemento comum na matriz?

Obtendo apenas o número de uma String C #

Como redimensionar tabelas geradas pelo Stargazer no R Markdown?

Qual é a diferença entre o tamanho do passo e a taxa de aprendizado no aprendizado de máquina?

recuperar valores em uma linha de dataframes com base no valor em outro

como acessar a conexão do banco de dados em visualizações no codeigniter 4

为什么在使用argc和argv时不会出现分段错误？

Insert a value to hidden input Laravel Blade

Como agrupar objetos em uma lista em outras listas por atributo usando streams e Java 8?

Configure o coletor de arquivos Serilog para usar um arquivo de log por execução do aplicativo

Série Fibonacci usando programação dinâmica

How do I set an IronPython ctypes c_char_p pointer to an absolute address that is not a valid memory address to read from?

Como anexar um arquivo a um e-mail usando JavaMail

Como faço para que um formulário no Access se torne uma janela pop-up?

TypeError não capturado: não é possível atribuir a propriedade somente leitura

Firebase Storage Web: como fazer upload de um arquivo

Como ler arquivos yaml em laravel?

Converter conteúdo HTML em imagem

Diferenças de pool de conexão, jdbc e jndi

PHP, como faço para passar variáveis entre métodos?

jq: como adicionar elementos de um array em outro array, um por um

How to fix 'reference to type requires an initializer'?