Excluir linhas respeitando uma restrição de tempo

mark Publicado em Dev

marca

Eu tenho o seguinte conjunto de dados:

>dput(df)
 structure(list(Author = c("hitham", "Ow", "WPJ4", "Seb", "Karen", "Ow", "Ow", "hitham", "Sarah",
 "Rene"), diff = structure(c(28, 2, 8, 3, 7, 8, 11, 1, 4, 8), class = "difftime", units = "secs")), 
 row.names = 1:10, class = "data.frame")

Como podemos ver, o autor Owaparece três vezes e o autor hithamduas vezes:

    Author    diff
 1  hitham 28 secs
 2      Ow  2 secs
 3    WPJ4  8 secs
 4     Seb  3 secs
 5   Karen  7 secs
 6      Ow  8 secs
 7      Ow 11 secs
 8  hitham  1 secs
 9   Sarah  4 secs
 10   Rene  8 secs

Essas linhas representam algumas atividades realizadas pelos autores. Por exemplo, hithamrealiza sua atividade após 1 seg e depois de 18 seg no segundo tempo.

Gostaria de ter certeza de que há pelo menos 10 segundos entre uma atividade e outra.

Gostaria de excluir as atividades (linhas) que não atendem a esse requisito. Por exemplo, Owexecuta sua atividade após 2 segundos e, em seguida, após 8 segundos: o último deve ser excluído. O resultado desejado é então:

    Author    diff
 1  hitham 28 secs
 2      Ow  2 secs
 3    WPJ4  8 secs
 4     Seb  3 secs
 5   Karen  7 secs
 6      Ow 11 secs
 7  hitham  1 secs
 8   Sarah  4 secs
 9    Rene  8 secs

Editar . Acrescento isso na esperança de ser mais claro. Vamos considerar hitham. Se considerarmos as hithamlinhas (classificadas por diffcampo):

   hitham  1 secs
   hitham 28 secs

Nós temos isso (28-1)+1>10, então não há necessidade de deletar nenhum deles.

Vamos agora considerar Ow.

       Ow  2 secs
       Ow  8 secs
       Ow 11 secs

As diferenças em segundos entre as linhas consecutivas são (consulte a última coluna):

       Ow  2 secs  -
       Ow  8 secs  7
       Ow 11 secs  4

O resultado desejado pode ser obtido apagando a primeira linha que mostra na última coluna um número menor que 10. Na verdade:

       Ow  2 secs  -
       Ow 11 secs  10

Não precisamos deletar a última linha porque a diferença aqui é apenas 10.

Ben

Com base nessa resposta, você pode tentar uma abordagem recursiva.

library(dplyr)

my_fun <- function(d, ind = 1) {
  ind.next <- first(which(d - d[ind] >= 9))
  if (length(ind.next) == 0)
    return(ind)
  else
    return(c(ind, my_fun(d, ind.next)))
}

df %>%
  group_by(Author) %>%
  arrange(diff) %>%
  slice(my_fun(diff))

Cada vez na função, ela identifica o próximo índice ind.nextque é o primeiro índice para o qual o diffé maior ou igual a 9 segundos do diffindexado por ind. Se não houver nenhum ind.nextdisponível, ele retorna ind. Caso contrário, chame recursivamente a função novamente e concatene com ind.

Saída

  Author diff   
  <chr>  <drtn> 
1 hitham  1 secs
2 hitham 28 secs
3 Karen   7 secs
4 Ow      2 secs
5 Ow     11 secs
6 Rene    8 secs
7 Sarah   4 secs
8 Seb     3 secs
9 WPJ4    8 secs

Este artigo é coletado da Internet.

Se houver alguma infração, entre em [email protected] Delete.

editar em2021-08-25

deixe-me dizer algumas palavras

0comentários

loginDepois de participar da revisão

Postagem anterior:Imprime todos os números menores que o último número em uma lista em python

TOP lista

artigo

Excluir linhas respeitando uma restrição de tempo

Excluir linhas respeitando uma restrição de tempo

Obtendo apenas o número de uma String C #

recuperar valores em uma linha de dataframes com base no valor em outro

Como agrupar objetos em uma lista em outras listas por atributo usando streams e Java 8?

Como redimensionar tabelas geradas pelo Stargazer no R Markdown?

como acessar a conexão do banco de dados em visualizações no codeigniter 4

Série Fibonacci usando programação dinâmica

Como ler arquivos yaml em laravel?

How do I set an IronPython ctypes c_char_p pointer to an absolute address that is not a valid memory address to read from?

Como adicionar elementos a um array multidimensional em PHP?

Firebase Storage Web: como fazer upload de um arquivo

Por que definir a variável como uma string vazia não é necessária em meu código?

如何使用SOM算法进行分类预测

Keras / Tensorflow incompatible shape

Como fazer urls únicas no Django com padrão de url que usa vários parâmetros?

Problema ao atualizar o Autofac com tarefas assíncronas e instâncias próprias

Como ler arquivos .HGT em R

PHP: 'use' dentro da definição de classe

Configure o coletor de arquivos Serilog para usar um arquivo de log por execução do aplicativo

Componentes de seleção e caixa de seleção-> opções múltiplas, mas com escolha máxima?

Insert a value to hidden input Laravel Blade

O observador do Vue js não reage às mudanças