Pandas : 그룹별로 집계 한 후 열에서 작업 수행

cosmosa 에 게시 Dev

114

코스 모사

다음 df가있는 경우 A 열로 그룹화하고 D 열을 각 A의 최대 D로 나누고 싶습니다.

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
...:    ...:                           'foo', 'bar', 'foo', 'foo'],
...:    ...:                    'B' : ['one', 'one', 'two', 'three',
...:    ...:                           'two', 'two', 'one', 'three'],
...:    ...:                    'C' : np.random.randn(8),
...:    ...:                    'D' : np.random.randn(8)})

나는 같은 것을 시도했다

max_by_id = df.groupby('A')['D'].max()
df = df.set_index('A')
df['D'] /= max_by_id.reset_index()['D']

하지만 이것은 나에게

ValueError: cannot reindex from a duplicate axis

EdChum

온 집계에서 계산 된 최대 groupby객체가 응집하여 원래 DF 열을 분할 할 경우 다음 호출 할 수있다, 따라서 에러가 감소 된 인덱스가 transform온 groupby목적이므로 인덱스 정렬한다 :

In [192]:    
df['D'].div(df.groupby('A')['D'].transform('max'))

Out[192]:
0   -0.601098
1   -0.553823
2   -0.408006
3    1.000000
4    0.312029
5    0.709397
6    1.000000
7    0.140932
Name: D, dtype: float64

차이점을 확인할 수 있습니다.

In [193]:
df.groupby('A')['D'].transform('max')

Out[193]:
0    1.508660
1    1.378085
2    1.508660
3    1.378085
4    1.508660
5    1.378085
6    1.508660
7    1.508660
Name: D, dtype: float64

In [194]:    
df.groupby('A')['D'].max()

Out[194]:
A
bar    1.378085
foo    1.508660
Name: D, dtype: float64

또한 reset_index원래 grouped열 레이블을 제거하는 경우 :

In [198]:
max_by_id.reset_index()['D']

Out[198]:
0    0.215997
1    0.962928
Name: D, dtype: float64

그러나 그 전에 인덱스를 'A'열로 설정했지만 실패합니다.

df['D'] /= max_by_id.reset_index()['D']

또한 lambdawith apply를 사용 하여 동일한 작업을 수행 할 수 있습니다 lambda.

df.groupby('A')['D'].apply(lambda x: x.div(x.max()))

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-05-25

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

이전 게시물：JAVA While 루프-마지막 else if 문이 작동하지 않음

TOP 리스트

기사

Pandas : 그룹별로 집계 한 후 열에서 작업 수행

Pandas : 그룹별로 집계 한 후 열에서 작업 수행

SAP Java Connector (SAP JCO) SAP Funcion Module의 동적 매개 변수 및 값 목록

rclone으로 원격 디렉토리의 모든 파일을 삭제하는 방법은 무엇입니까?

자바, 레디 스, 탄성 검색, 몽고와 자동 완성

SMTPException : 전송 연결에서 데이터를 읽을 수 없음 : net_io_connectionclosed

ElasticSearch-노드 잠금을 가져 오지 못했습니다.

어떻게 아무리 "나쁜", ANY의 SSL 인증서와 HttpClient를 사용하지합니다

java.lang.UnsatisfiedLinkError : 지정된 모듈을 찾을 수 없습니다

마우스 휠 JQuery 이벤트 핸들러에 대한 방향 가져 오기

버튼을 클릭하기 위해 pywinauto를 가져올 수 없습니다.

Cassandra에서 버전이 지정된 계층의 효율적인 모델링

내 페이지 번호의 서식을 어떻게 지정합니까?

ViewModel에서 UI 요소를 비동 시적으로 업데이트하는 방법

상황에 맞는 메뉴 색상

Ionic 2 로더가 적시에 표시되지 않음

Matlab의 반복 Sortino 비율

Android Kotlin은 다른 활동에서 함수를 호출합니다.

문자열의 마지막 두 괄호 사이의 모든 대문자에 대한 정규식

Matlab에서 신뢰 구간 그리기

Jquery의 다른 함수에서 함수를 호출하는 방법

Oracle VirtualBox-설치를 위해 게스트를 부팅 할 때 호스트 시스템이 충돌 함

SQL Server-현명한 데이터 문제 받기