Pandas를 사용하여 충돌없이 대용량 CSV 파일을 효율적으로 읽기

개발자

http://grouplens.org/datasets/movielens/20m/ 에서 ratings.csv라는 .csv 파일을 읽으려고 합니다. 파일은 내 컴퓨터에서 533.4MB입니다.

이것은 jupyter 노트북에 쓰고있는 것입니다.

import pandas as pd
ratings = pd.read_cv('./movielens/ratings.csv', sep=',')

여기서 문제는 커널이 깨지거나 죽고 다시 시작하도록 요청하고 계속 반복된다는 것입니다. 오류가 없습니다. 이 문제를 해결할 수있는 대안을 제안 해 주시겠습니까? 마치 내 컴퓨터가이 문제를 실행할 수없는 것처럼 보입니다.

이것은 작동하지만 계속 다시 작성됩니다.

chunksize = 20000
for ratings in pd.read_csv('./movielens/ratings.csv', chunksize=chunksize):
ratings.append(ratings)
ratings.head()

마지막 청크 만 기록되고 나머지는 기록됩니다.

cs95

데이터 프레임에서 읽을 때 chunksize매개 변수를 사용하는 것을 고려해야 read_csv합니다. 그 이유는 청크를 연결 TextFileReader하기 pd.concat위해 전달할 수 있는 객체를 반환하기 때문 입니다.

chunksize = 100000
tfr = pd.read_csv('./movielens/ratings.csv', chunksize=chunksize, iterator=True)
df = pd.concat(tfr, ignore_index=True)

각 청크를 개별적으로 처리하려면 다음을 사용하십시오.

chunksize = 20000
for chunk in pd.read_csv('./movielens/ratings.csv', 
                         chunksize=chunksize, 
                         iterator=True):
    do_something_with_chunk(chunk)

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2020-11-9

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

이전 게시물：iOS 11 베타 7에서 UIBarButtonItem을 클릭 할 수 없습니까?

TOP 리스트

기사

Pandas를 사용하여 충돌없이 대용량 CSV 파일을 효율적으로 읽기

Pandas를 사용하여 충돌없이 대용량 CSV 파일을 효율적으로 읽기

JNDI를 사용하여 Spring Boot에서 다중 데이터 소스 구성

std :: regex의 일관성없는 동작

JSoup javax.net.ssl.SSLHandshakeException : <url>과 일치하는 주체 대체 DNS 이름이 없습니다.

PrematureCloseException : 연결이 너무 일찍 닫혔습니다.

Xcode10 유효성 검사 : 이미지에 투명성이 없지만 여전히 수락되지 않습니까?

정점 셰이더에서 카메라에서 개체까지의 XY 거리

Ionic 2 로더가 적시에 표시되지 않음

Seaborn에서 축 제목 숨기기

C #에서 'System.DBNull'형식의 개체를 'System.String'형식으로 캐스팅 할 수 없습니다.

복사 / 붙여 넣기 비활성화

ArrayBufferLike의 typescript 정의의 깊은 의미

Google Play Console에서 '예기치 않은 오류가 발생했습니다. 나중에 다시 시도해주세요. (7100000)'오류를 수정하는 방법은 무엇입니까?

Kubernetes Horizontal Pod Autoscaler (HPA) 테스트

jfreecharts에서 x 및 y 축 선을 조정하는 방법

PRNG 기간보다 순열이 더 많은 목록을 무작위로 섞는 방법은 무엇입니까?

C # HttpWebRequest 기본 연결이 닫혔습니다. 전송시 예기치 않은 오류가 발생했습니다.

다음 컨트롤이 추가되었지만 사용할 수 없습니다.

잘못된 구성 개체입니다. Webpack이 Angular의 API 스키마와 일치하지 않는 구성 개체를 사용하여 초기화되었습니다.

Android Kotlin은 다른 활동에서 함수를 호출합니다.

R의 마침표와 숫자 사이에 문자열 삽입

Assets의 BitmapFactory.decodeStream이 Android 7에서 null을 반환합니다.