http://grouplens.org/datasets/movielens/20m/ 에서 ratings.csv라는 .csv 파일을 읽으려고 합니다. 파일은 내 컴퓨터에서 533.4MB입니다.
이것은 jupyter 노트북에 쓰고있는 것입니다.
import pandas as pd
ratings = pd.read_cv('./movielens/ratings.csv', sep=',')
여기서 문제는 커널이 깨지거나 죽고 다시 시작하도록 요청하고 계속 반복된다는 것입니다. 오류가 없습니다. 이 문제를 해결할 수있는 대안을 제안 해 주시겠습니까? 마치 내 컴퓨터가이 문제를 실행할 수없는 것처럼 보입니다.
이것은 작동하지만 계속 다시 작성됩니다.
chunksize = 20000
for ratings in pd.read_csv('./movielens/ratings.csv', chunksize=chunksize):
ratings.append(ratings)
ratings.head()
마지막 청크 만 기록되고 나머지는 기록됩니다.
데이터 프레임에서 읽을 때 chunksize
매개 변수를 사용하는 것을 고려해야 read_csv
합니다. 그 이유는 청크를 연결 TextFileReader
하기 pd.concat
위해 전달할 수 있는 객체를 반환하기 때문 입니다.
chunksize = 100000
tfr = pd.read_csv('./movielens/ratings.csv', chunksize=chunksize, iterator=True)
df = pd.concat(tfr, ignore_index=True)
각 청크를 개별적으로 처리하려면 다음을 사용하십시오.
chunksize = 20000
for chunk in pd.read_csv('./movielens/ratings.csv',
chunksize=chunksize,
iterator=True):
do_something_with_chunk(chunk)
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다