Pandas를 사용하여 충돌없이 대용량 CSV 파일을 효율적으로 읽기

개발자

http://grouplens.org/datasets/movielens/20m/ 에서 ratings.csv라는 .csv 파일을 읽으려고 합니다. 파일은 내 컴퓨터에서 533.4MB입니다.

이것은 jupyter 노트북에 쓰고있는 것입니다.

import pandas as pd
ratings = pd.read_cv('./movielens/ratings.csv', sep=',')

여기서 문제는 커널이 깨지거나 죽고 다시 시작하도록 요청하고 계속 반복된다는 것입니다. 오류가 없습니다. 이 문제를 해결할 수있는 대안을 제안 해 주시겠습니까? 마치 내 컴퓨터가이 문제를 실행할 수없는 것처럼 보입니다.

이것은 작동하지만 계속 다시 작성됩니다.

chunksize = 20000
for ratings in pd.read_csv('./movielens/ratings.csv', chunksize=chunksize):
ratings.append(ratings)
ratings.head()

마지막 청크 만 기록되고 나머지는 기록됩니다.

cs95

데이터 프레임에서 읽을 때 chunksize매개 변수를 사용하는 것을 고려해야 read_csv합니다. 그 이유는 청크를 연결 TextFileReader하기 pd.concat위해 전달할 수 있는 객체를 반환하기 때문 입니다.

chunksize = 100000
tfr = pd.read_csv('./movielens/ratings.csv', chunksize=chunksize, iterator=True)
df = pd.concat(tfr, ignore_index=True)

각 청크를 개별적으로 처리하려면 다음을 사용하십시오.

chunksize = 20000
for chunk in pd.read_csv('./movielens/ratings.csv', 
                         chunksize=chunksize, 
                         iterator=True):
    do_something_with_chunk(chunk)

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

대용량 텍스트 파일을 효율적으로 읽기

Dask를 사용하여 부분별로 큰 CSV 파일을 효율적으로 읽습니다.

Dictreader를 사용하여 CSV 파일을 테이블로 읽기

OOP를 사용하여 효율적으로 궤적 파일 처리 및 읽기

대용량 파일의 특정 줄을 R로 효율적으로 읽기

laravel에서 효율적으로 firstOrCreate 기능을 사용하여 데이터를 대량으로 삽입하는 방법

대용량 CSV 파일 처리를 처리하거나 대용량 CSV 파일을 청크로 읽는 방법

다음 스크립트보다 더 나은 성능을 얻기 위해 쉘 스크립트를 사용하여 대용량 CSV 파일을 효율적으로 처리하는 방법은 무엇입니까?

대용량 CSV 파일 읽기의 효율성 향상

Java Spring : CSV 파일에서 대량의 데이터를 효율적으로 읽고 저장하는 방법은 무엇입니까?

정리되지 않은 대용량 데이터를 효율적으로 R로 읽기

백엔드 및 Google 클라우드 스토어를 사용하여 대용량 데이터 파일을 효율적으로 처리

Pandas와 MySQL을 사용하여 거대한 CSV 파일 읽기

pandas python을 사용하여 csv 파일에서 특정 방식으로 읽기

Dask를 사용하여 Blob Storage의 parquet 파일에서 일부 열만 효율적으로 읽기

Java는 대용량 파일 (~ 100GB)을 효율적으로 읽습니다.

자바를 사용하여 탭으로 구분 된 파일을 빠르고 효율적으로 읽는 방법

CSV를 사용하여 Room 데이터베이스에 삽입하기 위해 Java에서이 작업을보다 효율적으로 수행하는 방법

Python을 사용하여 대용량 CSV 파일을 MySQL로 가져오기

COPY를 사용하여 대용량 CSV 파일로드

PHP를 사용하여 CSV 파일을 MySQL 데이터베이스로보다 효율적으로 가져 오는 방법은 무엇입니까?

Python을 사용하여 CSV 파일 데이터를 MYSQL에 효율적으로 삽입하는 방법은 무엇입니까?

csvhelper를 사용하여 수천 개의 열이 있는 csv 파일을 효율적으로 작성하는 방법은 무엇입니까?

Pandas를 사용하여 csv 파일에서 기능 이름 읽기

Apache Commons CSV 프레임 워크는 대용량 파일을 읽기위한 메모리 효율적인 증분 / 순차 모드를 제공합니까?

대용량 파일을 읽고 스프링 배치를 사용하여 jms 대기열로 보내기

BufferedReader를 사용하여 지속적으로 증가하는 대용량 파일에서 읽기

pandas.read_csv를 사용하여 csv 파일을 읽는 줄 구분 기호로 세미콜론 제거

pandas.read_csv를 사용하여 천 단위로 공백이있는 CSV 파일을 읽습니다.

TOP 리스트

  1. 1

    JNDI를 사용하여 Spring Boot에서 다중 데이터 소스 구성

  2. 2

    std :: regex의 일관성없는 동작

  3. 3

    JSoup javax.net.ssl.SSLHandshakeException : <url>과 일치하는 주체 대체 DNS 이름이 없습니다.

  4. 4

    PrematureCloseException : 연결이 너무 일찍 닫혔습니다.

  5. 5

    Xcode10 유효성 검사 : 이미지에 투명성이 없지만 여전히 수락되지 않습니까?

  6. 6

    정점 셰이더에서 카메라에서 개체까지의 XY 거리

  7. 7

    Ionic 2 로더가 적시에 표시되지 않음

  8. 8

    Seaborn에서 축 제목 숨기기

  9. 9

    C #에서 'System.DBNull'형식의 개체를 'System.String'형식으로 캐스팅 할 수 없습니다.

  10. 10

    복사 / 붙여 넣기 비활성화

  11. 11

    ArrayBufferLike의 typescript 정의의 깊은 의미

  12. 12

    Google Play Console에서 '예기치 않은 오류가 발생했습니다. 나중에 다시 시도해주세요. (7100000)'오류를 수정하는 방법은 무엇입니까?

  13. 13

    Kubernetes Horizontal Pod Autoscaler (HPA) 테스트

  14. 14

    jfreecharts에서 x 및 y 축 선을 조정하는 방법

  15. 15

    PRNG 기간보다 순열이 더 많은 목록을 무작위로 섞는 방법은 무엇입니까?

  16. 16

    C # HttpWebRequest 기본 연결이 닫혔습니다. 전송시 예기치 않은 오류가 발생했습니다.

  17. 17

    다음 컨트롤이 추가되었지만 사용할 수 없습니다.

  18. 18

    잘못된 구성 개체입니다. Webpack이 Angular의 API 스키마와 일치하지 않는 구성 개체를 사용하여 초기화되었습니다.

  19. 19

    Android Kotlin은 다른 활동에서 함수를 호출합니다.

  20. 20

    R의 마침표와 숫자 사이에 문자열 삽입

  21. 21

    Assets의 BitmapFactory.decodeStream이 Android 7에서 null을 반환합니다.

뜨겁다태그

보관