대용량 json 파일을 csv로 스트리밍

응우옌 호앙 부

다음과 같은 개체 목록이 포함된 큰 JSON 파일이 있습니다.

{
   "_index":"pelias",
   "_type":"address",
   "_id":"jf808cdawi46z",
   "_score":1,
   "_source":{
      "center_point":{
         "lon":106.66307,
         "lat":10.959882
      },
      "name":{
         "default":"375/20 Bùi Quốc Khánh, Chánh Nghĩa, Bình Dương, Việt Nam"
      }
   }
}
{
   "_index":"pelias",
   "_type":"address",
   "_id":"jf808cdawi46z",
   "_score":1,
   "_source":{
      "center_point":{
         "lon":106.66307,
         "lat":10.959882
      },
      "name":{
         "default":"375/20 Bùi Quốc Khánh, Chánh Nghĩa, Bình Dương, Việt Nam"
      }
   }
}

jq를 사용하여 다음과 같이 csv로 변환하고 있습니다.

"address","lat","lon"
"375/20 Bùi Quốc Khánh, Chánh Nghĩa, Bình Dương, Việt Nam",10.959882,106.66307
"375/20 Bùi Quốc Khánh, Chánh Nghĩa, Bình Dương, Việt Nam",10.959882,106.66307

이 코드를 사용하고 있습니다.

cat pelias_minify.json | jq -r -s '. | [.[]  | {lat: ._source.center_point.lat, lon: ._source.center_point.lon, address: ._source.name.default}] | (map(keys) | add | unique) as $cols | map(. as $row | $cols | map($row[.])) as $rows | $cols, $rows[] | @csv' > pes.csv

문제는 이 파일의 크기가 최대 2GB를 넘었다는 것입니다. 스트리밍을 적용하기 위해 공부하고 있지만 여전히 사용법을 이해하지 못합니다. 도움이 필요하세요? 감사합니다.

업데이트, 이 코드를 시도했고 파일 출력을 스트리밍할 수 있습니다.

cat pelias_minify.json | jq -cn --stream 'fromstream(0|truncate_stream(inputs)) | {lat: ._source.center_point.lat, lon: ._source.center_point.lon, address: ._source.name.default}'

출력:

{"center_point":{"lon":106.66307,"lat":10.959882},"name":{"default":"375/20 Bùi Quốc Khánh, Chánh Nghĩa, Bình Dương, Việt Nam"}}
{"center_point":{"lon":106.66307,"lat":10.959882},"name":{"default":"375/20 Bùi Quốc Khánh, Chánh Nghĩa, Bình Dương, Việt Nam"}}

이니안

피크에서 알 수 있듯이 출력에서 스트리밍 파서를 jq호출할 필요가 없습니다 . CSV 출력에 필요한 필드만 효율적으로 필터링할 수 있다면 괜찮을 것입니다. 즉,

jq -r -cn '["address","lat","lon"], (inputs | [._source.name.default,._source.center_point.lat,._source.center_point.lon]) | @csv'

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-09-15

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

이전 게시물：관련 없는 구성 요소 간에 Svelte에서 실시간 데이터 공유

TOP 리스트

기사

대용량 json 파일을 csv로 스트리밍

대용량 json 파일을 csv로 스트리밍

numpy의 matlab isempty () 함수?

Oracle 19c :: 지정된 사용자의 ACL을 설정하지 못했습니다.

PIL : DLL로드 실패 : 지정된 프로 시저를 찾을 수 없습니다

ojdbc6.jar와 ojdbc7.jar의 차이점은 무엇입니까?

Android 장치의 텍스트 파일에 Logcat 저장

API Gateway에서 호출 할 때 com.amazon.coral.service # UnknownOperationException과 함께 Cloudwatch Logs PutLogEvents 작업이 실패 함

파이썬 링크에서 제목 추출하기 (아름다운 수프)

오류 : "const wchar_t *"유형의 인수가 "WCHAR *"유형의 매개 변수와 호환되지 않습니다.

NSSet 내의 모든 값에 액세스

python sklearn GradientBoostingClassifier 웜 스타트 오류

Ionic 2 : 페이지에 구성 요소 포함 오류

Visual Studio 디버그 실패로 AssemblyAttributes.cs를 찾을 수 없습니다.

Python의 특정 위치에 문자열 추가

Python 소켓 프로그래밍 : 클라이언트에서 서버로 파일 업로드

전자 브라우저를 전체 화면 크기로 만드는 방법은 무엇입니까?

삼각파에 대한 수학 방정식

networkx 플로팅 유 방향 그래프

C에서 N x N 행렬식 구하기

외부 파일이 포함 된 Runnable Jar 만들기

model-> save ()가 Yii2에서 작동하지 않음

페이지의 일부 새로 고침 (div)

오류 : "const wchar_t "유형의 인수가 "WCHAR "유형의 매개 변수와 호환되지 않습니다.