기존 Hadoop 클러스터에 대해 실행되도록 Cloud Data Fusion 파이프 라인을 구성하는 방법

sree 에 게시 Dev

스리

Cloud Data Fusion은 모든 파이프 라인 실행에 대해 새로운 Dataproc 클러스터를 만듭니다. 연중 무휴 24 시간 실행되는 Dataproc 클러스터 설정이 이미 있으며 해당 클러스터를 사용하여 파이프 라인을 실행하고 싶습니다.

스리

시스템 관리자-> 구성-> 시스템 컴퓨팅 프로필-> 새 컴퓨팅 프로필 만들기에서 원격 Hadoop 프로비저닝 도구를 사용하여 새 컴퓨팅 프로필을 설정하면됩니다. 이 기능은 Cloud Data Fusion의 Enterprise 버전 ( "실행 환경 선택" ) 에서만 사용할 수 있습니다 .

자세한 단계는 다음과 같습니다.

Dataproc 클러스터에서 SSH 설정

ㅏ. Google Cloud Platform의 Dataproc 콘솔로 이동합니다. Dataproc 클러스터 이름을 클릭하여 '클러스터 세부 정보'로 이동합니다.

비. 'VM 인스턴스'에서 'SSH'버튼을 클릭하여 Dataproc VM에 연결합니다.

씨. 여기 의 단계에 따라 새 SSH 키를 만들고, 공개 키 파일의 형식을 지정하여 만료 시간을 적용하고, 프로젝트 또는 인스턴스 수준에서 새로 생성 된 SSH 공개 키를 추가하세요.

디. SSH가 성공적으로 설정되면 Compute Engine 콘솔의 메타 데이터 섹션에서 방금 추가 한 SSH 키와 Dataproc VM의 authorized_keys 파일을 볼 수 있습니다.
Data Fusion 인스턴스를위한 맞춤형 시스템 컴퓨팅 프로필 생성

ㅏ. '인스턴스보기'를 클릭하여 Data Fusion 인스턴스 콘솔로 이동합니다.

비. 오른쪽 상단의 "시스템 관리자"를 클릭합니다.

씨. "구성"탭에서 "시스템 컴퓨팅 프로필"을 확장합니다. "Create New Profile"을 클릭하고 다음 페이지에서 "Remote Hadoop Provisioner"를 선택합니다.

디. 프로필에 대한 일반 정보를 입력합니다.

이자형. Compute Engine의 'VM 인스턴스 세부 정보'페이지에서 SSH 호스트 IP 정보를 찾을 수 있습니다.

에프. 1 단계에서 생성 한 SSH 개인 키를 복사하여 "SSH 개인 키"필드에 붙여 넣습니다.

지. "만들기"를 클릭하여 프로필을 만듭니다.
사용자 지정 프로필을 사용하도록 Data Fusion 파이프 라인 구성

ㅏ. 원격 Hadoop에 대해 실행할 파이프 라인을 클릭하십시오.

비. 구성-> 컴퓨팅 구성을 클릭하고 원격 하둡 프로비저닝 도구 구성을 선택합니다.