Spark 2.4.3의 여러 열에 StopWordsRemover 및 RegexTokenizer 적용

사친 샤르마

다음 데이터 프레임, df4가 있습니다.

|Itemno   |fits_assembly_id                                        |fits_assembly_name                                                                         |assembly_name 

|0450056  |13039 135502 141114 4147 138865 2021 9164               |OIL PUMP ASSEMBLY A01EA09CA 4999202399920239A06 A02EA09CA A02EA09CB A02EA09CC              |OIL PUMP ASSEMBLY 999202399920239A06

위에서 언급 한 데이터 프레임을 처리 / 정리하기 위해 다음 코드를 사용하고 있습니다.

from pyspark.ml.feature import StopWordsRemover, RegexTokenizer
from pyspark.sql.functions import expr


# Task-1: Regex Tokenizer

tk = RegexTokenizer(pattern=r'(?:\p{Punct}|\s)+', inputCol='fits_assembly_name', outputCol='temp1')
df5 = tk.transform(df4)

#Task-2: StopWordsRemover
sw = StopWordsRemover(inputCol='temp1', outputCol='temp2')
df6 = sw.transform(df5)

# #Task-3: Remove duplicates
df7 = df6.withColumn('fits_assembly_name', expr('concat_ws(" ", array_distinct(temp2))')) \
            .drop('temp1', 'temp2')

나는 두 열 처리 할 fits_assembly_name과 assembly_name에서를 RegexTokenizer & StopWordsRemover한 번에. 어떻게 이룰 수 있는지 공유해 주시겠습니까?

jxc

목록 이해를 사용하여 여러 열을 처리하고 pyspark.ml.Pipeline 을 사용 하여 중간 데이터 프레임을 건너 뛸 수 있습니다. 아래를 참조하세요.

from pyspark.ml.feature import StopWordsRemover, RegexTokenizer
from pyspark.ml import Pipeline
from pyspark.sql.functions import expr

# df4 is the initial dataframe and new result will overwrite it.
for col in ['fits_assembly_name', 'assembly_name']:
    tk = RegexTokenizer(pattern=r'(?:\p{Punct}|\s)+', inputCol=col, outputCol='temp1')
    sw = StopWordsRemover(inputCol='temp1', outputCol='temp2')
    pipeline = Pipeline(stages=[tk, sw])
    df4 = pipeline.fit(df4).transform(df4) \
        .withColumn(col, expr('concat_ws(" ", array_distinct(temp2))')) \
        .drop('temp1', 'temp2')

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-01-21

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

TOP 리스트

기사

Spark 2.4.3의 여러 열에 StopWordsRemover 및 RegexTokenizer 적용

Spark 2.4.3의 여러 열에 StopWordsRemover 및 RegexTokenizer 적용

JNDI를 사용하여 Spring Boot에서 다중 데이터 소스 구성

std :: regex의 일관성없는 동작

JSoup javax.net.ssl.SSLHandshakeException : <url>과 일치하는 주체 대체 DNS 이름이 없습니다.

PrematureCloseException : 연결이 너무 일찍 닫혔습니다.

Xcode10 유효성 검사 : 이미지에 투명성이 없지만 여전히 수락되지 않습니까?

정점 셰이더에서 카메라에서 개체까지의 XY 거리

Ionic 2 로더가 적시에 표시되지 않음

Seaborn에서 축 제목 숨기기

C #에서 'System.DBNull'형식의 개체를 'System.String'형식으로 캐스팅 할 수 없습니다.

복사 / 붙여 넣기 비활성화

ArrayBufferLike의 typescript 정의의 깊은 의미

Google Play Console에서 '예기치 않은 오류가 발생했습니다. 나중에 다시 시도해주세요. (7100000)'오류를 수정하는 방법은 무엇입니까?

Kubernetes Horizontal Pod Autoscaler (HPA) 테스트

jfreecharts에서 x 및 y 축 선을 조정하는 방법

PRNG 기간보다 순열이 더 많은 목록을 무작위로 섞는 방법은 무엇입니까?

C # HttpWebRequest 기본 연결이 닫혔습니다. 전송시 예기치 않은 오류가 발생했습니다.

다음 컨트롤이 추가되었지만 사용할 수 없습니다.

잘못된 구성 개체입니다. Webpack이 Angular의 API 스키마와 일치하지 않는 구성 개체를 사용하여 초기화되었습니다.

Android Kotlin은 다른 활동에서 함수를 호출합니다.

R의 마침표와 숫자 사이에 문자열 삽입

Assets의 BitmapFactory.decodeStream이 Android 7에서 null을 반환합니다.