Spark/Scala ML에서 RegexTokenizer()를 사용하여 태그를 제거하는 방법은 무엇입니까?

하나

HTML 태그가 있는 기능 열이 있습니다. 모든 태그를 제거하고 싶습니다. "본문" 열의 한 행 데이터의 예는 다음과 같습니다.

"<p>Are questions related to and similar products on-topic?</p>"

RegexTokenizer()를 사용한 후 출력이 다음과 같이 되었으면 합니다.

"are questions related to and similar products on-topic?"

내가 시작한 일은 다음과 같습니다.

val regexTokenizer = new RegexTokenizer()
  .setInputCol("body")
  .setOutputCol("removedTags")
  .setPattern("")

.setPattern()을 수정해야 한다고 생각하지만 방법이 확실하지 않습니다.

엠마

다른 것이 <없거나 >문자열에 없다고 가정하면 아마도,

<[^>]+>

빈 문자열로 대체하면 어느 정도 정상 작동 할 수 있습니다. 그렇지 않으면 실패 합니다.


표현식을 단순화/수정/탐색하려면 regex101.com의 오른쪽 상단 패널에 설명되어 있습니다. 원하는 경우 이 링크 에서 일부 샘플 입력과 어떻게 일치하는지 볼 수도 있습니다.


이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

XSLT를 사용하여 XML에서 여러 루트 태그를 제거하는 방법은 무엇입니까?

RegEx를 사용하여 HTML 문자열에서 HTML 태그를 제거하는 방법은 무엇입니까?

정규식을 사용하여 String에서 XML 태그를 제거하는 방법은 무엇입니까?

bash에서 grep을 사용하여 스팬 태그를 제거하는 방법은 무엇입니까?

ListView에서 HTML 태그를 제거하는 방법은 무엇입니까?

HTML 태그와 헤드 태그 사이에 iframe 태그를 제거하는 방법은 무엇입니까?

Android를 사용하여 NFC 태그에서 제조업체를 감지하는 방법은 무엇입니까?

XSLT를 사용하여 특정 태그 뒤에 XML 태그를 삽입하는 방법은 무엇입니까?

Ruby / Nokogiri를 사용하여 <table> 태그에 포함되지 않은 <tr> 및 <td> 태그를 제거하는 방법은 무엇입니까?

그룹에서 사용자를 제거하는 방법은 무엇입니까?

@SuppressWarnings 태그를 제거하는 방법은 무엇입니까?

Jinja를 사용하여 <a href> html 태그에서 변수를 사용하는 방법은 무엇입니까?

PHP DOM을 사용하여 <body> 태그에서 모든 <a> 태그를 얻는 방법은 무엇입니까?

XQuery를 사용하여 if / else 내에서 여러 태그를 반환하는 방법은 무엇입니까?

입력에서 XML과 유사한 태그를 제거하는 방법은 무엇입니까?

ViewBinding을 사용하여 .xml에서 <data> <variable> 태그를 사용하는 방법은 무엇입니까?

jQuery를 사용하여 img를 둘러싼 P 태그를 제거하는 방법은 무엇입니까?

SQL 쿼리를 사용하여 열에서 모든 <img> 태그를 제거하는 방법은 무엇입니까?

Java / Scala를 사용하여 xml 파일에서 모든 태그를 제거하는 방법은 무엇입니까?

taglib-ruby를 사용하여 AIFF 파일에서 IDV 태그를 제거하는 방법은 무엇입니까?

Javascript / jQuery를 사용하여 div 콘텐츠에서 HTML 태그를 제거하는 방법은 무엇입니까?

Python을 사용하여 JavaScript를 포함하는 <a> 태그에서 href를 얻는 방법은 무엇입니까?

<head>에서 <script> 태그를 제거하도록 CKEditor를 구성하는 방법은 무엇입니까?

For 루프를 사용하여 JQuery에서 여러 HTML 태그를 만드는 방법은 무엇입니까?

jQuery를 사용하여 div 내에서 여러 텍스트를 제거하는 방법은 무엇입니까?

JQuery를 사용하여 빈 문서에 HTML 태그를 추가하는 방법은 무엇입니까?

asciidoc에서 태그를 사용하여 코드 발췌를 포함하는 방법은 무엇입니까?

xpath를 사용하여 text ()에서 무언가를 제거하는 방법은 무엇입니까?

PHP에서 내용이 포함된 특정 HTML 태그를 제거하는 방법은 무엇입니까?