HTML 태그가 있는 기능 열이 있습니다. 모든 태그를 제거하고 싶습니다. "본문" 열의 한 행 데이터의 예는 다음과 같습니다.
"<p>Are questions related to and similar products on-topic?</p>"
RegexTokenizer()를 사용한 후 출력이 다음과 같이 되었으면 합니다.
"are questions related to and similar products on-topic?"
내가 시작한 일은 다음과 같습니다.
val regexTokenizer = new RegexTokenizer()
.setInputCol("body")
.setOutputCol("removedTags")
.setPattern("")
.setPattern()을 수정해야 한다고 생각하지만 방법이 확실하지 않습니다.
다른 것이 <
없거나 >
문자열에 없다고 가정하면 아마도,
<[^>]+>
빈 문자열로 대체하면 어느 정도 정상 작동 할 수 있습니다. 그렇지 않으면 실패 합니다.
표현식을 단순화/수정/탐색하려면 regex101.com의 오른쪽 상단 패널에 설명되어 있습니다. 원하는 경우 이 링크 에서 일부 샘플 입력과 어떻게 일치하는지 볼 수도 있습니다.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다