Spark ML pipeline

728x90

Spark ML pipeline

ML Pipeline Example

(https://spark.apache.org/docs/latest/ml-pipeline.html)

1. DataProcessing

형태소 분석기를 사용하여 단어 추출

2. Featurize

데이터를 기계 학습 알고리즘이 이해 할 수 있는 숫자로 변환.

2.1. Term Frequency

TF => 특정 단어가 (문서에) 몇번 등장 했는지 나나내는값

Spark CountVectorizer 이용하여 TF Vector 를 구한다.

---------------------------------------

뉴스1 4 1 0 [4,1,0]

뉴스2 1 0 3 [1,0,3]

뉴스3 2 0 1 [2,0,1]

뉴스4 3 1 0 [3,1,0]

...

2.3 TF-IDF (Inverse Documet Frequency)

TF : 어떤 단어가 한 문서에 자주 나온다면, 그 단어는 해당 문서를 대표한다

IDF : 하지만, 다른 문서에도 자주 나오는 단어라면 아니다” • IDF를 통해 문서 전반적으로 많이 나오는 단어의 TF 값 을 낮춰줍니다

TF-IDF 는 문서의 중요단어를 나타내는 통계적 수치

3. Training

텍스트 데이터에 성능이 좋은 나이브 베이지안 이용

3.1 NaiveBayesTF

3.2 NaiveBayseTFIDF

4. 모델 평가

Spark Dataset (0)	2020.04.06
Spark 모니터링 (0)	2020.04.06
spark sql (0)	2020.04.06
spark linux install (Master / Worker) (0)	2020.04.03
Spark 설치 및 실습 (0)	2017.06.16

IT.FARMER