Spark ML pipeline

Notice

Recent Posts

Recent Comments

Link

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

IT.FARMER

Spark ML pipeline 본문

BigData/Spark

Spark ML pipeline

아이티.파머 2017. 6. 16. 10:10

Spark ML pipeline

ML Pipeline Example

(https://spark.apache.org/docs/latest/ml-pipeline.html)

1. DataProcessing

형태소 분석기를 사용하여 단어 추출

2. Featurize

데이터를 기계 학습 알고리즘이 이해 할 수 있는 숫자로 변환.

2.1. Term Frequency

TF => 특정 단어가 (문서에) 몇번 등장 했는지 나나내는값

Spark CountVectorizer 이용하여 TF Vector 를 구한다.

---------------------------------------

뉴스1 4 1 0 [4,1,0]

뉴스2 1 0 3 [1,0,3]

뉴스3 2 0 1 [2,0,1]

뉴스4 3 1 0 [3,1,0]

...

2.3 TF-IDF (Inverse Documet Frequency)

TF : 어떤 단어가 한 문서에 자주 나온다면, 그 단어는 해당 문서를 대표한다

IDF : 하지만, 다른 문서에도 자주 나오는 단어라면 아니다” • IDF를 통해 문서 전반적으로 많이 나오는 단어의 TF 값 을 낮춰줍니다

TF-IDF 는 문서의 중요단어를 나타내는 통계적 수치

3. Training

텍스트 데이터에 성능이 좋은 나이브 베이지안 이용

3.1 NaiveBayesTF

3.2 NaiveBayseTFIDF

4. 모델 평가

저작자표시

'BigData > Spark' 카테고리의 다른 글

Spark Dataset (0)	2020.04.06
Spark 모니터링 (0)	2020.04.06
spark sql (0)	2020.04.06
spark linux install (Master / Worker) (0)	2020.04.03
Spark 설치 및 실습 (0)	2017.06.16

'BigData/Spark' Related Articles

IT.FARMER

Spark ML pipeline 본문

Spark ML pipeline

'BigData > Spark' 카테고리의 다른 글

티스토리툴바