본문 바로가기

BigData9

Spark 모니터링 2020/04/03 - [BigData/Spark] - spark linux install (Master / Worker) 2020/04/06 - [BigData/Spark] - spark sql 2020/04/06 - [BigData/Spark] - Spark 모니터링 2020/04/06 - [BigData/Spark] - Spark Dataset 2020/04/06 - [BigData/Spark] - Spark Dataset 데이터 조회 예제 2020/04/06 - [BigData/Spark] - Dataset DataFrame Convert 2020/04/06 - [BigData/Spark] - Spark submit Spark 모니터링 Master 에서 실행한 8080 Port로 접속 할수 있으며.. 2020. 4. 6.
spark sql 2020/04/03 - [BigData/Spark] - spark linux install (Master / Worker) 2020/04/06 - [BigData/Spark] - spark sql 2020/04/06 - [BigData/Spark] - Spark 모니터링 2020/04/06 - [BigData/Spark] - Spark Dataset 2020/04/06 - [BigData/Spark] - Spark Dataset 데이터 조회 예제 2020/04/06 - [BigData/Spark] - Dataset DataFrame Convert 2020/04/06 - [BigData/Spark] - Spark submit Spark SQL Spark SQL 은 구조화된 데이터 작업을 위한 모듈 이다. .. 2020. 4. 6.
spark linux install (Master / Worker) 2020/04/03 - [BigData/Spark] - spark linux install (Master / Worker) 2020/04/06 - [BigData/Spark] - spark sql 2020/04/06 - [BigData/Spark] - Spark 모니터링 2020/04/06 - [BigData/Spark] - Spark Dataset 2020/04/06 - [BigData/Spark] - Spark Dataset 데이터 조회 예제 2020/04/06 - [BigData/Spark] - Dataset DataFrame Convert 2020/04/06 - [BigData/Spark] - Spark submit 메소스, 하둡얀 등 여러 에코시스템이 있지만, 순수 스파크만 이용할경우 spark.. 2020. 4. 3.
Spark ML pipeline Spark ML pipeline (https://spark.apache.org/docs/latest/ml-pipeline.html) 1. DataProcessing 형태소 분석기를 사용하여 단어 추출 2. Featurize 데이터를 기계 학습 알고리즘이 이해 할 수 있는 숫자로 변환. 2.1. Term Frequency TF => 특정 단어가 (문서에) 몇번 등장 했는지 나나내는값 Spark CountVectorizer 이용하여 TF Vector 를 구한다. --------------------------------------- |뉴스 ID | 스마트폰[0] | 공장[1] | 날찌 [2] | TF Vector 뉴스1 4 1 0 [4,1,0] 뉴스2 1 0 3 [1,0,3] 뉴스3 2 0 1 [2,0,1].. 2017. 6. 16.