'2017/06 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2017/06 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록2017/06 (2)

IT.FARMER

Spark ML pipeline

Spark ML pipeline (https://spark.apache.org/docs/latest/ml-pipeline.html) 1. DataProcessing 형태소 분석기를 사용하여 단어 추출 2. Featurize 데이터를 기계 학습 알고리즘이 이해 할 수 있는 숫자로 변환. 2.1. Term Frequency TF => 특정 단어가 (문서에) 몇번 등장 했는지 나나내는값 Spark CountVectorizer 이용하여 TF Vector 를 구한다. --------------------------------------- |뉴스 ID | 스마트폰[0] | 공장[1] | 날찌 [2] | TF Vector 뉴스1 4 1 0 [4,1,0] 뉴스2 1 0 3 [1,0,3] 뉴스3 2 0 1 [2,0,1]..

BigData/Spark 2017. 6. 16. 10:10

Spark 설치 및 실습

https://spark.apache.org/downloads.html 에서 최신 스파크 다운로드 하둡을 별도 로 설치 하지 않을것임으로 2번에서 빌트인된 하둡을 다운받는다. 여기선 최신 2.7 다운tar 파일 압축해제 후 spark-shell.cmd 를 실행한다. ${SPARK_HOME} 에있는 README.md 파일을 읽어 워드카운트를 세는 샘플을 실행한다. scala> val lines = sc.textFile("README.md")lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at :24 scala> val words = lines.flatMap(line=> line.split(""))words..

BigData/Spark 2017. 6. 16. 10:06

이전 Prev 1 Next 다음

목록2017/06 (2)

IT.FARMER

티스토리툴바