반응형
Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
Tags
- coalesce
- QueryDSL
- Spring Open Feign
- Docker Compose
- Airflow
- Hibernate
- spring boot
- KAFKA
- grafana
- Selenium
- weblogic 10
- argo cd
- spring cloud
- docker
- docker-compose
- mybatis
- spring boot redis
- docker compose mysql
- ChannelPipeline
- RabbitMQ
- cassandra
- netflix oss
- Netty
- vue.js
- MySQL
- Redis Sentinel
- jmeter
- redis
- JPA
- WebLogic
Archives
- Today
- Total
목록Spark ML pipeline (1)
IT.FARMER
Spark ML pipeline
Spark ML pipeline (https://spark.apache.org/docs/latest/ml-pipeline.html) 1. DataProcessing 형태소 분석기를 사용하여 단어 추출 2. Featurize 데이터를 기계 학습 알고리즘이 이해 할 수 있는 숫자로 변환. 2.1. Term Frequency TF => 특정 단어가 (문서에) 몇번 등장 했는지 나나내는값 Spark CountVectorizer 이용하여 TF Vector 를 구한다. --------------------------------------- |뉴스 ID | 스마트폰[0] | 공장[1] | 날찌 [2] | TF Vector 뉴스1 4 1 0 [4,1,0] 뉴스2 1 0 3 [1,0,3] 뉴스3 2 0 1 [2,0,1]..
BigData/Spark
2017. 6. 16. 10:10