반응형
2020/04/03 - [BigData/Spark] - spark linux install (Master / Worker)
2020/04/06 - [BigData/Spark] - spark sql
2020/04/06 - [BigData/Spark] - Spark 모니터링
2020/04/06 - [BigData/Spark] - Spark Dataset
2020/04/06 - [BigData/Spark] - Spark Dataset 데이터 조회 예제
2020/04/06 - [BigData/Spark] - Dataset DataFrame Convert
2020/04/06 - [BigData/Spark] - Spark submit
Dataset , DataFrame
데이터 세트는 분산된 데이터 모음이다. 데이터 세트는 1.6에 추가된 새로운 인터페이스로 Spark SQL의 최적화된 실행 엔진의 이점과 함께 RDD의장점 (강력한 타이핑 , 강력한 람다함수 사용 기능)을 제공한다. JVM위에서 구동되며 Dataset API는 scala 와 java 에서 사용 할 수 있다.
DataFram은 명명된 열로 구성된 데이터의 집합니다. 관계형 데이터 베이스의 테이블 또는 R/Python 의 데이터 프레임과 개념적으로는 동일 하지만 기본적으로 풍부한 최적화 기능이 있다.
데이터 프레임은 구주화된 데이터 파일, 하이브파일, 외부 데이터 베이스, RDD 와 같은 다양한 파일로 만들어 낼수 있다.
반응형
'BigData > Spark' 카테고리의 다른 글
Dataset DataFrame Convert (0) | 2020.04.06 |
---|---|
Spark Dataset 데이터 조회 예제 (0) | 2020.04.06 |
Spark 모니터링 (0) | 2020.04.06 |
spark sql (0) | 2020.04.06 |
spark linux install (Master / Worker) (0) | 2020.04.03 |