TIL

240711 Spark 강의

gangmin 2024. 7. 11. 23:13

스파크의 등장 배경

- 점점 늘어나는 데이터
- 데이터가 늘어나면서 발생하는 다양한 문제
- 서버의 증설로 해결 불가능
- Hadoop의 등장으로 일부 해소
- 하지만, Hadoop의 데이터 처리 속도는 느리고 개발자에게 높은 학습 진입 장벽을 줌
 - 빠른 속도로 데이터를 처리할 수 있는 통합형 연산 엔진으로 생성됨

스파크 개요

- Java & Scala로 만들어짐
- JVM 위에서 동작하게 된다.
- 빠른 병렬 연산 엔진에 초점을 맞추고 있다.
- 특정 저장소를 선호하지 않기 때문에 다양한 저장소와 협업이 가능하다.

### 스파크 구성 요소
- 스파크 애플리케이션
- 스파크 세션
- Cluster Manager
- Job
- Stage
- Task

'TIL' 카테고리의 다른 글

240715 Spark 강의  (0) 2024.07.15
240705 Kafka 이론  (0) 2024.07.09
240507 컴퓨터 공학 기초 학습  (0) 2024.05.07
240503 AWS 기초 학습  (0) 2024.05.04
240431 리눅스 고급 사용법 학습  (4) 2024.05.01