스파크의 등장 배경
- 점점 늘어나는 데이터
- 데이터가 늘어나면서 발생하는 다양한 문제
- 서버의 증설로 해결 불가능
- Hadoop의 등장으로 일부 해소
- 하지만, Hadoop의 데이터 처리 속도는 느리고 개발자에게 높은 학습 진입 장벽을 줌
- 빠른 속도로 데이터를 처리할 수 있는 통합형 연산 엔진으로 생성됨
스파크 개요
- Java & Scala로 만들어짐
- JVM 위에서 동작하게 된다.
- 빠른 병렬 연산 엔진에 초점을 맞추고 있다.
- 특정 저장소를 선호하지 않기 때문에 다양한 저장소와 협업이 가능하다.
### 스파크 구성 요소
- 스파크 애플리케이션
- 스파크 세션
- Cluster Manager
- Job
- Stage
- Task
'TIL' 카테고리의 다른 글
240715 Spark 강의 (0) | 2024.07.15 |
---|---|
240705 Kafka 이론 (0) | 2024.07.09 |
240507 컴퓨터 공학 기초 학습 (0) | 2024.05.07 |
240503 AWS 기초 학습 (0) | 2024.05.04 |
240431 리눅스 고급 사용법 학습 (4) | 2024.05.01 |