스파크의 등장 배경- 점점 늘어나는 데이터- 데이터가 늘어나면서 발생하는 다양한 문제- 서버의 증설로 해결 불가능- Hadoop의 등장으로 일부 해소- 하지만, Hadoop의 데이터 처리 속도는 느리고 개발자에게 높은 학습 진입 장벽을 줌 - 빠른 속도로 데이터를 처리할 수 있는 통합형 연산 엔진으로 생성됨스파크 개요- Java & Scala로 만들어짐- JVM 위에서 동작하게 된다.- 빠른 병렬 연산 엔진에 초점을 맞추고 있다.- 특정 저장소를 선호하지 않기 때문에 다양한 저장소와 협업이 가능하다.### 스파크 구성 요소- 스파크 애플리케이션- 스파크 세션- Cluster Manager- Job- Stage- Task