안녕하세요. 프로젝트와 다양한 일정으로 오랜만에 글을 쓰게 되었습니다. 오늘은 데이터 파이프라인 구축 프로젝트에서 스파크를 사용한 경험을 공유하려고 합니다.Spark & Stream2012년 부터 map과 reduce를 지원하면서 스트림 처리할 수 있도록 지원함.DStream API를 통해서 수행했음.저수준 연산만 사용할 수 있기 때문에 최적화 기법을 활용하는 데 한계가 있었음.2016년 스파크 개발자들은 DataFrame을 기반으로 새로운 API를 개발함.Stream 처리란?스트림 처리는 신규 데이터를 끊임없이 처리해 결과를 만들어내는 행위이다. 입력 데이터는 무한하며 시작과 끝을 사전에 정의하지 않는다.스트리밍 애플리케이션이벤트 스트림이 도착한 후 다양한 쿼리 연산을 수행합니다. (예를 들어서, 이벤..