https://streamsets.com/products/sdc
한마디로 어떤 데이터든지 원하는 형태로 가공할 수 있는 오픈소스 플랫폼입니다.
저도 현업에서 직접 사용한 지 3개월 정도 되어서 아직 알아가고 있는 중입니다.
스트림셋을 설치(설치파일은 4GB가 넘습니다)하고 실행하면 우리 눈에 아~주 보기 좋은 비주얼이 눈에 띕니다.
(NiFi하고는 비교가 안됨 ㅋ)
데이터 입구(Origin)에 http서버, DB select, RawData등 많은 설정을 할 수 있고, 받은 데이터를 사용용도에 맞게 훌륭히 가공할 수 있습니다. 가공 후의 데이터도 마찬가지로 http로 전송하거나 DB에 넣거나 파일로 만드는 등의 행위를 다양하게 할 수 있습니다. 물론 또 다른 빅데이터 플랫폼에도 응용할 수 있죠.(kafka, ES, 등)
빅데이터를 다루는 입장에서는 굉장히 쓰임새가 많습니다. 관리하는 서버의 로그를 한곳에 모아 통계데이터로 만든다거나 하는 행위는 손쉽게 만들 수 있습니다.
NiFi 보다 늦게 세상에 나왔지만, 강력한 Pipeline 관리 기능과 편리한 GUI, 손쉬운 트러블 슈팅 등으로 전세계 Data 관련 종사자들에게 사랑을 듬뿍 받고 있는 솔루션입니다.
저도 더 연구해서 사용해 봐야겠습니다~
참고
https://www.youtube.com/watch?v=qAyFvC4c2n4