본문 바로가기

빅데이터/StreamSets

StreamSets Data Collector 소개

https://streamsets.com/

 

Home

DataOps: Saying Yes, Without the Tradeoffs Go Faster.   Be Confident.

streamsets.com

 

https://streamsets.com/products/sdc

 

StreamSets Data Collector

pipelines in minutes. Efficiently design, test and execute dataflow pipelines for data lake and multi-cloud data movement plus cybersecurity, IoT and customer 360 applications

streamsets.com

 

한마디로 어떤 데이터든지 원하는 형태로 가공할 수 있는 오픈소스 플랫폼입니다.

저도 현업에서 직접 사용한 지 3개월 정도 되어서 아직 알아가고 있는 중입니다.

 

스트림셋을 설치(설치파일은 4GB가 넘습니다)하고 실행하면 우리 눈에 아~주 보기 좋은 비주얼이 눈에 띕니다.

(NiFi하고는 비교가 안됨 ㅋ)

데이터 입구(Origin)에 http서버, DB select, RawData등 많은 설정을 할 수 있고, 받은 데이터를 사용용도에 맞게 훌륭히 가공할 수 있습니다. 가공 후의 데이터도 마찬가지로 http로 전송하거나 DB에 넣거나 파일로 만드는 등의 행위를 다양하게 할 수 있습니다. 물론 또 다른 빅데이터 플랫폼에도 응용할 수 있죠.(kafka, ES, 등)

 

빅데이터를 다루는 입장에서는 굉장히 쓰임새가 많습니다. 관리하는 서버의 로그를 한곳에 모아 통계데이터로 만든다거나 하는 행위는 손쉽게 만들 수 있습니다.  

 

NiFi 보다 늦게 세상에 나왔지만, 강력한 Pipeline 관리 기능과 편리한 GUI, 손쉬운 트러블 슈팅 등으로 전세계 Data 관련 종사자들에게 사랑을 듬뿍 받고 있는 솔루션입니다.

저도 더 연구해서 사용해 봐야겠습니다~

 

참고

https://www.youtube.com/watch?v=qAyFvC4c2n4