220512 데이터 엔지니어가 되기 위한 준비와 노력

Data Engineer

이번 포스팅에서는 인터넷에서 우연히 보게 된 현업 데이터 엔지니어의 “데이터 엔지니어가 되기 위한 준비”에 대한 영상을 보고 난 후의 후기에 대해서 작성해보려고 한다.
결과적으로는 너무 많은 도움이 되었다. 아직은 많이 부족하지만, 개인적으로 데이터 파이프라인 구축이나 Hadoop, Spark, AWS 등 데이터 엔지니어가 되기 위해 필요한 기술 스택에 대해서 공부를 해왔기 때문에 이번 영상이 나에게 많은 도움이 되었던 것 같다.

가장 많은 도움이 되었던 부분은 데이터 엔지니어라는 직무적 측면에서 지원하고자 하는 기업을 볼때 어떻게 봐야하는가였다.

데이터 엔지니어 직무로서 바라 본 기업의 업무 프로세스

이 부분은 내가 기업에 지원할때 실제 그 기업에서 어떤 데이터가 발생하는지, 그리고 그 데이터를 수집하고 관리하며, 최종적으로 데이터가 어떤식으로 활용이 되는지에 대한 이해는 필수인 것 같다는 생각을 하였다.

예를들어, A라는 기업에서 아래의 업무 프로세스를 가지고 있다고 가정하자.

[업무 프로세스]
연구 및 개발 -> 제조 -> 배송 -> 온/오프라인 판매

위의 전체 업무 프로세스를 통해 여러 데이터들이 발생할 것이다. 최종 판매 단계에서는 매일 다양한 경로로 판매가 이루어지고 있다는 것을 분석할 수도 있을 것이고, TB규모이상의 데이터가 처리될 것이다.
(위의 각 업무 프로세스상에서 발생하는 데이터들을 추출하기 위해서는 데이터 엔지니어의 필수역량인 데이터 파이프라인 구축을 해야한다.)

기업마다 업무상에서 추출 및 분석하는 데이터는 다르며, 게임회사의 경우에는 게임 플레이할 때 발생하는 로그 데이터나 게임 아이템 마켓에서 구매내역과 관련된 데이터도 있다.

이처럼 데이터를 수집(추출)하고 가공하고, 적재하는 일련의 과정을 통틀어서 ETL(Extract/Transform/Load)라고 한다. 기업은 매일 생산해내는 여러 데이터를 수집하고 관리하며 데이터가 필요한 곳에 전달해서 의사결정에 활용한다.

Read more