220408 데이터 파이프라인 학습 용어 정리

데이터 파이프라인 학습 용어 정리

이번 포스팅에서는 데이터 파이프라인을 공부하면서 나왔던 용어에 대해서 정리를 하고자 한다. 이 포스팅에 학습을 하면서 몰랐던 용어에 대해서 정리를 해두려고 한다.

온프레미스(On-premise)?

온프레미스는 기업의 서버를 클라우드 같은 원격 환경에서 운영하지 않고, 자체적으로 보유한 전산실 서버에 직접 설치해 운영하는 방식을 의미한다.
온프레미스는 클라우드 컴퓨팅 기술이 나오기 전까지 기업 인프라 구축의 일반적인 방식이었다.

장점으로는 기업의 비즈니스 정보를 보안성 높게 관리할 수 있다는 것이 있으며, 단점으로는 시스템 구축에 있어 많은 시간이 걸리고, 비용이 많이 들어간다는 것이다.

따라서 기업에서 보안성이 높은 데이터는 온프레미스 환경에서 관리하고, 보안성이 낮은 데이터는 클라우드 환경을 사용하는, 복합적인 하이브리드 IT인프라 형태로 관리가 되기도 한다.

cf) 클라우드 방식의 서비스를 오프 프레미스(Off-premise)라 한다.

Adhoc하게 데이터를 분석한다고?

Ad-Hoc하다는 의미는 "좀 여유롭게" 혹은 "특정한 형식 없이 사용할 수 있는"이라는 의미를 갖고 있다. 예를들어 아래와 같은 쿼리문이 있다고 하면, myId는 늘 변하게 되는 변수이기 때문에 미리 정의된 쿼리문이 아닌 즉석에서 바꿔서 사용되는 쿼리인 것이다. 이러한 쿼리를 Ad-Hoc하다고 할 수 있다.

ex. var newSqlQuery = "SELECT * FROM table WHERE id =" + myId;

Scale up

서버의 메모리나 CPU, 디스크의 메모리가 부족해서 특정 JOB을 돌릴 때 죽거나 CPU가 70-80%올라갔을 때 메모리, 디스크, CPU를 올려주는 것을 말한다.

Scale out

Distribute system의 일종으로, 여러 서버 노드를 두고 필요시에 노드의 갯수를 늘려주는 것을 의미한다.
유연한 아키텍처 구성에 중요하다.

Object storage?

오브젝트 스토리지는 클라우드에서 일반적으로 사용되는, 계층이 없는 데이터 저장 방법이라고 한다.
다른 데이터 스토리지 방법과는 달리 오브젝트 기반의 스토리지는 디렉토리 트리를 사용하지 않으며, 개별 데이터 단위(object)가 스토리지 풀의 동일한 레벨에 있다.
각 오브젝트에는 애플리케이션에서 검색하는데 사용되는 고유 식별자가 있으며, 또한 각 오브젝트는 함께 검색되는 메타데이터를 포함할 수 있다.

CSP(Cloud Service Provider)?

데이터 파이프라인 강의를 듣는데, 데이터 파이프라인을 클라우드 기반의 환경에서 구축하는 수업이다보니, CSP라는 용어가 많이 나왔다.
CSP란 Cloud Service Provider의 약어로, 클라우드 서비스를 제공하는 업체, 벤더사를 의미한다.
최근 기업의 비즈니스 플랫폼이 클라우드로 옮겨가고 있고, 클라우드 서비스에는 설치 없이 웹에서 필요한 소프트웨어를 빌려쓰는 형태인 SaaS(Software as a Service), 원하는 만큼 컴퓨팅 인프라를 쓰는 IaaS(Infrastructure as a Service), 소프트웨어 서비스를 개발할 때 필요한 플랫폼을 제공하는 서비스 PaaS(Platform as a Service가 있다.

클라우드 서비스를 제공하는 대표적인 업체로 아마존(AWS), 마이크로소프트(MS Azure), IBM 그리고 Oracle이 있다.

이기종 데이터(Heterogeneous data)?

우리가 살고 있는 현재, 데이터들의 가치는 무한히 높아지고 대용량 데이터를 저장하기 위한 데이터베이스의 필요로 인해서 서로 다른 특징들을 가지는 다양한 유형의 대용량 데이터베이스가 많은 분야에 적용되고 있다.
그로 인해 다양한 종류의 데이터베이스에 대한 접근이 쉬워져서 이기종 데이터베이스간의 데이터 동기화의 필요성이 대두되고 있다.
여기서 이기종 데이터이란 각 기 다른 두 종의 데이터라고 하면 될 것 같다.

OLTP(Online Transaction Processing)/OLAP(Online Analytical Processing)?

우선 OLTP는 한 온라인 트랜젝션을 처리하는 것을 말한다. 네트워크상에서 온라인 사용자들의 Database에 대해 일괄 Transaction을 처리하는 것을 의미한다.
반면 OLAP는 Database가 자체적으로 운용되는 시스템이라기 보다는 DW 등의 시스템과 관련되어 Data를 분석하고 의미있느 정보로 치환하거나 복잡한 모델링을 가능하게 하는 분석 방법을 말한다.

데이터 백업 vs 아카이브

백업은 데이터가 손상되거나 손실될 경우를 대비해서 저장하는 데이터의 사본이며, 원본 데이터는 백업을 생선한 후에도 지우지 않고 유지한다.그리고 데이터 복원(Restore)를 목적으로 한다.
아카이브(Archive)는 참고용으로 생성한 데이터 사본이다. 종종 아카이브를 생성한 후에 원본 데이터를 지우기도 하며, 아카이브는 여러 가지 목적이 있는데 보편적으로 이전 데이터에서 일부 데이터를 찾기 위한 목적으로 사용된다. 그리고 아카이브는 인덱스를 제공하기 때문에 사용자는 오래된 콘텐츠에서 과거의 데이터를 되찾을 수 있다.
일부 서버에서 아카이브 시스템의 크기나 접근 기간으로 아카이브를 삭제하여 시스템을 최적화하고 저장공간을 최적화한다.

TPS(Transactions Per Second)

초당 트랜젝션 수로, 일반적인 관점에서 초당 특정 엔티티가 수행한 원자 동작의 수를 가르킨다. 제한된 관점에서는 DBMS 벤터와 사용자 공동체가 초당 데이터베이스 트랜젝션 수를 가리키기 위해 사용되는 것이 보통이다.
[출처] : https://ko.wikipedia.org/wiki/%EC%B4%88%EB%8B%B9_%ED%8A%B8%EB%9E%9C%EC%9E%AD%EC%85%98_%EC%88%98

20220412 업데이트

프로비저닝(Provisioning)

요즘 AWS를 학습하면서 프로비저닝이라는 용어가 자주 등장한다. 이프로비저닝의 의미는 직영하면 “제공하는 것”이란 뜻인데, 어떤 종류의 서비스이든 사용자의 요구에 맞게 시스템 자체를 제공하는 것을 말한다. 제공해줄 수 있는 것은 인프라 자원이나 서비스, 장비를 포함한다.

2020/04/15 업데이트

메타데이터?

데이터에 대한 데이터로, 데이터에 관한 구조화된 데이터이다.
주로 데이터를 설명해주는 역할을 해주는 데이터로, 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이터이다.
어떤 데이터 즉 구조화된 정보를 분석, 분류하고 부가적 정보를 추가하기 위해 그 데이터 뒤에 함께 따라가는 정보를 말한다.
ex. 코드나 테이블에 대한 설명, 칼럼 정보를 설명, 머신러닝은 feature에 대한 설명
출처: 위키백과

ETL?

추출, 변환, 적재(Extract, Transform, Load)는 컴퓨팅에서 데이터베이스 이용의 한 과정으로 특히 데이터 웨어하우스에서 다음의 내용을 아우른다.

  • 동일 기종 혹은 타 기종의 데이터 소스로부터 데이터를 추출
  • 조회 또는 분석을 목적으로 적절한 포멧이나 구조로 데이터를 저장하기 위해 데이터를 변환
  • 최종 대상(Database, DataStore, DM, DW)으로 변환 데이터를 적재한다. 출처 : 위키백과
    데이터 파이프라인을 구축한다 = ETL 구축한다

컴퓨터 클러스터

컴퓨터 클러스터는 여러대의 컴퓨터들이 연결되어 하나의 시스템처럼 동작하는 컴퓨터들의 집합을 말한다.

Region

Amazon S3에서 사용자가 만드는 Bucket을 저장할 Region을 선택할 수 있다. 리전의 선택 기준은 지연 시간 최적화, 비용 최소화, 규정 요구 사항 준수 등 다양한 기준들이 있다.
각 국가별 Region내에서도 Zone에 iDC(Internet Data Center)센터가 위치해있는데, 우리나라에는 4개의 iDC 센터가 위치해있다.

데이터 스트림에서 원하는 데이터를 캡쳐할 때 캡쳐링되는 크기를 윈도우라고 한다?

내용 추가 작성하기