이번 포스팅에서는 구조상으로 보면, MapReduce의 상위에 위치해있는 Pig라는 친구를 사용해서 실습을 해보도록 하겠다. 실습은 Ambari를 사용해서 해보도록 한다.
Ambari에서 관리자 계정 접근 활성화
1 2 3 4
$su root # switch to root account $ambari-admin-password-reset # type the password for admin account
Pig ?
Ambari 웹 브라우저의 화면 우측 상단에 격자 무늬 아이콘을 클릭하면, Pig View 메뉴를 확인할 수 있는데, 이곳에 Pig Scripts 추가하고 실행해볼 수 있다.
여지까지 Hadoop에 대해서 학습하면서 Hadoop의 가장 핵심기술인 MapReduce에 대해서 중점적으로 배웠다. MapReduce는 Hadoop의 시작을 함께 한 기술이긴 하지만 오래된 데이터 처리 기술이고, 어렵다. 이러한 어려운 데이터 처리 기술을 Pig는 좀 더 쉽게 할 수 있도록 도와준다.
이번 포스팅에서는 이전에 작성했던 Python으로 작성한 MapReduce 코드를 HDP 2.6.5 환경에서 구동시켜볼 것이다. Hadoop을 사용하지 않고, local에 copy된 dataset을 가지고 로컬에서 실행해보고, Hadoop을 기반으로 실행해보는 두 가지 방법으로 실습을 해볼 것이다.
HDP2.6.5에서 MapReduce 실습환경 구축
[STEP1] 가장 먼저 VirtualBox에 올린 HDP2.6.5 OS Image를 구동시킨다.
[STEP2] Putty를 사용해서 가상 OS환경에 접속한다.
[Putty host/port configuration]
1 2
host: maria_dev@127.0.0.1 port: 2222
[STEP3] PIP 설치를 위한 SETUP
1 2 3 4 5 6 7 8 9 10 11 12 13
# root 계정으로 switch
$su root # root account initial password : hadoop
$yum-config-manager --save --setopt=HDP-SOLR-2.6-100.skip_if_unavailable=true# HDP Solar라는 저장소를 무시하고 설치하기 위한 configuration
$yum install https://repo.ius.io/ius-release-el7.rpm https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm # IUS package를 수동으로 설치