14. Zeppelin 설치 및 PySpark 연동

pavi03 2022. 4. 25. 17:25

- 지금까지 설정한 Hadoop, Yarn, Spark, Zookeeper 클러스터 환경에 Zeppelin을 연동하기 위해 설치 및 환경설정을 진행한다.

1. Zeppelin 0.10.1 설치

# 디렉토리 이동
cd /install_dir

# Zeppelin 다운로드
sudo wget https://dlcdn.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz

# Zeppelin 압축 해제
sudo tar -zxvf zeppelin-0.10.1-bin-all.tgz -C /usr/local/

# Zeppelin 디렉토리 이름 변경
sudo mv /usr/local/zeppelin-0.10.1-bin-all/ /usr/local/zeppelin

# Zeppelin 디렉토리 소유자 변경
sudo chown -R $USER:$USER /usr/local/zeppelin

2. Zeppelin 환경 변수 설정

# 시스템 환경변수 편집
sudo vim /etc/environment

# 아래 내용 추가 후 저장
PATH 뒤에 ":/usr/local/zeppelin/bin" 추가
ZEPPELIN_HOME="/usr/local/zeppelin"

# 시스템 환경변수 활성화
source /etc/environment

# 사용자 환경변수 편집
sudo echo 'export ZEPPELIN_HOME=/usr/local/zeppelin' >> ~/.bashrc

# 사용자 환경변수 활성화
source ~/.bashrc

3. zeppelin-site.xml 파일 설정

# Zeppelin 환경설정 디렉토리 이동
cd /usr/local/zeppelin/conf

# zeppelin-site.xml 파일 복사
cp zeppelin-site.xml.template zeppelin-site.xml

# zeppelin-site.xml 파일 편집
vim zeppelin-site.xml

# 아래 내용 수정 후 저장
<property>
  <name>zeppelin.server.addr</name>
  <value>0.0.0.0</value>
  <description>Server binding address</description>
</property>

<property>
  <name>zeppelin.server.port</name>
  <value>18888</value>
  <description>Server port.</description>
</property>

4. zeppelin-env.sh 파일 설정

# zeppelin-env.sh 파일 복사
cp zeppelin-env.sh.template zeppelin-env.sh

# zeppelin-env.sh 파일 편집
vim zeppelin-env.sh

# 아래 내용 수정 후 저장
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=/usr/local/spark
export SPARK_MASTER=yarn
export ZEPPELIN_PORT=18888
export PYTHONPATH=/usr/bin/python3
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/bin/python3

5. Zeppelin 실행

/usr/local/zeppelin/bin/zeppelin-daemon.sh start

# Zeppelin 실행
Zeppelin start

6. 보안 규칙 편집

6. Zeppelin WEB UI 확인 : http://[nn1의 Public IP]:18888 (기본 계정 : admin / admin)

7. Zeppelin WEB UI 환경설정

- 우측에 있는 “edit” 버튼을 눌러 편집창을 실행하고 “spark.submit.deployMode” 값을 “cluster” 로 바꾼다.

- “PYSPARK_DRIVER_PYTHON” 값을 python에서 “/usr/bin/python3” 으로 바꾼다