본문 바로가기

분류 전체보기86

15. PySpark 예제 테스트 1. Create new note - Zeppelin 홈 화면에서 “Create new note” 클릭 후 Note Name을 입력한다. - Default Interpreter를 “spark-submit”으로 설정한다. 2. Zeppelin note 실행 - 셀의 우측위에 삼각형으로 셀단위로 실행하고, pending 상태가 finished 까지 기다린다. cluster mode 이므로 분산처리하기 위한 셋업시간이 기본적으로 걸림.(10초 이상) %spark.pyspark from pyspark.sql import SparkSession from pyspark.sql.functions import col sc = SparkSession.builder\ .master("yarn")\ .appName("학번 .. 2022. 4. 25.
14. Zeppelin 설치 및 PySpark 연동 - 지금까지 설정한 Hadoop, Yarn, Spark, Zookeeper 클러스터 환경에 Zeppelin을 연동하기 위해 설치 및 환경설정을 진행한다. 1. Zeppelin 0.10.1 설치 # 디렉토리 이동 cd /install_dir # Zeppelin 다운로드 sudo wget https://dlcdn.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz # Zeppelin 압축 해제 sudo tar -zxvf zeppelin-0.10.1-bin-all.tgz -C /usr/local/ # Zeppelin 디렉토리 이름 변경 sudo mv /usr/local/zeppelin-0.10.1-bin-all/ /usr/local/zeppelin.. 2022. 4. 25.
13. 클러스터 실행 스크립트 생성 - 지금까지 설정한 Hadoop, Yarn, Spark, Zookeeper 를 모두 start, stop, restart 할 수 있는 스크립트를 생성한다. 1. cluster-start-all.sh - Hadoop, Yarn, Spark, Zookeeper 를 모두 실행 시키는 쉘 스크립트를 생성한다. # 쉘 스크립트 편집 vim cluster-start-all.sh # 아래 내용 추가 후 저장 # nn1 zookeeper run sudo /usr/local/zookeeper/bin/zkServer.sh start # nn2 zookeeper run ssh nn2 "sudo /usr/local/zookeeper/bin/zkServer.sh start" # dn1 zookeeper run ssh dn1 ".. 2022. 4. 25.
12. Hadoop FailOver 테스트 - nn1에서 Active 상태인 namenode 프로세스를 kill 하고, nn2의 namenode가 active로 활성화 되는지 확인한다. 1. nn1 서버에서 NameNode 상태 확인 hdfs haadmin -getServiceState namenode1 hdfs haadmin -getServiceState namenode2 2. nn1 서버의 NameNode kill # jps 프로세스 확인 jps 1664 NameNode 2786 JobHistoryServer 2306 DFSZKFailoverController 3172 Master 1509 JournalNode 2453 ResourceManager 4359 Jps # NameNode 프로세스 kill kill -9 1664 # NameNode.. 2022. 4. 25.