본문 바로가기

빅데이터 분석 환경 구축19

13. 클러스터 실행 스크립트 생성 - 지금까지 설정한 Hadoop, Yarn, Spark, Zookeeper 를 모두 start, stop, restart 할 수 있는 스크립트를 생성한다. 1. cluster-start-all.sh - Hadoop, Yarn, Spark, Zookeeper 를 모두 실행 시키는 쉘 스크립트를 생성한다. # 쉘 스크립트 편집 vim cluster-start-all.sh # 아래 내용 추가 후 저장 # nn1 zookeeper run sudo /usr/local/zookeeper/bin/zkServer.sh start # nn2 zookeeper run ssh nn2 "sudo /usr/local/zookeeper/bin/zkServer.sh start" # dn1 zookeeper run ssh dn1 ".. 2022. 4. 25.
12. Hadoop FailOver 테스트 - nn1에서 Active 상태인 namenode 프로세스를 kill 하고, nn2의 namenode가 active로 활성화 되는지 확인한다. 1. nn1 서버에서 NameNode 상태 확인 hdfs haadmin -getServiceState namenode1 hdfs haadmin -getServiceState namenode2 2. nn1 서버의 NameNode kill # jps 프로세스 확인 jps 1664 NameNode 2786 JobHistoryServer 2306 DFSZKFailoverController 3172 Master 1509 JournalNode 2453 ResourceManager 4359 Jps # NameNode 프로세스 kill kill -9 1664 # NameNode.. 2022. 4. 25.
11. 보안그룹 편집 및 WEB UI 확인 - AWS EC2 의 보안그룹을 편집하고 Hadoop, Yarn, Spark WEB UI를 확인한다. 1. 인바운드 규칙 편집 2. Spark WEB UI 확인 : http://[nn1서버 Public IP]:18080 - 4강에서 /usr/local/spark/conf/worker 편집할때, dn1, dn2, dn3로 지정하여 spark 3개 워커의 주소가 dn1, dn2, dn3의 private ip 주소로 설정되어 있음 - 10강의 예제2 다시 실행후 웹UI확인 3. Yarn WEB UI 확인 : http://[nn1서버 Public IP]:8088 4. Hadoop WEB UI 확인(Active) : http://[nn1서버 Public IP]:50070 - 메뉴 > DataNode 5. Hado.. 2022. 4. 25.
10. Spark 클러스터 실행 및 PySpark 예제 실행 - Spark 클러스터를 실행하고 WordCount 예제를 실행한다. 1. start-all.sh 실행 (nn1만!) [Spark 클러스터 실행] $SPARK_HOME/sbin/start-all.sh 2. Spark Word Count 예제 테스트 (nn1만!) spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --driver-memory 512m --executor-memory 512m --executor-cores 1 $SPARK_HOME/examples/jars/spark-examples_2.12-3.2.1.jar 5 3. 예제 1 실행 (nn1만!) [PySpark 실행] # 스크립트 .. 2022. 4. 25.