빅데이터 분석 환경 구축
10. Spark 클러스터 실행 및 PySpark 예제 실행
pavi03
2022. 4. 25. 17:11
- Spark 클러스터를 실행하고 WordCount 예제를 실행한다.
1. start-all.sh 실행 (nn1만!) [Spark 클러스터 실행]
$SPARK_HOME/sbin/start-all.sh
2. Spark Word Count 예제 테스트 (nn1만!)
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --driver-memory 512m --executor-memory 512m --executor-cores 1 $SPARK_HOME/examples/jars/spark-examples_2.12-3.2.1.jar 5
3. 예제 1 실행 (nn1만!) [PySpark 실행]
# 스크립트 편집
vim pyspark_example.py
# pyspark_example.py 아래 내용 저장
from pyspark import SparkContext, SparkConf
conf = SparkConf()
conf.setMaster("yarn")
conf.setAppName("Prof. Lee Test") # 자기 이름 이니셜 입력
sc = SparkContext(conf=conf)
print("="*100, "\n")
print(sc)
print("="*100, "\n")
# 실행 명령어
clear && spark-submit --master yarn --deploy-mode client pyspark_example.py
or
clear && spark-submit --master yarn --deploy-mode cluster pyspark_example.py
4. 예제 2 실행 (nn1만!)
KC_KOBIS_BOX_OFFIC_MOVIE_INFO_202105.csv
0.04MB
- 로컬에서 nn1서버로 csv 파일을 HDFS에 업로드하고 데이터 프레임을 출력하는 예제를 실행한다.
# nn1 서버로 csv 파일 업로드
scp KC_KOBIS_BOX_OFFIC_MOVIE_INFO_202105.csv nn1:~/
# nn1 서버로 csv 파일 업로드
scp KC_KOBIS_BOX_OFFIC_MOVIE_INFO_202105.csv ubuntu@nn1:~/
# EC2 Ubuntu terminal(nn1)
# HDFS로 csv 파일 업로드
hdfs dfs -put KC_KOBIS_BOX_OFFIC_MOVIE_INFO_202105.csv /test/
# HDFS 디렉토리 확인
hdfs dfs -ls /test
# 스크립트 편집
vim pyspark_example2.py
# pyspark_example2.py 아래 내용 저장
from pyspark.sql import SparkSession
sc = SparkSession.builder\
.master("yarn")\
.appName("Jmkim Test")\
.getOrCreate()
df = sc.read.csv("hdfs:///test/KC_KOBIS_BOX_OFFIC_MOVIE_INFO_202105.csv", header=True)
df.show()
# 실행 명령어
clear && spark-submit --master yarn --deploy-mode client pyspark_example2.py