10. Spark 클러스터 실행 및 PySpark 예제 실행

pavi03 2022. 4. 25. 17:11

- Spark 클러스터를 실행하고 WordCount 예제를 실행한다.

1. start-all.sh 실행 (nn1만!) [Spark 클러스터 실행]

$SPARK_HOME/sbin/start-all.sh

2. Spark Word Count 예제 테스트 (nn1만!)

spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --driver-memory 512m --executor-memory 512m --executor-cores 1 $SPARK_HOME/examples/jars/spark-examples_2.12-3.2.1.jar 5

3. 예제 1 실행 (nn1만!) [PySpark 실행]

# 스크립트 편집
vim pyspark_example.py

# pyspark_example.py 아래 내용 저장
from pyspark import SparkContext, SparkConf

conf = SparkConf()
conf.setMaster("yarn")
conf.setAppName("Prof. Lee Test")  # 자기 이름 이니셜 입력 
sc = SparkContext(conf=conf)

print("="*100, "\n")
print(sc)
print("="*100, "\n")

# 실행 명령어
clear && spark-submit --master yarn --deploy-mode client pyspark_example.py
or
clear && spark-submit --master yarn --deploy-mode cluster pyspark_example.py

4. 예제 2 실행 (nn1만!)

KC_KOBIS_BOX_OFFIC_MOVIE_INFO_202105.csv

0.04MB

- 로컬에서 nn1서버로 csv 파일을 HDFS에 업로드하고 데이터 프레임을 출력하는 예제를 실행한다.

# nn1 서버로 csv 파일 업로드
scp KC_KOBIS_BOX_OFFIC_MOVIE_INFO_202105.csv nn1:~/

# nn1 서버로 csv 파일 업로드
scp KC_KOBIS_BOX_OFFIC_MOVIE_INFO_202105.csv ubuntu@nn1:~/

# EC2 Ubuntu terminal(nn1)

# HDFS로 csv 파일 업로드
hdfs dfs -put KC_KOBIS_BOX_OFFIC_MOVIE_INFO_202105.csv /test/

# HDFS 디렉토리 확인
hdfs dfs -ls /test

# 스크립트 편집
vim pyspark_example2.py

# pyspark_example2.py 아래 내용 저장
from pyspark.sql import SparkSession

sc = SparkSession.builder\
        .master("yarn")\
        .appName("Jmkim Test")\
        .getOrCreate()

df = sc.read.csv("hdfs:///test/KC_KOBIS_BOX_OFFIC_MOVIE_INFO_202105.csv", header=True)

df.show()

# 실행 명령어
clear && spark-submit --master yarn --deploy-mode client pyspark_example2.py