본문 바로가기

빅데이터 분석 환경 구축19

Ubuntu 20.04 YUM Install cd /etc/apt/ sudo cp sources.list sources.list.back sudo vi sources.list deb http://archive.ubuntu.com/ubuntu bionic main restricted universe multiverse deb http://archive.ubuntu.com/ubuntu bionic-security main restricted universe multiverse deb http://archive.ubuntu.com/ubuntu bionic-updates main restricted universe multiverse sudo apt-get update sudo apt-get update -y sudo apt-get install -y yum 2022. 11. 28.
Trouble Shooting ssh_keygen 으로 인한 문제 개념 이해 ssh-keygen 은 id_rsa (private key)와 id_rsa.pub: (public key)을 생성 A→B로 연결을 원할시, id_rsa.pub 의 내용은 B의 .ssh/authorized_keys 에 추가되어 있어야함. id_rsa.pub 파일 직접 사용되지는 않음 A → B 연결시, A는 id_rsa 키를 이용하여, B는 authorized_keys 파일에 append된 id_rsa.pub 내용을 이 때, A의 .ssh/know_hosts에는 B를 처음 연결할 때, B를 연결하기 위한 signature를 남기는데, 이 때 B의 주소가 바뀌면 접속시 에러가 발생할 수 잇다. 재시작할 경우도, private ip address는 바뀌지 않으므로.. 2022. 4. 25.
15. PySpark 예제 테스트 1. Create new note - Zeppelin 홈 화면에서 “Create new note” 클릭 후 Note Name을 입력한다. - Default Interpreter를 “spark-submit”으로 설정한다. 2. Zeppelin note 실행 - 셀의 우측위에 삼각형으로 셀단위로 실행하고, pending 상태가 finished 까지 기다린다. cluster mode 이므로 분산처리하기 위한 셋업시간이 기본적으로 걸림.(10초 이상) %spark.pyspark from pyspark.sql import SparkSession from pyspark.sql.functions import col sc = SparkSession.builder\ .master("yarn")\ .appName("학번 .. 2022. 4. 25.
14. Zeppelin 설치 및 PySpark 연동 - 지금까지 설정한 Hadoop, Yarn, Spark, Zookeeper 클러스터 환경에 Zeppelin을 연동하기 위해 설치 및 환경설정을 진행한다. 1. Zeppelin 0.10.1 설치 # 디렉토리 이동 cd /install_dir # Zeppelin 다운로드 sudo wget https://dlcdn.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz # Zeppelin 압축 해제 sudo tar -zxvf zeppelin-0.10.1-bin-all.tgz -C /usr/local/ # Zeppelin 디렉토리 이름 변경 sudo mv /usr/local/zeppelin-0.10.1-bin-all/ /usr/local/zeppelin.. 2022. 4. 25.