Ubuntu/Debian에서 Apache Spark를 설치 및 설정하는 방법


Apache Spark는 더 빠른 계산 결과를 제공하기 위해 생성된 오픈 소스 분산 계산 프레임워크입니다. 메모리 내 계산 엔진으로 데이터가 메모리에서 처리됩니다.

Spark는 스트리밍, 그래프 처리, SQL, MLLib에 대한 다양한 API를 지원합니다. 또한 Java, Python, Scala 및 R을 기본 언어로 지원합니다. Spark는 대부분 Hadoop 클러스터에 설치되지만 독립 실행형 모드에서도 Spark를 설치 및 구성할 수 있습니다.

이 기사에서는 Debian 및 Ubuntu 기반 배포판에 Apache Spark를 설치하는 방법을 볼 것입니다.

Ubuntu에 Java 및 Scala 설치

Ubuntu에 Apache Spark를 설치하려면 컴퓨터에 Java 및 Scala가 설치되어 있어야 합니다. 대부분의 최신 배포판에는 기본적으로 Java가 설치되어 있으며 다음 명령을 사용하여 확인할 수 있습니다.

$ java -version

출력이 없으면 Ubuntu에 Java를 설치하는 방법에 대한 기사를 사용하여 Java를 설치하거나 단순히 다음 명령을 실행하여 Ubuntu 및 Debian 기반 배포에 Java를 설치할 수 있습니다.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

다음으로 scala를 검색하여 설치하는 다음 명령을 실행하여 apt 저장소에서 Scala를 설치할 수 있습니다.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Scala 설치를 확인하려면 다음 명령어를 실행하세요.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Ubuntu에 Apache Spark 설치

이제 공식 wget 명령으로 이동하여 터미널에서 직접 파일을 다운로드합니다.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

이제 터미널을 열고 다운로드한 파일이 있는 위치로 전환하고 다음 명령을 실행하여 Apache Spark tar 파일의 압축을 풉니다.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

마지막으로 추출한 Spark 디렉터리를 /opt 디렉터리로 이동합니다.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Spark에 대한 환경 변수 구성

이제 스파크를 시작하기 전에 .profile 파일에 몇 가지 환경 변수를 설정해야 합니다.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

이러한 새로운 환경 변수가 셸 내에서 접근 가능하고 Apache Spark에서 사용 가능한지 확인하려면 다음 명령을 실행하여 최근 변경 사항을 적용해야 합니다.

$ source ~/.profile

서비스를 시작하고 중지하는 모든 스파크 관련 바이너리는 sbin 폴더 아래에 있습니다.

$ ls -l /opt/spark

Ubuntu에서 Apache Spark 시작

다음 명령어를 실행하여 Spark 마스터 서비스 및 슬레이브 서비스를 시작합니다.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

서비스가 시작되면 브라우저로 이동하여 다음 URL 액세스 스파크 페이지를 입력합니다. 페이지에서 내 마스터 및 슬레이브 서비스가 시작된 것을 볼 수 있습니다.

http://localhost:8080/
OR
http://127.0.0.1:8080

spark-shell 명령을 실행하여 spark-shell이 \u200b\u200b제대로 작동하는지 확인할 수도 있습니다.

$ spark-shell

그것이 이 글의 내용입니다. 곧 또 다른 흥미로운 기사로 찾아 뵙겠습니다.