웹사이트 검색

Ubuntu/Debian에서 Apache Spark를 설치하고 설정하는 방법


Apache Spark는 더 빠른 계산 결과를 제공하기 위해 만들어진 오픈소스 분산 계산 프레임워크입니다. 이는 메모리 내 계산 엔진입니다. 즉, 데이터가 메모리에서 처리됩니다.

Spark는 스트리밍, 그래프 처리, SQL, MLLib를 위한 다양한 API를 지원합니다. 또한 Java, Python, Scala 및 R을 기본 언어로 지원합니다. Spark는 대부분 Hadoop 클러스터에 설치되지만 독립 실행형 모드에서 Spark를 설치하고 구성할 수도 있습니다.

이 글에서는 DebianUbuntu 기반 배포판에 Apache Spark를 설치하는 방법을 살펴보겠습니다.

Ubuntu에 Java 및 Scala 설치

Ubuntu에 Apache Spark를 설치하려면 컴퓨터에 JavaScala가 설치되어 있어야 합니다. 대부분의 최신 배포판에는 기본적으로 Java가 설치되어 있으며 다음 명령을 사용하여 확인할 수 있습니다.

java -version

출력이 없으면 Ubuntu에 Java를 설치하는 방법에 대한 기사를 사용하여 Java를 설치하거나 간단히 다음 명령을 실행하여 Ubuntu 및 Debian 기반 배포판에 Java를 설치할 수 있습니다.

sudo apt update
sudo apt install default-jre
java -version

다음으로, 다음 명령을 실행하여 scala를 검색하고 설치하면 apt 저장소에서 Scala를 설치할 수 있습니다.

sudo apt search scala  ⇒ Search for the package
sudo apt install scala ⇒ Install the package

Scala 설치를 확인하려면 다음 명령을 실행하세요.

scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

우분투에 아파치 스파크 설치

이제 공식 Apache Spark 다운로드 페이지로 이동하여 이 기사를 작성하는 시점의 최신 버전(예: 3.1.1)을 다운로드하세요. 또는 wget 명령을 사용하여 터미널에서 직접 파일을 다운로드할 수 있습니다.

wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

이제 터미널을 열고 다운로드한 파일이 있는 위치로 전환하고 다음 명령을 실행하여 Apache Spark tar 파일을 추출합니다.

tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

마지막으로 추출된 Spark 디렉터리를 /opt 디렉터리로 이동합니다.

sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Spark에 대한 환경 변수 구성

이제 스파크를 시작하기 전에 .profile 파일에 몇 가지 환경 변수를 설정해야 합니다.

echo "export SPARK_HOME=/opt/spark" >> ~/.profile
echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

이러한 새 환경 변수를 셸 내에서 접근할 수 있고 Apache Spark에서 사용할 수 있는지 확인하려면 다음 명령을 실행하여 최근 변경 사항을 적용해야 합니다.

source ~/.profile

서비스를 시작하고 중지하는 모든 Spark 관련 바이너리는 sbin 폴더에 있습니다.

ls -l /opt/spark

Ubuntu에서 Apache Spark 시작

다음 명령을 실행하여 Spark 마스터 서비스와 슬레이브 서비스를 시작합니다.

start-master.sh
start-workers.sh spark://localhost:7077

서비스가 시작되면 브라우저로 이동하여 다음 URL 액세스 스파크 페이지를 입력하십시오. 페이지에서 마스터 및 슬레이브 서비스가 시작된 것을 볼 수 있습니다.

http://localhost:8080/
OR
http://127.0.0.1:8080

spark-shell 명령을 실행하여 spark-shell이 제대로 작동하는지 확인할 수도 있습니다.

spark-shell

이것이 바로 이 기사입니다. 곧 또 다른 흥미로운 기사로 찾아뵙겠습니다.