□ Submit 테스트
SparkLauncher을 이용한 Job Submit 개인적 목적 : 웹에서 다수의 사용자가 Spark 연산 이용
|
□ Job
public class App { .setAppName(args[0]) .set("spark.ui.port", args[1]) .set("spark.storage.memoryFraction", "0.3") .set("spark.cores.max", "4"); //파일 로딩 JavaPairRDD<Object, BSONObject> documents = sc.newAPIHadoopFile( "hdfs://192.168.0.190:9000/user/ksu/Odin201776", BSONFileInputFormat.class, BSONObject.class, bsonDataConfig); //카운트 logger.info(documents.count()); } } |
□ Launcher
public class App public static void main( String[] args ) { try { test(); } catch (Exception e) { e.printStackTrace(); } } final String sparkHome = "/home/ksu/spark-2.1.0-bin-hadoop2.6"; final String appResource = "/home/ksu/Downloads/workspace/target/target/Server/target.jar"; final String mainClass = "com.launcher.target.App";
"test", "4045" }; .setVerbose(true) .setJavaHome(javaHome) .setSparkHome(sparkHome) .setAppResource(appResource) .setMainClass(mainClass) .setMaster("spark://192.168.0.XXX:7077") .setConf(SparkLauncher.EXECUTOR_MEMORY, "512m") .addAppArgs(appArgs);
} }
|
□ Add JAR
방법1) spark 설치 위치의 jars 폴더에 추가 후 기동 방법2) sc.addJar("/home/ksu/~~~path~~~/mongo-hadoop-core-1.5.2.jar");
|
□ 테스트 및 결과
▶SparkUI 확인 ▶Job Log 확인 - 실행 후 하둡에 저장된 데이터 518170개 카운팅 ▶정상 (0), 문제발생(1) 등 리턴
|
'spark - python - R' 카테고리의 다른 글
centos7 + tensorflow 설치 (1) | 2017.09.07 |
---|---|
centos7 python install 3.x (0) | 2017.09.07 |
scala + java + eclipse 개발 환경 (0) | 2017.06.26 |
[Spark] RDD를 이용한 Mongo Collection Data to HDFS Save 및 연산처리 (0) | 2017.06.14 |
[Spark] spark Dataset<Row>를 이용한 HDFS to Mysql Save (0) | 2017.06.14 |