단순상관분석(simple correlation analysis) : 단순히 두 개의 변수가 어느 정도 강한 관계에 있는가를 측정
다중상관분석 : 3개 이상의 변수들간의 관계에 대한 강도를 측정
Sample Data
자동차 판매 오토바이 판매 2011 2 1 2012 4 2 2013 8 5 (살짝 틀리게 4 아닌 수) 2014 16 8 2015 32 16 2016 64 33 (살짝 틀리게 32 아닌 수)
|
자동차 판매와 오토바이 판매 사이의 관계를 측정해 보자.
▶참고 : pearson / spearman 제공
SparkConf sconf = new SparkConf().setMaster("local[2]") .setAppName("test") .set("spark.ui.port", "4041"); JavaSparkContext jsc = new JavaSparkContext(sconf); JavaDoubleRDD seriesX = jsc.parallelizeDoubles(Arrays.asList(2.0, 4.0, 8.0, 16.0, 32.0, 64.0)); JavaDoubleRDD seriesY = jsc.parallelizeDoubles(Arrays.asList(1.0, 2.0, 5.0, 8.0, 16.0, 33.0)); Double correlation = Statistics.corr(seriesX.srdd(), seriesY.srdd(), "pearson"); System.out.println("Correlation : " + correlation); |
결과
Correlation : 0.9993101472348247 높은 양의 상관관계! (두 변수가 밀접하다.) |
'데이터 분석' 카테고리의 다른 글
Spark - Hypothesis testing ( chi-squared test ) (0) | 2017.06.22 |
---|---|
Spark - Correlations (2) (0) | 2017.06.21 |
Discrete Cosine Transform (1) | 2017.06.21 |
Spark - ML Pipelines (0) | 2017.06.01 |
Spark - Multilayer perceptron classifier (0) | 2017.05.24 |