본문 바로가기

데이터 분석

Spark - Correlations (1)

336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.











단순상관분석(simple correlation analysis) : 단순히 두 개의 변수가 어느 정도 강한 관계에 있는가를 측정


다중상관분석 : 3개 이상의 변수들간의 관계에 대한 강도를 측정





Sample Data


            자동차 판매      오토바이 판매       

2011            2                       1

2012            4                       2

2013            8                       5 (살짝 틀리게 4 아닌 수)

2014           16                      8

2015           32                     16

2016           64                     33 (살짝 틀리게 32 아닌 수)

 





자동차 판매와 오토바이 판매 사이의 관계를 측정해 보자.





▶참고 : pearson / spearman 제공


        SparkConf sconf = new SparkConf().setMaster("local[2]")

                                                .setAppName("test")

                                                .set("spark.ui.port", "4041");


        JavaSparkContext jsc = new JavaSparkContext(sconf);




        JavaDoubleRDD seriesX = jsc.parallelizeDoubles(Arrays.asList(2.0, 4.0, 8.0, 16.0, 32.0, 64.0));

        JavaDoubleRDD seriesY = jsc.parallelizeDoubles(Arrays.asList(1.0, 2.0, 5.0, 8.0, 16.0, 33.0));




        Double correlation = Statistics.corr(seriesX.srdd(), seriesY.srdd(), "pearson");




        System.out.println("Correlation : " + correlation);






결과


        Correlation : 0.9993101472348247


        높은 양의 상관관계!  (두 변수가 밀접하다.)





'데이터 분석' 카테고리의 다른 글

Spark - Hypothesis testing ( chi-squared test )  (0) 2017.06.22
Spark - Correlations (2)  (0) 2017.06.21
Discrete Cosine Transform  (1) 2017.06.21
Spark - ML Pipelines  (0) 2017.06.01
Spark - Multilayer perceptron classifier  (0) 2017.05.24