본문 바로가기

데이터 분석

Spark - Correlations (2)

336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.




correlation map 예시






위의 표를 한번 스윽~~ 하고 봐 놓자!







Sample Data



 대충 배수가 되는 값(관련되게)상관없는 값을 같이 넣어 보자


 배수로 떨어지는 값은 1에 가까울 것이라고 예상을 해보자.


 샘플 이니깐 그냥 막 생성했다.


                    병원간 횟수      약먹은 횟수      식사 횟수       휴가 일수  

 1번사람              1                      3                  101               1              

 2번사람              3                      9                  102               4             

 3번사람              6                     17                 101               6             

 





테스트 진행



        SparkConf sconf = new SparkConf().setMaster("local[2]")

                                 .setAppName("asdf")

                                 .set("spark.ui.port", "4041");


        JavaSparkContext jsc = new JavaSparkContext(sconf);



        JavaRDD<Vector> data = jsc.parallelize(

                  Arrays.asList(

                    Vectors.dense(1.0, 3.0, 101.0, 1.0),

                    Vectors.dense(3.0, 9.0, 102.0, 4.0),

                    Vectors.dense(6.0, 17.0, 101.0, 6.0)                   
                  )

        );


        Matrix correlMatrix = Statistics.corr(data.rdd(), "pearson");

               
                
        System.out.println( correlMatrix.toString() );








결과 확인


▶병원과 약과의 관계 0.9994664294862463 관계 높다.


병원과 식사와의 관계 -0.11470786693515046 관계 낮다.



                         병원                                     약                                       식사                                   휴가

   병원  1.0                                    0.9994664294862463       -0.11470786693515046     0.9736842105263154  

   약     0.9994664294862463      1.0                                     -0.08219949365258519     0.9806085723261282  

   식사  -0.11470786693515046    -0.08219949365258519    1.0                                      0.11470786693515048 

   휴가  0.9736842105263154      0.9806085723261282       0.11470786693515048      1.0      

 







'데이터 분석' 카테고리의 다른 글

Spark - FP growth (FP tree)  (0) 2017.06.23
Spark - Hypothesis testing ( chi-squared test )  (0) 2017.06.22
Spark - Correlations (1)  (0) 2017.06.21
Discrete Cosine Transform  (1) 2017.06.21
Spark - ML Pipelines  (0) 2017.06.01