본문 바로가기

데이터 분석

Spark - Hypothesis testing ( chi-squared test )

336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.






Spark MlLib을 이용한 Hypothesis Testing


    Spark MlLib에서는 가설 검정을 위한 Pearson의 chi-squared test 를 제공한다.

 







샘플


 







가설 설정



        학력과 담당업무에 대해 서로 연관이 있는지 없는지를 알아보기 위하여 다음과 같은 분석을 실시



        귀무가설(H0) : 두변수는 서로 독립적이다.


        ● 대립가설(H1) : 두 변수는 연관성이 있다. 혹은 한 변수값에 따라 다른 변수값의 패턴이 다르다.









테스트


        SparkConf sconf = new SparkConf().setMaster("local[2]")

                                                           .setAppName("test")

                                                           .set("spark.ui.port", "4041");

        JavaSparkContext jsc = new JavaSparkContext(sconf);



        학력 담당업무 빈도수 입력

        Matrix data = Matrices.dense(

                                   4,

                                   3,

                                   new double[]{0.0, 0.0, 0.0, 5.0, 4.0, 3.0, 16.0, 14.0, 0.0, 0.0, 4.0, 4.0});


        System.out.println(data);


        ChiSqTestResult Result = Statistics.chiSqTest(data);


        System.out.println(Result);

 







결과 및 확인


▶이미 결과는 꼬부랑 영어로 콘솔창에 출력되지만 검사를 진행해 보자.


 







카이제곱분포표


4 X 3 의 경우 자유도는 (4-1) X (3-1) = 6


pValue = 0.20435530389004586 으로 0.05보다 크다.


Pearson Chi-Square = 8.490011750881315


표에서 자유도 6에 유의수준 5%(0.05)의 카이스퀘어 값은  12.59이다.


8.490 < 12.59 임으로 귀무가설(H0) : 두변수는 서로 독립적이다.



 











'데이터 분석' 카테고리의 다른 글

Spark - Isotonic Regression  (0) 2017.07.03
Spark - FP growth (FP tree)  (0) 2017.06.23
Spark - Correlations (2)  (0) 2017.06.21
Spark - Correlations (1)  (0) 2017.06.21
Discrete Cosine Transform  (1) 2017.06.21