□ Spark MlLib을 이용한 Hypothesis Testing
▶Spark MlLib에서는 가설 검정을 위한 Pearson의 chi-squared test 를 제공한다.
|
□ 샘플
|
□ 가설 설정
학력과 담당업무에 대해 서로 연관이 있는지 없는지를 알아보기 위하여 다음과 같은 분석을 실시 ● 귀무가설(H0) : 두변수는 서로 독립적이다. ● 대립가설(H1) : 두 변수는 연관성이 있다. 혹은 한 변수값에 따라 다른 변수값의 패턴이 다르다. |
□ 테스트
SparkConf sconf = new SparkConf().setMaster("local[2]") .setAppName("test") .set("spark.ui.port", "4041"); JavaSparkContext jsc = new JavaSparkContext(sconf); 학력 담당업무 빈도수 입력 Matrix data = Matrices.dense( 4, 3, new double[]{0.0, 0.0, 0.0, 5.0, 4.0, 3.0, 16.0, 14.0, 0.0, 0.0, 4.0, 4.0}); System.out.println(data); ChiSqTestResult Result = Statistics.chiSqTest(data); System.out.println(Result);
|
□ 결과 및 확인
▶이미 결과는 꼬부랑 영어로 콘솔창에 출력되지만 검사를 진행해 보자.
|
□ 카이제곱분포표
▶4 X 3 의 경우 자유도는 (4-1) X (3-1) = 6
▶pValue = 0.20435530389004586 으로 0.05보다 크다.
▶Pearson Chi-Square = 8.490011750881315
▶표에서 자유도 6에 유의수준 5%(0.05)의 카이스퀘어 값은 12.59이다.
▶8.490 < 12.59 임으로 귀무가설(H0) : 두변수는 서로 독립적이다.
|
'데이터 분석' 카테고리의 다른 글
Spark - Isotonic Regression (0) | 2017.07.03 |
---|---|
Spark - FP growth (FP tree) (0) | 2017.06.23 |
Spark - Correlations (2) (0) | 2017.06.21 |
Spark - Correlations (1) (0) | 2017.06.21 |
Discrete Cosine Transform (1) | 2017.06.21 |