□ correlation map 예시
위의 표를 한번 스윽~~ 하고 봐 놓자!
□ Sample Data
대충 배수가 되는 값(관련되게)과 상관없는 값을 같이 넣어 보자 배수로 떨어지는 값은 1에 가까울 것이라고 예상을 해보자. 샘플 이니깐 그냥 막 생성했다. 병원간 횟수 약먹은 횟수 식사 횟수 휴가 일수 1번사람 1 3 101 1 2번사람 3 9 102 4 3번사람 6 17 101 6
|
□ 테스트 진행
SparkConf sconf = new SparkConf().setMaster("local[2]") .setAppName("asdf") .set("spark.ui.port", "4041"); JavaSparkContext jsc = new JavaSparkContext(sconf); JavaRDD<Vector> data = jsc.parallelize( Arrays.asList( Vectors.dense(1.0, 3.0, 101.0, 1.0), Vectors.dense(3.0, 9.0, 102.0, 4.0), Vectors.dense(6.0, 17.0, 101.0, 6.0) ); Matrix correlMatrix = Statistics.corr(data.rdd(), "pearson"); |
□ 결과 확인
▶병원과 약과의 관계 0.9994664294862463 관계 높다.
▶병원과 식사와의 관계 -0.11470786693515046 관계 낮다.
병원 약 식사 휴가 병원 1.0 0.9994664294862463 -0.11470786693515046 0.9736842105263154 약 0.9994664294862463 1.0 -0.08219949365258519 0.9806085723261282 식사 -0.11470786693515046 -0.08219949365258519 1.0 0.11470786693515048 휴가 0.9736842105263154 0.9806085723261282 0.11470786693515048 1.0
|
'데이터 분석' 카테고리의 다른 글
Spark - FP growth (FP tree) (0) | 2017.06.23 |
---|---|
Spark - Hypothesis testing ( chi-squared test ) (0) | 2017.06.22 |
Spark - Correlations (1) (0) | 2017.06.21 |
Discrete Cosine Transform (1) | 2017.06.21 |
Spark - ML Pipelines (0) | 2017.06.01 |