KT AIVLE SCHOOL 복습

KT AIVLE DX #3 - 데이터 분석(4) 이변량 분석2)

전쏘스 2023. 3. 29. 10:20

3. 범주 → 범주

1) 교차표 작성

가장 먼저 실행해야 할 것은 교차표 작성이다.

교차표는 crosstab함수로 가능하다!

pd.crosstab(행, 열, normalize='columns | index | all') → columns = 열기준 | index = 행기준 | all = 전체 기준

2) 시각화

a. 모자이크 플롯(mosaic plot)

mosaic plot은 범주별 양과 비율을 그래프로 나타내 준다.

mosaic(df, [행, 열])

x축 길이는 각 객실등급별 승객비율 그 중 3등급 객실을 보면, y축 길이는 3등급 객실 승객 중 사망/생존 비율 각각의 면적은 전체에서 그 칸이 차지하는 비율

빨간선은 생존에 관한 전체 평균을 의미함 많이 떨어질수록 더 의미가 있다(?)

두 범주형 변수가 아무런 상관이 없으면 범주 별 비율 차이가 전혀 없다. → 조금이라도 관련 있으면 비율, bar 크기에 조금이라도 차이가 있다

3) 수치화

a. 카이제곱검정

기대빈도 : 아무런 관련이 없을 때 나올 수 있는 빈도 수(빨간 네모)

실제 데이터 : 관측된 값들(파란네모)

카이제곱 통계량 = 기대빈도와 실제 데이터의 차이!!
- 클수록 기대빈도로부터 실제 값에 차이가 크다
- 범주의 수가 늘어날 수록 값은 커지게 되어 있음
- 자유도의 약 2배 보다 크면, 차이가 있다고 본다. 자유도 = 범주의 수 -1 카이검정 자유도 = (x 변수의 자유도) * (y 변수의 자유도)
- 자유도에 대한 이해 → 예를 들어서 0,1로 무엇을 정하기로 했는데, 남자를 0으로 하면 여자를 1로 저절로 지정됨. → 즉, 1개만 정하면 나머진 저절로야~ 이러면 자유도 1이 되는 것!
- #먼저 교차표집계 table = pd.crosstab(행, 열) -> 하지만 nomalize는 없어야함#카이제곱 검정 spst.chi2_contingency(table)
- 결과 → 카이제곱 통계량 → p-value → 자유도 : 행 자유도 * 열 자유도 → 기대빈도 : 계산된 값

4. 숫자 → 범주

1. 시각화

hist도 fill 옵션을 주고 보면 좋을 것이다!!!!

kde는 무조건 옵션 False 주고 해야한다!!!!!

a. kde plot

'KT AIVLE SCHOOL 복습' 카테고리의 다른 글

KT AIVLE DX #3 - 데이터 분석(3) 이변량 분석1) 두 변수의 관계 분석 (0)	2023.03.20
KT AIVLE DX #3 - 데이터 분석(2) 단변량 분석 (1)	2023.03.16
KT AIVLE DX #3 - 데이터 분석(1) 시각화 라이브러리 (0)	2023.03.15
KT AIVLE DX #2 - 데이터 다듬기(4) 데이터프레임 변경 (0)	2023.03.13
KT AIVLE DX #2 - 데이터 다듬기(3) 데이터프레임 탐색, 조회, 집계 (0)	2023.03.12

현재글KT AIVLE DX #3 - 데이터 분석(4) 이변량 분석2)

우당탕탕 쏘스 다이어리

Today :
Yesterday :

티스토리툴바