
1. 숫자 → 숫자
1) 그래프
a. 산점도
sns.scatterplot(x = , y = , data = )
sns.pairplot(df)
→ 숫자형 변수들에 대한 산점도를 한꺼번에
2) 수치화 : 상관계수, P-value
a. 상관계수
- 직선의 상관관계를 나타내는 값
- -1, 1에 가까울 수록 강한 상관관계를 나타내게 됨.
b. P-value : 우연히 사건이 발생할 확률
- 관계를 수치화 한 값이 유의미한 지 판단하는 숫자
- < 0.05(5%)이면, 두변수 간에 관계가 있다.(상관관계가 의미가 있다.)
c. 수치화 방법
spst.pearsonr(x, y)
df.corr()
3) 상관계수와 P-value의 한계
- 상관계수는 직선의 관계만 수치화
- P-value는 1) 데이터가 많아질수록 값이 작아지기 때문에 많은 표본 집단을 활용해서 P-value를 유의미한 값으로 만들기도함. 2) 유의미한 P-value를 제시해서 눈속임이 가능하다 → 종속변수에 영향을 끼칠만한 독립변수를 한꺼번에 조사해서 유의미한 결과가 나온것만 제시
2. 범주 → 숫자
1) 그래프
a. 평균비교 barplot
- 평균 값을 비교하는
barplot
- 신뢰구간(오차범위)을 포함 하고 있다.
- 좁을 수록 믿을 만 한 데이터
- 데이터가 많을수록, 편차가 적을수록 신뢰구간이 좁아짐.
sns.barplot(x=, y=, data=, )
2) 수치화 : t-test, anova(분산분석)
두개의 방법 모두 범주형x와 숫자형y의 관계를 검정하기 위한 도구이다. 평균을 비교하여 차이를 검정
a. 두개 평균비교 : t-test
- t 통계량 : 두 평균 간 차이를 표준 오차로 나눈 값.
- 두 평균의 차이로 이해해도 좋다.
- t 통계량이 유의미 한 경우
1)
p-value
< 0.05 2)t통계량
< -2 이거나t통계량
> 2
spst.ttest_ind(두가지 범주값)
b. 셋 이상 평균비교 : anova(분산분석)
집단 전체의 평균과 각 집단의 차이가 어떻게 될까를 분석하는 것
- F 통계량 = 집단간분산/집단내분산
- F 통계량이 2~3 이상이면 차이가 있다고 판단
- 분산분석은 전체 평균대비 각 그룹간 차이가 있는지만 알려줌! 어느 그룹 간에 차이가 있는지는 알 수가 없다.
spst.f_oneway(a, b, c)
3) 평균/분산/신뢰구간
a. 생각해보기
선거 여론조사 전체 집단이 3000만명이라고 한다면 1) 100명 2) 1000만명 표본 조사를 하게된다면, 100명보다 1000만명의 오차가 적다. → 이유 : 표본 집단의 수가 많아질수록 전체 집단과의 차이가 줄어들게 됨.
b. 평균과 분산
- 한 집단을 설명하기 위해, 평균으로부터 얼마나 벗어나 있는지를 나타내는 값.
- 평균에서 얼마나 떨어져있는건가 = 이탈도 → 각각의 이탈도(오차)의 평균을 구한 것이 분산!!!!!!
- 분산은 정확히 말하자면 (x-x의평균) = 오차 / 오차의 제곱(- 값을 없애기 위해)의 평균 → 이것이 의미하는 것은 오차의 크기이다.
- 표준편차는 분산으로 보게되면 제곱을 한 값이기에 값이 눈에 들어오지 않아 한 눈에 평균으로부터 얼마나 떨어졌는지를 보기 위해 분산을 제곱근 한 것이다.
c. 모집단과 표본
- 전수조사(모집단 전체를 조사) 장점 : 정확! 오차가 0이다 단점 : 비용과 시간이 많이 든다
- 표본조사(모집단에서 많은 수를 무작위로 추출) 장점 : 비용과 시간이 절약 단점 : 오차가 존재
- 우리가 표본을 뽑는 목적 → 모집단을 추정하기 위해서
- 표본평균이란 → 모 평균에 대한 추정치 추정치에는 오차가 존재하는데, 이 오차를 표준오차라고 한다.
d. 표본평균으로 어떻게 모평균을 추정할 수 있을까?
- 표본평균 - 모평균 = 표준오차
- 중심극한정리(표본의 크기가 클 수록 모평균을 중심으로 가까워지는 정규분포 모양이 된다.)를 통해 구할 수 있음을 증명할 수 있다.
- 표본을 100개를 만든다 → 표본 100개에 대한 100개의 표본평균을 만든다 → 이에 대해 분포를 그려본다 → 이것이 정규분포에 가까워진다 → 이 분포의 평균을 구해보니 모평균에 근사하더라. ——> 즉, 모평균을 추정해보자면 표본평균들의 평균이다.
- 표본평균 - 모평균(표본평균들의 평균) = 오차가 된다. 그렇기 때문에 표본평균 분포에서의 표준편차 = 표준오차가 된다.

e. 신뢰구간은 왜 쓰는거야?
- 모평균 추정을 위해서 표본 100개를 뽑은 집단을 진짜 100개, 1000개 뽑을거야? → 실제에선 아니. 시간 넘 많이 들어~ → 그렇다면 우리는 표본을 많이 뽑아서 분포를 하면 이건 정규분포 따를걸 알아 → 그러면 표본집단 하나를 뽑아서 봐도 어차피 얘는 정규분포를 따르겠지! → 그러면 하나의 집단으로도 모평균 추정을 할 수 있겠지! → 하지만 오차가 있잖아?! → 그렇기 때문에 신뢰구간을 주는거야!! 95% 정도면 그 안에는 모평균이 존재하겠지!
- 신뢰구간을 줄 때는 우리가 앞선 경험을 통해 얻은 표준오차를 구하는 공식을 아니까 → 그것을 통해서 구하면 그 안에 모평균이 있겠네!
