세상에서 가장 쉬운 통계학 입문
분류 | 경제/경영 |
---|---|
별점 | ★ ★ ★ ★☆ |
상태 | 완독 |
저자 | 고지마 히로유키 |
진행률 | 1 |
총 페이지 | 240 |
표지 | |
현재 페이지 | 240 |
경쟁에서 이기려면 통계가 기본
책의 목차
- 제1부: 표준편차부터 검정과 구간추정까지를 한번에
- 목표: 통계학이란 분야가 무엇을 위한 것이고, 어떤 개념으로 실현되는가
- 제2부: 관측 데이터 뒷면에 펼쳐져 있는 거대한 세계를 추측한다
- 목표: 표준편차도 모르고, 정규분포인지도 모른다는 상황에서 추론이 가능하다
제1부: 표준편차부터 검정과 구간추정까지를 한번에
01. 도수분포표와 히스토그램: 데이터의 특징을 돋보이게 하는 도구
- 축약: 데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서 의미 있는 정보만을 추출
- 데이터 자체는 현실 그대로를 나타내지만, 이것을 아무리 자세히 본다고해도 알 수 있는 것은 없다.
- 데이터를 축약하는 방법에는 ‘그래프’를 만드는 방법과 ‘통계량’을 구하는 방법 두 가지가 있다.
- 도수분포표는 데이터를 5~8개 정도의 그룹으로 나눈것이다. 도수분포표로 데이터의 특성(데이터가 집중되는 곳이나 대칭성 등)을 파악할 수 있다.
- 히스토그램이란 도수분포표를 그래프로 바꾼 것으로, 더욱 쉽게 데이터의 특징을 파악할 수 있다.
02. 평균값의 역할과 평균값을 이해하는 방법: 평균값은 지렛대가 균형을 이루는 지점
- 평균값 = 계급값 X 상대도수의 합계
- 히스토그램에서 평균값의 의미: 히스토그램을 지렛대라고 가정했을 때 평균값은 균형을 이루는 지점이다.
- 평균값의 성질
- 데이터는 평균값 주변에 분포한다.
- 많이 나타나는 데이터가 평균값에 주는 영향력은 크다
- 히스토그램이 좌우 대칭인 경우, 그 대칭축을 지나는 점이 평균값이 된다.
03. 분산과 표준편차: 흩어져 있는 데이터 상태를 추정하는 통계량
- 평균값 계산: 데이터 총합 / 데이터 총 개수
- 편차 계산: 데이터 수치 - 평균값
- 분산 계산: {(편차 제곱)의 총합)} / 데이터 총 개수
- 표준편차의 의미: 표준편차는 데이터들의 평균값에서 떨어져 있는 것을 평균화하는 것이다.
04. 표준편차 1️⃣: 데이터의 특수성을 평가
- 데이터의 특수성을 판단하는 데는 표준편차를 기준으로 한다.
- 평균에서 표준편차 1배 정도로 떨어져 있는 데이터는 평범한 데이터라고 할 수 있다. 또한 평균에서 표준편차 2배 이상으로 떨어져 있는 데이터는 특수한 데이터라고 할 수 있다.
- 표준편차의 얼마만큼이라는 것을 알기 위해서는 {(데이터) - (평균값) / (표준편차)}를 계산하면 된다.
- X 데이터의 모든 데이터 수에 일정한 수 a를 더해서 새로운 Y 데이터를 만들면, Y 데이터의 평균값은 X 데이터의 평균값에 a를 더한 것만큼이 되고, Y 데이터의 분산과 표준편차는 원래의 X 데이터와 같다.
- X 데이터의 모든 데이터 수의 일정한 수 k를 곱해서 새로운 Y 데이터를 만들면, Y 데이터의 평균값은 X 데이터의 평균값의 k를 곱한 것이 되고, Y 데이터의 분산은 k의 제곱배, 표준편차는 k배가 된다.
- 데이터를 {(데이터) - (평균값) / (표준편차)}로 가공하면, 이 데이터로 구한 평균값은 0이고, 표준편차는 1이 된다.
05. 표준편차 2️⃣: 주식리스크의 지표(주가변동성)로 활용
- 주식거래의 지표는 수익률의 평균값뿐만 아니라 표준편차도 중요하다
- 주식에 투자할 때는 수익률의 평균값이 표준편차 1배 정도 떨어진 수익률이 될 경우도 각오해 두는 것이 좋다.
- 주식에 투자할 때는 수익률의 평균값이 표준편차 2배 정도 떨어진 수익률이 될 경우는 거의 없을 것이라고 생각해도 된다.
- 주식 수익률의 표준편차를 전문용어로 주가변동성이라고 한다.
06. 표준편차 3️⃣: 하이리스크와 하이리턴, 샤프지수도 이해
- 투자는 기본적으로 하이 리스크, 하이 리턴인 상품이나 로우 리스트, 로우 리턴인 상품 중에서 선택하게 된다. 이 상품의 차이는 ‘성질의 차이’이지, 우열을 의미하는 것은 아니다.
- 같은 평균수익률이라면 표준편차가 작은 것이 우량 금융상품이며, 같은 표준편차라면 평균수익률이 큰 것이 우량 상품이라고 할 수 있다.
- 이와 같은 의미에서 금융상품의 우열을 평가하는 기준으로 샤프지수(spm)이 있다. 이것은 (X의 샤프지수) = {(x의 리턴) - (국채 이율)} / (X의 리스크)로 계산한다. 샤프지수가 큰 것이 우량 금융상품이라고 볼 수 있다.
07. 정규분포: 키, 동전 던지기 등에서 흔히 볼 수 있는 분포
- 정규분포는 자연이나 사회에서 가장 흔히 볼 수 있는 분포다. 예를 들어, 키 데이터나 동전 던지기에서 앞면이 나올 개수의 데이터 등이 있다.
- 표준정규분포는 평균값 = 0이고, 표준편차 = 1이다.
- 표준정규분포에서는 (+1) ~ (-1) 범위의 데이터(평균에서 표준편차 1배 이내의 범위에 있는 데이터)의 상대도수는 0.6826(약 79%), (+2) ~ (-2) 범위의 데이터(평균에서 표준편차 2배 이내의 범위에 있는 데이터)의 상대도수는 0.9544(약 95%)가 된다.
- 일반정규분포의 데이터는 시그마 x (표준정규분포의 데이터) + 뮤로 구하고, 평균값 = 뮤이고, 표준편차 = 시그마이다.
- 평균값이 뮤이고, 표준편차가 시그마인 정규분포를 표준정규분포로 다시 구하기 위해서는 z=(x-뮤) / 시그마 라는 식을 적용하면 된다.
- 평균값이 뮤이고, 표준편차가 시그마인 정규분포에서는 (뮤 + 1 X 시그마) ~ (뮤 - 1 X 시그마)의 범위 데이터(평균에서 표준편차 1배 이내의 범위에 있는 데이터)의 상대도수는 0.6826(약 70%), (뮤 +2시그마) ~ (뮤-2시그마)의 범위 데이터(평균에서 표준편차 2배 이내의 범위에 있는 데이터)의 상대도수는 0.9544(약 95%)
08. 통계적 추정의 출발점: 정규분포를 이용해서 ‘예언’
- 표준정규분포의 95% 예언적중구간은 -1.96 이상 + 1.96 이하다.
- 평균값이 μ이고, 표준편차가 σ인 정규분포의 95% 예언적중구간은 (μ - 1.96σ) 이상 (μ + 1.96σ) 이하다.
- 데이터 x가 평균값이 μ이고, 표준편차가 σ인 일반정규분포를 따르는 데이터일 때, z = (x - μ) / σ라는 계산을 하면, 데이터 z는 표준정규분포를 따르는 데이터가 된다.
- 데이터 x의 평균값이 μ이고, 표준편차가 σ인 정규분포를 따를 경우, 95% 예언적중구간은 부등식 -1.96 ≤ x - μ / σ ≤ +1.96을 풀어서 구한 범위다.
09. 가설검정: 하나의 데이터로 모집단을 추리
- 정규분포인 모집단의 모수에서 그 모수가 어떤 수치인지를 추측하는 가설검정은 다음과 같이 계산하면 된다. 그 모수의 모집단이 정규분포하고, 그 평균값을 μ, 표준편차를 σ로 했을 때, 관측된 데이터 x에 대한 부등식 -1.96 ≤ x - μ / σ ≤ +1.96이 성립하면 가설을 채택한다(기각하지 않는다). 그리고 성립하지 않으면 가설을 기각한다.
10. 구간추정: 95% 적중하는 신뢰구간 찾기
- 구간추정이란, 모집단의 모수(Parameter)를 가정했을 때 관측된 데이터의 ‘95% 예언적중구간’에 현실적으로 관측된 데이터가 들어 있을 모수만을 모으는 추정 방법이다. 구간추정으로 정해진 모수의 범위는 ‘95% 신뢰구간’이다.
- 구간추정으로 구해진 구간은 앞 강의에서 ‘검정’의 작업을 모든 모수에 실행하여 기각되지 않고 남은 것을 모은 것이 된다.
- 정규모집단에 대한 표준편차 σ를 이미 알고 있을 때, 모르는 평균값 μ를 구간추정 하는 방법
관측된 데이터 x를 사용하여 μ에 관한 1차 부등식
-1.96 ≤ x - μ / σ ≤ +1.96을 풀고
’* ≤ μ ≤ *’이라는 형태가 되면 된다.
- 95% 신뢰구간이란, 다양한 관측값에서 같은 방법으로 구간추정을 하면 그 중의 95%는 바른 모수를 포함하고 있는 구간을 말한다.
제2부: 관측 데이터 뒷면에 펼쳐져 있는 거대한 세계
11. 모집단과 통계적 추정: ‘부분’으로 ‘전체’를 추론
- 무한모집단에는 각 데이터가 무한개씩 존재하며, 그것들이 ‘관측되기 쉬운 정도’는 제각각으로 다르다.
- 랜덤 샘플링 가정이라는 것은 ‘충분한 횟수로 관측하여 히스토그램을 작성하면 모집단의 분포가 재현된다’는 가정이다.
- 모집단의 평균값 μ를 모평균이라고 부르고, 다음의 방법으로 계산한다.
μ = (데이터 수치 x 상대도수)의 총합
12. 모분산과 모표준편차: 모집단 데이터의 분포 상태를 나타내는 통계량
- 모집단의 데이터가 흩어져 있는 상태를 나타내는 통계량이 모표준편차다.
- 모표준편차는 다음의 과정으로 구할 수 있다.
편차 = (데이터 수치) - (모평균 μ)
모분산
= {(편차의 제곱) x (연못의 넓이)}의 합계
모표준편차
)}
13. 표본평균 1️⃣: 여러 데이터의 평균값은 한 데이터의 평균값보다 모평균에 가깝다
- 관측된 데이터는 어느 정도 모평균에 가깝다고 생각할 수 있다.
- 여러 데이터를 관측해 그 평균을 구한 것을 표본 평균이라고 부르며, 로 쓴다.
- 여러 개의 데이터를 관측하여 표본평균을 구하면, 이것은 한 개의 데이터보다 훨씬 모평균에 가까운 값이라는 것을 기대할 수 있다. 관측 데이터를 증가시키면 증가시킬수록 표본평균이 모평균에 가까울 가능성이 높아진다.
- 대수의 법칙 하나의 모집단에서 n개의 데이터를 관측하고 그 표본평균을 만든다. 이때, n이 크면 클수록 표본평균은 모평균 에 가까운 수치를 구할 가능성이 커진다.
14. 표본평균 2️⃣: 관측 데이터가 늘어날수록 예언 구간은 좁아진다
- 정규모집단에서 표본평균의 성질
정규모집단의 모평균을
, 모표준편차를 라고 할 때, 여기에서 관측된 데이터 x의 n개에 대한 표본평균 의(이러한 것들을 모은 것을 또 다른 모집단으로 다룰 때의) 분포는 역시 정규분포 한다. 의 분포 평균값은 그대로지만, 표준편차는 가 되어, 모집단에 비해서 분의 1로 줄어든다.
- 정규모집단에서 표본평균의 95% 예언적중구간
모평균이
이고, 모표준편차가 인 정규분포에서 데이터 n개의 표본평균 에 대한 95% 예언적중구간은 이상 이하
- 정규모집단에서 표본평균의 95% 예언적중구간: 부등식 표시
모평균이
이고, 모표준편차가 인 정규모집단에서 데이터 n개의 표본평균 에 대한 95% 예언적중구간은 을 에 대해서 풀어서 나오는 범위다.
15. 표본평균을 이용한 모평균의 구간추정: 모분산을 알고 있는 정규모집단의 모평균은?
- 정규모집단에서 모표준편차가 (모분산이 )라는 사실을 알고 있을 경우에, 모평균 를 n개의 표본에서 추정하기 위해서는 표본평균 를 계산하여
을 만족시키는
를 (기각하지 않고) 남기면 된다.
- 이때, 의 95% 신뢰구간은
16. 카이제곱분포: 표본분산을 구하는 방법과 카이제곱분포
- 관측 데이터(표본)로 계산한 분산을 ‘표본분산’이라고 부른다.
- 표본분산 을 계산하는 단계는 다음과 같다.
- 1단계. 먼저 표본평균을 계산한다.
- 2단계. 다음으로 각 표본에서 표본에서 표본평균을 빼 편차를 구한다.
- 3단계. 각 편차를 제곱해서 계산하고, 표본수로 나누어 계산한다.
식으로 쓰면
(표본분산
) =
- (자유도 n인 카이제곱분포를 하는 V)
표준정규모집단에서 n개의 표본인
을 제곱하고 모두 합하여 V = 과 같은 통계량 V를 구하면 V는 자유도 n인 카이제곱분포를 한다.
- 카이제곱분포를 하는 V는 0 이상의 값밖에 나오지 않는다. 또한 0에 가까운 수치의 상대도수가 크고, 0에서 떨어진 수치의 상대도수는 급격하게 작아진다.
17. 정규모집단의 모분산을 추정: 모분산을 카이제곱분포로 추정
- 일반 정규모집단에서 카이제곱분포를 하는 V를 구하는 방법
모평균
, 모표준편차 의 정규모집단에서 n개의 표본 를 관측하고,
V =
이라는 형태로 V를 계산하면 통계량 V는 자유도 n인 카이제곱분포를 한다.
- 모평균 을 알고 정규모집단에서 n개의 데이터로부터 모분산 을 95% 신뢰구간으로 추정하기 위해서는 다음과 같은 단계로 계산하면 된다.
- 1단계: n개의 데이터로부터 위 방법으로 V를 계산한다. V는 (숫자 / )라는 형태가 된다.
- 2단계: 자유도 n인 카이제곱분포의 95% 예언적중구간을 도표로부터 a 이상 b 이하라는 형식으로 구한다.
- 3단계: a ≤ ≤b 라는 부등식을 만들고 이것을 에 관해서 푼다.
18. 표본분산의 분포는 카이제곱 분포: 표본분산과 비례하는 통계량 W
- 새로운 통계량 W는 다음과 같이 정의된다.
W = {(표본) - (표본평균)}의 제곱
(모분산)의 합
=
- 표본분산과 W의 관계식
- 표본분산 = W x (모분산 ) n
- W = (표본분산 ) x (데이터 수 n) (모분산 )
- 일반정규모집단에서 카이제곱분포를 따르는 W를 구하는 방법
모평균
, 모표준편차 인 정규모집단에서 n개의 표본 을 관측하여
W = {(표본) - (표본평균)}의 제곱
(모분산)의 합
=
을 만들면, W는 자유도 (n-1)인 카이제곱분포를 따르는 통계량이 된다.
- 일반정규모집단의 표본분산에서 카이제곱분포를 따르는 W를 구하는 방법 모평균 , 모표준편차 인 정규모집단에서 n개의 표본을 관측하고 계산한 표본분산을 으로 할 때,
W = (표본분산
) x (데이터 수 n) (모분산 )
을 만들면, W는 자유도 (n-1)인 카이제곱분포를 따르는 통계량이 된다.
19. 모평균이 미지인 정규모집단을 구간추정: 모분산은 모평균을 몰라도 추정 가능
- 모평균이 미지인 정규모집단의 모분산을 구간추정하는 방법은
- 1단계: 관측된 n개의 데이터에서 우선 표본평균 를 계산한다. 다음으로 이것을 사용하여 편차를 만들고, 이것을 제곱하고 모두 더한 것을 n으로 나누어 표본분산 를 계산한다.
- 2단계: 표본분산 에 n을 곱하고 모분산 으로 나누어 통계량 W를 만든다.
- 3단계: 자유도 (n-1)인 95% 예언적중구간을 조사한다.
- 4단계: W가 3단계의 구간에 들어가는 을 남기고, 들어가지 않은 을 기각시킨다. 그리고 모분산 의 95% 신뢰구간을 구한다.
20. t분포: 모평균 이외의 것은 ‘현실에서 관측된 표본’으로 계산할 수 있는 통계량
- 모평균 와 표본으로 통계량 T 계산
모평균
의 정규모집단에서 n개의 표본에 대한 표본평균을 로 하고, 표본표준편차를 s로 하면 이것으로 계산할 수 있다.
T =
= (표본평균 - 모평균)
(표본표준편차) x
는 자유도 (n-1)인 t분포를 따른다.
- t분포는 상대도수를 확실히 알고 있는 분포다. 대부분의 정규분포와 같은 모양을 하지만, 정규분포보다 약간 완만한 모양을 하며, 정상 부분이 약간 낮고, 그만큼 완만한 곳이 높다.
21. t분포로 구간추정: 정규모집단에서 모분산을 모를 때의 모평균 추정
- T = (표본평균 - 모평균) (표본표준편차) x 은 자유도 n-1인 t분포를 따른다
- t분포를 이용한 정규모집단의 모평균 추정법
- 1단계: 얻은 n개의 표본에서 표본평균 와 표본표준편차 s를 계산한다.
- 2단계: 표본평균 와 표본표준편차 s, 추정하려고 하는 모평균 를 사용하여 자유도 n-1인 t분포를 따르는 통계량 T를 다음과 같이 계산한다.
T = (
) s x
- 3단계: 자유도 n-1인 95% 예언적중구간을 도표 21-1에서 선택해 ≤ T ≤ 라는 95% 예언적중구간을 만든다.
- 4단계: ≤ ≤ 를 에 대해서 풀면, 이것이 95% 신뢰구간이 된다.