목록Statistics (19)
CKtrace's Devlog

Probability Sampling VS Non-Probability Sampling 표본 추출 방법은 크게 확률표본추출(Probability Sampling), 비확률표본추출(Non-Probability Sampling)로 나눌 수 있습니다. 모집단에서 표본이 추출된 확률을 알 수 있는 추출을 확률표본추출이라고 합니다. 모집단에서 표본이 추출된 확률을 알 수 없는 추출이 비확률표본추출입니다. 그리고 확률표본추출과 비확률표본추출 안에도 여러 가지 추출 방법으로 나뉩니다. 필기 그림을 통해 알아보도록 하겠습니다! 확률표본추출에는 단순임의추출, 체계적추출, 층화임의추출, 집락추출이 있고, 비확률표본추출에는 편의표본추출, 할당표본추출, 판단표본추출이 있습니다. 이제 표본 추출 방법은 어떻게 나뉘는지 그리고 ..

중심위치 자료의 특성을 파악하는 데 있어 시각적 기법은 중요한 정보를 제공합니다. 하지만 사람들에 따라 주관적으로 해석 가능성이 존재합니다. 그래서 자료의 수치를 객관적인 수치로 제시해야 합니다. 그 수치 중 하나가 바로 중심 위치이고, 이번 포스팅에서 중심위치로 사용되는 여러 통계 값에 대해 알아보도록 하겠습니다. Mean(평균) 표본 평균(Sample Mean)이란 표본들을 합해서 그 값을 표본 크기로 나눈 값입니다. 그렇다면 어째서 중심 위치로 표본 평균이 적절한지 알아야겠죠? 표본 평균은 좌우의 자료의 무게가 같은 무게 중심이기 때문입니다! 즉, 표본 평균 = 무게 중심입니다. 그런데 표본 평균이 수치로써의 힘을 발휘하지 못할 때가 있습니다. 바로 이상점(Outlier)이라는 것이 존재할 때입니다..

Discrete Random Variable vs Continuous Random Variable (이산확률변수 vs 연속확률변수) 이산확률변수(Discrete Random Variable)는 확률 변수의 값을 셀 수 있는 경우이고, 연속확률변수(Continuous Random Variable)는 확률 변수의 값을 셀 수 없는 경우입니다. 이산확률변수는 확률 변수의 값을 셀 수 있기에 이산확률변수 X가 각 변수 x일 확률이 딱딱 정해지는 반면, 연속확률변수는 확률 변수의 값을 셀 수 없기에 연속확률변수가 X가 어떤 범위 안에 속할 확률을 구합니다. 두 확률 변수는 확률과 변수들을 이용해 함수로 나타낼 수 있습니다! -> 이산확률변수는 확률질량함수! -> 연속확률변수는 확률밀도함수! 다음 인덱스를 통해 확..

Axiom of Probability (확률의 공리) 공리란 너무나 당연해서 증명이 필요 없는 진리이고, 수학자였던 A. N. Kolmogorov가 확률 개념을 공리화하였습니다. 아래의 그림을 통해 그가 공리화한 확률 개념을 알아보도록 하겠습니다. 이때, 확률의 공리3)에서 언급된 배반 사건이라는 것에 대해 추가적으로 배반 사건이란 무엇인지 벤다이얼그램을 통해 알려드릴 수 있도록 하겠습니다. 이렇게 두 사건에 교집합이 없는 두 사건이 서로 배반인 사건이라고 합니다. 벤다이얼그램을 활용하여 설명드리면 더 잘 이해될 것 같아 준비해보았습니다! Fundamental Theorem of Probability (확률의 기본정리) 확률의 기본정리를 지금부터 하나씩 설명드리도록 하겠습니다. 확률의 기본 정리 ① 위 ..

정규 분포(Normal Distribution)란 무엇일까? 정규 분포는 Gauss가 다양한 물리 실험을 수행할 때 발생하는 측정 오차를 설명하기 위해 적용한 분포입니다. 그래서 가우스 분포(Gaussian Distribution)라고 부르기도 합니다. 종 모양을 띄며 평균을 중심 위치로 대칭 형태를 갖습니다. 정규 분포(Normal Distribution) 일반식과 확률 계산 정규 분포에 대해 알아보았으니 이제부터 표준 정규 분포에 대해 알아보도록 하겠습니다! 표준 정규 분포(Standard Normal Distribution)란 무엇인가? 표준 정규 분포는 평균값이 0이고 분산이 1인 정규 분포를 의미합니다. 여러 정규 분포를 표준화하여 정규 분포 간의 비교가 가능합니다. 지금까지 표준 정규 분포란 ..

공분산 & 상관 계수 (feat. 산점도) 산점도(Scatter plot) 공분산과 상관계수를 알기 위해서는 산점도란 무엇인지 우선 알아야 합니다. 산점도(Scatter) 연속형 변수 두 개 간의 관계를 보기 위해서 평면에 점을 찍어 만든 통계 그래프입 cktrace.tistory.com 공분산과 상관 계수의 포스팅을 이어서 작성하는 것이기에 위 글을 먼저 보고 이 포스팅을 보는 것을 추천드립니다! 피어슨 상관 계수 (Pearson Correlation Coefficient) 피어슨 상관 계수(Pearson Correlation Coefficient)는 공분산을 표준화 한 값이고, 값의 범위는 -1부터 1 사이입니다. 피어슨 상관 계수의 일반식과 간편식에 대해 알아보도록 하겠습니다. 피어슨 상관 계수 성..