목록Statistics (19)
CKtrace's Devlog

산점도(Scatter plot) 공분산과 상관계수를 알기 위해서는 산점도란 무엇인지 우선 알아야 합니다. 산점도(Scatter) 연속형 변수 두 개 간의 관계를 보기 위해서 평면에 점을 찍어 만든 통계 그래프입니다. 산점도 그래프를 보아 알 수 있듯이 점들은 두 변수 x, y 순서쌍 자료 값에 맞게 찍힙니다. 공분산(Covariance) 공분산(Covariance)은 두 변수 간에 직선 관계가 어느 정도인지를 나타내 주는 통계 값입니다. 공분산은 위에서 설명한 산점도를 통해서 두 변수 간에 관계의 존재 여부를 시각적으로 확인할 수 있습니다. 평균 순서쌍 값인 (x, y)를 기준으로 분포하는 형태에 따라 아래의 두 가지 관계로 분류할 수 있습니다. 평균 순서쌍 값인 (x, y)를 중심으로 1 사분면과 3 ..

포아송 분포(Poisson Distribution)란 무엇인가? 포아송 분포(Poisson Distribution) -> 발생할 가능성이 매우 희박한 사건이 임의의 구간 혹은 시간 안에서 평균적으로 λ번 발생하는 사건이 있다고 가정해봅시다. 이때 이 사건이 일어날 횟수의 분포를 포아송 분포라고 합니다. 포아송 분포의 조건은 두 가지가 있습니다. 나눈 각각의 시간 혹은 구간의 발생 빈도는 서로 독립입니다. 시간 혹은 구간의 위치와 관계없이 동일한 길이의 시간 혹은 구간에서 평균 발생 빈도는 동일합니다. 포아송 분포는 이항 분포를 근사한 분포입니다. 어째서 이항분포를 근사해서 사용하는지는 차근차근 알아보도록 하겠습니다. 이항 분포에 대한 내용을 알아보고 싶으신 분들을 위해 제가 이전에 작성한 포스팅의 링크를..

분포의 형태 수치형 자료에 대한 통계 분석 방법 → 대부분 모집단의 중심 위치를 기준으로 좌우 대칭 형태를 가진다고 가정! 통계 분석의 적절성 → 분석 방법에서의 가정한 조건을 얼마나 자료가 만족을 하는지에 영향을 받습니다. 분포 형태에 대한 측도 → 자료가 모집단의 가정을 얼마나 만족하는지 확인이 필요합니다 -> 왜도와 첨도를 통해 확인! 왜도 (Skewness) 자료의 중심 위치를 기준으로 좌우 중 한 쪽으로 쏠렸는지 확인할 수 있게 해주는 척도입니다. → 이상치(중심에서 많이 떨어져 있는 값)가 있는지 점검할 수 있습니다. 즉, 정규 분포인지 아닌지 확인할 수 있게 해주는 것이죠. → Histogram(히스토그램) 또는 Box plot(상자 그림)을 통해서 왜도를 확인할 수 있습니다. → '꼬리가 ..

모집단 & 표본 (Population & Sample) 표본 추출 편의를 설명하기 앞서 모집단과 표본이 무엇인지 짧고 굵게 알아보겠습니다! 모집단 (Population) : 조사(연구) 대상이 되는 모든 개체의 집합을 모집단이라고 합니다. 표본 (Sample) : 모집단으로부터 선택된 일부의 개체를 표본이라고 합니다. 편의 (Bias) 많은 비율의 모집단은 크기가 매우 크기에 전체를 조사하기 힘듭니다. 물론 조사하는데 비용도 많이 듭니다. 그래서 모집단에서 일부의 개체를 추출한 표본을 갖고 모집단에 관해 추측합니다. 이때 모집단에서 일부의 개체를 추출한 표본이 모집단을 대표하지 못할 때 편의(Bias)가 발생합니다. 편의에는 여러 가지 편의가 있지만 이번에는 표본 추출 편의, 무응답 편의, 응답 편의 이..

베르누이 분포(Bernoulli Distribution) 베르누이 분포는 왜??? 바로 베르누이 분포는 이항 분포의 기초가 되는 중요한 분포이기 때문입니다! ① 시행에서 발생 가능한 결과는 2가지입니다. ①, ②, ③ 만족시키는 시행 -> 베르누이 시행(Bernoulli Trial) ② 각 시행은 독립적으로 시행됩니다. ③ 각 시행에서 결과의 확률은 항상 동일합니다. 베르누이 시행에서 결과 A와 결과 B가 있다고 할 때, 결과 A이면 0, 성공이면 1의 값을 갖는 확률변수 X와 확률분포는 아래와 같습니다. 이러한 확률 분포를 베르누이 분포(Bernoulli Distribution)라고 하고, 베르누이 분포를 따르는 따르는 확률 변수를 베르누이 변수(Bernoulli Random Variable)라고 합니..