본문 바로가기
프로그래밍/이산 수학

정규 분포

by 3.14pie 2023. 1. 27.

오차 곡선 - 허용할 수 있는 오차가 어디까지인지 정의하는 함수이다. 함수로 근사값이다.

 

정규 분포 - 연속 확률 분포의 한 종류로 근사값이다. 이상적인 그래프이며 가장 높은 값을 기준으로 좌우가 정확하게 대칭이다. 가우시안 분포라고도 한다. 너비가 좁은 정규 분포는 평균하고 가까운 값이 많고, 너비가 넓은 정규 분포는 평균하고 먼 값들도 많다는 뜻이다.

대표값(Representative Value) - 어떤 분포의 기대값을 말한다.

분산(Variance) - 평균에서 관측값들이 얼만큼 떨어져 있는가에 대한 척도이다. 편차의 제곱을 더하고 총 개수로 나누면 구할 수 있다. 

편차 - 관측값과 평균의 차이다.

표준 편차(Standard deviation) - 원래 관측값 단위로 돌려놓기 위해서 분산에 루트를 씌운 값이다.

표준 정규 분포(Standard Normal Distribution) - 평균과 표준편차를 정규화한 분포이다. 표준 편차를 1, 평균을 0으로 한다.

Z-Score - 표준화된 각 개별 값이다. 개별 값이 평균에서 표준 편차 몇 개만큼 떨어져 있는지를 표현한다. 개별 값이 상위, 하위 몇 프로인지 알 수 있다.

 

모집단(Population) - 통계를 통해 알고자 하는 전체 대상이다.

표본집단(Sample) - 전체 대상에서 특정한 기준에 따라 선별한 대상이다. 표본 집단의 수가 적으면 모집단의 결과와 다를 가능성이 높고 수가 많아지면 비슷해진다.

구간 추정 - 모집단의 통계가 있을만한 구간을 정하고 그 구간에 모집단의 통계가 있을 확률을 구하는 것이다. 구간이 넓어질수록 정확도가 오르지만 정밀도는 떨어진다. 정확히 어떤 값을 예측하고 그 값이 맞을 확률을 말하는 것이 아니다.

신뢰 구간(Confidence Interval) - 모집단의 통계가 있다고 추정하는 구간이다.

신뢰도(Confidence Level) - 모집단의 통계가 신뢰 구간 어딘가에 존재할 확률이다. 신뢰도가 높으면 신뢰구간이 넓어지는 것이다.

최빈값(mode) - 가장 많이 나온 값으로 빈도가 높은 값을 말한다. 해당 데이터의 평균이나 중앙값을 사용하기 어려울 때 사용한다.

'프로그래밍 > 이산 수학' 카테고리의 다른 글

점근 표기법  (1) 2023.01.29
도수 분포표  (0) 2023.01.29
확률  (0) 2023.01.25
경우의 수, 순열, 조합  (0) 2023.01.21
벡터, 튜플, 행렬  (0) 2023.01.17