이번 포스팅에서는 회귀분석에 대해 알아보고자 합니다.
회귀분석은 통계학에서 종속 변수와 한 개 이상의 독립 변수 간의 관계를 분석하는 방법입니다. 인과관계의 파악, 변수간 상호작용 등을 연구하기 위한 목적으로 사용합니다.
1. 단순 선형 회귀분석
(Simple Linear Regression)
단순 선형 회귀분석은 종속 변수와 1개의 독립 변수 간의 선형 관계를 분석하는 가장 기본적인 형태입니다. 예를 들어, 키와 몸무게 간의 관계를 분석한다고 가정해 봅시다. 키가 독립 변수이고 몸무게가 종속 변수라 하면 키에 따른 몸무게의 선형관계를 분석합니다.
2. 다중 선형 회귀분석
(Multiple Linear Regression)
다중 선형 회귀분석은 종속 변수와 둘 이상의 독립 변수 간의 선형 관계를 분석하는 방법입니다. 예를 들어 키, 나이, 성별 등 여러 개의 독립 변수를 사용하여 종속변수인 몸무게를 예측하는 분석을 할 수 있습니다.
3. 회귀계수
(Regression Coefficients)
회귀계수는 독립변수의 변화에 따라 종속변수가 얼마나 변하는지를 알아보는 지표입니다.
양수인 회귀계수는 독립변수가 양의 값으로 증가할 때 종속변수도 양의 값으로 증가한다는 것을 의미하며, 음수인 경우는 독립변수가 양의 값으로 증가할 때 종속변수의 값은 감소한다는 것을 의미합니다.
4. 잔차 (Residuals)
회귀분석에서 잔차는 실제 종속변수 값과 회귀식을 통해 예측한 값 간의 차이를 의미합니다. 잔차는 회귀 모델의 적합도를 평가하고 예측 오차를 확인하는 데 사용됩니다. 잔차가 작을수록 모델이 데이터를 잘 설명한다는 의미입니다.
1. 우선 회귀모형을 구한 후, 주어진 독립 변수(x)에 대한 예측값(y_hat)을 구합니다. y_hat은 회귀선에 해당 x 값을 대입하여 얻을 수 있습니다.
2. 실제 종속 변수(y) 값과 예측값(y_hat)의 차이를 계산하여 잔차를 구합니다.
잔차(residual) = 실제 값(y) - 예측값(y_hat)
3. 위의 과정을 모든 데이터 포인트에 대해 반복하여 각 데이터 포인트마다 잔차를 계산합니다.
이렇게 잔차를 계산하면, 잔차는 각 데이터 포인트가 회귀선으로부터 얼마나 벗어났는지를 나타내게 됩니다.
5. 회귀모델의 적합도 평가 지표
회귀분석에서는 모델의 적합도를 평가하는 여러 지표가 있습니다. 주요 지표로는 결정계수(R-squared), 수정된 결정계수(Adjusted R-squared), F-통계량(F-statistic) 등이 있습니다.
1. 결정계수(R-squared)
이 중 대표적인 결정계수에 대해 알아보면 결정계수는 회귀분석 모델이 종속 변수의 변동을 얼마나 잘 설명하는지를 나타내는 지표입니다. 보통 0과 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 더 잘 설명한다는 의미입니다.
결정계수는 종속 변수의 총 변동 중에서 회귀 모델에 의해 설명되는 변동의 비율을 나타냅니다. 즉, 종속 변수의 변동 중에서 회귀식이 설명할 수 있는 부분의 비율을 의미합니다.
예를 들어, 결정계수가 0.8이라면, 회귀 모델이 종속 변수의 변동 중 80%를 설명한다는 것을 의미합니다. 나머지 20%는 모델로 설명할 수 없는 잔차로 남게 됩니다.
2. 수정된 결정계수((Adjusted R-squared)
수정된 결정계수는 R-squared와 비슷한 개념이지만, 독립 변수의 개수를 고려하여 모델의 복잡도를 보정합니다.
Adjusted R-squared = 1 - (1 - R-squared) * (n - 1) / (n - p - 1)
따라서, 독립 변수의 개수가 증가할수록 수정된 결정계수는 감소하게 됩니다.
이 외에도 F-통계량으로 회귀분석의 적합도를 평가할 수 있는데 이 부분은 다음 포스트에서 다루어보고자 합니다.
6. 다중공선성(Multicollinearity)
다중공선성은 회귀분석에서 사용되는 독립 변수들 간에 높은 상관관계가 나타나는 문제입니다. 다중공선성이 존재하면, 회귀분석 결과의 신뢰성이 저하될 수 있습니다.
독립 변수들 간에 상관계수가 높은 경우, 회귀분석 결과 독립 변수들 중 어떤 변수가 종속 변수와 더 강한 상관관계를 가지는지 파악하기 어려워집니다.
'통계학 용어' 카테고리의 다른 글
회귀분석-회귀모형의 유의성 평가 ,F-통계량 (1) | 2023.10.19 |
---|---|
회귀분석-선형회귀모형, 계산식 알아보기 (0) | 2023.10.18 |
가설검정- 양측검정과 단측검정 (0) | 2023.10.15 |
표본오차- 표본오차를 줄이려면? (0) | 2023.10.14 |
유의수준과 제1종 오류, 제2종 오류 (0) | 2023.10.14 |