Linear Regression이란 직선 긋기의 문제이다. 단순 / 다중 문제로 구분되곤 하는데, 예측변수 y를 예측하기 위해 사용되는 변수 x의 종류를 묻는 것이다.
LSE : Least Square Estimation. error 제곱이 최소화 되도록 하는 계수를 찾는 방법. 여기서 error란 직선과 data의 차이(distance)를 말한다. 'yi-(yi)캡'로 표현할 수 있다.(y-h(x)) RSS:Residual Sum of Square. 이 최소식이다. e1^2(error1) + e2^2 + ... + en^2 제곱합을 사용하는 이유. 제곱을 활용하지 않으면 각 차이의 순수한 정도를 합으로 나타낼 때 불리하다. =>distance적인 측면에서 바라보겠다. 여기서 RSS는 베타(계수)를 포함하는데, 베타를 편미분해서 최소화하면 각 독립변수의 최적 계수를 구할 수 있다.
분산은 계수를 얼만큼 정확히 구했는지에 대한 척도로 사용된다. =>계수의 분산이 크면 그 계수가 불안정하다는 뜻. 표본의 수 n과 독립변수 X의 분산이 클수록 계수의 분산이 줄어든다.
R^2 = 1-RSS/TSS =>R^2가 클수록 실제값과 예측값이 유사하다.
양적변수 : 관심 대상이 되는 특성을 수치로 나타내는 변수 질적변수 : 특성을 범주로 구분하여 나타내는 변수, dummy variable(-1, 0, 1) 독립변수 : 다른 변수에 영향을 주는 변수 종속변수 : 다른 변수에 영향을 받는 변수
X와 Y의 관계가 비선형적이라면 직선 모델은 적합력이 떨어진다. =>Resudual plot을 그려 곡선인지? 등분산이 지켜지지 않았는지? 이상점은 어디인지를 확인 등분산 : 각 모집단에서 추출된 sample의 분산이 같음. 이분산의 반대. 이상점 : 0에서 많이 떨어져 있는 경우.
특정 모양이 존재하는 경우 분산이 동일하지 않다는 뜻. =>변수변환을 통해 등분산성 조건을 만족시킨다.
이상치는 오차를 많이 내므로 조치를 취해야 한다.
단순 선형회귀에서는 leverage point를 검출해낸다. 이 몇개의 점들 때문에 회귀 직선이 크게 요동칠 수 있음. oulier : 단순히 다른 데이터 포인트들과 거리가 먼 데이터 포인트. leverage : X값이 다른 데이터 포인트들에 비해 극단적으로 큰 값.
공선성 : 서로 다른 변수끼리 독립적이라는 가정이 깨진 채 모델을 적합한 경우에 발생. 데이터가 조금 변해도 회귀 계수 변동이 크고, 계수의 표준 오차를 증가시켜 계속 바뀌도록 만든다. =>VIF라는 통계량이 5 ~ 10 사이면 다중 공선성을 의심하고 이를 제거하고 다시 적합해 봐야한다.
trade off : 한 쪽을 키우면 다른 한 쪽은 줄고 다른 쪽을 줄이면 또 다른 한 쪽은 느는 관계
KNN : 종속변수 Y 주변의 K개의 데이터를 찾아내 이를 평균내어 예측값으로 활용. K값을 정하는 데 trade off 문제가 발생한다. k 값이 크면 underfitting 문제가 발생하고, k 값이 작으면 overfitting 문제가 발생한다. 차원의 저주 : 차원(독립변수의 수)가 증가하면, 주변 이웃할 수 있는 점의 수가 줄어들어 예측력이 떨어질 수 있다.
parametric vs nonparametric nonparametric : 모집단의 분포형태에 대한 가정을 완화하여 이론을 전개. => 가정이 만족되지 않을 때 생기는 오류의 가능성이 적고 계산이 간편하고 직관적으로 이해하기 쉽다. 분포형태를 가정할 수 없을 때 분포형태에 대한 가정을 완화해 이론을 전개하는 데 하는데 이와 같은 통계적 방법을 nonparametric method이라 한다.