새소식

인기 검색어

TL

20/08/06 TL. 선형회귀 복습

  • -

오늘 할 일

데이터 모델링 스터디

coursera logistic regression

RN 기능 구현

 

내일 할 일

React 컴포넌트 구현

coursera logistic regression + regularization

TED 영자료 해석

 

----------------------------------------------------------------------------------------------

 

Linear Regression이란 직선 긋기의 문제이다.
단순 / 다중 문제로 구분되곤 하는데, 예측변수 y를 예측하기 위해 사용되는 변수 x의 종류를 묻는 것이다.

LSE : Least Square Estimation. error 제곱이 최소화 되도록 하는 계수를 찾는 방법.
여기서 error란 직선과 data의 차이(distance)를 말한다. 'yi-(yi)캡'로 표현할 수 있다.(y-h(x))
RSS:Residual Sum of Square. 이 최소식이다.
e1^2(error1) + e2^2 + ... + en^2
제곱합을 사용하는 이유. 제곱을 활용하지 않으면 각 차이의 순수한 정도를 합으로 나타낼 때 불리하다.
=>distance적인 측면에서 바라보겠다.
여기서 RSS는 베타(계수)를 포함하는데, 베타를 편미분해서 최소화하면 각 독립변수의 최적 계수를 구할 수 있다.

분산은 계수를 얼만큼 정확히 구했는지에 대한 척도로 사용된다.
=>계수의 분산이 크면 그 계수가 불안정하다는 뜻.
표본의 수 n과 독립변수 X의 분산이 클수록 계수의 분산이 줄어든다.

R^2 = 1-RSS/TSS
=>R^2가 클수록 실제값과 예측값이 유사하다.

양적변수 : 관심 대상이 되는 특성을 수치로 나타내는 변수
질적변수 : 특성을 범주로 구분하여 나타내는 변수, dummy variable(-1, 0, 1)
독립변수 : 다른 변수에 영향을 주는 변수
종속변수 : 다른 변수에 영향을 받는 변수

X와 Y의 관계가 비선형적이라면 직선 모델은 적합력이 떨어진다.
=>Resudual plot을 그려 곡선인지? 등분산이 지켜지지 않았는지? 이상점은 어디인지를 확인
등분산 : 각 모집단에서 추출된 sample의 분산이 같음. 이분산의 반대.
이상점 : 0에서 많이 떨어져 있는 경우.

특정 모양이 존재하는 경우 분산이 동일하지 않다는 뜻.
=>변수변환을 통해 등분산성 조건을 만족시킨다.

이상치는 오차를 많이 내므로 조치를 취해야 한다.

단순 선형회귀에서는 leverage point를 검출해낸다. 이 몇개의 점들 때문에 회귀 직선이 크게 요동칠 수 있음.
oulier : 단순히 다른 데이터 포인트들과 거리가 먼 데이터 포인트.
leverage : X값이 다른 데이터 포인트들에 비해 극단적으로 큰 값.

공선성 : 서로 다른 변수끼리 독립적이라는 가정이 깨진 채 모델을 적합한 경우에 발생.
데이터가 조금 변해도 회귀 계수 변동이 크고, 계수의 표준 오차를 증가시켜 계속 바뀌도록 만든다.
=>VIF라는 통계량이 5 ~ 10 사이면 다중 공선성을 의심하고 이를 제거하고 다시 적합해 봐야한다.

trade off : 한 쪽을 키우면 다른 한 쪽은 줄고 다른 쪽을 줄이면 또 다른 한 쪽은 느는 관계

KNN : 종속변수 Y 주변의 K개의 데이터를 찾아내 이를 평균내어 예측값으로 활용.
K값을 정하는 데 trade off 문제가 발생한다. k 값이 크면 underfitting 문제가 발생하고, k 값이 작으면 overfitting 문제가 발생한다.
차원의 저주 : 차원(독립변수의 수)가 증가하면, 주변 이웃할 수 있는 점의 수가 줄어들어 예측력이 떨어질 수 있다.

 

https://niceguy1575.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%A7%88%EC%9D%B4%EB%8B%9D-2-Linear-Regression-%EC%84%A0%ED%98%95%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D?category=738019

 

[데이터 마이닝-2] Linear Regression ( 선형회귀분석 )

늦지않은 주기로 포스팅하려고 합니다. 꾸준한 사람이 되고 싶은데 늘 마음만 앞서네요. 오늘은 Linear Regression(선형회귀)에 대해서 포스팅하려고 합니다. 동일한 뜻의 몇몇 단어들을 혼동해서 사

niceguy1575.tistory.com

parametric vs nonparametric
nonparametric : 모집단의 분포형태에 대한 가정을 완화하여 이론을 전개.
=> 가정이 만족되지 않을 때 생기는 오류의 가능성이 적고 계산이 간편하고 직관적으로 이해하기 쉽다.
분포형태를 가정할 수 없을 때 분포형태에 대한 가정을 완화해 이론을 전개하는 데 하는데 이와 같은 통계적 방법을 nonparametric method이라 한다.

K-means는 clustering 알고리즘이므로 KNN과는 사용 목적이 완전히 다르다.

 

--------------------------------------------------------------------------------------------------

 

 

'TL' 카테고리의 다른 글

20/08/09 TL  (0) 2020.08.09
20/08/08 TL  (0) 2020.08.08
20/08/05 TL. octave/matlab tutorials(2), zoo 데이터셋 분석  (2) 2020.08.05
20/08/04 TL | RN 참고 블로그, Octave tutorials, 분야별 프로그래밍 언어들  (0) 2020.08.04
20/08/02 TL  (0) 2020.08.02
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.