Ordinary least squares.
최소자승법, 최소제곱법, 통상최소자승법 등으로 불리기도 한다.
주로 통계에 대해 처음 배울 때 접하는 모형으로 매우 단순하지만 많은 곳에서 쓰인다. 이를 가장 단순히 써보면 다음과 같다.
Y=aX+b
어떤 종속변수 Y가 어떤 독립변수(들) X들의 선형 결합을 통해 결정된다고 보는 것이다.
예를 들어 계란후라이를 만드는 기계를 생각해보자. 이 기계에 정해진 재료를 넣으면 계란후라이가 나오는데, 재료를 얼마나 넣어야 하는지는 아직 알지 못한다.
우리는 알지 못했지만, 실제로 계란후라이 1개를 만들기 위해서는 계란 1개와 케첩 50그램 소금 5그램이 필요하다. 그러면 계란후라이의 갯수인 Y 는 1*계란의 수 + 50*케첩(그램) + 5*소금(그램)으로 표시할 수 있다.
이제 이 기계에 하루에 한 시간씩 원숭이들이 달라붙어서 무작위로 재료를 넣는다고 생각해보자. 그러면 매일마다 생산되는 계란후라이의 갯수와 기계에 들어간 계란의 수, 그리고 케첩과 소금의 양을 알 수 있다. 이 자료를 가지고 OLS를 이용해 추정하면 계란후라이를 만들기 위해 재료를 얼마나 넣어야 하는지를 우리도 알 수 있게 된다.
가우스-마르코브 조건(Gauss-Markov Assumption)을 만족할 때, 가장 좋은 추정방법[1]임을 증명할 수 있다. 다시 말해 불편성(기댓값이 모수와 일치, 즉 모형을 통해 추정한 값들의 평균이 참값임)을 갖추고 가장 효율적인(통계학이나 계량경제학에서 효율성은 분산이 작다는 뜻) 추정방법이다.
가우스-마르코브 조건
1.선형성
실제 추정하고자 하는 현실이 선형적인 모델로 설명될 수 있어야 할 것[2]
이 조건을 만족하지 못하면 최소자승법으로 추정한 모델은 기본적으로 잘못된, 의미 없는 추정이 된다.
2.오차항의 평균은 0
3.동분산(homoskedasticity)
어느 시점에서 관측하더라도 동일한 분산이 나올 것.
이를 만족하지 못하는 경우를 가리켜 heteroskedasticity(이분산)이 존재한다고 하며, 이 경우 추정된 값들의 유의성을 담보할 수 없다.
- 이분산일 때 쓸 수 있는 robust OLS가 있으나 이는 선형성만 충족하고 효율성은 충족하지 못한다. 그리고 분산의 구조를 정확히 안다면 이를 이용해 동분산 모형을 만들 수 있으나 분산의 구조를 정확히 안다는 것은 매우 어렵다.
4.오차항은 서로 독립
어떤 시점의 오차항과 다른 시점의 오차항 사이의 공분산이 0일 것.
이를 만족하지 못할 경우 공간상관성이나(패널/횡단면) 자기상관성(시계열)이 존재하며, OLS는 더 이상 가장 좋은 추정방법이 되지 못한다.
5.독립변수는 주어진 것으로 가정[3]
위의 조건을 만족하면, BLUE가 된다.