Facing Multicollinearity in Data Mining

저자 : Isabella Morlini (isabella.morlini@unipr.it)
대학 : University of Parma  

검색http://www.google.com/search?source=ig&hl=en&rlz=&q=Facing+Multicollinearity+in+Data+Mining&aq=f&oq=Facing+Multicollinearity+in+Data+Minin

원문 :

1. Introduction

In regression problems, when the form of the relationship between a dependent variable and multiple predictors is not a priori, non-prarametric model are often applied in order to extract knowledge from data and to adaptively build a regression function.
회귀분석의 문제에서, 독립 변수과 (여러 개의) 예측 변수들  간에 (상관)관계의 형태(특성)이 가정되지 않는다면, 입력 데이터로 부터 지식을 추출하고 회귀 함수를 생성하기 위하여 비모두 분석 기법이 주로 사용된다.

(고려할 사항들 :
비모수 모델이란? 변수들 간의 분포에 대한 가정을 필요로 하지 않는 분석 기법을 의미한다.
is not a priori 의 의미는? 변수들 간의 관계가 가정이 되지 않는 상황을 의미한다.
predictors 는 예측자로서 입력변수를 의미한다.)

One of aim of data mining is to search for the best final model. Usually, model selection is based on the sum of squares error (SSE) or related indexs like BIC/SBC or AIC, and mathemathical convenience, regardless of the problem at hand.
데이터마이닝을 수행하는 하나의 목적은 최적의 모델을 찾는 것이다. 회귀 분석의 모델 선택에서 일반적으로는(주로) 수학적인(계산상의) 편의를 위해서 문제를 무시하고 최소제곱합(SSE) 방법 또는 그와 유사한 BIC/SBC 또는 AIC 인덱스를 사용한다.

When the predictors are highly collinear, however, nonliear models like General Additive Models (GAMs), and Multivariance Adaptive Regression Spline (MARS) based on the backfitting algorithms (a stepwise procedure of systematically adding and removing basis functions) may present great instability and arbitrainess in the selection process, unlike linear models in which the original coordinate system is a meaningful one.
그러나, 예측 변수들 간이 서로 높은 선형관계가 있을 때, GAMs 그리고 역적합 알고리즘(체계적으로 Bias 함수를 추가하거나 제거하는 순차적인 방식을 사용하는 방식)에 기반한 MARS 등의 비선형 모델 들은 불안정성, 선택 과정에서의 임의적인 특성을 나타내는 문제가 있다. (선형 모델들은 체계적인 시스템이 의미있는 것이다.) 

For this reason, even if these tools produce simpler and more understandable models of a response to an arbitrary function of as set of predictor variables, projection methods like Projection Pursuit Regression(PPR), the Multi-Layer Perception(MLP) and Radial Basis Function Networks(RBFNs) or Selection methods baed on a differenct subset selection, like classification and Regression Tree(CART), may appear more suited when the data matrix shows high collinearity.
이러한 이유 때문에, 선형 모델들이 더 단순하고 이해하기 쉬운 결과를 부여줌에도 불구하고, CART와 같은 모수적 분석 기법에 보다 PPR/ MLP/ RBFNs 등의 비모수적 방법들이 다중공선성을 갖는 데이터에 대하여 더 적합한 결과를 제시하게 된다.   

It is the goal of this paper to understand how nonlinear methods based on the backfitting algorithm are affected by multicollinearity and to show that projection methods manage better with this problem.
이 논문의 목표는 (역적합 알고리즘에 기반한) 비선형 모델들이 다중공선성에 의해서 어떠한 영향을 받는지 이해하고, 프로젝션 방법들이 이 문제에 더 좋은 결과를 보이는 것을 제시하는 것이다.

The structure of the paper is as follows. Section 2 briefly reviews the backfitting algorithms in GAMs and MARS. Section 3 focues on a numerical example in order to understancd futhur how these methods work and to compare them with other selection and projection tools. Section 4 provides concluding remarks.
본 논문의 구성는 다음과 같다. 2장에서는 GAMs, MARS 역적합 알고리즘에 대해서 간략하게 리뷰한다. 3장에서는 이 방법들이 어떻게 동작하는지 이해하고 다른 방법들과 비교하기 위하여 수치적인 예제를 제시한다. 4장에서는 결론을 맺는다.   

1장 정리

본 연구에서는 다중공선성 특성을 갖는 데이터에 대해서는 비모수 분석 기법이 적합함을 제시한다.모수적 분석 기법은 데이터의 입력 변수들 간에 분포 특성을 가정하는 분석 기법이다. (변수들 간에 선형성이 없다는 것을 가정으로 한다.) 

반면, 비모수적 분석 방법은 데이터의 입력 변수들 간의 선형성 등의 특성에 영향을 받지 않는 분석 기법이다. 따라서 다중공선성을 갖는 데이터 분석에 적합할 수 있다. 

모수적방법 : CART, (SSE)를 사용하는 Regression 분석 등
비모수적방법 : MLP, PPR, RBNFs 등

2. The Backfitting algorithms in GAMs and MARS

In the following we briefly review the backfiiting algorithm in GAMs and MARS. We assume that the readers are familar with these models and, due to space limitation, we do not describe them but we refer the readers to descriptions in Ripley (1996, camp. IV).
이 장에서는 GAMs와 MARS이라는역적합 알고리즘에 대해서 간단하게 리뷰한다. 지면이 충분하지 못하므로 독자들이 이러한 모델(분석방법들)에 대하여 익숙하다고 가정하고 알고리즘들을 자세하게 설명하지는 않는다. 자세한 설명이 필요한 독자들은 Ripley의 논문을 참고하기 바란다.

The backfitting algorithm (Hastie and Tibshirani, 1990) adaptively builds as set of basis functions by forward selection. This technique works in the origainal coordinate system and finds linear and nonlinear combinations of these coordinates.
역적합 알고리즘(1990년 제안됨)은 전방향 선택법에 의하여 bias 함수들을 적응적으로 생성한다. 이 기술은 원래의 결합 시스템에서 작동하며, 선형 그리고 비선형의 결합들의 조합을 찾는다.

In GAMs the forward procedure holds all but on of the additive terms constant, removes that term and fits a smooth term to the residuals. The Fitting is applied a variable at a time until the process converges. GAMs 알고리즘에서는 전방향 절차를 수행하여 모든 변수와 상수를 선택한다. 변수들을 제거하면서 남은 오차에 term들을 부드럽게 적합시킨다. 수렴의 과정을 거치면서 한 번에 한 변수씩 적합화가 수행된다.  

It is this procedure that makes GAMs vulnerable to collinearites between the dependent and the independent variables. If the first variables are correlated with the response, and the sooth term is flexible enough, then the partial residuals result in small  values and the algorithm may converge before processing all variables.
수행되는 프로시져(절차)는 독립변수와 종속변수 간의 상관성에 취약하게 한다. 만약, 첫번째 변수가 반응과 상관이 있고, (부드러운) term이 충분히 유연하다면,  나머지 오차부분은 작은 변수들

So the final model depend on the order in which varibables are presented. In a less extreme case, all predictors are selected as basis functions, but the degree of freedom of each basis function may arbitrarily depend on the order of the variables. 
그래서 최종적인 모델은 변수가 제시되는 순서에 의존적이다. 아주 극단적인 경우에는, 모든 설명변수가 기본적인 함수로 선택도고, 각각의 기본 함수의 자유도는 입력되는 순서에 따라 의존적으로 임의로 변하게 된다. 

In MARS a tree structure is present and interaction between variables is explicitly allowed. In forward procedure is somehow different form GAMs. For each predictor and every possible value of these predictors (knot), MARS divides the data into two parts. one on either side of the knot. MARS selects the knot and variable pair which give the best fit, and to each part it fits the response using a pair of linear functions.
MARS에서는 나무 구조가 존재하고 변수들의 상호작용이 명시적으로 허용된다. 전방향 절차는 아무튼 GAMs와 다르다. 각 입력변수들과 모든 가능한 분할 값(knot)들에 대해서, MARS는 데이터들을 2개의 부분으로 구분한다. 각 데이터는 하나의 knot에 존재하게 된다. MARS는 knot와 변수의 쌍을 선택한다.

If two variables are correlated, at same stage of the tree construction MARS may be forced to choose between placing a knot on one of these predictors. If both predictors result in roughly the same penalized residual sum of the squares, then the selection may be somehow arbitrarily and in the final set of basis function only one of these variables may be represented.
만약, 두개의 변수과 상관관계가 있다면, 나무를 생성하는 동일한 단계에서 MARS는 2개의 변수(예측자) 중에서 하나의 구분기준(knot)을 선택하게 된다. 만약, 두 개의 (예측)변수가 SSE(오차의 총합)을 감소시키는데 대략 비슷한 결과를 낸다면, 두 변수 중 한 변수가 임의로 선택이 되고 기본적인 함수들의 최종적인 모델은 두 변수 중 단지 하나의 변수만을 표현하게 되는 문제가 발생한다.  
(즉, 두 변수가 모두 중요한 데 그중 하나의 변수만 임의적으로 선택되고, 하나는 표현되지 않는다.)  

In an extrme case it may happen that the choice of one varibale at the current step may have a great impact on the choice of all furthur variables and knot selections and thus on the final model as well. The backward step, which follows the forward phase and aims to produce a model with comparable performance but fewer terms, is also vulerable to multicollinearity, escpecially in the additive case (when no interaction is allowed) since over-fitting is avoided by reducing the number of knots rather then via a smoothness penalty.

극단적인 경우, 현 단계에서의 한 변수의 선택은 그 다음 단계에서의 변수 및 분리기준(knot)의 선택에 있어서 매우 큰 영향을 미치게 되고, 최종 모델에도 큰 영향을 미치게 된다. 역방향 단계도 마찬가지로 (역방향 단계에는 전방향 단단계의 생성 순서를 따르며, 좀 더 적은 항들로 구성되며 좀 더 향상된 성능을 나타내는 모델을 생성한다.) 다중공선성에 취약하다. 특히 부가적인 경우 [상호작용이 허용되지 않는 경우]에 그렇다. 왜냐하면 부드러움(가지치기)의 불이익을 통해서 분리기준(knot)의 개수를 감소하여 과적합의 문제를 피하기 때문이다.

* vulnerable : 상처받기 쉬운, 공격받기 쉬운 http://endic.naver.com/endic.nhn?docid=1257640
* fewer terms : 보다 적은 (소수의) 항들
* via : 경유하여  

In conclusion, MARS and GAMs are affected by multicollinearity in that they select the basis function in some arbitrarily manner, since this choice has no impact on the SSE when a set of variables is highly correlated with each others and with the response. In Addition, in many applications a subset selection of the predictors may not be the optimal choice since a weighted average of the input variables may be preferable to the single one with the highest correlation with the response (for example, in quality control, a weighted average of sensors may be preferable to a singe one).

결론을 내리자면, 평가함수가 임의의 방식으로 변수를 선택하기 때문에 MARS 및 GAMs 알고리즘은 다중공선성의 영향을 받게 된다. 왜냐하면, 두 변수가 서로 높은 상관성이 있는 경우 그 중 어떤 변수를 선택하든 SSE(오차총합)에는 영향이 (거의) 없기 때문이다. 추가로, (예측) 변수들을 선택하는 많은 방법들(응용 프로그램들)은 최적의 답(모델)을 제시해주 못할 수 있게 된다. 왜냐하면 입력변수들에 대한 가중치 평균이 종속변수와 상관성이 높은 하나의 변수보다 선호되기 문이다. (예를 들어, 품질 조절에서, 센서들의 가중치 평균이 하나의 센서(?)보다 선호될 수 있다.)

2장 정리

본 장에서는 MARS 및 GAMs 라는 결정트리 알고리즘이 다중공선성에 영향을 받는 다는 것을 설명하였다. 왜 문제가 되는지에 대해서 대체로 잘 서술하였고, 참고자료로서 도움이 된다.

맨 아래 부분의 가중치 합이 하나 보다 선호된다는 부분은 잘 이해가 되지 않는다.

3. Numerical Example

 
 

4. Conclusion

Non-linear selection models based on the backfitting algorithm are often liked better than non parametric projection methods, since they build simpler and more understandable models.
역적합 알고리즘에 기초한 비선형 선택 모델들은 비모수 방법들 보다 더 많이 사용된다. 왜냐하면 이 방법들이 더 간단하고 이해하기 좋은 모델을 생성해주기 때문이다. (즉, C4.5, CART등의 결정트리 알고리즘들이 MLP 신경망 방법보다 더 단순하고 이해하기 쉬운 결과를 제공해주기 때문에 많이 사용된다 라는 의미이다.)

However, they are affected by multicollinearity in that they select the knots placement in some arbitrarily manner, when this choice has not impact on the SSE. Hence, they may not be the optimal alternative in model building in presence of multicollinearity.
그러나 그 방법들은 분할지점의 선택이 SSE(오차총합)에 영향을 주지 않는 경우에는 분할지점(knot)을 임의의 방법으로 선택하게 되어 다중공선선의 영향을 받는다. 따라서, 그것은 다중공선성이 존재할 경우 모델을 생성하는 최적의 대체 답이 아닐 수 있다.

Nonparametric methods like PPR and MLP are shown to find the correct dimension of the projection space relevant for predicton. RBFNs are found to give rise to numerical problems using the gaussian transformation. With a non localized function, they are shown to indentify a projection space not far from the dimension of the relevant subspace.
PPT, MLP 와 같은 비모수 방법들은 예측에 있어서 비교적 올바른 차원을 찾아주는 것으로 보여진다. RBFNs 방법은 가우시안 변환을 사용하여 수치에서의 문제를 일으키는 것으로 알려졌다. 비지역화 함수를 사용하면, 그 방법들은 적절한 부분공간에서의 차원에서 멀지않은 투사 차원을 찾는 것으로 보여진다. (?)  

5. Main References

[1] Hastie T.J., Tibshirani L.J. (1990) Generalized Additive Models, Chapman, London.
[2] Naes T., Helland I.S.(1993) Relevant components in regression, Scandinavian Journal of 
      Statistics, 20, 239-250.
[3] Ripley B.D.(1996) Pattern Recognition and Neural Networks, Cambridge University Press, 
      Cambridge, UK.

 

by 에이아이 2009. 7. 29. 11:31
  • 박성룡 2011.02.22 22:21 ADDR EDIT/DEL REPLY

    통계학 전공이 아닌 저로서는
    어려운 문제가 많은데 이렇게 잘 설명을 한 자료를 이용할 수 있게 해 주시니 감사 합니다.

    앞으로 자주 방문 할께요 꾸벅 ^^

| 1 2 |