DIGITAL LIBRARY ARCHIVE
HOME > DIGITAL LIBRARY ARCHIVE
< Previous   List   Next >  
Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm
Full-text Download
Young Sik Jang (IT team, HUMAX Co.,Ltd)
Jong Woo Kim (School of Business, Hanyang University)
Joon Hur (SPSS Korea Data Solution Inc.)
Vol. 14, No. 3, Page: 133 ~ 154
Keywords
Data Imbalance, Genetic Algorithm, Decision Tree Induction, Misclassification Cost
Abstract
The data imbalance problem which can be uncounted in data mining classification problems typically means that there are more or less instances in a class than those in other classes. In order to solve the data imbalance problem, there has been proposed a number of techniques based on re-sampling with replacement, adjusting decision thresholds, and adjusting the cost of the different classes. In this paper, we study the feasibility of the combination usage of the techniques previously proposed to deal with the data imbalance problem, and suggest a combination method using genetic algorithm to find the optimal combination ratio of the techniques. To improve the prediction accuracy of a minority class, we determine the combination ratio based on the F-value of the minority class as the fitness function of genetic algorithm. To compare the performance with those of single techniques and the matrix-style combination of random percentage, we performed experiments using four public datasets which has been generally used to compare the performance of methods for the data imbalance problem. From the results of experiments, we can find the usefulness of the proposed method.
Show/Hide Detailed Information in Korean
유전자 알고리즘을 활용한 데이터 불균형 해소 기법의 조합적 활용
장영식 ((주) 휴맥스 IT팀)
김종우 (한양대학교 경영대학 경영학부)
허준 (SPSS Korea(주)데이터솔루션)
Abstract
데이터 마이닝 분류 문제에서 발생하는 데이터 불균형 문제는 한 범주에 속한 데이터의 수가 다른 범주에 속한 데이터의 수보다 극히 많거나 작은 경우를 말한다. 이러한 불균형 문제를 해결하기 위해 표본추출과 오분류 비용에 근거한 여러 가지 기법들이 제시되었으며, 이들 간의 성능 비교에 대한 연구들도 이루어졌다. 본 논문에서는 기존에 제시된 불균형 문제 해소기법들의 조합적 활용에 대한 타당성에 대해 살펴보고 유전자 알고리즘을 통해 그 결합 비율을 결정하여 더 좋은 성과를 낼 수 있는지에 대해 살펴보도록 한다. 소수 범주에 대한 정확성을 높이기 위해 소수 범주에 대한 F-value에 기초하여 기법들의 결합비율을 결정하고 기존 단일 기법들의 성과와 임의의 비율에 의한 격자표 형태의 결합 성과를 비교하여 결합적 활용의 타당성을 살펴본다. 이를 실증적으로 검토하기 위해서, 일반적으로 데이터 불균형 문제를 해결하기 위해 많이 사용되는 4개의 공개 데이터 집합을 이용하여 타당성 분석을 수행하였다. 분석 결과, 전체적으로 단일 기법들의 결합적 활용이 데이터 불균형 해소에 유용한 것으로 나타났다.
Cite this article
JIIS Style
Jang , Y. S., J. W. Kim, and J. Hur, "Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm", Journal of Intelligence and Information Systems, Vol. 14, No. 3 (2008), 133~154.

IEEE Style
Young Sik Jang , Jong Woo Kim, and Joon Hur, "Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm", Journal of Intelligence and Information Systems, vol. 14, no. 3, pp. 133~154, 2008.

ACM Style
Jang , Y. S., Kim, J. W., and Hur, J., 2008. Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm. Journal of Intelligence and Information Systems. 14, 3, 133--154.
Export Formats : BiBTeX, EndNote

Warning: include(/home/hosting_users/ev_jiisonline/www/admin/archive/advancedSearch.php) [function.include]: failed to open stream: No such file or directory in /home/hosting_users/ev_jiisonline/www/archive/detail.php on line 429

Warning: include() [function.include]: Failed opening '/home/hosting_users/ev_jiisonline/www/admin/archive/advancedSearch.php' for inclusion (include_path='.:/usr/local/php/lib/php') in /home/hosting_users/ev_jiisonline/www/archive/detail.php on line 429
@article{Jang :JIIS:2008:341,
author = {Jang , Young Sik and Kim, Jong Woo and Hur, Joon},
title = {Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm},
journal = {Journal of Intelligence and Information Systems},
issue_date = {September 2008},
volume = {14},
number = {3},
month = Sep,
year = {2008},
issn = {2288-4866},
pages = {133--154},
url = {},
doi = {},
publisher = {Korea Intelligent Information System Society},
address = {Seoul, Republic of Korea},
keywords = { Data Imbalance, Genetic Algorithm, Decision Tree Induction and Misclassification Cost },
}
%0 Journal Article
%1 341
%A Young Sik Jang
%A Jong Woo Kim
%A Joon Hur
%T Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm
%J Journal of Intelligence and Information Systems
%@ 2288-4866
%V 14
%N 3
%P 133-154
%D 2008
%R
%I Korea Intelligent Information System Society