Cross-validation based K nearest neighbor imputation for software quality datasets: An empirical study

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
4956387	1444515	2017	64 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

GRG MCAR RMSE GRC MDT MAR KNN MEI - MAY Mutual information - اطلاعات متقابل Cross-validation - اعتبار سنجی متقابل GRA - بازی Grey relational analysis - تجزیه و تحلیل رابطه ای خاکستری Missing data - داده های گم شده Grey relational grade - درجه ارتباطی خاکستری Classification accuracy - دقت طبقه بندی SEE - دیدن Root mean square error - ریشه میانگین خطای مربع research question - سوال پژوهشی BMI - شاخص توده بدنی SVM - ماشین بردار پشتیبانی Support vector machine - ماشین بردار پشتیبانی Imputation - محاسبه Loc - محل PROMISE - وعده k nearest neighbor - ک نزدیکترین همسایه Fault-proneness - گسستگی missing at random - گم شده در تصادفی Missing completely at random - گمشده به طور تصادفی

موضوعات مرتبط

مهندسی و علوم پایه مهندسی کامپیوتر شبکه های کامپیوتری و ارتباطات

پیش نمایش صفحه اول مقاله

Cross-validation based K nearest neighbor imputation for software quality datasets: An empirical study

چکیده انگلیسی

Being able to predict software quality is essential, but also it pose significant challenges in software engineering. Historical software project datasets are often being utilized together with various machine learning algorithms for fault-proneness classification. Unfortunately, the missing values in datasets have negative impacts on the estimation accuracy and therefore, could lead to inconsistent results. As a method handling missing data, K nearest neighbor (KNN) imputation gradually gains acceptance in empirical studies by its exemplary performance and simplicity. To date, researchers still call for optimized parameter setting for KNN imputation to further improve its performance. In the work, we develop a novel incomplete-instance based KNN imputation technique, which utilizes a cross-validation scheme to optimize the parameters for each missing value. An experimental assessment is conducted on eight quality datasets under various missingness scenarios. The study also compared the proposed imputation approach with mean imputation and other three KNN imputation approaches. The results show that our proposed approach is superior to others in general. The relatively optimal fixed parameter settings for KNN imputation for software quality data is also determined. It is observed that the classification accuracy is improved or at least maintained by using our approach for missing data imputation.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Journal of Systems and Software - Volume 132, October 2017, Pages 226-252

نویسندگان

Huang Jianglin, Keung Jacky Wai, Federica Sarro, Li Yan-Fu, Yu Y.T., Chan W.K., Sun Hongyi,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

Cross-validation based K nearest neighbor imputation for software quality datasets: An empirical study

دسترسی سریع

ارتباط

English Website