کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6864773 1439551 2018 12 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Using sub-sampling and ensemble clustering techniques to improve performance of imbalanced classification
ترجمه فارسی عنوان
با استفاده از روش های زیر نمونه برداری و خوشه بندی گروهی برای بهبود عملکرد طبقه بندی نامتجانس
کلمات کلیدی
یادگیری بی نظیر، شبکه های عصبی، درخت تصمیم گیری، تشخیص سرطان،
ترجمه چکیده
اطلاعات فراوان بیماران در سیستم مراقبت های بهداشتی ثبت می شود. در طول فرایند داده کاوی، ما می توانیم دانش مفیدی و الگوهای پنهان درون داده ها به دست آوریم و در نتیجه ما دانش معنی دار را کشف خواهیم کرد. دانش کشف شده می تواند توسط پزشکان و مدیران مراقبت های بهداشتی مورد استفاده قرار گیرد تا کیفیت خدمات آنها بهبود یابد و تعداد خطاهای پزشکی آنها کاهش یابد. از آنجا که با استفاده از یک الگوریتم داده کاوی تنها، تشخیص و یا پیش بینی بیماری دشوار است، بنابراین در این تحقیق، ترکیبی از مزایای برخی از الگوریتم ها برای دستیابی به نتایج بهتر از نظر بهره وری است. اکثر الگوریتم های یادگیری استاندارد برای داده های متعادل (اطلاعات با همان فرکانس نمونه در هر کلاس) طراحی شده اند، که در آن هزینه طبقه بندی اشتباه در تمام کلاس ها یکسان است. این الگوریتم ها نمی توانند به طور مناسب نمایانگر ویژگی های توزیع داده ای باشند هنگامی که مجموعه داده ها نامتعادل هستند. در برخی موارد، هزینه طبقه بندی اشتباه می تواند در یک نمونه از کلاس های خاص بسیار بالا باشد، مانند اشتباه طبقه بندی افراد سرطانی یا بیماران به عنوان افراد سالم. در این مقاله تلاش شده است تا یک روش سریع و کارآمد برای یادگیری از داده های نامتقارن ارائه شود. این روش برای یادگیری از داده های عدم تعادل که داده های بسیار کمی در کلاس اقلیت دارند، مناسب تر است. آزمایشات نشان می دهد که روش پیشنهادی دارای کارایی بالاتری نسبت به الگوریتم های سنتی ساده یادگیری ماشین و چندین الگوریتم یادگیری ویژه به عدم تعادل است. علاوه بر این، این روش پیچیدگی محاسباتی کمتری دارد و زمان اجرا سریعتر است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Abundant data of the patients is recorded within the health care system. During data mining process, we can achieve useful knowledge and hidden patterns within the data and consequently we will discover the meaningful knowledge. The discovered knowledge can be used by physicians and managers of health care to improve the quality of their services and to reduce the number of their medical errors. Since by the usage of a single data mining algorithm, it is difficult to diagnose or predict diseases, therefore in this research, we take a combination of the advantages of some algorithms in order to achieve better results in terms of efficiency. Most of standard learning algorithms have been designed for balanced data (the data with the same frequency of samples in each class), where the cost of wrong classification is the same within all classes. These algorithms cannot properly represent data distribution characteristics when datasets are imbalanced. In some cases, the cost of wrong classification can be very high in a sample of a special class, such as wrongly misclassifying cancerous individuals or patients as healthy ones. In this article, it is tried to present a fast and efficient way to learn from imbalanced data. This method is more suitable for learning from the imbalanced data having very little data in class of minority. Experiments show that the proposed method has more efficiency compared to traditional simple algorithms of machine learning, as well as several special-to-imbalanced-data learning algorithms. In addition, this method has lower computational complexity and faster implementation time.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 276, 7 February 2018, Pages 55-66
نویسندگان
, , ,