کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6940208 1450008 2018 9 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Splitting criteria for classification problems with multi-valued attributes and large number of classes
ترجمه فارسی عنوان
معیارهای تقسیم بندی برای مشکلات طبقه بندی با ویژگی های چند ارزی و تعداد زیادی از کلاس ها
ترجمه چکیده
درختان تصمیم گیری و جنگل های تصادفی یکی از روش های محبوب ترین وظایف طبقه بندی هستند. دو مساله کلیدی که با این روش ها مواجه می شوند عبارتند از: نحوه انتخاب بهترین ویژگی برای ارتباط با یک گره و چگونگی تقسیم نمونه ها با توجه به ویژگی انتخاب شده. در این مقاله یک چالش مهم مطرح می شود که وقتی ویژگی های اسمی با تعداد زیادی از مقادیر وجود دارد: زمان محاسباتی مورد نیاز برای محاسبه تقسیم با کیفیت خوب است. ما چارچوبی برای تولید معیارهای تقسیم کارایی محاسباتی ارائه می دهیم که با تضمین تطابق نظری، ویژگی های اسمی چند ارزشمند برای وظایف طبقه بندی با تعداد زیادی از کلاس ها را مدیریت می کند. آزمایش با تعدادی از مجموعه داده ها نشان می دهد که یک روش حاصل از چارچوب ما با توجه به دقت و سرعت با معیار دوینگ، یکی از معیارهای موجود که می تواند با تضمین مطلوبیت، ویژگی های اسمی با تعداد زیادی از متمایز ارزش های. با این حال، این روش مزیتی نیز دارد که به طور موثر دستکاری داده ها با تعداد زیادی از کلاس ها را مدیریت می کند. این آزمایش ها همچنین نشان دهنده پتانسیل جمع آوری صفات برای بهبود قدرت طبقه بندی درختان تصمیم است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر چشم انداز کامپیوتر و تشخیص الگو
چکیده انگلیسی
Decision Trees and Random Forests are among the most popular methods for classification tasks. Two key issues faced by these methods are: how to select the best attribute to associate with a node and how to split the samples given the selected attribute. This paper addresses an important challenge that arises when nominal attributes with a large number of values are present: the computational time required to compute splits of good quality. We present a framework to generate computationally efficient splitting criteria that handle, with theoretical approximation guarantee, multi-valued nominal attributes for classification tasks with a large number of classes. Experiments with a number of datasets suggest that a method derived from our framework is competitive in terms of accuracy and speed with the Twoing criterion, one of few criteria available that is able to handle, with optimality guarantee, nominal attributes with a large number of distinct values. However, this method has the advantage of also efficiently handling datasets with a large number of classes. These experiments also give evidence of the potential of aggregating attributes to improve the classification power of decision trees.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Pattern Recognition Letters - Volume 111, 1 August 2018, Pages 58-63
نویسندگان
, ,