کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6906110 862894 2015 6 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Nearest neighbor density ratio estimation for large-scale applications in astronomy
ترجمه فارسی عنوان
برآورد نزدیکترین همسایه نسبت تراکم برای برنامه های کاربردی در مقیاس بزرگ در نجوم
کلمات کلیدی
روش ها: تجزیه و تحلیل داده ها، روش ها: آماری، کهکشان ها: فاصله ها و تغییرات قرمز، تعصب انتخاب نمونه، نزدیکترین همسایگان، یادگیری در مقیاس بزرگ،
ترجمه چکیده
در برنامه های نجومی یادگیری ماشین، توزیع اشیاء مورد استفاده برای ساخت یک مدل اغلب از توزیع اشیاء که بعدا به آن اعمال می شود متفاوت است. این به عنوان تعصب انتخاب نمونه شناخته می شود، که یک چالش عمده برای استنتاج آماری است؛ زیرا دیگر نمی توان انتظار داشت که اطلاعات آموزش برچسب شده نماینده باشد. برای مقابله با این مسئله، می توان الگوهای آموزشی یاد شده را با توجه به توزیع داده های بدون برچسب که در حال حاضر در فاز آموزشی موجود هستند مطابقت دهد. مثال های زیادی در عمل وجود دارد که این استراتژی نتایج خوبی را به دست آورد، اما برآورد وزن ها به طور قابل اعتماد از یک نمونه محدود، چالش برانگیز است. ما یک برآوردکننده نزدیکترین تراکم همسایهی کارآیی را میبینیم که میتواند از نمونههای بزرگ برای افزایش دقت برآورد وزن استفاده کند. برای حل مشکل انتخاب اندازه محله محصور، ما پیشنهاد می کنیم از اعتبارسنجی متقابل بر روی معیار انتخاب مدل استفاده کنیم که در زیر تغییر متغیر است. الگوریتم نتیجه روش ما برای برآورد نسبت تراکم زمانی است که اندازه فضای ویژگی کوچک است و اندازه نمونه بزرگ است. این روش ساده است و به دلیل انتخاب مدل، قوی است. ما تجربی پیدا می کنیم که آن را در مقایسه با روش های مبتنی بر هسته مبتنی بر مجموعه داده های معیار رگرسیون نسبتا کوچک است. با این حال، هنگامی که به برآورد قرمز تغییر اندازه فتو متریک در مقیاس بزرگ اعمال می شود، رویکرد ما پیشرفته تر از حالت پیشرفته است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر نرم افزارهای علوم کامپیوتر
چکیده انگلیسی
In astronomical applications of machine learning, the distribution of objects used for building a model is often different from the distribution of the objects the model is later applied to. This is known as sample selection bias, which is a major challenge for statistical inference as one can no longer assume that the labeled training data are representative. To address this issue, one can re-weight the labeled training patterns to match the distribution of unlabeled data that are available already in the training phase. There are many examples in practice where this strategy yielded good results, but estimating the weights reliably from a finite sample is challenging. We consider an efficient nearest neighbor density ratio estimator that can exploit large samples to increase the accuracy of the weight estimates. To solve the problem of choosing the right neighborhood size, we propose to use cross-validation on a model selection criterion that is unbiased under covariate shift. The resulting algorithm is our method of choice for density ratio estimation when the feature space dimensionality is small and sample sizes are large. The approach is simple and, because of the model selection, robust. We empirically find that it is on a par with established kernel-based methods on relatively small regression benchmark datasets. However, when applied to large-scale photometric redshift estimation, our approach outperforms the state-of-the-art.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Astronomy and Computing - Volume 12, September 2015, Pages 67-72
نویسندگان
, , , ,