کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4946234 1439279 2017 38 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
A semantic framework for noise addition with nominal data
ترجمه فارسی عنوان
یک چارچوب معنایی برای اضافه کردن نویز با داده های اسمی
کلمات کلیدی
ترجمه چکیده
علاوه بر نویز، یک تکنیک تحریف داده است که به طور گسترده در برنامه های کاربردی فشرده داده استفاده می شود. به عنوان مثال، در وظایف یادگیری ماشین کمک می کند تا به کاهش استفاده بیش از حد، در حالی که در حفاظت از حریم خصوصی داده ها، عدم اطمینان به اطلاعات شخصی را اضافه می کند. با این حال، با توجه به اصل عملیات ریاضی، افزودن نویز یک روش است که عمدتا برای داده های عددی پیوسته طراحی شده است. در حقیقت، علیرغم مقدار زیادی اطلاعات اسمی که در حال حاضر در تجزیه و تحلیل داده ها مورد استفاده قرار می گیرند و مورد استفاده قرار می گیرند، تنها چند تکنیک جایگزین برای تخریب داده های اسمی به شیوه ای مشابه به عنوان استاندارد نویز برای داده های عددی پیشنهاد شده است. علاوه بر این، تمام این روش های جایگزینی به توزیع داده ها بستگی دارد به معنای معانی ارزش اسمی، که منفی بر سود حاصل از نتایج تحریف شده است. برای مقابله با این مسئله، در این مقاله، جایگزین معنایی معقول برای نویز عددی مناسب برای داده های اسمی ارائه می کنیم که به آن سروده می شود. با استفاده از سر و صدا معنایی و با بهره برداری از منابع دانش سازمانی، مانند هستی شناسی، ما می توانیم داده های اسمی را تحریف کنیم، در حالی که حفظ معانی آن ها و در نتیجه آن ابزار تحلیلی آنها. برای این منظور، نسخه های معنایی و ریاضی منسجمی از اپراتورهای آماری مورد نیاز در فرآیند اضافه شدن نویز ارائه می دهند که شامل تفاوت، میانگین، واریانس و کوواریانس می باشد. سپس، ما الگوریتم های افزوده سر و صدای معنایی را پیشنهاد می کنیم که با ماهیت محدود، گسسته و غیرمستقیم اطلاعات اسمی مقابله می کنند. الگوریتم های پیشنهادی علاوه بر اضافه کردن سر و صدای غیرقابل هماهنگ، که برای مشخصه های مستقل مناسب است، و علاوه بر سر و صدای همبسته، که می تواند با مجموعه داده های چند متغیره با ویژگی های وابسته، مقابله کند، پوشش می دهد. نتایج تجربی نشان می دهد که پیشنهادات ما ارائه مکانیزم های عمومی و قابل تنظیم برای تحریف داده های اسمی است در حالی که حفظ معنایی داده ها بهتر از روش های پایه براساس توزیع داده ها است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Noise addition is a data distortion technique widely used in data intensive applications. For example, in machine learning tasks it helps to reduce overfitting, whereas in data privacy protection it adds uncertainty to personally identifiable information. Yet, due to its mathematical operating principle, noise addition is a method mainly intended for continuous numerical data. In fact, despite the large amount of nominal data that are being currently compiled and used in data analysis, only a few alternative techniques have been proposed to distort nominal data in a similar way as standard noise addition does for numerical data. Furthermore, all these alternative methods rely on the distribution of the data rather than on the semantics of nominal values, which negatively affects the utility of the distorted outcomes. To tackle this issue, in this paper we present a semantically-grounded alternative to numerical noise suitable for nominal data, which we name semantic noise. By means of semantic noise, and by exploiting structured knowledge sources such as ontologies, we are able to distort nominal data while preserving better their semantics and thus, their analytical utility. To that end, we provide semantically and mathematically coherent versions of the statistical operators required in the noise addition process, which include the difference, the mean, the variance and the covariance. Then, we propose semantic noise addition algorithms that cope with the finite, discrete and non-ordinal nature of nominal data. The proposed algorithms cover both uncorrelated noise addition, which is suited to independent attributes, and correlated noise addition, which can cope with multivariate datasets with dependent attributes. Empirical results show that our proposals offer general and configurable mechanisms to distort nominal data while preserving data semantics better than baseline methods based only on the distribution of the data.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Knowledge-Based Systems - Volume 122, 15 April 2017, Pages 103-118
نویسندگان
, , ,