کد مقاله کد نشریه سال انتشار مقاله انگلیسی ترجمه فارسی نسخه تمام متن
383551 660826 2016 10 صفحه PDF سفارش دهید دانلود رایگان
عنوان انگلیسی مقاله ISI
Hashing-based clustering in high dimensional data
ترجمه فارسی عنوان
خوشه بندی بر اساس درهم‌سازی در داده‌های با ابعاد بالا
دانلود مقاله + سفارش ترجمه
دانلود مقاله ISI انگلیسی
رایگان برای ایرانیان
سفارش ترجمه تخصصی
با تضمین قیمت و کیفیت
خدمات تولید محتوا

این مقاله ISI می تواند منبع ارزشمندی برای تولید محتوا باشد.

  • تولید محتوا برای سایت و وبلاگ
  • تولید محتوا برای کتاب
  • تولید محتوا برای نشریات و روزنامه ها
  • و...

پایگاه «دانشیاری» آمادگی دارد با همکاری مجموعه «شهر محتوا» با استفاده از این مقاله علمی، برای شما به زبان فارسی، تولید محتوا نماید.

تولید محتوا
با 10 درصد تخفیف ویژه دانشیاری
کلمات کلیدی
درهم‌سازی حساس محلی ؛ خوشه بندی با ابعادی بالا؛ درهم‌سازی آگاهی حداقل ؛ ابرصفحات تصادفی
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی


• We modify hashing strategies to cluster high dimensional documents.
• We estimate the Jaccard similarity by counting bucket collisions between documents.
• We introduce a penalized Hamming function to approximate the cosine similarity.
• Both strategies allow improving the quality of the detected clusters.

Clustering is one of the most important techniques for the design of intelligent systems, and it has been incorporated into a large number of real applications. However, classical clustering algorithms cannot process high-dimensional data, such as text, in a reasonable amount of time. To address this problem, we use techniques based on locality-sensitive hashing (LSH), which was originally designed as an efficient means of solving the near-neighbor search problem for high-dimensional data. We propose the use of two LSH strategies to group high-dimensional data: MinHash, which enables Jaccard similarity approximations, and SimHash, which approximates cosine similarity. Instead of creating a computational costly data structure for responding to queries from near neighbors, we use a low-dimensional Hamming embedding to approximate a pairwise similarity matrix using a single-pass procedure. This procedure does not require data storage. It requires only the maintenance of a low-dimensional embedding. Then, the clustering solution is found by applying the bisection method to the similarity matrix. In addition to the above, we propose an improvement to LSH that is beneficial for its use on high-dimensional data. This improvement introduces a penalty on the Hamming distance, which is used in conjunction with SimHash, thereby improving the cosine similarity approximation. Experimental results indicate that our proposal yields a solution that is very close to the one found by applying the bisection method to a matrix with complete information, with better running times and a lower use of memory.

ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Expert Systems with Applications - Volume 62, 15 November 2016, Pages 202–211
نویسندگان
, , ,
دانلود مقاله + سفارش ترجمه
دانلود مقاله ISI انگلیسی
رایگان برای ایرانیان
سفارش ترجمه تخصصی
با تضمین قیمت و کیفیت