عنوان مقاله :
جستجوي k نزديكترين همسايه تقريبي با روش تركيب خطي
عنوان به زبان ديگر :
Approximate k Nearest Neighbor Search with Linear Combination Method
پديد آورندگان :
منعمي زاده، وحيده دانشگاه بين المللي امام رضا عليه السلام - گروه مهندسي كامپيوتر , حميدزاده، جواد دانشگاه صنعتي سجاد - دانشكده مهندسي كامپيوتر و فناوري اطلاعات
كليدواژه :
جستجوي k نزديكترين همسايه تقريبي , ابعاد بالا , تركيب خطي , جاسازي , نفرين ابعاد , درهمسازي حساس به محل يا LSH
چكيده فارسي :
مسئله جستجوي k نزديكترين همسايه تقريبي در ابعاد بالا يك مسئله كلاسيك در هندسه محاسباتي، شباهت تصوير و ساير زمينههاي مشابه ميباشد. در اين مسئله، يك مجموعه داده متشكل از n نقطه در فضاي d بعدي و يك پارامتر k داريم، هدف پيشپردازش مجموعه داده است بهطوريكه با داشتن يك نقطه پرسوجوي d بعدي Q دادهشده بتوان k نقطه را يافت بهطوريكه k نزديكترين همسايه تقريبي به Q باشد. هدف اين مقاله ارائه روشي جديد براي يافتن k نزديكترين همسايه تقريبي براي ابعاد بالا است. در روش پيشنهادي، ابتدا دادههاي با ابعاد بالاي مجموعه داده مورد نظر درون فضاي همينگ جاسازي شده، سپس با تركيب خطي بردارهاي تصادفي و دادههاي جاسازيشده در فضاي همينگ، جدولهاي درهمسازي تشكيل ميشود. آزمايشهاي زيادي بر روي پايگاه داده بزرگ تصاوير انجام گرفته است و نتايج گوياي اين نكته ميباشد كه اين الگوريتم براي ماتريسهاي خلوت منجر به حاصل شدن جوابهاي مناسبتري خواهد شد. روش پيشنهادي با روشهاي جديد نيز مقايسه شده است كه نتايج آزمايشها و ارزيابي آنها، نشاندهنده برتري روش پيشنهادي از نظر صحت نسبت به آن روشها ميباشد.
چكيده لاتين :
Approximate k nearest neighbor search problem in high dimensional Euclidean spaces is a classical problem in computational geometry, image similarity search, video, and so on. In this problem, we are given a point set P of size n in the d-dimensional space and a parameter k, the goal is to preprocess P. So that given a query point q we can return fairly fast k points in which the points are good approximations of the k nearest neighbors to Q in P. In this paper, an algorithm for searching k nearest neighbor is presented for high dimensional data. In this method, first, data with high-dimensional are embedded in hamming space, then with a linear combination of random vectors and embedded data in hamming space, hash tables are formed. We conduct extensive experiments for this algorithm on big dataset of handwriting English single-digit images. This algorithm led good results for sparse matrices. Experimental results show that the proposed algorithm has the better accuracy comparing to the new methods.
عنوان نشريه :
مهندسي برق دانشگاه تبريز
عنوان نشريه :
مهندسي برق دانشگاه تبريز