مفهوم الگوهای نوظهور

مفهوم الگوهای نوظهور برای استخراج دانش از پایگاه داده‌ها توسط Dong و Li پیشنهاد شده است تا تغییرات قابل توجه بین کلاس‌ها را به تصویر بکشند [1]. یک الگوی نوظهور، ترکیب عطفی بین ویژگی‌هایی است که میزان احتمال حضور آن در یک کلاس نسبت به دیگر کلاس‌ها بطور قابل توجهی تغییر می‌کند [1،2]. این الگوها مفید هستند به این دلیل که قادر هستند تا وجه تمایز بین کلاس‌ها را بیان کنند. در صورتی که میزان فراوانی[1] هر الگو که در یک کلاس نسبت به دیگر کلاس‌ها قابل توجه باشد، نشاندهنده آن است که این الگو، بطور خاص به این کلاس اختصاص دارد و از طرفی این نوع الگوها برای پایگاه داده‌هایی که بحث محدودیت زمانی برای استخراج دانش از آنها مطرح است، اهمیت ویژه ای می‌یابند.

استخراج الگوهای نوظهور بدین صورت مطرح می‌شود: « پیدا کردن آیتم‌هایی که نرخ رشد[2]  آن (که بصورت نسبت احتمال آن آیتم بین کلاس‌های مختلف تعریف می‌شود) از مقدار آستانه ای بیشتر باشد.» این مقدار آستانه باید بگونه ای انتخاب شود که الگوهای استخراجی ، تفاوت و تمایز بین کلاس‌های مختلف را نشان دهند. این الگوها در واقع مجموعه ای از آیتم‌ها هستند که بیان کننده ترکیب عطفی  بین مقادیر ویژگی‌ها هستند [2].

نوعاً، تعداد الگوهای استخراجی بسیار زیاد است اما فقط شمار کمی‌از این الگوها برای تحلیل داده‌ها و کلاسه بندی مطلوب و مفید هستند. از آن جایی که مقدار زیادی از این الگوها بی ربط[3] و تکراری[4] هستند، دانش جدیدی را فراهم نمی‌کنند و لذا تاثیر نامطلوبی بر روی دقت  کلاسه بند دارند که موجب کاهش دقت پیش بینی[5] می‌شوند. برای افزایش کارایی[6]  و دقت، بایستی روالی را توسعه داد که الگوهای وابسته و غیر مفید حذف شوند تا شمار این الگوها کاهش یابد.

یک الگوی نوظهور با احتمال بالا در کلاس خودش و احتمال پایین در کلاس مقابلش می‌تواند برای تعیین یک نمونه تست بکار رود. قدرت این الگو توسط معیارهایی مثل فراوانی نسبی[7] و نرخ رشد ( نسبت احتمال الگو در یک کلاس نسبت به دیگر کلاس‌ها) آن بیان می‌شود.

در بسیاری از زمینه‌های کاربردی مانند کشف دانش از داده‌های ژنی[8] ، پردازش تصویر[9]، کشف نفوذ[10] ، کشف برون هشته[11]، کشف کلاهبرداری[12] ، داده‌های نامتوازن[13] ، جریان داده‌ها[14] ، بیوانفورماتیک[15] ، سیستم‌های پیشنهاد دهنده[16] ، نیاز است که تغییر ناگهانی در داده‌ها تشخیص داده شود. الگوهای نوظهور تغییرات ناگهانی و تفاوت‌های قابل توجه را از داده‌ها استخراج می‌کنند. الگوهای نوظهور، در زمینه پردازش تصویر برای قطعه بندی  بدین گونه عمل می‌کند که سعی می‌کند در پیکسل‌هایی که تغییر ناگهانی شدت[17] بوجود می‌آید را بعنوان یک قطعه جدید معرفی کند. در زمینه کشف نفوذ و کلاهبرداری، رفتار داده‌ها پیگیری می‌شود، زمانی که رفتار داده‌ها بصورت ناگهانی تغییر کند، بعنوان نفوذ تشخیص داده می‌شود. در سیستم‌های پیشنهاد دهنده، سیستم به دنبال رفتارهای خاص و مختص هر کاربر است تا با کشف ویژگی‌های خاص هر کاربر، به او محصولات مطابق با علایق و استعدادهای او را پیشنهاد دهد. لذا الگوهای نوظهور در این راستا نقش بسزایی دارند.

[1] Frequency

[2] Growth rate

[3] Irrelevant patterns

[4] Redundant patterns

[5] Predictive accuracy

[6] Performance

[7] Support

[8] Gene expression data

[9] Image processing

[10] Intrusion detection

[11] Outlier detection

[12] Fraud detection

[13] Imbalanced datasets

[14] Data streams

[15] BioInformatics

[16] Recommender systems

[17] Intensity

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

thirty nine − thirty eight =