۲
x5
?
۳
۱
۳
x6
?
۳
۱
۳
x7
۲-۳-۳- مروری بر روشهای خوشهبندی توافقی
در این بخش به بررسی روشهای خوشهبندی توافقی میپردازیم. همانطور که پیشتر ذکر شد، هدف اصلی در خوشهبندی توافقی، یافتن یک خوشهبندی نهایی از ترکیب چند خوشهبندی مختلف است، به گونهای که مورد توافق مجموعه خوشهبندیهای اولیه نیز باشد. روشهای خوشهبندی توافقی، جهت ترکیب خوشهبندیها به مقادیر صفات خاصه اشیاء داده نیازی ندارند و تنها از نتایج بدست آمده در خوشهبندیهای اولیه استفاده میکنند. به عبارت دیگر در خوشهبندیهای اولیه هر داده تنها با یک شماره خوشه نشان داده میشود (همانطور که در مثال بخش ۲-۳-۲ نشان داده شد) و صفات خاصه آن استفاده نمیشود. شکل ۲-۴ مدل فرایند خوشهبندی توافقی را نشان میدهد.
شکل ۲-۴ مدل خوشهبندی توافقی. تابع توافقی[۸۱] Г، خوشههای πi را بدون دسترسی به صفات خاصه اشیاء مجموعه داده X و یا الگوریتمهای A، ترکیب میکند [۶۱].
در ادامه، در بخش ۳-۳-۴ ساختار کلی انواع مختلف روشهای خوشهبندی توافقی مورد بررسی قرار میگیرد. در بخشهای ۲-۳-۵ تا ۲-۳-۸ نیز جزئیات دقیقتری از هر روش و الگوریتمهای مربوط به آن ارائه میشود.
۲-۳-۴- گروهبندی روشهای خوشهبندی توافقی
در این بخش یک گروهبندی از انواع روشهای جدید خوشهبندی توافقی ارائه میگردد و پس در بخشهای بعدی به بررسی هر گروه خواهیم پرداخت. روشهای توافقی میتوانند به چهار گروه اصلی تقسیم شوند. هر گروه نیز به نوبه خود دارای زیر گروهها و الگوریتمهای مختلفی است. شکل ۲-۵ گروهبندی روشهای خوشهبندی توافقی را نشان میدهد و الگوریتمهای جدید مرتبط با هر گروه در آن ارائه شده است.
همانطور که در شکل مشخص است یکی از گروههای عمده در خوشهبندی توافقی، روشهای شباهت محور[۸۲] است. گروه دوم شامل روشهایی است که یک تابع هدف را به عنوان اطلاعات دوجانبه[۸۳] بین خوشهبندی نهایی و اجتماع اولیه خوشهبندیها فرموله میکنند. گروه سوم روشهایی با نام مدل ترکیبی[۸۴] میباشند که یک مدل از ترکیب متناهی توزیعهای چند جملهای[۸۵] را در فضایی که خوشهبندیها بر روی زیر مجموعهای از اشیاء داده و یا زیر مجموعهای از صفات خاصه مجموعه داده X ایجاد شدهاند، به کار میبرند. گروه چهارم نیز روشهایی هستند که اشیاء داده را (بر مبنای رأی گیری) در خوشههایی قرار میدهند که اکثر خوشهبندیهای اولیه با قرار دادن داده در آن خوشه موافقند.
روشهای شباهت محور به دو زیر گروه تقسیم میشوند. زیر گروه اول شامل الگوریتمهایی است که بر مبنای محاسبه میزان تشابه بین هر دو شئ داده در مجموعه داده، عمل میکنند. میزان شباهت بین هر دو شئ داده میتواند در یک ماتریس N×N نشان داده شود. این ماتریس، ماتریس همبستگی نامیده میشود. هر عنصر در این ماتریس بیانگر نرخ تعداد خوشهبندیهایی است که هر جفت از اشیاء داده با هم در یک خوشه از آن خوشهبندی قرار گرفتهاند. در [۴۶،۵۳،۶۶] از ماتریس همبستگی جهت انجام خوشهبندی توافقی استفاده میشود. این ماتریس میتواند به عنوان ماتریس تشابه[۸۶] نیز در نظر گرفته شود، بنابراین میتوان از آن در هر الگوریتم خوشهبندی دیگری (مانند الگوریتمهای سلسله مراتبی) که بر مبنای شباهت بین اشیاء داده عمل میکنند، استفاده نمود [۱۶]. الگوریتمهای FC[87] [۲۳]، HAC[88] [۷۳،۴۶] و EAC[89] [۴۷] نمونههایی از این زیر گروه میباشند.
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
شکل ۲-۵ گروهبندی روشهای خوشهبندی توافقی
زیر گروه دوم شامل الگوریتمهایی است که قبل از ترکیب اجتماع خوشهبندیها، ابتدا آنها را به یک گراف تبدیل میکنند. در این روش هر گره معادل یک شئ داده است و همچنین لبه بین هر دو گره دارای وزنی است که میزان تشابه آنها را نشان میدهد. الگوریتمهای CSPA[90]، HGPA[91] و MCLA[92] که در [۶۱] ارائه شده است، در این زیر گروه قرار میگیرند.
در روشهای اطلاعات دوجانبه، یک تابع توافقی بین خوشهبندیهای اولیه و خوشهبندی نهایی به عنوان اطلاعات دوجانبه، بدون نیاز به تقریب، بطور مستقیم بیشینه میشود [۱۶]. الگوریتم CondEns[93] در [۱۲] جهت ترکیب خوشهبندیها به این صورت عمل میکند. در [۶۲] نیز یک تابع هدف به عنوان اطلاعات دوجانبه فرموله شده و سپس با بهره گرفتن از یک الگوریتم EM[94] این تابع بیشنه میشود.
در روشهای مدل ترکیبی، اشیاء داده مجموعه X به بردارهایی تبدیل میشوند که هر صفت خاصه آنها معادل یک خوشهبندی میباشد. شکل ۲-۶ وضعیت بردارهای جدید به ازاء هر داده را نشان میدهد. یک خوشهبندی مدل محور[۹۵] آماری، که از ترکیب توزیعهای چند جملهای استفاده میکند در [۶۷] معرفی شده است. در [۶۷]، خوشهبندی نهایی از حل مسئله درستنمایی بیشینه[۹۶] برای یک مدل ترکیبی از اجتماع خوشهبندیها (خوشهبندیهای اولیه) بدست میآید.
خوشههای اولیه به عنوان ترکیبی ازتوزیعهای چند متغیره-چند جملهای در فضای برچسب خوشهها (به صورتی که در شکل ۲-۶ آمده است) مدل میشوند. مسئله درستنمایی بیشینه نیز به طور موثری با الگوریتم EM حل میشود. در [۶۸] خوشهبندی توافقی میتواند بر مبنای اطلاعات دوجانبه درجه دو[۹۷] (QMI) با بهره گرفتن از الگوریتم K-Means بدست آید.
πM
…
π۱
πM(x1)
…
π۱(x1)