۲-طبقه بندی کننده مبتنی بر هر نمونه si ساخته می شود. این کار به ما k طبقه بندی کننده می دهد. همه ی طبقه بندی کننده ها با بهره گرفتن از الگوریتم یادگیری مشابه ساخته می شوند.
تست:
طبقه بندی کردن هر نمونه تست، با رای گیری K طبقه بندی کننده می باشد. کلاس اکثریت به عنوان کلاس نمونه اختصاص می یابد. bagging می تواند دقت را برای الگوریتم های یادگیری ناپایدار بهبود دهد.درخت تصمیم نمونه ای از روش های یادگیری ناپایدار هستند. روش های k-nearest وNaΪve Bayes نمونه ای از روش های پایدار هستند. برای طبقه بندی کننده پایدار، bagging می تواند گاهی دقت را کاهش دهد ]۳۸[.
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
۲-۶-۲- Boosting:
Boosting نیز مشابه bagging است، نمونه های یادگیری را دستکاری کرده و طبقه بندی کننده های چندگانه پایدار به منظور بهبود دقت تولید می کند ]۳۹٫[ در اینجا ما الگوریتم مشهور Adaboost را شرح داده ایم.برخلاف bagging، Adaboost یک وزن را به هر نمونه آموزشی اختصاص میدهد ]۴۰[.
یادگیری :
Adaboost، دنباله ای از طبقه بندی کننده ها را تولید می کند( با بهره گرفتن از طبقه بندی کننده پایه). هر طبقه بندی کننده به قبلی وابسته است و ما روی خطاهای قبلی تمرکز می کنیم.
نمونه های آموزشی که به وسیله ی طبقه بندی کننده های قبلی به طور ناصحیح طبقه بندی شدند، وزن های بالاتری به آنها نسبت داده شده است.
مجموعه داده D را در نظر بگیرید{{(,), (,),…… (, که xi بردار ورودی می باشد و yi برچسب کلاس وY yi ، یک وزن به هر نمونه اختصاص داده شده است، ما داریم {(,), (,),…… (,)} و=۱ . الگوریتم در طرح زیر داده شده است.
شکل۲-۶: الگوریتم Adaboost ]40[
الگوریتم با بهره گرفتن از یادگیر پایه دنباله ای از k طبقه بندی کننده می سازد(k به وسیله کاربر تعیین میشود)، در خط ۳ که base learner فراخوانی شده، در ابتدا وزن برای هر نمونه داده ۱/n هست. در هر تکرار، مجموعه آموزشی D2 می شود که مشابه با D است اما با وزن های متفاوت. هر تکرار یک طبقه بندی کننده جدید ft را در خط ۳ می سازد. خطای ft در خط ۴ محاسبه می شود. اگر خطا خیلی بزرگ باشد، تکرار پاک می شود و خارج می شود (خطوط ۷-۵). خطوط ۱۱-۹ بروزرسانی و نرمال سازی وزن ها برای ساختن طبقه بندی کننده های بعدی می باشد.
تست:
برای هر نمونه تست، نتایج دسته طبقه بندی کننده ها برای تعیین کلاس نهایی نمونه تست ترکیب می شوند که در خط ۱۴ نشان داده شده است( رای گیری وزن دار).
Boosting در اغلب موارد بهتر از bagging کار می کند و تمایل به بهبود کارایی دارد ]۴۱[.
۲-۷- روش های ارزیابی:
در این قسمت ما اندازه های استاندارد بازیابی اطلاعات را شرح می دهیم.
۲-۷-۱-ارزیابی متقاطع[۳۴]:
وقتی که مجموعه داده کوچک باشد، ارزیابی متقاطع n-foldاستفاده می شود، در این روش داده های موجود به n زیرمجموعه با اندازه مساوی تقسیم می شود. هر زیرمجموعه به عنوان مجموعه تست استفاده می شود و n-1 زیرمجموعه دیگر باقی می ماند که به عنوان مجموعه آموزشی برای یادگیری طبقه بندی کننده ترکیب می شوند. این روند n بار تکرار می شود و n دقت بدست می دهد. دقت نهایی تخمین زده شده از مجموعه داده، میانگین n دقت می باشد. اغلب از “۱۰-fold” و “۵-fold” استفاده می شود.
یک نوع خاص از ارزیابی متقاطع ، ارزیابی متقاطع leave-one-out است. در این روش هر fold فقط یک نمونه تست واحد دارد و همه ی بقیه داده ها به عنوان داده ی آموزشی استفاده می شوند. اگر داده اصلی m نمونه دارد، آن “m-fold” است. این روش زمانی استفاده می شود که داده موجود بسیار کوچک باشد و برای داده های زیاد کارا نیست ]۴۲[.
۲-۷-۲- دقت و فراخوانی:
فرض کنید که ما یک طبقه بندی کننده C و یک مجموعه اسناد D را داریم. طبقه بندی کننده C یک برچسب برای هر PD محاسبه می کند.C(P)=1 اگر P به عنوان هرزنامه طبقه بندی شده باشد و در بقیه موارد C(P)=0، الگوریتم هر سند در D به عنوان هرزنامه یا صفحه ی نرمال طبقه بندی می کند.
فرض کنید که ما متریک های زیر را تعریف کرده ایم:
مثبت درست(TP): اسناد هرزنامه ای که به عنوان هرزنامه تشخیص داده شده اند.
منفی درست(TN): اسناد نرمال که به عنوان نرمال تشخیص داده شده اند.
مثبت غلط(FP): اسناد نرمال که به صورت نادرست به عنوان هرزنامه طبقه بندی شده اند.
منفی غلط(FN): اسناد هرزنامه ای که به صورت نادرست به عنوان نرمال طبقه بندی شده اند.
منفی پیش بینی شده | مثبت پیش بینی شده | |
منفی درست | مثبت درست | مثبت |
منفی غلط | مثبت غلط | منفی |
دقت :
کسری از اسناد به درستی تشخیص داده شده در مجموعه ای از اسناد که به عنوان هرزنامه تشخیص داده شده اند.
(۲-۱۳)