ارائه رویکردی جدید برای نمونهزایی- نمونه زدایی در مجموعه داده نامتوازن
DOI::
https://doi.org/10.22034/sdsb.1.4.43کلمات کلیدی:
داده نامتوازن, خوشه بندی Birch, طبقه بندی, داده کاویچکیده
نامتوازن بودن مجموعه داده¬ها در دنیای واقعی، امری بسیار رایج و البته چالشی مهم در مسائل طبقه¬بندی و خوشهبندی آن¬ها است. مجموعه دادههای نامتوازن، به مجموعههایی اطلاق میشود که در آن نمونههای یک یا چند کلاس بر نمونههای کلاسهای دیگر غلبه دارد. در این پژوهش، سعی خواهد شد تا یک مکانیزم، جهت متوازن نمودن مجموعه داده¬های نامتوازن ارائه شود که طی آن روش نمونه¬زدایی و نمونه¬زایی با یکدیگر ادغام می¬شود. به طور کلّی، هدف از این طرح، ارائه یک روش ترکیبی نمونه¬زدایی- نمونه¬زایی است که بتواند به گونه¬ای کارا و مؤثر، مجموعه نامتوازن را متوازن کند. رویکرد پیشنهادی در این پژوهش به جای تمرکز بر کلاس¬های اقلیت و اکثریت، بر روی داده¬های اقلیت و اکثریت کار می¬کند. جهت شناسایی این داده¬ها، از الگوریتم خوشه¬بندی birch استفاده می¬شود. از این رو، روش پیشنهادی تحت عنوان birch-resampling نام¬گذاری می¬شود. این روش از شش مرحله تشکیل شده است. جهت پیاده¬سازی این الگوریتم از نرم¬افزار «متلب» استفاده شد و برای ارزیابی نیز، از 11 مجموعه دادة دو و چند کلاسه با حجم و رخ عدم توازن متنوع استفاده شد، تا از همه ابعاد، عملکرد سیستم پیشنهادی مورد ارزیابی قرار گیرد. نتایج به¬دست آمده از الگوریتم پیشنهادی با 5 روش دیگر، مورد مقایسه قرار گرفت. نتایج حاصل از این مقایسه¬ها، نشان می¬دهد که الگوریتم پیشنهادی از دقت بالایی در طبقه¬بندی داده¬ها برخوردار است.