ارائه رویکردی جدید برای نمونه‌زایی- نمونه زدایی در مجموعه داده نامتوازن

نویسندگان

  • حسین زعفرانی دانشگاه سمنان نویسنده
  • صادق رستاد دانشگاه آزاد اسلامی واحد بیرجند نویسنده

DOI::

https://doi.org/10.22034/sdsb.1.4.43

کلمات کلیدی:

داده نامتوازن, خوشه بندی Birch, طبقه بندی, داده کاوی

چکیده

نامتوازن بودن مجموعه داده‌¬ها در دنیای واقعی، امری بسیار رایج و البته چالشی مهم در مسائل طبقه‌¬بندی و خوشه‌بندی آن¬ها است. مجموعه داده‌های نامتوازن، به مجموعه‌هایی اطلاق می‌شود که در آن نمونه‌های یک یا چند کلاس بر نمونه‌های کلاس‌های دیگر غلبه دارد. در این پژوهش، سعی خواهد شد تا یک مکانیزم، جهت متوازن نمودن مجموعه داده¬های نامتوازن ارائه شود که طی آن روش نمونه¬زدایی و نمونه¬زایی با یکدیگر ادغام می¬شود. به طور کلّی، هدف از این طرح، ارائه یک روش ترکیبی نمونه¬زدایی- نمونه¬زایی است که بتواند به گونه¬ای کارا و مؤثر، مجموعه نامتوازن را متوازن کند. رویکرد پیشنهادی در این پژوهش به جای تمرکز بر کلاس¬های اقلیت و اکثریت، بر روی داده¬های اقلیت و اکثریت کار می¬کند. جهت شناسایی این داده¬ها، از الگوریتم خوشه¬بندی birch استفاده می¬شود. از این رو، روش پیشنهادی تحت عنوان birch-resampling نام¬گذاری می¬شود. این روش از شش مرحله تشکیل شده است. جهت پیاده¬سازی این الگوریتم از نرم¬افزار «متلب» استفاده شد و برای ارزیابی نیز، از 11 مجموعه دادة دو و چند کلاسه با حجم و رخ عدم توازن متنوع استفاده شد، تا از همه ابعاد، عملکرد سیستم پیشنهادی مورد ارزیابی قرار گیرد. نتایج به¬دست آمده از الگوریتم پیشنهادی با 5 روش دیگر، مورد مقایسه قرار گرفت. نتایج حاصل از این مقایسه¬ها، نشان می¬دهد که الگوریتم پیشنهادی از دقت بالایی در طبقه¬بندی داده¬ها برخوردار است.

بیوگرافی نویسنده

  • صادق رستاد، دانشگاه آزاد اسلامی واحد بیرجند

    دانشگاه آزاد اسلامی واحد بیرجند

دانلود

چاپ شده

۱۴۰۳/۱۱/۲۱

شماره

نوع مقاله

پژوهشی

دسته بندی ها