گسسته سازی یا Discretization
گسسته سازی داده ها یا discretization یک روش کاهش داده ها در داده کاوی به شمار میرود. هدف کلی روشهای گسسته سازی داده ها کم کردن تعداد مقادیر متمایز مربوط به یک یا چند مشخصه است. این رویکرد از یک سو مشخصه های پیوسته را به مشخصه های دسته ای با تعداد محدود مقادیر متمایز تقلیل میدهد و از سوی دیگر هدف آن کاهش تعداد مقادیر متمایز مربوط به مشخصه های دسته ای است.
به عنوان مثال، درآمد ماهانه کارمندان یک شرکت که مقادیر عددی پیوسته هستند را میتوان به سه دسته متمایز «کم»، «متوسط» و «زیاد» تقسیم کرد.
معروفترین روشهای گسسته سازی داده ها یا discretization داده ها عبارت است از:
- گسسته سازی موضوعی : در این روش بر اساس تجربه و نظر خبرگان حوزه کاربردی انجام میشود.
- گسسته سازی به کلاس ها : این روش به صورت خودکار با بخشبندی به کلاس ها یا دسته های هم اندازه یا هم پهنا صورت میگیرد.
توابع تولید اعداد تصادفی
توابع تولید اعداد تصادفی کاربرد گستردهای در ریاضیات و آمار دارد که با بهکارگیری آنها میتوان بسیاری از مسائل دنیای واقعی را حل کرد. رفتار پدیدههایی که در پیرامون ما اتفاق میافتد با یکدیگر متفاوت بوده و هر یک از توزیع خاص و پارامترهای منحصر به فردی پیروی میکنند. یکی از کاربردهای توابع تولید اعداد تصادفی، شبیه سازی سیستمهای صف ، به طور مثال، شبیه سازی سیستم صف بانک یا یک رستوران زنجیرهای است. با شناسایی توابع ورود و خدمتگیری افراد در سیستم، میتوان قبل از پیادهسازی واقعی آن، در یک محیط نرم افزاری مانند پایتون رفتار سیستم را ارزیابی کرده و مشکلات موجود در سیستم را پیش از صرف هزینههای اضافی برای پیادهسازی و توسعه طرح، اصلاح نمود.
با توجه به کاربرد گسترده این توابع، دسترسی به آنها از طریق کتابخانه هایی در Python و R ایجاد شده است. شما به سادگی با استفاده از این کتابخانه ها میتوانید هر تعداد داده با هر تابع توزیعی را ایجاد نمایید. در زبان پایتون با بهکارگیری کتابخانه numpy و دستور زیر میتوانید 100 داده با توزیع نرمال، میانگین 20 و انحراف معیار 2 بسازید:
numpy.random.normal (20, 2, 100)
همین کار در نرم افزار R با دستور زیر انجام میگیرد:
rnorm (100, mean=20, sd=2)
حال بهعنوان یک تمرین ساده، قصد داریم با ساخت تعدادی داده با توزیعی خاص و همچنین بهکارگیری داده های واقعی، به گسسته سازی داده ها در محیط پایتون بپردازیم.
توسعه مهارت با حل تمرین
با بهکارگیری توابع تولید اعداد تصادفی یک آرایه از سن افراد به صورت دلخواه بسازید. حال با بهکارگیری این دادهها و یا با استفاده از داده های مربوط به سن بیماران در دیتاست Heart data، سن این افراد را بازه بندی کرده و به آن ها صفت نوجوان، جوان، میانسال و پیر بدهید. همچنین سعی کنید با بهکارگیری دستورات aggregation به شمارش تعداد افراد هر دسته بپردازید.
در فیلمک زیر، علیرضا قره داغی به حل تمرین بالا پرداخته است:
<p>
</p>
نظرات (1)