کاهش بعد داده ها
ابعاد بالای داده ها همواره یکی از چالشهای پیش رو در روشهای داده کاوی میباشد. در داده کاوی منظور از بعد داده ، همان تعداد ویژگی یا متغیر یا مشخصه های یک مجموعه داده است. یعنی تعداد ستون های یک مجموعه داده ی ماتریسی.
بالا رفتن ابعاد داده سبب پراکندگی بیش از حد آن میشود. از سوی دیگر تعاریف فاصله و چگالی میان نقاط ، که از فاکتورهای حیاتی خوشه بندی و تشخیص داده های پرت هستند، مفهوم کمرنگتری به خود میگیرند. درنتیجه یکی از رویکردهای متداول در مراحل پیش پردازش داده ، کاهش بعد ( کاهش ویژگی یا کاهش مشخصه ) میباشد. از اهداف کاهش بعد داده میتوان به موارد زیر اشاره کرد:
- اجتناب از نفرین ابعادی یا curse of dimensionality
- کاهش حافظه و فضای ذخیرهسازی
- افزایش سرعت اجرای الگوریتمهای داده کاوی
- مصورسازی بهتر داده ها
- حذف احتمالی ویژگی های بیربط و نویز
- کاهش احتمال overfitting و افزایش قدرت تعمیم الگوریتم ها
روش تحلیل مولفه های اصلی یا PCA
یکی از روش های شناخته شده و پرکاربرد در کاهش بعد داده ها ، روش تحلیل مولفه های اصلی یا همان Principle Component Analysis ( PCA ) میباشد. روش PCA با استفاده از روابط ریاضی قادر خواهد بود که تعدادی از متغیرهای وابسته را به تعداد کمتری از متغیرها مستقل تبدیل کند. به این متغیرها یا ویژگی های جدید مولفه های اصلی میگویند. هدف از روش PCA پیدا کردن ابرصفحهای است که تصویر داده ها بر روی آن بیشترین شباهت را با داده های اصلی داشته باشد. تحلیل مولفه های اصلی یا PCA تبدیلی در فضای برداری است که بیشترین کاهش بعد در مجموعه داده های مورد استفاده را ایجاد نماید. این روش شامل تجزیه مقادیر ویژه ماتریس کواریانس مجموعه داده ها میباشد. تجربه نشان داده است که تبدیل مشخصه در قالب روش PCA در اغلب موارد منجر به افزایش دقت مدل یادگیری میشود. اما این روش محدودیت هایی نیز دارد. از محدودیت های روش تحلیل مولفه های اصلی یا PCA میتوان به موارد زیر اشاره کرد:
- فرض میشود مجموعه داده ترکیب خطی پایههایی خاص است
- فرض اینکه واریانس شاخصه اصلی داده است
- فرض بر اینکه میانگین و کواریانس از نظر احتمالاتی قابل اتکا هستند
- مولفه های اصلی بدست آمده از نظر مفهومی هیچ ارتباطی با ویژگی های اولیه ای که جایگزین آنها شدهاند، ندارند.
محدودیت آخر در برخی از مدلهای داده کاوی مانند درخت تصمیم که میتوانند منتج به قواعد قابل تحلیل هم میشوند، مانع استفاده از روش PCA میشود. زیرا مولفه های اصلی استخراج شده از مجموعه داده درواقع عصاره و چکیده ای از تمام ویژگی های مجموعه داده اولیه هستند و نمیتوان گفت که هر یک به تنهایی از نظر مفهومی با کدام ویژگی از داده ها در ارتباط است.
در ادامه سعی داریم با استفاده از یک تمرین ساده در قالب فیلم آموزشی به پیاده سازی روش تحلیل مولفه های اصلی یا PCA برای کاهش بعد ( کاهش ویژگی یا کاهش مشخصه ) بپردازیم.
توسعه مهارت با حل تمرین
به منظور کاهش بعد دیتاست iris از روش تحلیل مولفه های اصلی یا PCA استفاده کنید و داده ها را یکبار در فضای دوبعدی و باری دیگر در فضای سه بعدی نمایش دهید.
حال فایل Diabetes Diagnosis را در محیط پایتون وارد کرده و به گونه ای از روش PCA استفاده کنید که در آن 98درصد واریانس داده ها حذف شود. خروجی حاصله را در فضای سه بعدی نمایش دهید.
راهنمایی: در قسمت دوم تمرین به این نکته دقت کنید که PCA بر روی ستون ویژگی ها اعمال میشود و نه ستون هدف (Label) لذا باید این دو رو از یکدیگر جدا کنید.
در فیلمک زیر، علیرضا قره داغی به حل تمرین بالا پرداخته است:
<p>
</p>
نظرات