LOGIN
ثبت نام یا ورود
Avatar
هنوز ثبت نام نکرده اید؟

هم اکنون عضو پلاک آبی شوید .و به اطلاعات وب سایت ما دسترسی داشته باشید

تنظیم مجدد کلمه عبور - نام کاربری را فراموش کرده ام

نام کاربری
کلمه عبور
مرا به خاطر بسپار

placabi articles

کاهش بعد داده ها به روش PCA  یا تحلیل مولفه های اصلی در پایتون توابع تولید اعداد تصادفی و گسسته سازی داده ها در Python

کاهش بعد داده ها به روش PCA یا تحلیل مولفه های اصلی در پایتون

  • این مورد را ارزیابی کنید
    (7 رای‌ها)

در این مقاله ضمن بررسی مفاهیم کاهش بعد ( کاهش ویژگی یا کاهش مشخصه ) و تحلیل مولفه های اصلی یا PCA به پیاده سازی یک مثال کاربردی به صورت فیلم آموزشی در پایتون میپردازیم.

کاهش بعد داده ها

ابعاد بالای داده ها همواره یکی از چالش‌های پیش رو در روش‌های داده کاوی می‌باشد. در داده کاوی منظور از بعد داده ، همان تعداد ویژگی یا متغیر یا مشخصه های یک مجموعه داده است. یعنی تعداد ستون های یک مجموعه داده ی ماتریسی.

بالا رفتن ابعاد داده سبب پراکندگی بیش از حد آن می‌شود. از سوی دیگر تعاریف فاصله و چگالی میان نقاط ، که از فاکتورهای حیاتی خوشه بندی و تشخیص داده های پرت هستند، مفهوم کمرنگ‌تری به خود می‌گیرند. درنتیجه یکی از رویکردهای متداول در مراحل پیش پردازش داده ، کاهش بعد ( کاهش ویژگی یا کاهش مشخصه ) می‌باشد. از اهداف کاهش بعد داده می‌توان به موارد زیر اشاره کرد:

  • اجتناب از نفرین ابعادی یا curse of dimensionality
  • کاهش حافظه و فضای ذخیره‌سازی
  • افزایش سرعت اجرای الگوریتم‏های داده ‏کاوی
  • مصورسازی بهتر داده ها
  • حذف احتمالی ویژگی های بی‏ربط و نویز
  • کاهش احتمال overfitting و افزایش قدرت تعمیم الگوریتم ها

 

روش تحلیل مولفه های اصلی یا PCA

یکی از روش های شناخته شده و پرکاربرد در کاهش بعد داده ها ، روش تحلیل مولفه های اصلی یا همان Principle Component Analysis ( PCA ) می‌باشد. روش PCA با استفاده از روابط ریاضی قادر خواهد بود که تعدادی از متغیرهای وابسته را به تعداد کمتری از متغیرها مستقل تبدیل کند. به این متغیرها یا ویژگی های جدید مولفه های اصلی میگویند. هدف از روش PCA پیدا کردن ابرصفحه‏ای است که تصویر داده ها بر روی آن بیشترین شباهت را با داده های اصلی داشته باشد. تحلیل مولفه های اصلی یا PCA تبدیلی در فضای برداری است که بیشترین کاهش بعد در مجموعه داده های مورد استفاده را ایجاد نماید. این روش شامل تجزیه مقادیر ویژه ماتریس کواریانس مجموعه داده ها می‌باشد. تجربه نشان داده است که تبدیل مشخصه در قالب روش PCA در اغلب موارد منجر به افزایش دقت مدل یادگیری می‌شود. اما این روش محدودیت هایی نیز دارد. از محدودیت های روش تحلیل مولفه های اصلی یا PCA می‌توان به موارد زیر اشاره کرد:

  • فرض می‌شود مجموعه داده ترکیب خطی پایه‌هایی خاص است
  • فرض اینکه واریانس شاخصه اصلی داده است
  • فرض بر اینکه میانگین و کواریانس از نظر احتمالاتی قابل اتکا هستند
  • مولفه های اصلی بدست آمده از نظر مفهومی هیچ ارتباطی با ویژگی های اولیه ای که جایگزین آن‌ها شده‌اند، ندارند.

محدودیت آخر در برخی از مدل‌های داده کاوی مانند درخت تصمیم که می‌توانند منتج به قواعد قابل تحلیل هم می‌شوند، مانع استفاده از روش PCA میشود. زیرا مولفه های اصلی استخراج شده از مجموعه داده درواقع عصاره و چکیده ای از تمام ویژگی های مجموعه داده اولیه هستند و نمی‌توان گفت که هر یک به تنهایی از نظر مفهومی با کدام ویژگی از داده ها در ارتباط است.

در ادامه سعی داریم با استفاده از یک تمرین ساده در قالب فیلم آموزشی به پیاده سازی روش تحلیل مولفه های اصلی یا PCA برای کاهش بعد ( کاهش ویژگی یا کاهش مشخصه ) بپردازیم.

توسعه مهارت با حل تمرین

به منظور کاهش بعد دیتاست iris از روش تحلیل مولفه های اصلی یا PCA استفاده کنید و داده ها را یکبار در فضای دوبعدی و باری دیگر در فضای سه بعدی نمایش دهید.

حال فایل Diabetes Diagnosis را در محیط پایتون وارد کرده و به گونه ای از روش PCA استفاده کنید که در آن 98درصد واریانس داده ها حذف شود. خروجی حاصله را در فضای سه بعدی نمایش دهید.

راهنمایی: در قسمت دوم تمرین به این نکته دقت کنید که PCA بر روی ستون ویژگی ها اعمال میشود و نه ستون هدف (Label) لذا باید این دو رو از یکدیگر جدا کنید.

در فیلمک زیر، علیرضا قره داغی به حل تمرین بالا پرداخته است:

اجرای پروژه کاهش ابعاد در پایتون

<p>

دانلود دیتاست برای انجام پروژه

File name: Diabetes_Diagnosis.xls

850 65
</p>

خواندن 433 دفعه آخرین ویرایش در دوشنبه, 14 اسفند 1396 01:29
Share
علیرضا قره داغی

کارشناس سیستم‌ها و روش‌های شرکت پلاک آبی

 

 

عضو تیم تولید محتوای وب سایت و شبکه‌های اجتماعی شرکت پلاک آبی

دانشجوی کارشناسی مهندسی صنایع دانشگاه صنعتی شریف

 

  • هیچ نظری یافت نشد

نظر خود را اضافه کنید.

ارسال نظر به عنوان مهمان

0
نظر شما به دست مدیر خواهد رسید
 تماس با ما

شهرک غرب، بلوار فرحزادی، خیابان تربیت معلم،
انتهای خیابان گلبان،
مجتمع موج، واحد 105
کد پستی: 1998963193
تلفن: 5 - 88560784
فکس: 88560786
پست الکترونیک:
info @ p l a c a b i . com
ibig @ p l a c a b i . com

 

We use cookies to improve our website. By continuing to use this website, you are giving consent to cookies being used. More details…