تجمیع داده ها
به هر فرآیندی گفته میشود که در آن اطلاعات جمعآوری شده، و در یک فرم خلاصه با اهدافی چون تحلیل های آماری ارائه میگردند. هدف رایج از تجمیع داده ها ، بدست آوردن اطلاعات بیشتر در مورد گروههای خاص بر اساس متغیرهایی خاص مانند سن، حرفه، درآمد و ... میباشد. اطلاعات بهدست آمده مثلاً میتواند برای شخصی سازی محتوا و یا تبلیغات یک وب سایت مورد استفاده قرار گیرد و این در صورتی است که بخواهیم برای گروه خاصی از افراد چه از نظر سطح درآمدی و چه از نظر سن و دیگر متغیرهای مطلوب، به بازاریابی و فروش محصولات و خدمات خود بپردازیم.
داده های از دست رفته
داده های از دست رفته یا Missing value ها در داده کاوی به مقادیری از رکوردهای دیتاست گفته میشود که اطلاعات آن به دلایل مختلف از دست رفته یا در اختیار ما قرار نگرفتهاست. به طور مثال، در یک جامعه مورد بررسی، افراد سن یا وزن خود را ثبت نکردهاند و یا سیستم ثبت اطلاعات برای مدتی دچار نقص شده و برخی داده ها از دست رفته اند. همچنین گاهی ممکن است برخی صفات برای همه موارد مورد استفاده قرار نگیرد، برای مثال ویژگی درآمد سالانه برای کودکان معنی نداشته و یا استفاده نمیشود.
این نقص در داده ها میتواند تاثیر بسیار زیادی بر روی مدلسازی های انجام شده در فرآیند داده کاوی بگذارد و یا حتی منتج به نتیجه گیری و تصمیم گیری اشتباه شود. راهکارهای مختلفی در برخورد با missing value ها وجود دارد که بسته به نوع داده ها و ارزش هر یک از ستون هایی که Missing Value دارند، از یکی از این راهکارها استفاده میکنیم.
برخی از روشهای پرکاربرد در مقابله با داده های از دست رفته در فرآیند داده کاوی به شرح ذیل است:
-
پاک کردن سطری که داده از دست رفته دارد
-
پاک کردن ستونی که داده از دست رفته دارد
-
جایگذاری مقدار مربوطه با یک مقدار تصادفی
-
جایگذاری مقدار از دست رفته با میانگین، میانه و یا مد آن ستون از ویژگی ها
-
جایگذاری مقدار از دست رفته با تمام مقادیر ممکن
-
پیشبینی مقادیر از دست رفته با استفاده از رویکرد پیش بینی
توسعه مهارت با حل تمرین
با استفاده از کتابخانه Pandas و بهکارگیری دیتاست بیماران قلبی (Heart data)، میانگین و ماکسیمم کلسترول آقایان (مقادیر1) و خانمها (مقادیر0) را به صورت جداگانه بهدست آورید.
سپس با بررسی و چاپ تعداد Missing Value های هر ستون، ویژگیهایی که دارای بیش از 150 داده از دست رفته میباشند را حذف کنید. همچنین سطرهایی که ستونهای مهم Chest pain، Heart Rate و Depression، در آن ها دارای داده های از دست رفته هستند را حذف نمایید.
حال به جای حذف سطرهایی که یکی از سه مقدار مهم را دارند، سعی کنید Missing Value ها را با دستور impute برآورد کنید.
در فیلمک زیر، علیرضا قره داغی به حل تمرین بالا پرداخته است:
نظرات