LOGIN
ثبت نام یا ورود
Avatar
هنوز ثبت نام نکرده اید؟

هم اکنون عضو پلاک آبی شوید .و به اطلاعات وب سایت ما دسترسی داشته باشید

تنظیم مجدد کلمه عبور - نام کاربری را فراموش کرده ام

نام کاربری
کلمه عبور
مرا به خاطر بسپار

placabi articles

مدیریت داده های از دست رفته و تجمیع داده ها در پایتون مدیریت داده های از دست رفته و تجمیع داده ها در پایتون

مدیریت داده های از دست رفته و تجمیع داده ها در پایتون

  • این مورد را ارزیابی کنید
    (8 رای‌ها)

بررسی مفاهیم تجمیع داده ها یا Data Aggregation و داده های از دست رفته یا Missing Value ، معرفی راهکارهای موجود، و پیاده سازی پروژه در پایتون به صورت یک فیلم آموزشی

تجمیع داده ها

به هر فرآیندی گفته می‌شود که در آن اطلاعات جمع‌آوری شده، و در یک فرم خلاصه با اهدافی چون تحلیل های آماری ارائه می‌گردند. هدف رایج از تجمیع داده ها ، بدست آوردن اطلاعات بیشتر در مورد گروه‌های خاص بر اساس متغیرهایی خاص مانند سن، حرفه، درآمد و ... می‌باشد. اطلاعات به‌دست آمده مثلاً می‌تواند برای شخصی سازی محتوا و یا تبلیغات یک وب سایت مورد استفاده قرار گیرد و این در صورتی است که بخواهیم برای گروه خاصی از افراد چه از نظر سطح درآمدی و چه از نظر سن و دیگر متغیرهای مطلوب، به بازاریابی و فروش محصولات و خدمات خود بپردازیم.

داده های از دست رفته

داده های از دست رفته یا Missing value ها در داده کاوی به مقادیری از رکوردهای دیتاست گفته می‌شود که اطلاعات آن به دلایل مختلف از دست رفته یا در اختیار ما قرار نگرفته‌است. به طور مثال، در یک جامعه مورد بررسی، افراد سن یا وزن خود را ثبت نکرده‌اند و یا سیستم ثبت اطلاعات برای مدتی دچار نقص شده و برخی داده ها از دست رفته اند. همچنین گاهی ممکن است برخی صفات برای همه موارد مورد استفاده قرار نگیرد، برای مثال ویژگی درآمد سالانه برای کودکان معنی نداشته و یا استفاده نمی‌شود.

این نقص در داده ها می‌تواند تاثیر بسیار زیادی بر روی مدلسازی های انجام شده در فرآیند داده کاوی بگذارد و یا حتی منتج به نتیجه گیری و تصمیم گیری اشتباه شود. راهکارهای مختلفی در برخورد با missing value ها وجود دارد که بسته به نوع داده ها و ارزش هر یک از ستون هایی که Missing Value دارند، از یکی از این راهکارها استفاده می‌کنیم.

برخی از روش‌های پرکاربرد در مقابله با داده های از دست رفته در فرآیند داده کاوی به شرح ذیل است:

  • پاک کردن سطری که داده از دست رفته دارد

  • پاک کردن ستونی که داده از دست رفته دارد

  • جایگذاری مقدار مربوطه با یک مقدار تصادفی

  • جایگذاری مقدار از دست رفته با میانگین، میانه و یا مد آن ستون از ویژگی ها

  • جایگذاری مقدار از دست رفته با تمام مقادیر ممکن

  • پیشبینی مقادیر از دست رفته با استفاده از رویکرد پیش بینی

توسعه مهارت با حل تمرین

با استفاده از کتابخانه Pandas و به‌کارگیری دیتاست بیماران قلبی (Heart data)، میانگین و ماکسیمم کلسترول آقایان (مقادیر1) و خانم‌ها (مقادیر0) را به صورت جداگانه به‌دست آورید.

سپس با بررسی و چاپ تعداد Missing Value های هر ستون، ویژگی‌هایی که دارای بیش از 150 داده از دست رفته می‌باشند را حذف کنید. همچنین سطرهایی که ستون‌های مهم Chest pain، Heart Rate و Depression، در آن ها دارای داده های از دست رفته هستند را حذف نمایید.

حال به جای حذف سطرهایی که یکی از سه مقدار مهم را دارند، سعی کنید Missing Value ها را با دستور impute برآورد کنید.

در فیلمک زیر، علیرضا قره داغی به حل تمرین بالا پرداخته است:

ویدئوهای آموزشی توسعه مهارت داده کاوی در پایتون - گروه هوش کسب و کار ایرانیان
دانلود دیتاست برای انجام پروژه

File name: Heart_data.xlsx

6372 374
خواندن 3055 دفعه آخرین ویرایش در دوشنبه, 07 اسفند 1396 20:02
علیرضا قره داغی

کارشناس صنایع شرکت پلاک آبی

 

 

عضو تیم تولید محتوای وب سایت و شبکه‌های اجتماعی شرکت پلاک آبی

دانشجوی کارشناسی مهندسی صنایع دانشگاه صنعتی شریف

 

  • هیچ نظری یافت نشد

نظر خود را اضافه کنید.

ارسال نظر به عنوان مهمان

0
نظر شما به دست مدیر خواهد رسید
 تماس با ما

تلفن: 09211437289
پست الکترونیک:
info @ p l a c a b i . com

 

We use cookies to improve our website. By continuing to use this website, you are giving consent to cookies being used. More details…