اشتباهات رایج در تجزیه و تحلیل پیشگویانه
تجزیه و تحلیل پیشگویانه همیشه ما را به نتایج شگفت انگیزی میرساند. اما مدل های پیش بینی ضد گلوله نیستند! در این مقاله به ذکر اشتباهات رایج در این زمینه میپردازیم.
تجزیه و تحلیل پیشگویانه همیشه ما را به نتایج شگفت انگیزی میرساند. تصمیم گیری برای آینده، با کمک کشف الگوهای موجود در داده های تاریخی گذشته، در تمام صنایع کاربردهای فراوانی دارد. اما مدل های پیش بینی، ضد گلوله نیستند! همیشه ممکن است اشتباهاتی پیش بیاید که این مدل ها بهدرستی عمل نکنند. در زیر به 10 اشتباه رایج که تجزیه و تحلیل گران را به دام میاندازد میپردازیم:
اشتباهات رایج در تجزیه و تحلیل پیشگویانه
-
بهکارگیری فرضیههای نادرست روی مجموعه داده های آموزشی (Training Data) اساسی. تخصیص زمان ناکافی برای درک داده ها و روندهای موجود و داده های از دست رفته و پرت
-
کار کردن با حجم کم داده ها که منجر به ایجاد مدل های آماری ضعیف، غیرقابل اتکا، و بی ثبات میشود.
-
ایجاد مدل هایی با شاخههای زیاد که باعث ایجاد noise در مدل میشود
-
جهت گیری و یک جانبه بودن، و به اصطلاح bias بودن داده های آموزشی
-
قرار گرفتن داده های آزمایشی در مجموعه داده های آموزشی. گاهی این ایده موجب میشود تصور کنید مدل به شکل فوقالعادهای عمل خواهد کرد اما در واقعیت، مدل پیش بینی با شکست مواجه میشود. در دنیای تجزیه و تحلیل پیشگویانه، هرگاه به نظر برسد که نتایج برای واقعی بودن بیش از حد خوب هستند، ارزش دارد که یک بار دیگر برای ارزیابی مدل وقت بگذارید و حتی ایدهی دیگری را برای کنترل کار خود بیازمایید!
-
کافی نبودن خلاقیت بهکارگرفته شده در برخورد با داده ها: مدل های پیشگویانه را میتوان با ایجاد برخی مشخصات یا ویژگیهای هوشمندانه که برای توضیح بهتر روندها در داده ها تعریف میشوند، بهبود داد. صرف وقت کافی برای منظور نمودن داده هایی که مدل ها را تقویت میکند و الگوریتمها را بهبود میبخشد، موضوعی است که بسیاری از متخصصین علوم داده نسبت به آن سهل انگاری میکنند!
-
تصور این که ماشین، مشکلات و مسائل کسب و کار را درک میکند! ماشینها هنوز نمیتوانند تشخیص دهند که مشکلات و مسائل کسب و کار کدامند و بهترین روش برای مواجهه با مشکلات چیست. بنابراین، لازم است همیشه دقت کافی به خرج داد و با کلیه افراد و ذینفعان کسب و کار با هدف تهیهی بهترین مدل تعامل کرد.
-
استفاده از شاخصهای نامناسب برای اندازهگیری کارآیی مدل
-
استفاده از مدل های خطی در زمانی که ارتباط میان مشخصات غیرخطی است و لازم است که از مدل های غیرخطی استفاده کرد
-
فراموش کردن نقاط پرت (outliers)
-
تنظیم قواعد و ضوابط قبل از استانداردسازی داده ها
-
در نظر نگرفتن شرایط واقعی در ایجاد مدل، به نحوی که در مرحلهی پیادهسازی، مدل با سیستم عملیاتی یکپارچه نشود. ممکن است یک مشخصهی بسیار پیشبینی کننده مانند جنسیت در مدل در نظر گرفته شده باشد، اما به دلیل ضوابط و قوانین، امکان استفاده از این فیلد را در مدلسازی مهیا نشود، یا بهکارگیری این فیلد در مدل به آینده موکول شده باشد.
-
استفاده از ویژگیهایی در مدل، که بهدلایل عملیاتی در آینده قابل دسترسی نخواهند بود
-
در نظر نگرفتن واقعیتهای دنیای واقعی و عواقب احتمالی استفاده از تجزیه و تحلیل های پیشگویانه در برخی موضوعات اجتماعی و فرهنگی. در بعضی موارد حتی اگر احتمال وقوع نتیجهی پیشگویی بسیار بالا باشد، به دلیل برخی ملاحظات فرهنگی و اجتماعی، الزاماً هرآنچه را که میشود پیشگویی کرد، نباید عنوان نمود. در این مورد میتوان به نتیجهی انتشار خبر مدل های تجزیه و تحلیل پیشگویانه برای پیشگویی باردار شدن نوجوانان قبل از آنکه والدین آنها خبردار شوند در امریکا اشاره کرد!
این متن ترجمهی آزادی است از مقالهی
نظرات