واقعيت اين است که داده کاوي فرآيند سادهاي نيست. اين فرآيند، هم از جهت پيچيدگي الگوريتم هاي داده کاوي و هم از جهت متمرکز نبودن داده هاي موردنياز در يک مکان واحد، قابل تامل و بررسي است. در بسياري از مواقع، داده هاي مورد نياز بايد از منابع ناهمگن با هم يکپارچه شوند. اين مسائل و مشکلات، همواره سر راه پيادهسازي رويکردهاي داده کاوي و کاوش داده ها قرار دارد.
چالش های داده کاوی
1- چالش متدولوژي کاوش داده ها و تعامل با کاربران
اين دسته از چالش هاي داده کاوي را ميتوان به موارد زير تقسيم کرد:
کاوش انواع دانش نهفته در داده ها
کاربران مختلف به انواع متفاوت دانش نهفته در داده ها نيازمندند. بنابراين data mining بايد بتواند انواع مختلف رويکردهاي کشف دانش از داده ها را پوشش داده و براي آنها ابزار و الگوريتم هاي مناسب ارائه دهد.
کاوش داده ها به شکل تعاملي در سطوح متفاوت
فرآيند داده کاوي بايد فرآيندي تعاملي باشد تا کاربران بتوانند فرآيندهاي مورد نظر خود را بر حسب نتايجي که در هر گام بدست ميآوردند بهبود ببخشند.
به کارگيري دانش مرتبط با کسب و کار و حوزه مساله مورد نظر در فرآيند مدل سازي
احاطه بر دانش حاکم بر حوزه مساله مطرح شده در data mining ، در فرآيند کاوش داده ها و توصيف الگوهاي استخراج شده نه تنها مفيد، بلکه لازم است. تسلط بر دانش در حوزه پروژه داده کاوي در حال انجام باعث ميشود تا توصيف الگوهاي بدست آمده از نتايج مدل سازي حرفهاي تر و کاربرديتر شود.
تعيين نوع زبان مورد استفاده در مدل سازي و ارائه راه حل براي مساله مورد نظر
نوع زبان مورد استفاده در مدل سازي و حل مساله مطرح شده بايد با زبان مورد استفاده در انجام پرس و جو (Query) بر انباره داده يکپارچه بوده و براي پياده سازي رويکرد داده کاوي موردنظر بهينه باشد.
نمايش و مصورسازي نتايج مدل سازي در Data Mining
پس از کشف الگوهاي مورد نظر از داده ها ، نتايج بايد به صورت بصري ارائه شوند. نحوه نمايش نتايج ميبايد در قالبي ساده بوده و به آساني قابل فهم باشد.
12 نکته در مصور سازی داده ها :
- به نیازهای اطلاعاتی شنوندگان و مخاطبین خود توجه کنید.
- نمودار و چارت مناسب را برای مصورسازی انتخاب کنید.
- نمودارها را ساده و منظم رسم کنید و از جلوههای فانتزی و تفننی کمتر استفاده کنید.
- مرتبطترین و مفیدترین اطلاعات را به روشنترین شکل ممکن به مخاطبین ارایه دهید.
- از رنگ، سایز، فونت و گرافیک برای جلب توجه مخاطبین به مهمترین بخشهای اطلاعات استفاده کنید.
- گرافها و جداول را به شکل درست و به جا استفاده کنید.
- به کمک عوامل تاثیرگذار در جنبههای بصری، و نیز ارایهی شرح مختصر، به موارد کلیدی اشاره کنید.
- دادهها و بخشهای نمایشی را در جای مناسب قرار دهید تا خطای دید باعث گمراه شدن مخاطب گزارش شما نشود.
- از ترکیب رنگها بهشکل عاقلانه استفاده کنید. رنگها برای زیبایی و فانتزی شدن نمودارها نیستند بلکه میباید برای متمرکز کردن توجه مخاطبین گزارش به بخشهای مهم گزارش استفاده شود.
- از عناوین مناسب و مفهوم برای نمودارها استفاده کنید.
- برچسب محورها و اعداد میباید به شکل واضح در نمودار منعکس شود.
- تا حد امکان از ابزار مصورسازی تعاملی استفاده کنید اما در حدی که باعث گیج شدن مخاطب شما نشود.
بررسي داده هاي نويزي و ناقص
قبل از اعمال رويکردهاي داده کاوي ، انجام متدهاي پاکسازي داده ها براي بررسي و مواجهه با داده هاي نويزي و ناقص گامي لازم و مهم است. عدم استفاده از روشهاي پاکسازي داده ها منجر به کاهش دقت مدل هاي الگوهاي استخراج شده خواهد شد.
ارزيابي الگوهاي استخراج شده
الگوهاي کاوش شده بايد از نظر خاص بودن نتايج و جديد بودن آنها بررسي شوند.
2- چالش کارايي مدل هاي ساخته شده در داده کاوي
چالش هاي داده کاوي که پيش روي کارايي مدل هاي ساخته شده هستند را ميتوان در دستههاي زير بررسي کرد:
کارآمدي و مقياس پذيري الگوريتم هاي داده کاوي
براي استخراج بهينه اطلاعات از حجم زياد داده ها ، الگوريتم هاي داده کاوي بايد کارآمد و مقياسپذير باشند.
بررسي الگوريتم هاي داده کاوي موازي، توزيع شده و افزايشي
عواملي چون حجم بالاي پايگاه هاي داده ، توزيع داده در منابع مختلف و پيچيدگي متدهاي data mining ، انگيزه دانشمندان را براي توسعه الگوريتم هاي داده کاوي با رويکرد پردازش موازي و توزيع شده بيشتر و بيشتر کرده است. به طور مثال اين الگوريتم ها داده هاي با حجم بالا را به چندين قسمت تقسيم ميکنند و بر روي آنها به صورت موازي پردازش انجام ميدهند. در نهايت، نتايج بهدست آمده از هر يک از بخشها با يکديگر ادغام ميشوند. الگوريتم هاي افزايشي ، امکان بهروزرساني پايگاه هاي داده را، بدون نياز به کاوش در تمامي داده ها از آغاز، فراهم ميکنند.
3- چالش پراکندگي منابع داده مورد نياز در Data Mining
اين دسته چالش هاي داده کاوي موارد زير را شامل ميشوند:
بررسي انواع داده هاي رابطه اي و پيچيده
پايگاه هاي داده امروزي، انواع مختلف داده ها مثل داده هاي چند رسانهاي و داده هاي مکاني را شامل ميشوند. يک سيستم data mining خاص نميتواند تمامي انواع اين داده ها را براي الگوهاي مورد نظر کاوش کند.
توجه به اطلاعات موجود در پايگاه هاي داده ناهمگون و سيستم هاي اطلاعاتي بزرگ
داده هاي امروزي در منابع مختلفي مثل شبکههاي LAN و WAN موجودند. اين منابع داده اي ميتوانند ساختاريافته ، نيمه ساختاريافته يا بدون ساختار باشند. بنابراين، کاوش اين قسم داده ها (بهخصوص داده هاي نيمه ساخت يافته و بدون ساختار) data mining را با چالش هايي مواجه ميسازد.
منبع: وب سایت TutorialsPoint
نظرات