LOGIN
ثبت نام یا ورود
Avatar
هنوز ثبت نام نکرده اید؟

هم اکنون عضو پلاک آبی شوید .و به اطلاعات وب سایت ما دسترسی داشته باشید

تنظیم مجدد کلمه عبور - نام کاربری را فراموش کرده ام

نام کاربری
کلمه عبور
مرا به خاطر بسپار

placabi articles

وظایف داده کاوی کدامند؟ وظایف داده کاوی - Data Mining Tasks

وظایف داده کاوی کدامند؟

  • این مورد را ارزیابی کنید
    (5 رای‌ها)

Data Mining با هدف کشف و استخراج الگوهای نهان در مجموعه داده ها به تجزیه و تحلیل داده ها می‌پردازد. وظایف اصلی داده کاوی شامل توصیف ، و پیش بینی و رده بندی است که در این بخش مورد بررسی قرار می‌گیرد.

وظایف داده کاوی بسته به نوع داده‌هایی که می‌باید مورد کاوش قرار گیرند و نوع پرسش‌هایی که به‌دنبال پاسخ آن‌ها هستیم، در دو بخش انجام می‌گیرد.

- توصیف
- کلاس بندی و پیش بینی

 

1- عملکرد توصیفی داده کاوی

این دسته از وظایف داده کاوی، بر توصیف ویژگی‌های عمومی داده های موجود در پایگاه داده متمرکز است. فهرستی از جنبه‌های توصیفی data mining عبارتند از:

- توصیف کلاس/ مفهوم
- کاوش الگوهای مکرر
- کاوش قواعد انجمنی و وابستگی‌ها
- کاوش همبستگی ها
- کاوش خوشه ها

1-1- توصیف کلاس / مفهوم

کلاس یا مفهوم (Concept) به داده هایی اطلاق می‌شود که با کلاس‌ها یا مفاهیم خاصی مربوط شوند. به‌طور مثال در یک شرکت، کلاس محصولات موجود برای فروش را کامپیوترها و چاپگرها تشکیل می‌دهند و مفاهیم مرتبط با مشتریان مواردی نظیر مصرف کنندگان و هزینه‌کنندگان را شامل می‌شود. چنین توصیف‌هایی از یک کلاس یا یک مفهوم، توصیف‌های کلاس/ مفهوم نامیده می‌شود. این نوع توصیفات از طریق یکی از دو رویکرد زیر انجام می‌شوند:

- تعیین مشخصات داده ها:خلاصه سازی داده‌های کلاس تحت مطالعه که کلاس هدف نیز نامیده می‌شود.
- تفکیک و جداسازی داده ها: خلاصه سازی داده‌های کلاس تحت مطالعه که کلاس هدف نیز نامیده می‌شود.

1-2- کاوش الگوهای مکرر یا Frequent Patterns

الگوهای مکرر الگوهایی هستند که به‌صورت تکراری در داده های تراکنشی اتفاق می‌افتد. از جمله الگوهای مکرر می‌توان به موارد زیر اشاره کرد:

- مجموعه آیتم‌های مکرر:این حوزه از داده کاوی به کشف مجموعه آیتم‌هایی می‌پردازد که در یک مجموعه داده به طور مکرر در کنار یکدیگر قرار گرفته‌اند؛ مانند خرید شیر و نان در کنار هم توسط مشتری در یک زمان.
- توالی مکرر: این حوزه به کشف مجموعه آیتم‌هایی می‌پردازد که مکررا به دنبال هم رخ داده‌است؛ مانند خرید دوربین و به دنبال آن خرید کارت حافظه توسط مشتری پس از یک بازه زمانی.
- زیرساختارهای مکرر: این الگوهای توصیفی در data mining از فرم‌های ساختاری متفاوتی همچون گراف‌ها، درخت‌ها یا شبکه‌ها تشکیل شده‌است که خود می‌توانند از مجموعه آیتم‌ها یا زیردنباله‌های مکرر تشکیل شده باشند.

1-3- کاوش قواعد انجمنی و وابستگی ها یا Associations

وابستگی‌ها و قواعد انجمنی معمولا در خرده فروشی ها برای شناسایی الگو های حاکم بر آیتم‌هایی که به شکل پرتکرار با هم خریداری می‌شوند استفاده می‌شود. این فرآیند data mining بر کشف ارتباطات بین داده ها و تعیین قواعد وابستگی بین آن‌ها متمرکز است. به طور مثال یک خرده فروشی پس از اعمال تکنیک های کشف قواعد انجمنی به این نتیجه می‌رسد که در 70% تراکنش‌ها، شیر با نان خریداری شده و تنها در 30% تراکنش‌ها، بیسکوئیت همراه با نان به فروش رفته است.

1-4- کاوش همبستگی ها یا Correlations

این حوزه از روش‌های داده کاوی شامل نوعی تحلیل تکمیلی است که همبستگی های آماری جالبی را بین جفت‌های associated-attribute-value یا بین دو مجموعه داده کشف می‌کند تا تاثیر مثبت، منفی یا خنثای آن‌ها بر یکدیگر تجزیه و تحلیل شود.

1-5- کاوش خوشه ها یا Clustering

واژه‌ی خوشه، به گروهی از موضوعات مشابه هم اشاره دارد. تحلیل خوشه یا Cluster Analysis عبارت است از ایجاد گروه‌هایی با شباهت‌های درون-گروهی زیاد در هر یک از خوشه ‌ها و تفاوت‌های حداکثر بین اعضای خوشه‌های مختلف.
 

2- رده بندی و پیش ‌بینی در data mining

کلاس ‌بندی یا Classification که از آن تحت عنوان رده بندی نیز یاد می‌شود، عبارت است از یک فرآیند برای یافتن مدلی که به بهترین شکل، مفاهیم یا کلاس های داده ها را توصیف کند. هدف از انجام این مدلسازی استفاده از مدل ساخته شده در پیش ‌بینی کلاس داده‌ ها و موضوعاتی است که برچسب کلاس آن‌ها مجهول است. مدل ساخته شده، بر اساس تحلیل مجموعه داده هایی به نام مجموعه داده های آموزش به دست می‌آید. در نهایت، مدل ساخته شده به فرم‌های زیر ارائه می‌شود:

- قواعد کلاس بندی یا رده بندی به فرم قواعد اگر-آنگاه
- فرمول‌های ریاضی
- شبکه های عصبی

توابعی که در این فرایندها مورد استفاده قرار می‌گیرند عبارت است از:

2-1- کلاس ‌بندی یا Classification

کلاس‌ بندی عبارت است از پیش ‌بینی کلاس داده هایی که برچسب کلاس آن‌ها مجهول است. هدف رده بندی یافتن مدلی است که به بهترین شکل، تفاوت کلاس‌های داده یا مفاهیم داده را توضیح دهد. این مدل با استفاده از تحلیل مجموعه‌هایی از داده های آموزشی که برچسب کلاس آن‌ها مشخص است ساخته می‌شود.

2-2- پیش ‌بینی یا Prediction

این عملکرد data mining به جای پیش بینی کلاس داده ها، به پیش‌ بینی مقادیر داده‌ی عددی مجهول یا خارج از دسترس می‌پردازد. برای پیش ‌بینی غالبا از واژه تحلیل رگرسیونی استفاده می‌شود. از پیش ‌بینی همچنین در شناسایی روند توزیع داده ها بر اساس داده های در دسترس استفاده می‌شود.

2-3- تحلیل داده های پرت یا Outlier ها

داده های پرت عبارتند از داده هایی که رفتار آنها از رفتار عمومی و یا مدل حاکم بر داده های در دسترس تبعیت نمی‌کند.

2-4- تحلیل تغییرات یا Evolution Analysis

تحلیل تغییرات یا تحلیل تکامل، مواردی چون توصیف و کشف قوانین یا روندهای حاکم بر داده هایی را نشان می‌دهد که رفتار آن‌ها در طول زمان تغییر می‌کند.
 

3- فعالیت‌های پایه در داده کاوی

فرآیند داده کاوی را می‌توان به شکل یک پرس و جو یا query تعریف کرد. این پرس و جو به عنوان ورودی به سیستم داده می‌شود. یک پرس و جو یا Query داده کاوی تحت عنوان فعالیت‌های اولیه‌ی داده کاوی تعریف می‌شود. فعالیت‌های پایه‌ی داده کاوی ما را قادر می‌سازند تا به شکل تعاملی با سیستم داده کاوی ارتباط برقرار کنیم.

در زیر، فهرستی از فعالیت‌های پایه در داده کاوی ارایه شده است:

  • کاوش مجموعه داده‌های مربوط به کار داده کاوی

  • کاوش دانش مرتبط با کار

  • برخورداری و استفاده از دانش زمینه در فرایند کشف دانش

  • معیارها و آستانه‌های مناسب برای ارزیابی الگو

  • نمایش و مصورسازی الگوهای کشف شده

3-1- کاوش مجموعه داده های مرتبط با کار داده کاوی

داده های مورد استفاده در داده کاوی، بخشی از یک پایگاه داده مرتبط با موضوع مورد بررسی هستند که شامل موارد زیر می‌شوند:

- ویژگی‌ها یا Attribute های پایگاه داده
- ابعاد مورد نیاز از انباره داده

3-2- کاوش دانش مرتبط با کار

این بخش شامل اجرای انواع عملگرهایی است که منجر به کسب دانش مرتبط با کار می‌شود. این توابع عبارتند از:

- توصیف داده ها
- تفکیک و جداسازی داده ها
- تحلیل وابستگی و همبستگی
- پیش‌بینی
- خوشه بندی
- تحلیل داده های پرت
- تحلیل تکامل

3-3- دانش زمینه

شناخت حوزه‌ای که داده های آن را مورد کاوش قرار می‌دهیم اولین و مهم‌ترینگام در فرآیند کشف و استخراج الگو از مجموعه داده است. در این مرحله، فیلدهای داده‌ای و مفاهیم مربوط، در سطوح مختلفی از جزئیات بررسی می‌شوند. تعیین سطح‌بندی مناسب برای فیلدها از گام‌های این مرحله است.

 

نپرسید داده ها کجا هستند! بپرسید سوال و مساله‌ی کسب و کار ما چیست؟!

بسیاری از کسب و کارها، اول مخازن داده را ایجاد می‌کنند و سپس ابزار BI را روی آن سوار می‌کنند و انتظار دارند که کاربران با استفاده از اپلیکیشن BI به سوالات مختلف خود پاسخ دهند.

اما آنچه مهم است، برخورداری از یک رویکرد از بالا به پایین در پیاده سازی هوش کسب وکار است.

با تمرکز بر خروجی‌ها و نتایج، سیستم هوش کسب وکار را با سوال «داده ها کجا هستند» شروع نکنید!

به جای آن با این سوال شروع کنید: «مساله و سوال کسب و کار ما چیست و چگونه باید پاسخ آن را بیابم؟»

به عنوان مثال، بخش بازاریابی می‌خواهد مشکل ریزش مشتریان را حل کند و بداند چرا مشتریان سازمان را ترک می‌کنند.

برای پاسخ به چنین سوالاتی، می‌باید در درجه‌ی اول با یک دید همه جانبه به کسب و کار بدانیم که کدامین معیارها باید اندازه‌گیری شوند سپس ببینیم چه اطلاعاتی برای محاسبه این متریک‌ها مورد نیاز است و بعد از آن به دنبال جمع آوری و تولید داده‌هایی برویم که در محاسبه‌ی این متریک به ما کمک می‌کنند.

در کانال تلگرامی ما بخوانید
در کانال تلگرامی ما بخوانیدمساله‌ی کسب و کار ما چیست؟ - @placabi

 

3-4- تعیین معیارها و آستانه‌های مناسب برای ارزیابی الگوهای حاصل از data mining

در این مرحله، بسته به نوع تابع یا الگوریتم استفاده شده در فاز مدلسازی، یک معیار منحصربه‌فرد برای ارزیابی مدلِ ایجاد شده یا الگوی کشف شده در نظر گرفته می‌شود. به طور مثال در کاوش قواعد انجمنی و وابستگی‌ها از معیارهای support و confidence استفاده می‌شود. مدل‌هایی که مقدار این دو معیار در آن‌ها، از یک حد آستانة از پیش تعیین شده کمتر باشد، کنار گذاشته می‌شوند.

3-5- نمایش و مصورسازی نتایج و الگوهای کشف شده

در این مرحله، چگونگی مصورسازی و نحوه‌ی نمایش نتایج حاصل از مدل‌های ساخته شده تعیین می‌شود. به طور مثال نتایج حاصل از data mining را می‌توان در قالب‌های زیر مصورسازی کرده و نمایش داد:

- مجموعه‌ای از قواعد و دستورات اگر - آنگاه
- جداول
- نمودارها
- گراف ها
- درخت تصمیم
- مکعب داده ها

بیاموزیم

نقش و قدرت داستان گویی در مصورسازی داده ها

رویکرد داستان سرایی در مصورسازی و تأثیر شگرف آن بر بهبود فرآیند تصمیم گیری
بیاموزیم

 

خواندن 552 دفعه آخرین ویرایش در چهارشنبه, 09 اسفند 1396 23:43
برچسب‌ها
مژگان وظیفه دوست

کارشناس تحقیق و توسعه شرکت پلاک آبی

مدرس دوره های اصول و مبانی داده کاوی شرکت پلاک آبی

 

عضو تیم تولید محتوای وب سایت و شبکه‌های اجتماعی شرکت پلاک آبی

دانشجوی کارشناسی ارشد مهندسی صنایع دانشگاه صنعتی امیرکبیر

  • هیچ نظری یافت نشد

نظر خود را اضافه کنید.

ارسال نظر به عنوان مهمان

0
نظر شما به دست مدیر خواهد رسید
 تماس با ما

شهرک غرب، بلوار فرحزادی، خیابان تربیت معلم،
انتهای خیابان گلبان،
مجتمع موج، واحد 105
کد پستی: 1998963193
تلفن: 5 - 88560784
فکس: 88560786
پست الکترونیک:
info @ p l a c a b i . com
ibig @ p l a c a b i . com

 

We use cookies to improve our website. By continuing to use this website, you are giving consent to cookies being used. More details…