انباره داده
یک انباره داده یا Data Warehouse برای پشتیبانی از فرآیند تصمیم گیری های مدیریتی باید ویژگیهای زیر را داشته باشد:
موضوع-محور بودن انباره داده
یک انباره داده موضوع-محور است، به این معنی که به جای ذخیره سازی عملیات رایج سازمان، اطلاعات یک حوزه خاص از سازمان را نگهداری میکند. این اطلاعات یا موضوعات میتوانند مربوط به محصولات، مشتریان، تامینکنندگان یا میزان فروش محصولات سازمان باشند. تمرکز یک انباره داده نه بر عملیات رایج سازمان، بلکه بر مدلسازی و تحلیل داده ها با هدف تصمیم سازی معطوف است.
یکپارچگی Data Warehouse
یک انباره داده با یکپارچه سازی داده ها از منابع داده ای مختلف مانند پایگاه های داده رابطهای و فایلهای متنی ساده و ... ساخته میشود. یکپارچه سازی داده ها با یکدیگر، تحلیل موثر داده ها را بهبود میبخشد.
زمان-محور بودن انباره داده
داده های جمعآوری شده در یک Data Warehouse معمولا مربوط به یک بازه زمانی بهخصوص هستند. در واقع انباره های داده، اطلاعات تاریخی یک بازه زمانی خاص را نگهداری میکنند.
غیر فرّار بودن Data Warehouse
غیر فرّار بودن داده ها به معنای آن است که در Data Warehouse داده های قبلی حافظه، با افزوده شدن داده های جدید از بین نمیروند. انباره های داده به صورت منفک از پایگاه های داده عملیاتی سازمان نگهداری میشوند، بنابراین تغییرات (معمولا رایج) پایگاه های داده عملیاتی، تاثیری بر انباره داده نخواهد داشت.
یکپارچه سازی داده یا Data Integration چیست؟
ساخت Data Warehouse
ساخت انباره داده ، فرآیند ایجاد و استفاده از آن را شامل میشود. یک Data Warehouse از طریق یکپارچه سازی داده های موجود در منابع داده ای ناهمگن با یکدیگر ساخته میشود. انباره داده از گزارشگیریهای تحلیلی، اعمال انواع Query ها و تصمیم سازی مبتنی بر نتایج آنها پشتیبانی میکند.
فرآیند ساخت Data Warehouse از گامهای پاکسازی داده ها ، یکپارچه سازی داده ها و تحکیم و تثبیت داده ها تشکیل میشود. دو رویکرد زیر در یکپارچه سازی داده ها از منابع مختلف میتواند به کار گرفته شود:
الف) رویکرد مبتنی بر پرس و جو یا Query
رویکرد مبتنی بر پرس و جو یا Query در یکپارچه سازی منابع داده ای با یکدیگر، یکی از رویکردهای سنتی این حوزه است. از این شیوه، در ساخت wrapper ها و integrator ها بر روی چند پایگاه داده ناهمگن با هم استفاده میشود. این integrator ها با نام واسط یا mediator نیز شناخته میشوند.
فرآیند یکپارچه سازی داده ها در رویکرد مبتنی بر Query
1- زمانی که پرس و جو از سمت کلاینت ارسال میشود، یک دیکشنری متادیتا این Query را بر حسب نوع داده های ذخیره شده در هر یک از منابع ناهمگن به مجموعهای از کوئری ها تقسیم میکند.
2- در مرحله بعد هر یک از زیر-پرس و جو های ساخته شده به پردازنده پرس و جوی محلی هر یک از منابع ناهمگن ارسال میشوند.
3- پس از پردازش هر یک از زیر-پرس و جو ها، نتایج آنها برای ساخت جواب نهایی با هم ادغام میشوند.
معایب یکپارچه سازی داده ها در رویکرد مبتنی بر پرس و جو
- این رویکرد نیازمند فرآیندهای پیچیده فیلترسازی و یکپارچه سازی پاسخهای زیر-پرس و جو ها با یکدیگر است.
- برای پیادهسازی query هایی که به صورت مکرر اعمال میشوند، این رویکرد بسیار پرهزینه و غیر بهینه است.
- این رویکرد برای اعمال Query هایی که نیازمند تجمیع داده ها از منابع یا جداول متعدد هستند بسیار پرهزینه است.
ب) رویکرد مبتنی بر بهروزرسانی
سیستمهای انباره داده امروزی از رویکردهای مبتنی بر بهروزرسانی استفاده میکنند. در این شیوه، اطلاعات منابع داده ای ناهمگن، از قبل با یکدیگر یکپارچه شده و در یک انباره ذخیره میشوند. سپس از این انباره میتوان برای اعمال مستقیم query بر آنها و تحلیل استفاده کرد.
مزایای رویکرد مبتنی بر بهروزرسانی
- سطح عملکرد این رویکرد بسیار بالاتر از رویکرد قبلی است.
- داده ها میتوانند از قبل، در یک پایگاه داده معنایی کپی و پردازش شده و خلاصهسازی و ساختاردهی مجدد شوند.
- اجرای Query ها در این رویکرد نیازی به تعامل با تک تک منابع ندارد.
حرکت از انباره داده و رویکرد OLAP به داده کاوی و رویکرد OLAM
امروزه کاوش تحلیلی برخط یا Online Analytical Mining (OLAM) ، از طریق داده کاوی و کاوش دانش در پایگا های داده چندبعدی، با پردازش تحلیلی برخط یا Online Analytical Processing (OLAP) یکپارچه شده است. دیاگرام زیر نحوه یکپارچگی رویکردهای OLAP و OLAM را نشان میدهد:
OLAP جزیی از ابزارهای تصمیم گیری میباشد. سیستم های سنتی گزارش گیری و پایگاه داده ای آنچه را که در پایگاه داده بود توضیح می دادند حال آنکه درOLAP هدف بررسی دلیل صحت یک فرضیه است.
بدین معنی که کاربر فرضیه ای در مورد داده ها و روابط بین انها ارائه می کند و سپس به وسیله ابزار OLAPبا انجام چندQueryصحت آن فرضیه را بررسی می کند.
اما این روش برای هنگامی که داده ها بسیار حجیم بوده و تعدادپارامترها زیاد باشد نمی تواند مفید باشد چون حدس روابط بین داده ها کار سخت و بررسی صحت ان بسیار زمانبر خواهد بود.
OLAP و داده کاوی فن آوریهای تحلیلی در خانواده هوش كسب و كار به شمار میآیند. تفاوت آنها در این است که داده کاوی بر خلاف OLAPبرای بررسی صحت یک الگوی فرضی استفاده نمی شود بلکه خود سعی می کند این الگوها را کشف کند.
سوالات موضوعی که توسط OLAP پاسخ داده میشوند:
- مقدار فروش کل تولیدات در سه ماهه گذشته در یک منطقه بخصوص چقدر بوده است؟
- کدامیک از محصولات جزء ده محصول پر فروش تمامی فروشگاهها در ماه گذشته بودند؟
- کدامیک از محصولات برای مشتریان زن و مشتریان مرد فروش قابل توجهی داشته است؟
- تفاوت میزان فروش روزانه در هنگام تبلیغات در مقایسه با دوره زمانی عادی چیست؟
نمونه ای از سوالات پاسخ داده شده توسط داده کاوی نيز به شرح زير است:
- مشخصات مشتریانی که تمایل به خرید جدیدترین مدل را دارند، چیست؟
- چه کالاهایی باید به این دسته از مشتریان خاص توصیه و پیشنهاد گردد؟
- برآورد میزان فروش مدلی خاص در سه ماهه آینده چیست؟
- چگونه باید مشتریان را تقسیم بندی کرد؟
در نتیجه داده کاوی وOLAP می توانند همدیگر را تکمیل کنند و تحلیل گر می تواند به وسیله ابزار OLAP يك سری اطلاعات کسب کند که در مرحله داده کاوی می تواند مفید باشد و همچنین الگوها و روابط کشف شده در مرحله داده کاوی می تواند درست نباشد که با اعمال تغییرات در انها می توان به وسیله OLAP بیشتر بررسی شوند.

اهمیت رویکرد OLAM
کاوش تحلیلی برخط به دلایل زیر مهم است:
وجود داده های با کیفیت بالا در انباره های داده
ابزارها و الگوریتمهای داده کاوی نیازمند داده های یکپارچه ، مقاوم در برابر تغییرات و پاکسازی شده هستند. در عین حال این گامها، جزو گامهای هزینهبر عملیات پیش پردازش داده ها محسوب میشوند. یک Data Warehouse که از پیش پردازش داده ها پشتیبانی میکند، منبعی ارزشمند از داده های با کیفیت به منظور اعمال تکنیکهای OLAP و داده کاوی است.
وجود زیرساختهای پردازش اطلاعات در انباره های داده
منظور از زیرساختهای پردازش اطلاعات در اینجا ، دسترسی به چندین پایگاه داده ناهمگن و جدا از هم و امکان یکپارچگی و تغییر شکل آنها، همینطور دسترسی به سرویسهای مبتنی بر وب و امکان استفاده از ابزارهای تجزیه و تحلیل OLAP و ابزارهای گزارشگیری است.
تجزیه و تحلیل اکتشافی داده ها ، مبتنی بر OLAP
تجزیه و تحلیل اکتشافی داده ها یا Exploratory Data Analysis جزو الزامات یک فرآیند داده کاوی تاثیرگذار است. رویکرد OLAM ابزارهایی را برای فرآیند داده کاوی در اختیار کاربر قرار میدهد و کاربر میتواند از آنها روی انواع مختلف داده استفاده کند.
انتخاب برخط توابع مورد نیاز داده کاوی
یکپارچگی OLAP با توابع مختلف داده کاوی و رویکرد OLAM، دست کاربران را در انتخاب و استفاده از توابع داده کاوی موردنظرشان بازتر کرده است.
منبع وبسایت TutorialsPoint
نظرات (1)