راهکارهای سنتی کار با بیگ دیتا
در راهکارهای سنتی، داده های کسب و کار در یک کامپیوتر ذخیره سازی و پردازش میشوند. در این رویکرد، داده ها معمولا در یک سیستم پایگاه داده رابطه ای مانند Oracle، Microsoft SQL Server یا DB2 ذخیره میشود. نرم افزارهای نوشته شده با این پایگاه داده ها در ارتباط هستند و داده های مورد نیازشان را پردازش کرده و نتایج را برای تجزیه و تحلیل های نهایی به کاربران ارائه میکنند.
محدودیتهای راهکارهای سنتی کار با کلان داده
این رویکرد تا زمانی پاسخگوی نیازهای سازمان است که حجم داده ها چندان زیاد نبوده و سرورهای مورد استفادهی پایگاه های داده سازمان توانایی پردازش آنها را داشته باشند. به عبارتی، قدرت پردازشی سرورها پاسخگوی پردازش داده های در دسترس باشد. در غیر این صورت، و در حالتی که سازمان با حجم های بالای داده روبهرو است، پردازش داده ها از طریق راهکارهای سنتی پایگاه های داده بسیار زمانبر و خستهکننده خواهد بود.
راهکار ارائه شده توسط گوگل برای کار با بیگ دیتا
شرکت گوگل مشکل فوق را با ارائه الگوریتمی تحت عنوان MapReduce مرتفع کرده است. این الگوریتم ، هر پرس و جو یا Query را به قسمتهای کوچکتر تقسیم کرده و هر قسمت را به یکی از کامپیوترهای متصل به شبکه ارجاع میدهد. در نهایت، نتایج پردازش هر یک از قسمتها، توسط کامپیوترهای کوچکتر جمعآوری شده و حاصل نهایی پردازش را شکل میدهند.
شکل فوق نشان میدهد که چندین سختافزار مختلف در کنار یگدیگر میتوانند نقش یک پردازنده یا سرور منفرد مرکزی را بازی کنند.
هدوپ Hadoop به عنوان راهکار برای کلان داده
پس از ارائه الگوریتم MapReduce توسط گوگل Doug Cutting، Mike Cafarella و تیم همکار آنها در سال 2005 پروژه هدوپ را مبتنی بر این الگوریتم آغاز کردند. در حال حاضر هادوپ یکی از علائم تجاری بنیاد نرم افزاری آپاچی محسوب میشود.
هدوپ پرس و جوها را مبتنی بر الگوریتم MapReduce اجرا میکند. در Hadoop داده ها برای اجرای پرس و جوی مورد نظر، بر چندین پردازنده منفرد جدا از هم به صورت موازی پردازش میشوند. بهطور خلاصه میتوان گفت که چارچوب هادوپ قابلیت حل پرس و جو ها یا Query هایی را دارد که میتوانند بر خوشه هایی جدا از هم از کامپیوترها اجرا شده و تجزیه و تحلیل های آماری را روی حجم عظیمی از داده ها انجام دهند.
معرفی Streaming Data و مقایسه آن با هدوپ
یکی از پلتفرمهای پردازش تحلیلی که روی سرعت متمرکز شده streaming data است. این پلتفرم وقتی کاربرد دارد که لازم است جریان پیوستهای از داده که معمولاً داده های غیرساختیافته هستند، پردازش شود.
دراین روش پردازش، داده ها قبل از آنکه ذخیره شوند، بهطور پیوسته در memory تحلیل و تبدیل میشوند. رویکرد پردازش تحلیلی جریان داده شباهتهایی با کاربرد هدوپ در مدیریت دادههای ذخیره شده دارد.اختلاف عمده میان streaming data و hadoop، در سرعت پردازش دادهها است.
در هدوپ، دادهها به صورت batch ذخیرهسازی شده و سپس پردازش میشوند. اما سرعت در هدوپ از اهمیت کمتری برخوردار است. بنابراین، بهتراست درمواردی که باید به یک رویداد، پاسخی فوری داده شود، از پلتفرم پردازش تحلیلی Stream data استفاده شود.
مثلاً وقتی که وضعیت پزشکی یک بیمار ناگهان تغییر کند ، باید برمبنای تحلیل انجام شده با این پلتفرم اقدام لازم انجام گیرد.

منبع: وب سایت TutorialsPoint
نظرات