با ظهور تکنولوژیها و دستگاهها و ابزارهای ارتباطی همچون شبکه های اجتماعی، همه ساله بر حجم داده های تولید شده توسط انسانها افزوده میشود. حجم داده تولیدی انسانها از ابتدای بهکارگیری کامپیوترها تا سال 2003، 5 میلیارد گیگابایت بوده است. اگر تمامی این داده ها را روی هارد دیسکها ذخیره کنیم، تعداد این دیسکها، مساحتی معادل با یک زمین فوتبال را بهطور کامل خواهند پوشاند. این درحالی است که همین حجم داده در سال 2011، طی تنها 2 روز و در سال 2013 طی تنها 10 دقیقه قابل تولید بوده است. نکته جالب توجه این است که روند سرعت رشد تولید داده ها همچنان رو به افزایش است. 90% داده های تولید شده از ابتدا تاکنون، در چند سال اخیر تولید شدهاست.
بیگ دیتا یا کلان داده چیست؟
کلان داده در مفهوم عام، همانطور که از نام آن هم پیداست، به حجم بالای داده اشاره دارد. در واقع کلان داده را میتوان مجموعهای از دیتاست ها دانست که با استفاده از تکنیکهای محاسباتی معمول و سنتی قابل پردازش نیستند. از سوی دیگر، مفهوم کلان داده تنها متکی بر داده ها نیست، بلکه حوزهای است که انواع ابزارها، تکنیکها و چارچوبهای مورد نیاز پردازش آن داده ها را شامل میشود.
Big Data چه نوع داده هایی را شامل میشود؟
Big Data تمامی انواع دادهایی که توسط وسایل، ابزارها و نرم افزارهای کاربردی تولید میشوند را شامل میشود.
فهرستی از انواع داده هایی که زیر چتر کلان داده قرار میگیرند عبارتند از:
-
Black Box Data: این نوع داده ها از وسایل و دستگاههایی چون هلیکوپتر، هواپیما و جتها بدست میآیند. داده هایی چون صدای خدمه پرواز در طول سفر، صدای ضبط شدهی آنها و اطلاعات عملکردی هواپیما.
-
داده های شبکه های اجتماعی: شبکه های اجتماعی چون فیسبوک و تویتر اطلاعات و پست های میلیونها کاربر در سراسر جهان را دارا هستند.
-
داده های بازارهای بورس: داده های بازارهای بورس اطلاعات خرید و فروش سهام شرکتهای مختلف دنیا را در خود ذخیره کردهاند.
-
داده های شبکه های توزیع برق: داده های شبکه های توزیع برق، اطلاعات مصرفکنندگان بر حسب ایستگاههای مختلف را دارا هستند.
-
داده های حمل و نقل: این دسته، داده هایی همچون نوع، مدل، ظرفیت، مسیر و میزان دسترسیپذیری وسایل نقلیه را شامل میشوند.
-
داده های موتورهای جستجو: موتورهای جستجو حجم زیادی از داده ها را از پایگاه های داده مختلف در اختیار کاربران قرار میدهند.
Big Data را میتوان مجموعهای از داده ها دانست که ویژگی های حجم (Volume) بالا، سرعت رشد (Velocity) بالا و تنوع (Variety) بالا را دارا باشند.
داده های مورد استفاده در حوزه کلان داده ها در 3 دسته زیر قرار میگیرند:
- داده های ساختاریافته
داده های ساختاریافته یاStructured data داده هایی همچون داده های جداول رابطه ای هستند.
- داده های نیمه ساخت یافته
داده های نیمه ساخت یافته یا Semi Structured data داده هایی همچون داده های XML هستند.
- داده های بدون ساختار
داده های بدون ساختار یا Unstructured data مانند داده های موجود در فایلهای word، pdf، متون و فیلم ها و داده های چند رسانه ای.
مزایای کلان داده ها
کلان داده را میتوان یکی از مهمترین حوزههای تخصصی سالهای اخیر دانست که به عنوان یک فناوری مهم و حیاتی در دنیای مدرن امروز در حال ظهور و پیشرفت هر چه بیشتر است.
برخی مزایای حوزه ی بیگ دیتا:
آژانسهای بازاریابی با استفاده از اطلاعات موجود در شبکه های اجتماعی مانند فیسبوک میتوانند نسبت به نوع پاسخ مشتریان خود به کمپین ها و رویکردهای تبلیغاتی کسب و کار خود، آگاهی پیدا کنند.
شرکتهای تولیدی و خرده فروشیها میتوانند با استفاده از استخراج اطلاعات موجود در شبکه های اجتماعی مانند ترجیحات کاربران در خرید کالاها و خدمات، برنامه ریزی دقیق تری در فرآیند تولید خود داشته باشند.
بیمارستانها میتوانند با استفاده از داده های مربوط به سابقه پزشکی بیماران، روند سرویسدهی به بیماران خود را بهبود ببخشند.
تکنولوژیهای حوزه ی Big Data
فناوریهای مرتبط با کلان داده ها نقش اساسی در دستیابی به تجزیه و تحلیل های دقیقتر از داده ها دارند. تحلیلهای دقیقتر به نوبهی خود منجر به تصمیم گیری های واقعیتر شده و همین مساله کارایی عملیاتی را افزایش داده و هزینهها و ریسک کسب و کار را کاهش میدهد.
برای بهرهمندی از تمامی ظرفیتهای بیگ دیتا ، نیازمند زیرساختی خواهیم بود که بتواند حجم بالایی از داده های ساخت یافته یا ساختار نیافته را به صورت بلادرنگ مدیریت و پردازش کرده و در عین حال محرمانگی و امنیت داده ها را نیز حفظ کند.
در حال حاضر فناوریهای مختلفی در حوزه کار با Big Data از طرف شرکتها و موسسات بزرگ دنیا همچون آمازون، آی بی ام، مایکروسافت و ... ارائه شدهاست. صرف نظر از نوع فناوری حاکم بر رویکردهای کار با کلان داده ها، این فناوریها به 2 کلاس اصلی تقسیمبندی میشوند:
- تکنولوژی های کلان داده در سطوح عملیاتی یاOperational Big Data
این حوزه، سیستمهایی چون MongoDB را شامل میشود که قابلیتهای عملکردی را برای حجم کار تعاملی و برخط در محل ذخیره داده ها فراهم میکند.
سیستمهای بیگ دیتا مبتنی بر NoSQL برای بهرهگیری از مزایای معماریهای جدید محاسبات ابری طراحی شدهاند تا از این طریق محاسبات با حجم پردازش بالا، با کمترین هزینه و با بالاترین کارایی انجام شود. از این طریق، مدیریت بار کاری Big Data در سطوح عملیاتی سادهتر و ارزانتر و پیادهسازی رویکردهای آن سریعتر خواهد بود.
بعضی سیستمهای NoSQL میتوانند الگوها و روندهای موجود در داده ها را با حداقل کدنویسی و بدون نیاز به افراد خبره و زیرساختهای اضافی کشف کنند.
- تکنولوژی های بیگ دیتا در سطوح تحلیلی یا Analytical Big Data
در این حوزه میتوان به سیستمهایی چون پایگاه داده های پردازش موازی یا Massively Parallel Processing (MPP) database systems و نیز MapReduce اشاره کرد که با تمرکز بر استفاده از حداکثر یا تمام حجم داده ها، امکان تجزیه و تحلیل های گذشته نگر و پیچیده را فراهم میکنند.
MapReduce شیوهای جدید در تجزیه و تحلیل داده ها ارائه میدهد که میتوان آن را مکمل قابلیتهای ارائه شده توسط زبان SQL دانست. سیستمهای مبتنی بر MapReduce میتوانند با استفاده از یک سرور منفرد یا مجموعهای از چندین کامپیوتر کوچک راهاندازی شوند.
در حالت کلی، این دو کلاس از فناوریها یعنی Analytical Big Data و Operational Big Data را میتوان مکمل یکدیگر دانست که غالبا در کنار یکدیگر راهاندازی میشوند.
هدوپ، Apache Hadoop یا Hadoop، یکی از ابزارهای شناخته شده کلان داده است.
این Framework یک چارچوب نرم افزاری متن باز است که به زبان java نوشته شده است و برای ذخیره سازی توزیع شده و محاسبات توزیع شده حجم زیاد داده، روی خوشههای کامپیوتری بهکار می رود.
تمام ماژول های Hadoop با این پیش فرض اساسی طراحی شده است که مشکل از کار افتادن سخت افزار، یک مشکل معمول است و به همین لحاظ این چارچوب باید بهطور خودکار این مشکل را حل کند.
هسته اصلی Apache Hadoop از از یک بخش ذخیره سازی، تحت عنوان HDFS یا Hadoop Distributed File System و یک بخش محاسبات، تحت عنوان MapReduce تشکیل شده است.
سیستمهای عملیاتی در مقابل سیستمهای تحلیلی
سیستم های عملیاتی سیستم های تحلیلی تاخیر - Latency 1 میلی ثانیه – 100 میلی ثانیه 1 دقیقه – 100 دقیقه همزمانی - Concurrency 100،000 – 1 10 - 1 الگوی دسترسی نوشتن و خواندن فقط خواندن نوع زبان جستجو گزینشی (انتخابی) غیر انتخابی محدوده داده عملیاتی گذشتهنگر کاربران نهایی مشتریان دانشمندان داده نوع تکنولوژی NoSQL MapReduce و MPP database
چالشهای پیش روی بیگ دیتا
برخی چالشهای پیش روی بیگ دیتا را میتوان به صورت زیر برشمرد:
-
استخراج داده ها
-
گزینش داده ها
-
ذخیره سازی داده ها
-
جستجوی داده ها
-
به اشتراک گذاری داده ها
-
نقل و انتقال داده ها
-
تجزیه و تحلیل داده ها
-
نمایش و ارائه داده ها
سازمانها برای مقابله با چالشهای پیش گفته معمولا از سرورهای شرکتی استفاده میکنند.
منبع: وب سایت TutorialsPoint
جهت آگاهی از دوره های آموزشی هادوپ که توسط گروه هوش کسب و کار ایرانیان برگزار می شود به آدرس زیر مراجعه کنید:
نظرات