8 موضوع داغ حوزه کلان داده ( Big Data ) در سال 2016
توسعه کلان داده ( بیگ دیتا ) و تاثیر تجزیه و تحلیل های مبتنی بر Big Data بر فرایندهای تصمیم گیری باعث توسعه سیستمهای پشتیبان داده های غیر رابطهای و ساخت نیافته شده است. در مقاله زیر به شرح مهم ترین و پرطرفدارترین موضوعات مطرح در حوزه کلان داده در سال 2016 پرداختهایم.
سال 2015 یکی از درخشانترین سالها در زمینه پیشرفت در حوزه بیگ دیتا بوده است. کسب و کارها به تدریج به اهمیت و نقشی که داده ها (در تمامی انواع و اندازهها) روی ارتقای سطح تصمیم گیری های سازمانی ایجاد میکنند واقف شدند و همزمان، رویکردی که تا قبل از این غیرمعقول و عجیب به نظر میرسید، به رویکردی فراگیر بدل شد. در سال 2016 شاهد تداوم رشد سیستمهایی هستیم که توانایی پشتیبانی از داده های غیر رابطهای و غیر ساخت یافته و حجمهای بالای داده را دارند. علت رشد و تکامل روزافزون این سیستمها آن است که وجود آنها درکنار سایر سیستمهای مورد استفاده در بخش فنآوری اطلاعات در شرکتها، باعث عملکرد بهتر آنها و انطباق هرچه بیشتر با استانداردهای موجود خواهد شد. این امر، اهمیت درک ارزش کلان داده ( بیگ دیتا ) را چه برای کاربران کسب و کار و چه دانشمندان علم داده بیش از پیش مشخص میکند.
داغترین موضوعات مطرح در حوزه کلان داده یا بیگ دیتا در سال2016
1-پادشاهی NoSQL
فنآوریهای NoSQL که عموما از آن در ذخیره و بازیابی دادههای غیرساخت یافته استفاده میشود را میتوان از جدیدترین و داغترین فنآوریها در حوزه Big Data در نظر گرفت. بهدلیل توجه جوامع علمی به بحث پایگاه های داده بدون شما[1] یا پایگاه های داده بدون ساختار، انتقال از پایگاه های داده رابطهای به پایگاه های داده مبتنی بر NoSQL به عنصر اصلی چشمانداز فنآوری اطلاعات شرکتها تبدیل شده است. نتایج تحقیقات بازار انجام شده توسط موسسه گارتنر در زمینه سیستم های مدیریت پایگاه های داده عملیاتی اهمیت این مساله را پر رنگتر کرده است. طبق گزارش گارتنر Oracle، IBM، Microsoft و SAP تا قبل از روی کار آمدن پایگاه های مبتنی بر NoSQL ، در این عرصه پیشگام بودهاند اما در سالهای اخیر، موسساتی چون MongoDB ، DataStax ، Redis Labs ، MarkLogic و Amazon Web Services که از فنآوری NoSQL استفاده کردهاند، از رقبای خود پیشی گرفتهاند. طبق گزارشهای ارائه شده، روند رشد تعداد این شرکتها نسبت به شرکتهایی که از پایگاه های داده سنتی استفاده میکنند رو به افزایش است.
2-کاربرد چارچوب محاسباتی Apache Spark در بیگ دیتا
در سالهای اخیر، Apache Spark که قبلاً یکی از اجزاء موجود در چارچوب نرمافزاری Hadoop بود، به یک بستر محبوب برای شرکتها در زمینه کلان داده تبدیل شده است. طبق گفتههای Matei Zaharia ایدهپرداز پروژه Spark، چارچوب محاسباتی Spark سرعت پردازش داده ها را نسبت به Hadoop افزایش داده و در حال حاضر بزرگترین پروژه متن باز در حوزه کار با کلان داده یا بیگ دیتا محسوب میشود. هم اکنون موارد زیادی از عملیاتی سازی کاربردهای Spark در شرکتهایی چون Goldman Sache دیده میشود. در تمامی این نمونهها، چارچوب Spark همچون یک زبان واحد برای تجزیه و تحلیل بیگ دیتا مورد استفاده قرار گرفته است.
3-تکامل پروژههای Hadoop ! حرکت کسب وکارها از مفاهیم تئوری به عملیاتیسازی این چارچوب
در تحقیقی که اخیراً روی 2200 کاربر Hadoop انجام گرفته، مشخص شده است که از میان شرکتهای حاضر در عرصهی تحقیقات، تنها 3% آنها مایل نیستند از این چارچوب در یکسال آینده استفاده کنند. 76% از شرکتهایی که جزو کاربران چارچوب Hadoop به شمار میآیند، بر برنامه ریزی خود برای ادامه استفاده از این چارچوب در 3 ماه آتی تاکید کردهاند و تقریبا نیمی از شرکتهایی که جزو کاربران Hadoop نبودهاند اذعان داشتهاند که در یک سال آتی از این چارچوب استفاده خواهند کرد. از سویی دیگر، نتایج تحقیقی مشابه نشان داده است که نرمافزار Tableau ، نرمافزار پیشرو در حوزه هوش کسب و کار (یا هوش تجاری ) بوده و توسط شرکتها مورد استفاده قرار خواهد گرفت، چه توسط شرکتهایی که در حال استفاده از چارچوب Hadoop هستند و چه شرکتهایی که قصد دارند در آینده Hadoop را بهکارگیرند.
4-رشد کلان داده یا Big Data : تاثیر چارچوب Hadoop بر ارتقای کیفیت کسب و کار
همزمان با توسعهی استفاده از چارچوب Hadoop در برنامههای فنآوری اطلاعات شرکتها، شاهد رشد سرمایهگذاری روی مواردی مثل امنیت سیستم های کسب و کار نیز هستیم. پروژهی Apache Sentry سیستمی را فراهم میکند که به کمک آن، دسترسی به داده ها و متادیتای ذخیره شده در خوشههای Hadoop از طریق fine-grained, role based authorization انجام میشود. این موارد، نمونهای از قابلیتهایی هستند که مشتریان سیستم های مدیریت پایگاه داده ی رابطهای، انتظار دارند برآورده شود و در واقع جزو فنآوریهای پیشگام در حوزه بیگ دیتا محسوب میشوند. بنابراین نادیده گرفتن حتی یک مورد از آنها هزینههای سنگینی بر کسب و کار و روند پذیرش این فنآوریها توسط شرکتها تحمیل خواهد کرد.
5-رشد سریعتر کلان داده یا Big Data از طریق افزایش سرعت Hadoop
با افزایش سطح محبوبیت Hadoop در میان شرکتها، تقاضای کاربران برای دسترسی به قابلیتهای جستجوی سریعتر داده ها رو به افزایش است. برای برآوردهسازی این حجم تقاضا، شاهد روی کار آمدن فنآوریهایی چون Cloudera Impala ، AtScale ، Actian Vector و Jethro Data هستیم که فنآوریهای قدیمیتری چون OLAP Cube را قادر میسازند تا هرچه بیشتر مفاهیم هوش کسب و کار ( یا هوش تجاری ) سنتی و حوزه کلان داده ( بیگ دیتا ) را به یکدیگر نزدیک کنند.
6-ابزارهایی که به کاربران در کاوش انواع مختلف داده کمک میکنند
ابزارهای سلف سرویس آماده سازی داده روز به روز در حال گسترشند. این مسئله از یک سو از گسترش استفاده از ابزارهایی چون Tableau (که با استفاده از آن میتوان دادههای کسب و کار و کاربران آن را کاوش کرد) سرچشمه میگیرد که به نوبه خود سرعت پردازش و تجزیه و تحلیل داده ها را افزایش داده و زمان مورد نیاز برای تحلیل آنها را کاهش میدهد، و از سوی دیگر کاربران کسب و کار مایل هستند که زمان و پیچیدگی فرآیند آماده سازی داده های مورد نیاز تجزیه و تحلیل را کاهش دهند. اهمیت این مساله بهخصوص در مواجهه با کلان داده ها ( Big Data ) که در آن با حجم بالایی از داده ها در قالبها و انواع متفاوت سر و کار داریم، نمود بیشتری پیدا میکند. نوآوریهای بسیاری در این زمینه از سوی شرکتهایی که در زمینه آماده سازی داده برای کاربران نهایی فعالیت میکنند، مانند Alteryx، Trifacta، Paxata و Lavastorm ارائه شده است.
7-رشد انباره های داده مبتنی بر پردازش موازی با استفاده از فنآوری محاسبات ابری( Cloud Computing )
بررسی استفاده از فنآوری انباره داده در سالهای اخیر نشان داده است که رشد استفاده از آن در حوزه اقتصاد و بازار بسیار کند بوده است. اما در حال حاضر شاهد کاربرد این فنآوری در کنار تکنولوژی محاسبات ابری ( Cloud ) هستیم. شرکت آمازون و بستر Redshift پیشگام ارائه چنین بسترهایی که انباره داده مبتنی بر ابر نامیده میشوند میباشد. Redshift در ابتدا به عنوان سریعترین سرویس وب شرکت آمازون شناخته شد، اما هم اکنون شرکتهای گوگل (ارائهدهنده بستر BigQuery)، مایکروسافت (ارائهدهنده بستر Azure SQL Data Warehouse) و Teradata، همینطور شرکتهای نوپایی چون Snowflake نیز در این زمینه، با Redshift رقابت میکنند. تحلیلگران معتقدند 90% شرکتهایی که تاکنون از چارچوب Hadoop استفاده کردهاند، انباره های داده خود را با چارچوبهای ابری ترکیب کرده و با استفاده از این رویکرد جدید، میتوانند حجم ذخیرهسازی خود را به صورت کاملا پویا افزایش یا کاهش داده و منابع خود را نسبت به حجم ذخیرهسازی محلی خود ارتقا دهند.
8-همگرایی مفاهیم اینترنت اشیا ( IoT )، محاسبات ابری ( Cloud Computing ) و کلان داده ( Big Data )
با وجود پیشرفتهای صورت گرفته، فنآوری کلان داده یا بیگ دیتا هنوز در ابتدای راه است. در آیندهای نه چندان دور، داده های بدست آمده از دستگاههای متصل به اینترنت، به سکوی پرتابی برای رشد فنآوریهای محاسبات ابری و بهرهگیری از داده ها در مقیاسهای بسیار بزرگ تبدیل خواهد شد. بههمین دلیل شرکتهای پیشگام در حوزه محاسبات ابری ( Cloud Computing ) و علم داده، مانند گوگل، آمازون و مایکروسافت، با این دیدگاه که در آینده، داده های حاصل از فنآوری اینترنت اشیا ( IOT ) به صورت یکپارچه در موتورهای تجزیه و تحلیل مبتنی بر ابر جمعآوری خواهد شد، فعالیت خود را در حوزه سرویسهای اینترنت اشیا ( IOT ) گسترش دادهاند.
نرمافزار Tableau رویکرد جدیدی در حوزه هوش کسب و کار (یا هوش تجاری ) ارائه نموده که از طریق آن کاربران میتوانند داده های خود را با سرعت بالایی بین منابع مختلف جابجا کرده، به اشتراک بگذارند و آنها را به صورت تصویری نمایش دهند.
[1] Schema-less database
مرجع : Big Data Trends For 2016

پلاک آبی
خدمات مشاوره مدیریت ، داده کاوی و هوش کسب و کار
آموزش، مشاوره و پیاده سازی راهکارهای برتر مدیریتی
نظرات