17 روند تجزیه و تحلیل بیگ دیتا در سال 2017
نگاهی اجمالی به روندهای رو به روشد تجزیه و تحلیل بیگ دیتا ، تحلیل داده ها و کلان داده در سال 2017 و جایگاه یادگیری ماشین ، هدوپ و موقعیت شغلی دانشمند داده در این روند
محبوبیت بیگ دیتا روز به روز بیشتر میشود. مطابق گزارش اخیر سازمان بینالمللی کسب و کار تا سال 2020 بازار بیگ دیتا به میزان 203 میلیارد دلار رشد خواهد کرد و به دو برابر ارزش 112 میلیارد دلاری آن در سال 2015 خواهد رسید.
از آنجایی که IT و خدمات کسب و کار بیشترین سهم را در سرمایهگذاریهای تکنولوژیک به خود اختصاص دادهاند، جای تعجب نخواهد بود که بخش زیادی از این بازار صرف صنعت بانکداری شود.
مطابق گزارش IDC، 50% هزینههای بازار بیگ دیتا صرف بانکداری، بخشهای تولیدی، دولت مرکزی و فدرال و خدمات حرفهای خواهد شد.
از سوی دیگر، درحدود 60 میلیارد دلار یعنی بخش قابل توجهی از هزینههای تجزیه و تحلیل کلان داده صرف دستاوردهای اصلی تجزیه و تحلیل داده ها یعنی ابزارهای گزارش گیری و تحلیل داده خواهد شد.
در بخش سخت افزار نیز تا سال 2020 حدود 30 میلیارد دلار سرمایهگذاری خواهد شد.
روندهای اصلی که با رشد کلان داده یا بیگ دیتا شاهد آن خواهیم بود:
تسهیل در انجام تجزیه و تحلیل
با پیچیدهترشدن کار روی کلان داده ها نرم افزارهای مرتبط طوری پیشرفت خواهند کرد که بتوانند از عهده کار با مجموعههای داده چند متغیره بهخوبی برآیند، بدون آن که نیازی به تخصص در علوم داده باشد.
یادگیری ماشین
راهکارهای بیگ دیتا یا کلان داده بیش از پیش به تحلیل مکانیزه داده ها با استفاده از تکنیکهای یادگیری ماشین متکی خواهند شد تا از میان حجم انبوه داده ها ، الگوها را شناسایی نموده و موارد نابهنجار و ناهمگون را تشخیص دهند.
تجزیه و تحلیل های پیشگویانه
یادگیری ماشین نه تنها برای تحلیل تاریخی بلکه برای پیشگویی آینده نیز مورد استفاده قرار خواهد گرفت. این امر با پیش بینی ساده که احتمال B را از روی A استنتاج میکند آغاز شده و با تشخیص الگوها و ناهمگونیهایی که ممکن است رخ دهد، پیچیدهتر خواهد شد.
تجزیه و تحلیل های امنیتی
نرم افزارهای امنیتی رفتارهای مشکوک و نامتعارف را بهخصوص برای تشخیص نفوذ مورد توجه قرار میدهند. امنیت تمامی منابعی که برای استخراج داده مورد استفاده قرار گرفتهاند و بهویژه خود داده ها باید حفظ شود. استفاده از توان پردازش و نرم افزارهای تحلیلی مشابه آنچه که برای تحلیل داده ها بهکار میرود، برای شناسایی سریع موارد مشکوک و اتخاذ واکنش مناسب، امری ضروری است.
استانداردهای کیفی برای جذب متخصصین داده بالا میرود
برنامه نویسان سنتی اگر بخواهند امکان استخدام خود را افزایش دهند، باید مهارت های علم داده را نیز به سایر مهارت های خود بیفزایند. اما درست مانند بسیاری از برنامه نویسانی که خودشان برنامه نویسی را یاد میگیرند، بر تعداد دانشمندان داده که سابقهی کاری غیرسنتی دارند و نیز دانشمند دادهی خود آموخته، افزوده خواهد شد.
کاهش محبوبیت و کاربرد تکنولوژیهای قدیمیتری مثل Hadoop
گزارش 2015 گارتنر حاکی از آن بود که از میزان محبوبیت Hadoop کاسته شده و بهجای آن آپاچی اسپارک که تجزیه و تحلیل به هنگام ارائه میدهد مورد توجه قرار میگیرد. پردازش در هدوپ بهصورت دستهای و طی فرآیندی زمانبر انجام میشود ولی کاربران پاسخ سوالات خود را بهصورت به هنگام یا real time نیاز دارند. از اینرو Hadoop ، MapReduce ، HBase و HDFS همگی به نفع تکنولوژیهای سریعتر، ارزش قبلی خود را از دست میدهند.
بیگ دیتا دیگر عبارت آرمانی نیست
پس از این دیگر بیگ دیتا یا کلان داده اصطلاح داغ و مطرح بازار نخواهد بود بلکه بهمثابه یک تکنولوژی شبیه CRM و RDBMS ( سامانه مدیریت پایگاه داده رابطهای) تلقی خواهد شد. این به آن معناست که تکنولوژی، ابزار دیگری را به خدمت سازمانها درمیآورد. اگر بیگ دیتا را بهعنوان یک کالا درنظر بگیریم، جدای از تبلیغاتی که ممکن است گمراه کننده باشد، امروز این کالا در نقطه اوج چرخه عمر خود قرار گرفته است.
نیاز روزافزون به دانشمند داده
تقاضا برای دانشمند داده از سایر متخصصین تکنولوژی بسیار بیشتر خواهد بود. علاوه بر میزان حقوق و دستمزد، جایگاه شغلی دانشمند داده نیز ارتقا خواهد یافت. با توجه به این نیاز روزافزون، افراد بیشتری به کسب مهارتهای مورد نیاز دانشمندان داده روی خواهند آورد. در این میان برخی سعی میکنند که این مهارتها را بهصورت خود آموخته کسب نمایند و عدهای نیز به آموزش ازطریق جمع سپاری میپردازند.
اینترنت اشیا وبیگ دیتا در روح در یک قالب
میلیونها دستگاه متصل به اینترنت، از تجهیزات پوشیدنی گرفته تا تجهیزات موجود در کارخانهها حجم انبوهی داده تولید میکنند. این امر باعث میشود که با انواع و اقسام بازخوردها از جانب دستگاهها و اشیا مواجه شویم. بازخوردهایی از قبیل بازدهی بیشتر ماشینآلات که بهنوبه خود در به بهینهسازی بازده منجر میشود و دریافت اخطار پیش از خرابی در دستگاه و تعیین زمان از کارافتادن خط تولید که موجب کاهش هزینهها خواهد شد.
Data Lakeها اهمیت و قدرت می گیرند
Data Lake ها، مخازن عظیم اطلاعات، مدتی است که مطرح شدهاند اما د مورد روش استفاده ا ز آنها ایدهی زیادی در دسترس نیست. اما با توجه به نیاز روزافزون سازمانها برای دسترسی سریعتر به اطلاعات مورد نیاز، توجهها دوباره به سمت Data Lake ها معطوف خواهد شد.
داده های به هنگام بحث داغ روز
در نظرسنجی از معماران داده، مدیران IT و تحلیلگران هوش کسب وکار، تقریباً 70% کسانی که به سوالات پاسخ داده بودند، اسپارک را به MapReduce ترجیح دادهاند. دلیل روشن است: اسپارک in-memory بوده و داده ها را بهصورت به هنگام یا real rime پردازش میکند، درحالیکه MapReduce پردازش را بهشکل دستهای یا batch و درساعاتی غیر از ساعات اوج کار انجام میدهد.
فهرست بندی فراداده ها (Metadata Catalogues)
شما میتوانید داده های زیادی را با هدوپ جمعآوری کنید اما نمی توانید همه آنها را پردازش کرده و یا حتی بفهمید که در میان این اطلاعات دقیقاً دنبال چه میگردید! با ورود کاتالوگهای متادیتا، مباحثی مانند کیفیت داده و امنیت داده و سایر تحلیل های بیگ دیتا در یک کاتالوگ ذخیره خواهند شد. فهرست کردن فایلها با استفاده از تگ ها، کشف ارتباط بین داراییهای داده ای و یا حتی ارائه پیشنهاد برای جستجو انجام خواهد شد. شرکتهایی هستند که نرم افزار متن باز Apache Atlas و نرم افزارهایی برای فهرست کردن داده برای Hadoop را پیشنهاد میدهند.
هوش مصنوعی غوغا میکند
هوش مصنوعی و یادگیری ماشین با رشد خارقالعادهای مواجه خواهد شد چرا که داده های عظیمی در هرثانیه تولید میشود و کاربران در هر لحظه منتظر نتایج تجزیه و تحلیل به هنگام این داده ها هستند. برای تسریع روند پاسخگویی به این نیاز، لازم است تا فرآیندها هرچه بیشتر مکانیزه شود. این مسئله به خصوص در مواجهه به حجم انبوه داده های تولید شده توسط اشیا و دستگاههای مرتبط به هم در فناوری اینترنت اشیا مصداق پیدا میکند.
بلوغ داشبورد ها
با توجه به این که مدت زیادی از پیدایش مبحث بیگ دیتا یا کلان داده نگذشته است، هنوز تکنولوژیهای زیادی هستند که باید به بلوغ برسند. یکی ازاین تکنولوژیها، ابزار صحیح برای تفسیر درست و مفید داده ها است. تحلیلگران پیشبینی میکنند که استارتاپ هایی مانند DataHero، Domo و Looker که ابزار قدرتمندتری برای تحلیل ارائه می نمایند، توجه بیشتری به داشبوردها نشان دهند.
چالش حریم خصوصی
با وجود داده هایی که با سرعت چشمگیری در حال تولید و جمعآوری هستند، ممکن است برخی عملیات به دلایل مختلف از سوی نهادهای دولتی متوقف شوند. مثلاً در انتخابات ریاست جمهوری سال 2016 آمریکا، تعداد زیادی آژانس دولتی hack شدند. این مسئله باعث شد تا محدودیت هایی ازجانب دولت بر نحوه جمعآوری و استفاده از داده ها اعمال شود. اتحادیه اروپا نیز قوانین سختی در مورد حریم خصوصی و نحوه ایجاد مدلهای تحلیل داده وضع نموده است. تأثیر این اقدامات هنوز مشخص نشده است، اما در آینده ممکن است دسترسی و استفاده از داده ها سختتر شود.
دستیاران دیجیتال
دستیاران دیجیتال مثل Amazone Echo و Alexa و Chromecast و Google Home به همراه Apple Siri و Microsoft Cortanaنسل آینده ابزار جمعآوری داده ها خواهد بودو این ها وسایلی «دایم در حال گوش کردن» هستند که به مردم در خرید و یا تصمیمگیری برای مصرف کمک میکنند و حداقل می توانند به منبعی از داده برای ارائه دهندگان خدمات مزبور تبدیل گردند.
همه چیز در حافظه (in-memory)
حافظههای کامپیوتری تا به حال نسبتاٌ ارزان بوده اند و از آنجا که پردازشگرهای 64-bit میتوانند به بیش ازexabyte 16 از حافظه دسترسی داشته باشند، فروشندگان سرور تا جایی که بتوانند RAM دینامیک یا DRAM به حافظهی دستگاههای خود اضافه میکنند. ردپای حافظهها را در همه جا، چه در cloud و چه در نرم افزارهای درون سازمانی یا on-premise میتوان دید. این امر راه را برای استفاده از تحلیل های به هنگامی مانند spark هموار میکند. کار با حافظه یا memory سه مرتبه از کار با هارد دیسک سریعتر است و این سرعت بیشتر همان چیزی است که امروزه همه بهدنبال آن هستند.
منبع مقاله: وب سایت Datamation

آزیتا المعی نژاد
مدیر ارتباط با مشتری پلاک آبی
بیش از 15 سال سابقه آموزش، ترجمه و تدوین متون علمی و مدیریتی
عضو تیم تولید محتوای وب سایت و شبکههای اجتماعی شرکت پلاک آبی
کارشناس شیمی کاربردی از دانشگاه صنعتی شریف
نظرات