Web Mining و کاوش در محتوای وب
در این فیلمک که توسط گروه هوش کسب و کار ایرانیان تهیه شده است، در مدت 90 ثانیه با کاوش در محتوای وب یا Web Content Mining به عنوان یکی از رویکردهای وب کاوی آشنا میشوید.
پیش تر، به ارایه کاربردهای وب کاوی ( Web Mining ) پرداختیم و گفتیم روش های وب کاوی بر مبنای این که چه نوع داده ای را مورد کاوش قرار میدهیم، به سه گروه مختلف طبقه بندی میشود.
یکی از این روشها عبارت است از WCM ( Web Content Mining ) که در زیر به شرح توضیحاتی در این خصوص میپردازیم.
کاوش در محتوای وب یا Web Content Mining
محتوای وب شامل انواع مختلفی از داده ها از قبیل متن، تصویر، صدا، ویدئو، متادیتا و پیوندها است و کاوش در محتوای وب به معنای استخراج اطلاعات مفید از محتوای مستندات وب است که میتواند تحت سه عنوان کلی زیر مورد بررسی قرار گیرد:
- کاوش در نتایج جستجو در وب
- کاوش در اطلاعات و صفحات وب
- بازیابی اطلاعات در وب
یکی از بارزترین نمونههای کاوش در محتوای وب یا Web Content Mining ، سرچ گوگل است.
داده های استخراج شده در نتیجه کاوش در محتوای وب در یکی از گروههای زیر قرار میگیرند:
- داده های ساخت یافته مانند داده های جداول یا پایگاه دادهی تولید شده توسط صفحات HTML
- داده های ساخت نیافته از قبیل متنهای آزاد
- داده های تا حدی ساخت یافته مانند مستندات HTML
تکنیکهای Web Content Mining ) WCM )
برای کاوش در محتوای وب از تکنیکهای طبقه بندی ، خوشه بندی و قوانین وابستگی استفاده میشود.
- طبقه بندی یا Classification : فرآیندی است برای یافتن مدلی که ردههای موجود در داده را تعریف و متمایز میکند
- خوشهبندی یا Clustering : خوشه بندی فرآیندی است که بر مبنای آن نمونهها به دستههایی با اعضای مشابه هم تقسیم میشوند
- قوانین وابستگی یا Association Rules : یعنی الگوهایی که بر مبنای آنها، ارتباط میان رویدادها مشخص میشود و به عبارتی، یک رویداد به رویداد دیگر مربوط میشود
متدولوژی یا رویکردهای کاوش در محتوای وب
برای کاوش در محتوای وب یا Web Content Mining از متدولوژیهای پایین به بالا، بالا به پایین و یا ترکیبی از این متدولوژی ها استفاده میکنند.
الگوريتم هاي کاوش محتوا در وب
- الگوریتم درخت تصمیم
- الگوریتم شبکه عصبی
- سایر الگوریتم ها مثل برنامهنويسي منطق استنتاجي، تکنيک هاي نزديکترين همسايه، تکنيک هاي مبتني بر الگوريتم هاي ژنتيک، منطق فازي، يادگيري مفهوم و استدلال مبتني بر قانون
تکنولوژیهای مورد استفاده در انجام Web Content Mining :
تکنولوژی پردازش زبان طبیعی
با استفاده از NLP یا Natural Language Processing رایانهها قادر خواهند بود تا گفتار یا نوشتار تولید شده در قالب و ساختار یک زبان طبیعی را درک و تحلیل نموده یا آن را تولید کنند. با استفاده از این تکنولوژی میتوان از صفحات وب و بانکهای اطلاعاتی نوشتاری جهت پاسخ دادن به پرسشها استفاده کرد.
تکنولوژی بازیابی اطلاعات
بازیابی اطلاعات یا Information Retrieval به فناوری و دانش پیچیده جستجو و استخراج اطلاعات در انواع گوناگون منابع اطلاعاتی مانند وب اطلاق میشود.
منظور از بازیابی اطلاعات آن است که اسناد مرتبط با موضوع جستجو را به طور خودکار از میان محتوای موجود بازیابی کنیم به شکلی که کمترین میزان اسناد غیرمرتبط با موضوع جستجو در نتایج قرار گیرد. از بازیابی اطلاعات برای ایندکس کردن متنها و یافتن اسناد مرتبط با موضوع جستجو استفاده میشود.
هدف بازیابی اطلاعات مدلسازی، طراحی و اجرای سیستمهایی است که قادر باشند دسترسی به مقادیر عظیم اطلاعات را بر پایه محتوا، به شکل سریع و کارآمد تامین کنند.
امیرحسین معصومی
کارشناس توسعه خدمات/محصول شرکت پلاک آبی
عضو تیم تولید محتوای وب سایت و شبکههای اجتماعی شرکت پلاک آبی
دانشجوی کارشناسی ارشد مهندسی صنایع دانشگاه علم و صنعت
نظرات