LOGIN
ثبت نام یا ورود
Avatar
هنوز ثبت نام نکرده اید؟

هم اکنون عضو پلاک آبی شوید .و به اطلاعات وب سایت ما دسترسی داشته باشید

تنظیم مجدد کلمه عبور - نام کاربری را فراموش کرده ام

نام کاربری
کلمه عبور
مرا به خاطر بسپار

placabi articles

Web Mining و کاوش در محتوای وب

  • این مورد را ارزیابی کنید
    (11 رای‌ها)

در این فیلمک که توسط گروه هوش کسب و کار ایرانیان تهیه شده است، در مدت 90 ثانیه با کاوش در محتوای وب یا Web Content Mining به عنوان یکی از رویکردهای وب کاوی آشنا می‌شوید.


 پیش تر، به ارایه کاربردهای وب کاوی ( Web Mining ) پرداختیم و گفتیم روش های وب کاوی بر مبنای این که چه نوع داده ای را مورد کاوش قرار می‌دهیم، به سه گروه مختلف طبقه بندی می‌شود.

یکی از این روش‌ها عبارت است از WCM ( Web Content Mining ) که در زیر به شرح توضیحاتی در این خصوص می‌پردازیم.

 

آموزش کاوش در محتوای وب

کاوش در محتوای وب یا Web Content Mining

محتوای وب شامل انواع مختلفی از داده ها از قبیل متن، تصویر، صدا، ویدئو، متادیتا و پیوندها است و کاوش در محتوای وب به معنای استخراج اطلاعات مفید از محتوای مستندات وب است که می‌تواند تحت سه عنوان کلی زیر مورد بررسی قرار گیرد:

  • کاوش در نتایج جستجو در وب
  • کاوش در اطلاعات و صفحات وب
  • بازیابی اطلاعات در وب

یکی از بارزترین نمونه‌های کاوش در محتوای وب یا Web Content Mining ، سرچ گوگل است.

 داده های استخراج شده در نتیجه کاوش در محتوای وب در یکی از گروه‌های زیر قرار می‌گیرند:

  • داده های ساخت یافته مانند داده های جداول یا پایگاه داده‌ی تولید شده توسط صفحات HTML
  • داده های ساخت نیافته از قبیل متن‌های آزاد
  • داده های تا حدی ساخت یافته مانند مستندات HTML

 

 تکنیک‌های Web Content Mining ) WCM )

برای کاوش در محتوای وب از تکنیک‌های طبقه بندی ، خوشه بندی  و قوانین وابستگی استفاده می‌شود.

  • طبقه بندی یا Classification : فرآیندی است برای یافتن مدلی که رده‌های موجود در داده را تعریف و متمایز می‌کند
  • خوشه‌بندی یا Clustering : خوشه بندی فرآیندی است که بر مبنای آن نمونه‌ها به دسته‌هایی با اعضای مشابه هم تقسیم می‌شوند
  • قوانین وابستگی یا Association Rules : یعنی الگوهایی که بر مبنای آن‌ها، ارتباط میان رویدادها مشخص می‌شود و به عبارتی، یک رویداد به رویداد دیگر مربوط می‌شود

 

 متدولوژی یا رویکردهای کاوش در محتوای وب

برای کاوش در محتوای وب یا Web Content Mining از متدولوژی‌های پایین به بالا، بالا به پایین و یا ترکیبی از این متدولوژی ها استفاده می‌کنند.

 

الگوريتم هاي کاوش محتوا در وب

  • الگوریتم درخت تصمیم
  • الگوریتم شبکه عصبی
  • سایر الگوریتم‌ ها مثل برنامه‌نويسي منطق استنتاجي، تکنيک هاي نزديکترين همسايه، تکنيک هاي مبتني بر الگوريتم هاي ژنتيک، منطق فازي، يادگيري مفهوم و استدلال مبتني بر قانون

 

تکنولوژی‌های مورد استفاده در انجام Web Content Mining :

 

 تکنولوژی پردازش زبان طبیعی

وب کاوی - کاوش محتوای وب

با استفاده از NLP یا Natural Language Processing رایانه‌ها قادر خواهند بود تا گفتار یا نوشتار تولید شده در قالب و ساختار یک زبان طبیعی را درک و تحلیل نموده یا آن را تولید کنند. با استفاده از این تکنولوژی می‌توان از صفحات وب و بانک‌های اطلاعاتی نوشتاری جهت پاسخ دادن به پرسش‌ها استفاده کرد.

 

تکنولوژی بازیابی اطلاعات

Web Content Mining

بازیابی اطلاعات یا Information Retrieval به فناوری و دانش پیچیده جستجو و استخراج اطلاعات در انواع گوناگون منابع اطلاعاتی مانند وب اطلاق می‌شود.

منظور از بازیابی اطلاعات آن است که اسناد مرتبط با موضوع جستجو را به طور خودکار از میان محتوای موجود بازیابی کنیم به شکلی که کم‌ترین میزان اسناد غیرمرتبط با موضوع جستجو در نتایج قرار گیرد. از بازیابی اطلاعات برای ایندکس کردن متن‌ها و یافتن اسناد مرتبط با موضوع جستجو استفاده می‌شود. 

هدف بازیابی اطلاعات مدلسازی، طراحی و اجرای سیستم‌هایی است که قادر باشند دسترسی به مقادیر عظیم اطلاعات را بر پایه محتوا، به شکل سریع و کارآمد تامین کنند.

 
 
خواندن 2835 دفعه آخرین ویرایش در چهارشنبه, 15 آذر 1396 16:49
امیرحسین معصومی

کارشناس توسعه خدمات/محصول شرکت پلاک آبی

 

 

عضو تیم تولید محتوای وب سایت و شبکه‌های اجتماعی شرکت پلاک آبی

دانشجوی کارشناسی ارشد مهندسی صنایع دانشگاه علم و صنعت

 

  • هیچ نظری یافت نشد

نظر خود را اضافه کنید.

ارسال نظر به عنوان مهمان

0
نظر شما به دست مدیر خواهد رسید
 تماس با ما

تلفن: 09211437289
پست الکترونیک:
info @ p l a c a b i . com

 

We use cookies to improve our website. By continuing to use this website, you are giving consent to cookies being used. More details…