سه شنبه , مرداد ۲۹ ۱۳۹۸
خانه / WebMining / اصول وب کاوی – Web Content Mining
وب کاوی

اصول وب کاوی – Web Content Mining

استخراج دانش مفید از محتوای وب را Web Content Mining گویند.

Symantic Web: به یعنی قابل فهم کردن محتوای وب برای ماشین است.

Image Symantic Proccesing: به صورت معنایی از تصاویر استخراج دانش دارد به عنوان مثال اگر تصویری از سی و سه پل را نمایش دهد می تواند تشخیص دهد که این سی و سه پل در اصفهان است و معانی دیگر را ممکن از تصویر که انسان برداشت کند را ماشین برداشت کند.

هر ابزاری که می خواهد کار Web Content Mining در یک سایت انجام دهد اولین کار این است که کلمات کلیدی را از متن استخراج کند و برای هر کلمه کلیدی وزنی اختصاص داده می شود که می توان کلمات را به ریشه های آن برگرداند. این وزن می تواند براساس تعداد تکرار کلمه باشد و یا این کلمه در تیتر جمله آماده است و یا کلمه مربوطه کجای صفحه قرار گرفته مشخص شود. الگوریتم TFIDF این کار را انجام می دهد. اما برای  Symantic Information کلمات استخراج شده معانی انها و آنتولوژی نیز در نظر گرفته می شود.

آنتولوژی(هستی شناسی): به درخت واره معنایی کلمه دسترسی دارد و به معانی کلمات و اشیا و کاربرد انها میپردازد. به عنوان مثال آنتولوژی دانه برنج چندین هزار خط برای توضیح دانه برنج وجود دارد که در برنامه های مختلف از سطوح مختلف ان آنتولوژی استفاده می کند.

یک مثال کاربردی برای Web Content Mining جدول زیر را فرض کنید :

Web Content Mining

جدول بالا که نشان دهنده تعداد تکرار 8 Term در 5 سند می باشد. در این مثال می توان خوشه بندی بر روی اسناد و هم بروی Term ها انجام داد. در مثال بالا  بر روی اسناد خوشه بندی انجام خواهد شد به این صورت که کلماتی که به هم شبیه هستند را به صورت دو به دو در کنار هم نگهداری کن.

Web Content Mining

برای این کار از یک ساختمان داده ماتریسی استفاده خواهد شد. بنابراین یک ماتریس 8*8 خواهیم داشت.

Web Content Mining

ماتریس بالا را بر اساس فرمول شباهت برای هر جفت Term محاسبه می کنیم که به شکل زیر خواهد بود. یک آستانه مشخص می کنیم بیشتر از آستانه را یک و پایین استانه را صفر می کنیم در زیر آستانه را 12 در نظر می گیریم به ماتریس ذیل خواهیم رسید.

Web Content Mining

عدد 12 (آستانه) با  آزمایش های مختلف بدست می اید. از روی ماتریس بالا گراف مربوطه طراحی می شود به صورتیکه به تعداد Term ها Node داریم و ارتباط بین Node ها وجود دارد اگر عدد یک باشد و در غیر این صورت ارتباطی وجود ندارد. بوسیله این ارتباطلات می توان گراف مجاورت را به شکل زیر ترسیم کرد.

Web Content Mining

مرحله آخر به دو روش می توان خوشه بندی را انجام داد.

روش کلیک Clique Method:

روش Clique : گراف را Clique گویند که تمام ندهای آن به هم متصل باشد.

مفهوم ماکزیمال Clique: آن کلیکی که در گراف از همه کلیک های دیگر بزرگتر باشد در واقع از آن نمی توان گرافی را پیدا کرد که ان ندهای کلیک را شامل شود. هر ندی که به تنهایی وجود داشته باشد یعنی به هیچ ند دیگری وصل نباشد خود می تواند یک ماکزیمال کلیک باشد.

در روش کلیک ماکزیمال کلیک ها می تواند همان خوشه های ما باشد. در مثال بالا به روش کلیک خوشه های زیر را خواهیم داشت.

Web Content Mining

روش Single Link:

در این روش هر ندی که مستقیم یا غیر مستقیم به دیگر ندها متصل هستند در یک خوشه قرار خواهند گرفت در مثال بالا ما تنها دو خوشه به شکل زیر خواهیم داشت : (برای این کار ها از پیمایش BFS و DFS می توان استفاده کرد).

Web Content Mining

تعداد خوشه بیشتر نشان دهنده دسته بندی مناسب نیستند.

در دو روش بالا روش Clique روش قویتر (Strong) است.

در روش دوم OverLab نخواهیم داریم.

 

  • آیا این مقاله مفید بود؟
  • بله   خیر

با تمام وجود علاقمندم مباحث جدید مربوط به برنامه نویسی رو یاد بگیرم و به دیگران یاد بدم. نیمی از زمان روزانه رو صرف یادگیری میکنم. سعی میکنم مقالات مفید و جدید در حوزه برنامه نویسی و به ویژه جاوا اسکریپت رو برای شما دوستان عزیز در لایو گوگل منتشر کنم.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد.