یکشنبه , اسفند ۵ ۱۳۹۷
خانه / WebMining / اصول وب کاوی – Web Usage Mining
وب کاوی

اصول وب کاوی – Web Usage Mining

Web Usage Mining از جریان کلیک کاربر و فعالیت کاربر استخراج دانش می کند. با شناخت رفتار کاربر می تواند سرویس های مناسب را به آن بدهد. در واقع هدف آنالیز الگوهای رفتاری براساس رفتار کاربر و تعامل ان با سایت می باشد. اولین داده ها لاگ ها ی وب سایت میباشد.

نمونه ای از لاگ ها به شکل زیر است. مدل زیر مدل سیستم عامل ویندوز برای نگهداری لاگ فایل است.

Web Usage Mining

اطلاعاتی مانند زمان، تاریخ، IP ،آدرس وب سایت اصلی، اطلاعات مرورگر مربوطه، اطلاعات منبع کلیک شده و … در این فایلها ذخیره می شود. به این فایل ها، فایلهای جریان کاربر گفته می شود.

از لاگ فایل ها در کارهای اماری نیز استفاده می شود مانند پربازدیدترین سایت ها و …
در لاگ فایل داده تکراری نداریم.

فرایند Web Usage Mining دارای دو فاز است:

Web Usage Mining

فاز پیش پردازش که معموال به صورت Offline انجام می شود و فاز اکتشاف دانش که هم می تواند به صورت Offline و Online انجام شود.

فرایند پیش پردازش در Web Usage Mining بسیار حجیم تر است و زمان زیادی الزم دارد.

فرایند پیش پردازش:

Data Cleaning: در این مرحله داده های اضافی پاک می شود و رکوردهایی که استفاده نمی شود را به دور می ریزد.

شناسایی کاربر:  از مراحل فاز پیش پردازش شناسایی کاربر است که به یکی از روش های زیر می توان این کار را رانجام داد.

  • IP Address Agent شناسایی بر اساس IP کاربر مرسوم ترین روش شناسایی کاربر است.
  • Embedded Session Ids بر اساس Session است که سرور برای هر کاربر ایجاد می کند و ممکن است یک کاربر با Session های مختلف در سیستم شناسایی شود.
  • Registration دقیق ترین روش ولی ممکن است کاربر هیچگاه در سایت ثبت نام نکند.
  • Cookie استفاده از کوکی در شناسایی کاربر مشکل این روش اینست که ممکن است کاربر کوکی های مرورگر را پاک کند.
  • Software Agent استفاده از عامل های نرم افزاری که در سیستم عامل کاربر نصب می شود. مشکل Privicy برای کاربر دارد.

مثالی از روش Embedded Session Ids : هر کاربر چند دقیقه در هر صفحه بوده است.

Web Usage Mining

برای تحلیل رفتار کاربران نیاز به Sessionlyze دارد به این معنی که Session (نشست) های کاربران استخراج شود که معموال در Web Usage Mining به مدت سی دقیقه در نظر گرفته می شود.که البته این زمان می تواند کم یا زیاد شود.

Viwe Page: وقایع کاربران هم می توان در نظر گرفته شود یعنی کاربر چه مدت زمانی را در صفحات توقف داشته است و چه رفتاری داشته است.

موضوع کامل کردن مسیر: اگر کاربر در Browser خود از Back استفاده کند در لاگ فایل ذخیره نمی شود برای این که مسیر کامل رفتار کاربر را داشته باشیم از روی نقشه سایت (Structure) می توانیم رفتار کاربر  را حدس بزنیم.

Web Usage Mining

مثال : یک سری کاربر یک سری صفحاتی را مشاهده کردند می خواهیم خوشه بندی روی ان انجام دهیم (خوشه بندی روی کاربران و یا خوشه بندی روی صفحات). هر کدام از کاربران مطابق جدول زیر صفحاتی را مشاهده کرده اند.

Web Usage Mining

به روش گراف پارتیشنینگ: براساس Object Data مربوطه یک ماتریس شباهت در N تشکیل داده که N نشان دهنده Object انتخابی است. در مثال باال یک ماتریس 9 در 9 تشکیل خواهد شد

Web Usage Mining

یک کار ساده برای محاسبه شباهت به شکل زیر خواهد بود.

Web Usage Mining

که در ان P تعداد ویزگی ها و M تعداد انطباق ها.
برای U1 و U2 تعداد ویژگی ها 12 (تعداد صفحات) است. بنابراین داریم :

Web Usage Mining

که در ان عدد 1 نشان دهنده تعداد صفحات مشترک بازشده توسط U1 و U2 است

به همین ترتیب ماتریس باال تکمیل می گردد.

بعد از تکمیل ماتریس یک آستانه در نظر می گیریم. اعداد بالای آستانه را صفر و اعداد زیر استانه را یک در نظر می گیریم. بنابراین ماتریس بالا به یک ماتریس صفر و یک تشکیل خواهد شد. بعد از روی ماتریس صفر ویک؛ یک گراف تشکیل داده و از روی گراف با دو فرمول Clique و یا Single Link خوشه بندی می کنیم.

مثالی برای Classification

سناریو مسئله : یک چالشی وجود دارد در وب سایتها رباتها کلیک هایی را در وب سایتهای مختلف انجام می دهند. مسئله این است که بتوان این رباتها را از انسانها تشخیص داد. با استفاده از Web Usage Mining داده های آزمایشی در این مثال برچسب گذاری شده است. با آمدن یک ورودی جدید باید تشخیص داد که این ورودی انسان بوده و یا ربات بوده است. با استفاده از روش KNN که یک روش تنبل است مسئه را حل می شود.

برای این کار فاصله Ux با تمام کاربران دیگر مقایسه می شود و کاربران شبیه تر انتخاب می شود و در نهایت رای گیری می شود. از فرمول بالا  استفاده می شود.

Web Usage Mining

K نیز به صورت تجربی و براساس داده های آزمایشی انتخاب می شود.

 

 

  • آیا این مقاله مفید بود؟
  • بله   خیر

با تمام وجود علاقمندم مباحث جدید مربوط به برنامه نویسی رو یاد بگیرم و به دیگران یاد بدم. نیمی از زمان روزانه رو صرف یادگیری میکنم. سعی میکنم مقالات مفید و جدید در حوزه برنامه نویسی و به ویژه جاوا اسکریپت رو برای شما دوستان عزیز در لایو گوگل منتشر کنم.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.