تشخیص هرزنامه وب به کمک تکنیک های داده کاوی

تشخیص هرزنامه وب به کمک تکنیک های داده کاوی

تشخیص-هرزنامه-وب-به-کمک-تکنیک-های-داده-کاوینوع فایل: word (قابل ویرایش)تعداد صفحات : 100 صفحه چکیده:امروزه
هرزنامهها یکی از مشکلات اصلی موتورهای جستجو هستند، به این دلیل که
کیفیت نتایج جستجو را نامطلوب می سازند. در طول سالهایاخیر پیشرفتهای
بسیاری در تشخیص صفحات جعلی وجود داشته است اما در پاسخ تکنیک های هرزنامه
جدید نیز پدیدار شده اند. لازم است برای پیشی گرفتن به این حملات، تکنیکهای
ضد هرزنامه بهبود یابد.یک مساله عادی که ما با آن در این زمینه مواجه
می شویم این است که خیلی از اسناد رتبه بالایی را توسط موتور جستجو بدست
آورده اند در حالی که سزاوار آن نبوده اند. با توجه به گسترش روزافزون وب و
همچنین ظهور تکنیک های جدید هرزنامه توسط هرزنامه نویسان، هدف از این
پایان نامه بررسی روش های مبتنی بر داده کاوی جهت شناسایی هرچه بهتر صفحات
هرزنامه از غیرهرزنامه است.الگوریتم ها و نرم افزارهای داده کاوی از
جمله ابزارهای مورد استفاده در این پژوهش هستند. از مجموعه داده استاندارد
UK2007 و نرم افزار وکا جهت ارائه مدلهایی بهینه استفاده شده است و سعیبر
ارائه مدلهایی است که ضمن کاهش ویژگی های مورد استفاده جهت شناسایی صفحات
هرزنامه از غیرهرزنامه کارایی مطلوبی را نیز ارائه دهد.کلید واژه:هرزنامه-تکنیک های داده کاویفهرست مطالب:چکیده ۱فصل اول:مقدمه۲۱-۱ پیش گفتار ۳ 1-2 بیان مسئله ۳۱-۳ اهمیت و ضرورت انجام تحقیق ۴ساختار پایان نامه ۵فصل دوم:وب و هرزنامه های وب۶۲-۱ وب جهان گستر7۲-۱-۱ وب به عنوان گراف۸۲-۱-۲ گراف وب در صفحه و سطح میزبان۸۲-۱-۳ اتصال۹۲-۲ موتورهای جستجو۱۰۲-۲-۱ معماری موتورهای جستجوی وب۱۱۲-۲-۲ سرویس دهنده پرس و جوی موتور جستجو۱۳۲-۳ رتبه بندی ۱۳۲-۳-۱ رتبه بندی مبتنی بر محتوا۱۳۲-۳-۲ الگوریتم های مبتنی بر لینک۱۵۲-۴ هرزنامه وب۱۹۲-۴-۱ هرزنامه محتوا۲۰۲-۴-۲ هرزنامه لینک ۲۲۲-۴-۳ تکنیک های مخفی ۲۷۲-۵ یادگیری ماشین ۲۹۲-۵-۱ NaΪVe Bayes30۲-۵-۲ درخت تصمیم31۲-۵-۳ ماشین بردار پشتیبان۳۳۲-۶ ترکیب طبقه بندی کننده ها۳۵۲-۶-۱ Bagging35۲-۶-۲ Boosting36۲-۷ روش های ارزیابی37۲-۷-۱ ارزیابی متقاطع ۳۸۲-۷-۲دقت و فراخوانی۳۸۲-۷-۳ منحنی ROC39۲-۸ جمع بندی۴۰فصل سوم: پیشینه تحقیق41۳-۱ مجموعه داده های مورد استفاده توسط محققین ۴۲۳-۱-۱ UK200642۳-۱-۲ UK200743۳-۱-۳ مجموعه داده جمع آوری شده با استفاده از جستجوی MSN44۳-۱-۴ DC201044۳-۲ مطالعات مبتنی بر محتوا۴۷۳-۳ روش های مبتنی بر لینک۵۱۳-۳-۱ الگوریتم های مبتنی بر انتشار برچسب ها ۵۱۳-۳-۲ رتبه بندی تابعی55۳-۳-۳ الگوریتم های هرس لینک و وزن دهی دوباره۵۶۳-۳-۴ الگوریتم های مبتنی بر پالایش برچسب ها ۵۷۳-۴ روش های مبتی بر لینک و محتوا ۵۸۳-۴-۱ مطالعات مبتنی بر کاهش ویژگی ۵۷۳-۴-۲ مطالعات مبتنی بر ترکیب طبقه بندی کننده ها۵۹۳-۴-۳ مطالعات مبتنی بر تست اهمیت ویژگی های متفاوت در تشخیص هرزنامه63۳-۴-۴ مطالعات مبتنی بر پیکربندی وب ۷۱۳-۴-۵ تشخیص هرزنامه از طریق آنالیز مدلهای زبانی۷۶۳-۴-۶ تاثیر زبان صفحه بر ویژگی های تشخیص هرزنامه وب۷۹۳-۴-۷ رویکرد ترکیب ویژگی های مبتنی بر محتوا و لینک برای صفحات عربی ۸۲۳-۵ جمع بندی ۸۳فصل چهارم: پیاده سازی ایده پیشنهادی ۸۵۴-۱ مقدمه۸۶۴-۲ ویژگی های مجموعه داده انتخابی ۸۷۴-۳ پیش پردازش ۹۲۴-۳-۱ پیش پردازش مجموعه داده UK2007 93۴-۳-۲ کاهش ویژگی ها با اعمال الگوریتم های داده کاوی۹۳۴-۴ داده کاوی و ارزیابی مدل ها ۹۶4-4-1 نتایج الگوریتم ها با اعمال روش های کاهش ویژگی102۴-۴-۲ مقایسه مقدارF_measure بدست آمده از الگوریتم ها با اعمال بر روی ویژگی های بدست آمدهاز الگوریتم های کاهش ویژگی۱۰۹۴-۵ تفسیر نتایج۱۱۰۴-۶ جمع بندی ۱۱۴فصل پنجم: نتیجه گیری و کارهای آتی ۱۱۵۵-۱نتیجه گیری ۱۱۶۵-۲ کارهای آتی- ۱۱۷منابع۱۱۸

دانلود فایل

دانلود فایل تشخیص هرزنامه وب به کمک تکنیک های داده کاوی

تشخیص هرزنامه وب به کمک تکنیک های داده کاوی,پایان نامه داده کاوی,داده کاوی,تشخیص هرزنامه با داده کاوی,پایان نامه تشخیص هرزنامه با داده کاوی,مقالات داده کاوی