پایان نامه بهبود مدل کاربر در وب­سايت بصورت خودکار با استفاده از معناشناسی با مفاهيم خاص دامنه

پایان نامه بهبود مدل کاربر در وب­سايت بصورت خودکار با استفاده از معناشناسی با مفاهيم خاص دامنه

پایان-نامه-بهبود-مدل-کاربر-در-وب­سايت-بصورت-خودکار-با-استفاده-از-معناشناسی-با-مفاهيم-خاص-دامنهدانلود پايان­­ نامه ارشد کامپيوتر گرايش نرم­ افزار با موضوعبهبود مدل کاربر در وبسايت بصورت خودکار با استفاده از معناشناسی با مفاهيم خاص دامنه که شامل 155 صفحه و بشرح زیر میباشد :فرمت فایل : Word*دارای چکیده به زبان انگلیسیچکیده : گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار میرود. برای مقابله با این مشکل، سیستمهای شخصی سازی وب ارائه شدهاند که محتوا و سرویس های یک وبسایت را با افراد براساس علایق و رفتار گردشی آنها سازگار میکنند. یک مولفهی اساسی در هر سیستم شخصیسازی وب، مدل کاربر آن است. محتوای صفحات یک وبسایت را میتوان به منظور ایجاد مدل دقیقتری از کاربر مورد استفاده قرار داد، اما رویکردهای مبتنی بر کلمات کلیدی نگرش عمیقی از وبسایت ندارند. اخیرا تحقیقاتی برای ترکیب کردن معنای موجود در وب¬سایت در نمایش کاربران آن انجام شده است. تمامی این تلاشها یا از یک رده بندی یا واژگان شناختی خاص و دست ساخته و یا از واژگان¬شناختیهای عمومی مانند WordNet برای نگاشت مشاهده صفحات به عناصر معنایی استفاده میکنند. با این وجود ساختن یک سلسله مراتب از مفاهیم بصورت دستی زمانبر و هزینهبر است. از سوی دیگر منابع معنایی لغوی عمومی از پوشش کم عبارات خاص دامنه رنج می برند. در این پایان نامه ما قصد داریم که هر دوی این نقصها را برطرف کنیم. دستاورد اصلی ما این است که مکانیسمی برای بهبود نمایش کاربر در وبسایت بصورت خودکار و با استفاده از یک منبع معنایی لغوی جامع معرفی میکنیم. ما از Wikipedia، بزرگ ترین دایره المعارف امروزی به عنوان یک منبع غنی معنایی برای بهبود ساخت خودکار مدل برداری از علایق کاربر بهره برداری می کنیم. معماری ارائه شده شامل تعدادی مولفه است که عبارتند از: پیش پردازش اولیه، استخراج مفاهیم دامنه ی وب سایت، استخراج کلمات کلیدی از وب سایت، سازنده ی بردار کلمات کلیدی و نگاشت کلمات کلیدی به مفاهیم. دستاورد مهم دیگر استفاده از ساختار وب سایت برای محدود کردن خودکار مفاهیم خاص دامنه می باشد. سرانجام، آخرین دستاورد آن یک روش جدید نگاشت کلمات کلیدی به مفاهیم است. ارزیابی های ما نشان می دهد که روش پیشنهادی همراه با منبع معنایی لغوی جامع آن کاربران را بصورت موثرتری نسبت به روش کلمات کلیدی و نیز روش های بر مبنای WordNet نمایندگی می کند.AbstractInformation overload is a major problem in the current World Wide Web. To tackle this problem, web personalization systems have been proposed that adapt the contents and services of a website to individual users according to their interests and navigational behaviors. A major component in any web personalization system is its user model. The content of the pages in a website can be utilized in order to create a more precise user model, but keyword based approaches lack a deep insight of the website. Recently a number of researches have been done to incorporate semantics of a website in representation of its users. All of these efforts use either a specific manually constructed taxonomy or ontology or a general purpose one like WordNet to map page views into semantic elements. However, building a hierarchy of concepts manually is time consuming and expensive. On the other hand, general purpose resources suffer from low coverage of domain specific terms. In this thesis we intend to address both these shortcomings. Our main contribution is that we introduce a mechanism to automatically improve the representation of the user in the website using a comprehensive lexical semantic resource. We utilize Wikipedia, the largest encyclopedia to date, as a rich lexical resource to enhance the automatic construction of vector model representation of user interests. The proposed architecture consists of a number of components namely basic log preprocessing, website domain concept extraction, website keyword extraction, keyword vector builder and keyword to concept mapping. Another important contribution is using the structure of the website to automatically narrow down domain specific concepts. Finally the last contribution is a new keyword to concept mapping method. Our evaluations show that the proposed method along with its comprehensive lexical resource represents users more effectively than keyword based approaches and WordNet based approacheفهرست1- مقدمه 9مقدمه 131-1- دلايل نياز به شخصی سازی وب 131-1-1- گرانبار شدن اطلاعات 131-1-2- نیاز به جذب مشتری پابرجای برای وب سایت 141-2- تعریف شخصی سازی وب 141-3- فواید سیستم شخصی سازی وب 141-4- تفاوت شخصی سازی وب با تطبیق طرح کلی سایت 151-5- طبقه بندی عملکردهای اصلی شخصی سازی وب 151-6- نیازمندیهای اصلی سیستم شخصی سازی وب 161-7- رویکرد های موجود در شخصی سازی وب 171-8- نقش وب کاوی کاربرد وب در شخصی سازی وب 181-9- نیاز به استفاده از محتوا در شخصی سازی وب 191-10- نیاز به استفاده از معنا در شخصی سازی وب 191-11- هدف پروژه 211-12- نحوه ی گردآوری مراجع 211-13- رویکرد بکار رفته در تحقیق 211-14- ساختار پایان نامه 22مراجع 222- مطالب پیش زمینه 25مقدمه 252-1- شخصی سازی وب براساس وب کاوی کاربرد وب 252-1-1- آماده سازی و مدلسازی داده 282-1-1-1- منابع و انواع داده 292-1-1-1-1- داده های کاربرد 292-1-1-1-1-1- فرمت های ثبت 302-1-1-1-1-2- منابع داده های کاربرد 322-1-1-1-2- داده های محتوا 362-1-1-1-3- داده های ساختار 372-1-1-1-4- داده های کاربران 372-1-1-2- آماده سازی و پیش پردازش داده ها 382-1-1-2-1- پاکسازی داده ها 382-1-1-2-2- شناسایی کاربر 402-1-1-2-3- تشخیص مشاهده صفحه 412-1-1-2-4- تشخیص جلسه ی کاربر 422-1-1-2-5- تکمیل مسیر 432-1-1-2-6- تشخیص تراکنش 442-1-1-2-7- پیش پردازش نهایی داده های کاربرد 462-1-1-2-8- یکپارچه سازی داده ها از منابع گوناگون 472-1-2- کشف الگو از داده های کاربرد وب 482-1-2-1- سطوح و انواع تحلیل 482-1-2-2- وظایف داده کاوی بر روی داده های کاربرد وب 492-1-2-2-1- کاوش قواعد انجمنی 502-1-2-2-2- کشف الگوهای ترتیبی 522-1-2-2-3- خوشه بندی 572-1-3- استفاده از الگوهای کشف شده جهت شخصی سازی وب 612-1-4- زمینه های تحقیقاتی شخصی سازی وب 612-2- منابع معنایی لغوی 632-2-1- فرهنگ لغت 632-2-2- فرهنگ های جامع 632-2-3- واژگان شناختی و رده بندی 642-2-3-2- رده بندی 672-2-3-3- واژگان شناختی ها و رده بندی های موجود 672-2-3-3-1- واژگان شناختی های مربوط به یک دامنه ی خاص 682-2-3-3-2- واژگان شناختی های عمومی 682-2-3-3-2-1- CYC و OpenCYC 682-2-3-3-2-2- WordNet 682-2-3-3-2-3- دایرکتوری های وب 702-2-3-4- زبان های نمایش واژگان شناختی 712-2-4- فرهنگ های عمومی 722-2-4-1- Wikipedia 722-2-4-1-1- نقاط ضعف و قوت Wikipedia 742-2-4-1-2- ساختار Wikipedia 752-2-4-1-3- انواع اطلاعات معنایی لغوی در Wikipedia 762-2-5- نتیجه گیری 78مراجع 803- کارهای انجام شده در زمینه مدلسازی کاربر در شخصی سازی وب با استفاده از محتوای وب 85مقدمه 853-1- تکنیک های مورد استفاده 863-1-1- تکنیک tf-idf 863-1-2- تکنیک تحلیل معنایی پنهان 863-1-3- تکنیک های مربوط به محاسبه ی ارتباط معنایی دو کلمه 873-1-3-1- معیارهای ارتباط معنایی مهم در ساختارهای سلسله مراتبی 873-1-3-1-1- رویکردهای مبتنی بر مسیر 883-1-3-1-2- رویکردهای مبتنی بر محتوای اطلاعات 883-1-3-1-3- رویکردهای مبتنی بر همپوشانی متن 893-1-3-2- رویکردهای محاسبه ی ارتباط معنایی دو کلمه برای روابط غیر رابطه ی هست 893-1-3-3- کارهای انجام شده در مورد محاسبه ی ارتباط معنایی دو کلمه در Wikipedia 903-2- رویکردهای انجام شده در زمینه ی مدلسازی کاربر در وب سایت با استفاده از محتوای صفحات 913-2-1- رویکردهای بر مبنای کلمات کلیدی 923-2-2- رویکردهای معنایی 923-2-2-1- روش های آماری 933-2-2-2- روش های مبتنی بر سلسله مراتب 94جمع بندی 100مراجع 1014- روش پیشنهادی 106مقدمه 1064-1- تعریف مساله 1064-2- طراحی روش جدید 1064-2-1- مولفه ی پیش پردازش اولیه ی ثبت 1074-2-2- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت 1074-2-3- مولفه ی استخراج مفاهیم دامنه از وب سایت 1114-2-4- مولفه ی سازنده ی بردار کلمات کلیدی 1134-2-5- مولفه ی نگاشت 1154-6- دیاگرام های UML قسمت های اصلی سیستم 1174-7- بررسی تطابق طرح پیشنهادی با صورت مساله 117جمع بندی 119مراجع 1195- جزئیات پیاده سازی 121مقدمه 1215-1- مولفه ی پیش پردازش اولیه ی ثبت 1215-1-2- نحوه ی دریافت ثبت وب سرور 1215-2- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت 1235-3- مولفه ی استخراج مفاهیم دامنه از وب سایت 1255-4- مولفه ی سازنده ی بردار کلمات کلیدی 1255-5- مولفه ی نگاشت 1255-6- پیاده سازی آزمایشات 125جمع بندی 126مراجع 1266- ارزیابی روش پیشنهادی 129مقدمه 1296-1- مجموعه داده ها 1296-2- پارامترهای ارزیابی 1306-3- بررسی درستی مولفه های سیستم 1316-4- آزمایشات انجام شده 1316-4-1- سخت افزار مورد استفاده 1326-4-2- نتایج آزمایشات 1326-4-3- تحلیل نتایج آزمایشات 132جمع بندی 133مراجع 1337- نتیجه گیری و کارهای آینده 136مقدمه 1367-1- نتایج حاصل از پروژه 1367-2- دستاوردهای پروژه 1367-3- کارهای آینده 137مراجع 139واژه نامه 145 فهرست شکل هاشکل 2-1- مولفه های برون خطی آماده سازی داده و کشف الگو 23شکل 2-2- مولفه برخط شخصی سازی وب 24شکل 2-3- تراکنش HTTP 25شکل 2-4- URL و URI 26شکل 2-5-  مکان های جمع آوری داده های کاربرد وب 28شکل 2-6- مثالی از مدل کردن رفتار گردشی کاربر با زنجیره ی مارکف 51شکل 2-7- مثالی از مدل کردن رفتار گردشی در یک درخت تجمعی 53شکل 2-8- مثالی از استخراج پروفایل های تجمعی کاربرد از خوشه های تراکنش ها 55شکل 2-9- بخشی از زمینه های تحقیقاتی شخصی سازی وب 58شکل 2-10- نمونه ای از واژگان شناختی 61شکل 2-11- نمونه ای از یک رده بندی 63شکل 3-1- استفاده از SVD برای تجزیه ماتریس D * T 83شکل 3-2-  مفسر معنایی سیستم ESA 87شکل 3-3- ماتریس SESSION-PAGE VIEW 89شکل 3-4- تولید C-LOG 93شکل 4-1- معماری کلی سیستم پیشنهادی 103شکل 4-2- جزئیات مولفه ی استخراج کلمات کلیدی 105شکل 4-3- شبه کد مولفه استخراج کلمات کاندیدا 106شکل 4-4- شبه کد مولفه رتبه بندی کلمات کاندیدا 106شکل 4-5- جزئیات مولفه ی استخراج مفاهیم دامنه 107شکل 4-6- شبه کد بخش فیلتر کردن کاندیدا 108شکل 4-7- شبه کد مولفه سازنده بردار کلمات کلیدی 110شکل 4-8- شبه کد مولفه ی نگاشت 111شکل 4-9- CLASS DIAGRAM مولفه های اصلی سیستم 113شکل 4-10- SEQUENCE DIAGRAM بخش اصلی سیستم 114 فهرست جدول هاجدول 2-1- مثال هایی از ارتباطات لغوی در WORDNET 66جدول 2-2- منابع اطلاعات معنایی لغوی در WIKIPEDIA 73جدول 2-3- مقایسه ی انواع منابع معنایی لغوی جهت استفاده در شخصی سازی وب 74جدول 4-1- بردارهای کلمات کلیدی صفحات وب سایت مثال1 110جدول 4-2- بردارهای کلمات کلیدی جلسه ی داده شده در مثال1 110جدول 4-3- کلمات کلیدی و وزن های فرضی آنها در مثال 2 112جدول 4-4- مفاهیم موجود در صفحات جلسات کاربر به همراه وزن های آنها در مثال 2 112جدول 5-1- ساختار دستور CUSTOMLOG 117جدول 5-2- ساختار دستور LOGFORMAT 117جدول 6-1- نتایج آزمایشات انجام شده بر روی 100 جلسه ی تصادفی 128

دانلود فایل

دانلود فایل پایان نامه بهبود مدل کاربر در وب­سايت بصورت خودکار با استفاده از معناشناسی با مفاهيم خاص دامنه

پایان, نامه, بهبود, مدل, کاربر, در, وب­سايت, بصورت, خودکار, با, استفاده, از, معناشناسی, با, مفاهيم, خاص, دامنه