مسائل تصميم‌گيري ماركف قابل مشاهده جزئي (POMDP) و کاربردهای آن

فهرست مطالب1- مقدمه2- مفاهيم و تعاريف اوليه2-1- تعريف عامل2-2- ويژگي‌هاي محيط2-3- تعريف سيستم چندعامله2-4- مدل‌هاي مارکوف در سيستم‌هاي چندعامله برای هماهنگی2-4-1- فرآيند تصميم‌گيري ماركف چندعامله (MMDP)2-4-2- مسائل تصميم‌گيري ماركف قابل مشاهده جزئي (POMDP)2-4-2-1- چهارچوب POMDP 2-4-2-1- 1-تشریح مدل 2-4-2-1- 2-فضای حالت S 16 2-4-2-1-3- فضای عمل A 16 2-4-2-1-4- تابع انتقال T 16 2-4-2-1-5- فضای مشاهده Z 2-4-2-1-6- تابع پاداش R 2-4-2-1-7- افق H و فاکتور کاهش ϒ 172-4-3- Multi-agent POMDP2-4-4- فرآيند تصميم‌گيري تيمي چندعامله (MTDP) 182-4-5- بازي‌هاي غيرقطعي قابل مشاهده جزئي (POSG)2-4-6- مسائل ارضاء محدوديت توزيع‌شده (DCSP)2-4- خلاصه 213- زمينه‌هاي کاربردي3-1- هماهنگی چند عامل در مزایده 223-2- استفاده از POMDP در سیستم های چند عامل در زمینه مسیریابی شبکه 3-3- – یادگیری فعال در POMDP 3-4- فوتبال ربات‌ها 233-5- هدايت مبتني بر همكاري3-6- کنترل ترافيک هوايي243-7- مسيريابي و مديريت شبکه243-8- خلاصه 244- هماهنگي در سيستم‌هاي چندعامله4-1- روش‌هاي ايجاد هماهنگي در سيستم‌هاي چندعامله4-2- خلاصه 5- ايجاد هماهنگي در سيستم‌هاي چندعامله با استفاده از تکنيکهاي يادگيري5-1- يادگيري تقويتي5-1-1- يادگيري تقويتي تك‌عامله5-1-1-1- يادگيري Q5-1-2- يادگيري تقويتي چندعامله5-1-2-1- يادگيري مستقل 375-1-2-2- يادگيري عمل گروهي 375-1-3- انواع الگوريتم‌هاي يادگيري تقويتي در سيستم‌هاي چندعامله5-1-3-1- الگوريتم يادگيري Minimax-Q5-1-3-2- الگوريتم يادگيري Nash-Q5-1-3-3- الگوريتم يادگيري Friend-or-Foe Q (FFQ)5-1-3-4- الگوريتم يادگيري rQ5-2- اتوماتاي سلولي، اتوماتاي يادگير و اتوماتاي يادگير سلولي5-2-1- اتوماتاي سلولي 435-2-2- اتوماتاي يادگير 445-2-3- اتوماتاي يادگير سلولي 455-2-4- فعاليت‌هاي انجام‌شده در زمينه استفاده از اتوماتاي يادگير در سيستم‌هاي چندعامله5-3- خلاصه 49فهرست منابع 51 فهرست اشکالشکل 1- ساختار عامل]1[شکل 2- ساختار سيستم چندعامله ]1[شکل 3- رده بندی مدلهای مختلف مارکوف بر حسب قابلیت مشاهده و ارتباطشکل 4- مدل POMDP 15شکل 5- ارتباط بین مدل های مختلف با DEC-POMDP 18شکل 6- مدل عامل ها در DCSPشکل 7- مدل يادگيري تقويتي 35شکل8- مقادير (1) ، (2) و (3) خط‌مشي بهينه حاصل از هريك از آن‌ها 35شکل9- شبه‌كد محاسبه مقادير با استفاده از روش -Learning————————-Error! Bookmark not defined.شکل 10- مدل يادگيري تقويتي چندعامله36شکل 11- لگوريتم يادگيري Minimax-Qشکل 12- الگوريتم يادگيري Nash-Qشکل 13- الگوريتم يادگيري rQشکل 14- ارتباط بين اتوماتاي يادگير و محيط44شکل 15- همسايگي ون نيومن ، مور ، اسميت و كولشکل 16- قانون 54

دانلود فایل مسائل تصميم‌گيري ماركف قابل مشاهده جزئي (POMDP) و کاربردهای آن

سيستم چندعامله,مدل‌هاي مارکوف,فرآيند تصميم‌گيري ماركف چندعامله ,MMDP,چهارچوب POMDP,مسائل تصميم‌گيري ماركف قابل مشاهده جزئي,فوتبال ربات‌ها,مسيريابي و مديريت شبکه,يادگيري تقويتي چندعامله,اتوماتاي سلولي,اتوماتاي يادگير