یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10...
Transcript of یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10...
![Page 2: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/2.jpg)
www.snrazavi.ir
تقویتییادگیری
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
2
![Page 3: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/3.jpg)
www.snrazavi.ir
یادآوری:تقویتییادگیری
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
3
داریممارکوفتصمیمفرآیندیکهنوز:حالت هاازمجموعهیک𝑠 ∈ 𝑆
اعمالازمجموعهیک𝑎 ∈ 𝐴
مدلیک𝑇 𝑠,𝑎,𝑠′
پاداشتابعیک𝑅 𝑠,𝑎,𝑠′
سیاستیکدنبالبههنوز𝜋(𝑠)هستیم.
توابع.تفاوت𝑇و𝑅هستندناشناخته.کنیمآزمایشراشدهنتیجهحالت هایومختلفعمل هایبایدیادگیریبرای.
رویمیانگینمحاسبه ی.اصلیایده ی𝑇نمونه هاازاستفادهبا.
![Page 4: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/4.jpg)
www.snrazavi.ir
RLوMDP:کنونتا
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
4
هدف
∗𝑉∗ ،𝑄∗ ،𝜋محاسبه ی
𝜋ارزیابی سیاست ثابت
روش
تسیاس/ الگوریتم تکرار مقدار
ارزیابی سیاست
MDPراه حل آفالین: شناخته شده
هدف
∗𝑉∗ ،𝑄∗ ،𝜋محاسبه ی
𝜋ارزیابی سیاست ثابت
روش
روی مدل تقریبیVI/PIالگوریتم
ارزیابی سیاست روی مدل تقریبی
MDPمبتنی بر مدل: شناختهنا
هدف
∗𝑉∗ ،𝑄∗ ،𝜋محاسبه ی
𝜋ارزیابی سیاست ثابت
روش
Qیادگیری
یادگیری مقدار
MDPمستقل از مدل: شناختهنا
![Page 5: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/5.jpg)
www.snrazavi.ir
Qمقدارتکرار
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
5
شوندهتکرارصورتبهحالت هاارزشمحاسبه ی.مقدارتکراربرداربا𝑉0 𝑠 = .(استدرستمی دانیمکه)کنشروع0
بردارداشتنباتکرار،هردر𝑉𝑘(𝑠)،بردار𝑉𝑘+1(𝑠)کنمحاسبهرا.
𝑉𝑘+1 𝑠 ← max𝑎
𝑠′
𝑇 𝑠, 𝑎, 𝑠′ 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾𝑉𝑘(𝑠′)
𝑄𝑘+1 𝑠, 𝑎 ←
𝑠′
𝑇 𝑠, 𝑎, 𝑠′ 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′
𝑄𝑘 𝑠′, 𝑎′
مقادیراما𝑄کنمحاسبهراآنهاپسهستند،مفیدتر.با𝑄0 𝑠,𝑎 = .(استدرستمی دانیمکه)کنشروع0
بردارداشتنباتکرار،هردر𝑄𝑘(𝑠,𝑎)بردار𝑄𝑘+1(𝑠,𝑎)کنمحاسبهرا.
s
s, a
a
s, a, s’s’
s’, a’
a’
![Page 6: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/6.jpg)
www.snrazavi.ir
Qیادگیریالگوریتم
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
6
یادگیریQ.مقدارتکرارالگوریتم𝑄نمونه برداریبرمبتنی
مقادیریادگیریQ(s, a)
نمونهدریافت(s, a, s', r)
قبلیتخمینگرفتننظردر:Q(s, a)
جدیدنمونه یبهمربوطتخمینگرفتننظردر:
[میانگین گیری]:تخمینرسانیروزبه
𝑄𝑘+1 𝑠, 𝑎 =
𝑠′
𝑇 𝑠, 𝑎, 𝑠′ 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′
𝑄𝑘 𝑠′, 𝑎′
𝑠𝑎𝑚𝑝𝑙𝑒 = 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′
𝑄(𝑠′, 𝑎′)
𝑄 𝑠, 𝑎 = 1 − 𝛼 𝑄 𝑠, 𝑎 + 𝛼 𝑠𝑎𝑚𝑝𝑙𝑒% python gridworld.py -a q -k 1000
!ندناشناخته هستRو Tاما
![Page 7: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/7.jpg)
www.snrazavi.ir
Qیادگیریالگوریتمویژگی های
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
7
یادگیریالگوریتم.همگراییQمی شودهمگرابهینهسیاستدر.نکندعملبهینهعاملاگرحتی!!!
هشدارها.کندکاوشرامحیطکافیاندازه یبهبایدعامل.شودکوچککافیاندازه یبهنهایتدربایدیادگیرینرخ....شوددادهکاهشسریعخیلینبایدآنمقداراما.ندارداهمیتعاملوسیله یبهعملانتخابچگونگیحد،درمبنایی،طوربه!
![Page 8: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/8.jpg)
www.snrazavi.ir
بهره برداریبرابردرکاوش
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
8
![Page 9: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/9.jpg)
www.snrazavi.ir
بهره برداریبرابردرکاوش:نمایشیاجرای
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
9
% python gridworld.py -a q -g BridgeGrid -k 100 -m
![Page 10: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/10.jpg)
www.snrazavi.ir
کنیم؟کاوشچگونه
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
10
محیطکاوشبرایمختلفروش های.کنعملتصادفیمواقعبرخی:روشساده ترین𝜀 − 𝑔𝑟𝑒𝑒𝑑𝑦
کنخطیاشیرحرکت،هرانجامازقبل.
کوچکاحتمالبا𝜀،کنعملتصادفی.1بزرگاحتمالبا − 𝜀،کندنبالرافعلیسیاست.
کردنعملتصادفیمشکالت.ملعکهاینبامدتیازپسامامی کند،کاوشرامحیطتمامیسرانجامعامل
.می کندعملتصادفیهمبازاست،گرفتهیادرادرستمقدارکاهش:راه حلیک𝜀زمانطولدر
کاوشتوابع:دیگرراه حلیک
![Page 11: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/11.jpg)
www.snrazavi.ir
کاوشتوابع
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
11
کنیم؟کاوشبایدچگونهوزمانیچهبرابرصورتبهنواحیتمامکاوش:تصادفیاعمال(وزهن)آنهابودنبدکهناحیه هاییدربیشترکاوش:بهترایده ییک
است،بدناحیهیکفهمیدیکهاینمحضبهاما.استنشدهثابت.بردارناحیهآندرجستجوازدست
𝑓 𝑢, 𝑛 = 𝑢 + Τ𝑘 𝑛
𝑄 𝑠, 𝑎 ←𝛼 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′
𝑄(𝑠′, 𝑎′) قاعده ی به روزرسانی معمولی
𝑄 𝑠, 𝑎 ←𝛼 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′
𝑓 𝑄 𝑠′, 𝑎′ , 𝑁 𝑠′, 𝑎′ قاعده ی به روزرسانی اصالح شده
کاوشتابع.حالتیکرویتدفعاتتعداد:ورودی(𝑛)حالتآنسودمندیازتخمینیکو(𝑢)
مانندحالتسودمندیازخوش بینانهتخمینیک:خروجی:
![Page 12: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/12.jpg)
www.snrazavi.ir
خزندهروبات:نمایشیاجرای
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
12
![Page 13: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/13.jpg)
www.snrazavi.ir
خالصه
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
13
:محاسبهقابلکمیت های
اگرMDPباشدشدهشناخته:دقیقمحاسبه یV*،Q*و𝜋∗
ثابتسیاستارزیابی𝜋
اگرMDPباشدناشناخته:کنیمحلسپسوزدهتخمینراآنمی توانیم.
می توانیمVثابتسیاستبرایرا𝜋بزنیمتخمین.
می توانیمQ*(s, a)مبزنیتخمینبهینهسیاستبرایرا.
:محاسبهروش های
آفالینراه حل:مقدارتکرارالگوریتم
سیاستتکرارالگوریتم
تقویتییادگیری:مدلبرمبتنیتقویتییادگیری
مقداریادگیری:مدلازمستقل
کیویادگیری:مدلازمستقل.
![Page 14: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/14.jpg)
www.snrazavi.ir
!حسرت
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
14
![Page 15: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/15.jpg)
www.snrazavi.ir
!حسرت
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
15
ندکاشتباهیادگیریطولدرعاملاستممکنبهینه،سیاستگرفتنیادصورتدرحتی.
استیادگیریفرایندطولدراشتباهاتهزینه یمجموعبیانگرحسرتمعیار:،انتظارموردبهینه یپاداشومرحلههردرآمدهدستبهانتظارموردپاداشمیاناختالفیعنی.
استبودنبهینهیادگیریازفراترحسرتمعیارکمینه سازی:بودنبهینهبرایبهینهیادگیری!،اشتباهاتمیزانکمترینبابهینهسیاستیادگیرییعنی!
اوشکامامی شوند،بهینهسیاستیادگیریبهمنجردوهرکاوشتابعوتصادفیکاوش.مثال.استبیشتری(حسرت)اشتباهاتمیزاندارایمجموعدرتصادفی
![Page 16: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/16.jpg)
www.snrazavi.ir
تقریبیQیادگیری
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
16
![Page 17: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/17.jpg)
www.snrazavi.ir
حالت هامیانتعمیم
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
17
یادگیریالگوریتمQمقادیرتمامیازجدولیکQمی کندنگهداری.نداردوجودجداگانهصورتبهحالت هاهمه یمورددریادگیریامکانواقعی،موقعیت هایدر!
نمودرویتآموزشحیندرراحالت هاهمه ینمی توانحالت ها،زیادبسیارتعداددلیلبه.
نمودذخیرهحافظهدرراجدولهمه ینمی توانحالت ها،زیادبسیارتعداددلیلبه.
دهیمتعمیممی توانیمعوضدر.حالت هاازکوچکزیرمجموعه ییکمورددرتجربهکسب
مشابهجدیدحالت هایبهتجربهاینتعمیم
استماشینیادگیریدراصلیمفاهیمازیکیتعمیمقابلیت.
![Page 18: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/18.jpg)
www.snrazavi.ir
پکمن:مثال
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
18
ه در محیط فرض کنید با تجاربی ککه این کسب می کنیم، دریابیم
.حالت، حالت خوبی نیست
ایه ای با این وجود در الگوریتم پ، هنوز هیچ چیزی در Qیادگیری
.مورد این حالت نمی دانیم
!همین طور در مورد این حالت
![Page 19: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/19.jpg)
www.snrazavi.ir
...یادگیریحیندر:نمایشیاجرای
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
19
pacman.py -p PacmanQAgent -n 10 -l tinyTest
![Page 20: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/20.jpg)
www.snrazavi.ir
...یادگیریازپس:نمایشیاجرای
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
20
pacman.py -p PacmanQAgent -x 2000 -n 2010 -l
tinyTest
![Page 21: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/21.jpg)
www.snrazavi.ir
...یادگیریحیندر:نمایشیاجرای
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
21
pacman.py -p PacmanQAgent -n 30 -l tinyTest2
![Page 22: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/22.jpg)
www.snrazavi.ir
...یادگیریازپس:نمایشیاجرای
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
22
pacman.py -p PacmanQAgent -x 2000 -n 2010
-l tinyTest2
![Page 23: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/23.jpg)
www.snrazavi.ir
ویژگیبرمبتنینمایش
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
23
ویژگی هاازبرداریکصورتبهحالت هاتوصیف.راه حل!استحالتآنمهمخصوصیاتبیانگرواستحقیقیاعدادبهحالت هاازتابعیکویژگیهر.
مثالیویژگی های.روحنزدیک ترینتافاصله
غذانزدیک ترینتافاصله
ارواحتعداد
(یک-صفر)است؟تونلیکدرپکمنآیا
و...
حالت هایترتیب،همینبهqدادنمایشویژگی هاازبرداریصورتبهمی تواننیزرا.ًمی کند؟نزدیک ترغذابهراپکمنعملاینآیامثال
![Page 24: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/24.jpg)
www.snrazavi.ir
خطیمقدارتوابع
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
24
ابعتیکوزنتعدادیازاستفادهباحالتهربرایمی توانویژگی،برمبتنینمایشوسیلهبهqنوشت:
می شودخالصه(وزنپارامترهایمقادیر)عددچنددرعاملتجربه ی.مزیت.
باشدمتفاوتبسیارآنهاارزشاماباشند،داشتهمشترکویژگی هایحالت هااستممکن.ایراد.
𝑉 𝑠 = 𝑤1𝑓1 𝑠 + 𝑤2𝑓2 𝑠 +⋯+ 𝑤𝑛𝑓𝑛(𝑠)
𝑄 𝑠, 𝑎 = 𝑤1𝑓1 𝑠, 𝑎 + 𝑤2𝑓2 𝑠, 𝑎 + ⋯+𝑤𝑛𝑓𝑛(𝑠, 𝑎)
![Page 25: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/25.jpg)
www.snrazavi.ir
Qتقریبییادگیریالگوریتم
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
25
خطیتوابعازاستفادهبایادگیری𝑞.[حالتتغییر]:جدیدتجربه ییکمشاهده ی
تفاوتمحاسبه ی:تابعاصالح𝑞وزن هااصالحبا:
𝑄 𝑠, 𝑎 = 𝑤1𝑓1 𝑠, 𝑎 + 𝑤2𝑓2 𝑠, 𝑎 + ⋯+𝑤𝑛𝑓𝑛(𝑠, 𝑎)
شهودیصورتبه:فعالویژگی هایبهمربوطوزنتنظیم.،دادهاهشکویژگیآنبهمربوطوزنبیفتد،بدیاتفاقناگهانیطوربهاگریعنی
از،دارندراویژگیاینکهمشابهحالت هایتماممی شودباعثعملاینومی شود.شوندارزش ترکمعاملنظر
𝑤𝑖 ← 𝑤𝑖 + 𝛼 ∙ 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 ∙ 𝑓𝑖 𝑠, 𝑎
𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 = 𝑟 + 𝛾max𝑎′
𝑄 𝑠′, 𝑎′ − 𝑄(𝑠, 𝑎)
𝑠, 𝑎, 𝑠′, 𝑟
𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 Qمقادیر دقیق
Qمقادیر تقریبی
![Page 26: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/26.jpg)
www.snrazavi.ir
پکمن:مثال
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
26
𝑄 𝑠, 𝑎 = 4.0𝑓𝐷𝑂𝑇 𝑠, 𝑎 − 1.0𝑓𝐺𝑆𝑇 𝑠, 𝑎
𝑎 = NORTH𝑟 = -500
عکس فاصله تا نزدیک ترین غذا
𝑟 + 𝛾max𝑎′
𝑄 𝑠′, 𝑎′ = −500 + 0
𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 = −501𝑤𝐷𝑂𝑇 = 4.0 + 𝛼 −501 0.5
𝑤𝐺𝑆𝑇 = −1.0 + 𝛼 −501 1.0
عکس فاصله تا نزدیک ترین روح
𝑄 𝑠, 𝑎 = 3.0𝑓𝐷𝑂𝑇 𝑠, 𝑎 − 3.0𝑓𝐺𝑆𝑇 𝑠, 𝑎
![Page 27: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/27.jpg)
www.snrazavi.ir
نمایشیاجرای
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
27
python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic
![Page 28: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/28.jpg)
www.snrazavi.ir
خطاکمینه سازی
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
28
![Page 29: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/29.jpg)
www.snrazavi.ir
رگرسیون:خطیتقریب
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
29
ො𝑦 = 𝑤0 +𝑤1𝑓1(𝑥) ො𝑦 = 𝑤0 +𝑤1𝑓1 𝑥 + 𝑤2𝑓2(𝑥)
![Page 30: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/30.jpg)
www.snrazavi.ir
خطاکمینه سازی:بهینه سازی
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
30
𝑓1(𝑥)
𝑦
ො𝑦مشاهدهخطا
پیش بینی
𝑒𝑟𝑟𝑜𝑟 =1
2
𝑖
𝑦𝑖 − ො𝑦𝑖2 =
1
2
𝑖
𝑦𝑖 −
𝑘
𝑤𝑘𝑓𝑘 𝑥
2
![Page 31: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/31.jpg)
www.snrazavi.ir
خطاکمینه سازی
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
31
نمونهیکتنهاکنیدفرض.خطاکمینه سازی𝑥،ویژگیبرداربا𝑓(𝑥)،هدفمقدار𝑦وزنهایو𝑤باشیمداشته.
𝑒𝑟𝑟𝑜𝑟 𝑤 =1
2𝑦 −
𝑘
𝑤𝑘𝑓𝑘 𝑥
2
𝜕𝑒𝑟𝑟𝑜𝑟 𝑤
𝜕𝑤𝑚= − 𝑦 −
𝑘
𝑤𝑘𝑓𝑘 𝑥 𝑓𝑚(𝑥)
𝑤𝑚 ← 𝑤𝑚 + 𝛼 𝑦 −
𝑘
𝑤𝑘𝑓𝑘 𝑥 𝑓𝑚(𝑥)
𝑤𝑚 ← 𝑤𝑚 + 𝛼 𝑟 + 𝛾max𝑎′
𝑄 𝑠′, 𝑎′ − 𝑄 𝑠, 𝑎 𝑓𝑚(𝑥)
مشاهدهپیش بینی
یادگیریتقریبیالگوریتمدروزن هاروزرسانیبهقاعدهq.
![Page 32: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/32.jpg)
www.snrazavi.ir
است؟مفیدظرفیتکردنمحدودچرا:بیش برازش
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
32
![Page 33: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/33.jpg)
www.snrazavi.ir
است؟مفیدظرفیتکردنمحدودچرا:بیش برازش
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
33
2چند جمله ای از درجه
![Page 34: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/34.jpg)
www.snrazavi.ir
است؟مفیدظرفیتکردنمحدودچرا:بیش برازش
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
34
۱۵چند جمله ای از درجه
![Page 35: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/35.jpg)
www.snrazavi.ir
سیاستجستجوی
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
35
![Page 36: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/36.jpg)
www.snrazavi.ir
سیاستجستجوی
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
36
رندهب)می کنندکارخوبیبهعملدرکهویژگیبرمبتنیسیاست هایموارداغلبدر.مشکل.می زنندتخمینخوبیبهراVیاQمقادیرکهنیستندآنهایی،(بازیدرشدن
یادگیریالگوریتمدراصلیاولویتQ:مقادیردقیقتخمینQ(مدل سازی)مقادیربرایدرستترتیبآوردندستبه:عملانتخابدراصلیاولویتQ(پیش بینی)
رایاست هاسکهمقادیرییادگیرینهمی سازند،بیشنهراپاداشکهسیاست هایییادگیری.راه حل!می کنندپیش بینی
خوبراه حلیکبا.سیاستجستجوی(ًیادگیریازآمدهدستبهراه حلمثالQ)وکنشروع.ببخشبهبودراآنویژگی ها،وزنرویبرتپه نوردیانجامباسپس
![Page 37: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/37.jpg)
www.snrazavi.ir
سیاستجستجوی
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
37
سیاستجستجویروشساده ترین.تابعیکباQکنشروعاولیه.خیریاشدهبهترقبلبهنسبتجدیدسیاستآیاببینوکنزیادوکمراوزنهامقادیر.
مشکالت.است؟شدهبهترقبلبهنسبتسیاستیکدادتشخیصمی توانچگونه
زیادبسیارآموزشیاپیزودهایاجرایبهنیاز!
نیستعملیروشاینباشد،زیادویژگی هاتعداداگر.
بهرامترپاچندتغییرهوشمندانه،نمونه برداریپیش بینی،ساختارازبهره برداری.بهترروش های...وهمزمانطور
![Page 38: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/38.jpg)
www.snrazavi.ir
سیاستجستجوی
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
38
![Page 39: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت](https://reader033.fdocumento.com/reader033/viewer/2022041822/5e5e88c8caade5714967c828/html5/thumbnails/39.jpg)
www.snrazavi.ir
نتیجه گیری
1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی
39
برنامه ریزیوجستجو:اولبخشپایان!
برایمصنوعیهوشازاستفاده:جستجومسائلمحدودیتارضایمسائلبازی هامارکوفتصمیم گیریمسائلتقویتییادگیری
یادگیریوقطعیتعدم:دومبخش!