-
Notifications
You must be signed in to change notification settings - Fork 0
/
Plan Rada Bonkball.txt
69 lines (49 loc) · 2.45 KB
/
Plan Rada Bonkball.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
2. ML FRAMEWORK:
10 instanci deep q mreze. kako ce estimateovati najbolju sledecu akciju (q jednacina)?
Kako da resim to sto je kretanje kontinualno - nema jasnih akcija?
Mozda akcjia moze da bude promeni destinaciju kretanja (Svaki ima destinaciju koja se menja)
Def uvek ista jacina pasa.
PRVO istreniraj sve tako da koriste istu neuralnu mrezu. Cini mi se da ce tako ici brze.
Doduse mozda se pojave problemi sa updateovanjem? Uhfhfh
KOMPL plan:
Akcije:
Promeni/napravi planiranu destinacija kretanja (sledeca je "neodabrana")
Promeni/napravi planiran trenutak+smer dodavanja
Ne promeni nista
SIMPL plan:
Akcije (svaki put):
Dodaj loptu u jednom od 24 smerova.
Kreci se u jednom od 12 smerova, jednom od N brzina
CONS: seemingly ne ume da planira. Takodje, ako je learning rate uvek isti, praice probleme.
Doduse NN ce valjda sama znati planiranje?
Argumenti:
Velicina
Preciznost pasa
Brzina?
Treba da postoji nacin za uzimanje lopte.Mzd kao ako se pipnete gotovo je.
Procitati o NNs for space?
Imam nejasnocu.
Moj trenutni model:
Obicno q ucenje: Imam tabelu za (state, action) -> expected reward,
i boga koji daje pravi reward.
Ja nadjem sta mi daje najveci reward. O(n) Onda ili uzmem to ili uzmem random akciju.
(Gde ovde ide max sledeceg poteza??)
Nakon te akcije, updateujem expected reward, i planiram dalje.
U fudbalu, ovo je nemoguce jer je broj stateova neogranicen. Mozda treba prvo da se
radi neka obrada statea, da bi bio pogodan sa basic q ucenje.
Deep q ucenje:
Umesto tabele, treniram neurone tako da predvidjaju xrewards za dat (state, action),
(to je input).
Deep q izracuna xReward za Svaku Akciju (velika slozenost) i onda radi kao i obican Q.
Nakon izabrane akcije se radi backpropagation
<<<<<<< HEAD
Moyda da samo ne radim q learning nego nes drugo?
OKEJ BREAKTHROUGH
feedujem 9 inputa kroy istu mrezu. umesto da svako ima svoju odvojenu pamet bice ovako.
alternatively, svako ima svoju pamet i onda se igra manje fluidna igra ali mogu da stavljam atribute.
okej moyda mogu samo da igram pepa gvardiolu... ne nije isto! onda nema ai komunikacije...
=======
RESENJE:
Izracuna xreward za svaku akciju koja sada moze da se uradi, ali je to samo poslednji sloj a svi ostali slojevi su isti. (svaki output neuron je dobrota jedne akcije). Tako da ni nije tolika slozenost.
OH SHIT mozes da radis konvolucije umesto full connected!
>>>>>>> 1690f6807a84b1578a400538d37a37ae37c5398d