Neuroniniai tinklai

Mokomieji neuroniniai tinklai su papildomais triukšmais atitinkamame signale

Įžanga.

Sunkiai sprendžiamos dvi pagrindinės problemos susijusios su atgaliniu (backpropagation) mokymu – tai sudėtingos problemos ir Local minimum entrapment. Pirmos problemos sprendimui buvo pasiūlyti tokie būdai, kaip greitas mokymas (propaganda) (quickprop) , momentinis mokymas ir t.t. [Fahlman,1988; Hinton, 1989]; antroji problema yra svarbesnė, kadangi ji susijusi su gradiento įverčio prigimtimi. Local minimum entrapment gali būti sprendžiamas modeliuojant (annealing) arba susijusius metodus, apimančius Langevin’o algoritmą ir sklaidos (diffusion) optimizavimo metodą [Rognvaldsson, 1994; Krogh and Hertz,1992; Szu, 1986; Kushner, 1987]. Šių metodų bendra prasmė – kintamo valdymo triukšmų periodo įvedimas į kiekvieną svorinį vektorių ( the injection of a noise term of controlled variance into each weight vector.) Šie metodai turi labai lėtą konvergavimą, bet teoriškai jie gali įveikti vietinį minimumą (local minima.) Kitas trūkumas yra tas, kad vienas turi valdyti daugybę vidinių kintamųjų (kiekvienam svoriui nustatyti triukšmo periodus), kas nėra labai efektyvu. Arba apibrėžti tik išorinius kintamuosius – tokius kaip įėjimo signalas (input), norimas signalas ir žingsnio dydis. Iš pragmatiškos požiūrio pusės labai pageidaujami būtų taip vadinami on-line (tiesioginiai) algoritmai, t.y. algoritmai, kur atskiram pavyzdžiui svoriai kaskart būtų atnaujinami. Bet žvelgiant iš (annealing) modeliavimo pusės į stochastinę on-line atnaujinimo metodų prigimtį , jų realizavimas nebūtų efektyvus. Dėl šių priežasčių bus bandoma atlikti tokį eksperimentą: pridėti triukšmus prie norimo signalo ir eksperimentiškai ištirti tokios procedūros privalumus.

Triukšmas taip pat buvo naudojamas gradiento perdavimo (descent) procedūrose. Holmstrom išanalizavo statinio BP algoritmo [Holmstrom and Koistinen, 1992] apibendrinimo galimybę, kuomet atsitiktinis triukšmas įvedamas į išorinius signalus. Šie bandymai parodė, kad apibendrinimas gali būti pagerintas naudojant bandomuosiusose (training) duomenyse papildomus triukšmus. Matsuoka pademonstravo, kad ir triukšmo įvedimas į vieną įėjimo signalą gali pagerinti apibendrinimą (generalization) [Matsuoka, 1992]. Abu autoriai susikoncentravo tik ties tinklo apibendrinimo galimybe, tačiau jie nenagrinėjo triukšmų poveikio mokymosi greičiui ir išėjimo iš local minima galimybės.

II Mokymosi su papildomais triukšmais atitinkamame signale analizė

II.1 Klasikinis stebimas mokymasis

Šioje dalyje kaip mokymosi sistemos prototipas yra naudojamas daugiasluoksnis perceptronas (perceptron) (MLP) su dviem lygiais. Tačiau išvados gali būti atvaizduojamos atsikartojančiose topologijose. Šiame tinkle, xk aprašo iėjimo vektoriaus vieną elementą; yi yra išėjimo lygio i-tasis išėjimas; Wij nusako svorius tarp paslėpto ir išėjimo sluoksnių; Vjk yra svoris tarp įėjimo ir paslėpto sluoksnio; ir Pj nusako paslėpto sluoksnio aktyvavimą. Pateiktas čia apmokymo algoritmas – tai atgalinio mokymo (backpropagation) (BP) algoritmas [Rumelhart et al, 1986].Tegul di(t) žymi kelis norimus išėjimo neurono i laiko momentu t atsakymus, kur t yra diskretaus laiko indeksas. Galima apibrėžti klaidos signalą, kaip skirtumą tarp norimo atsakymo di(t) ir turimo atsakymo yi(t). Tai nusakomo (1) formulė:Pagrindinis mokymosi tikslas yra minimizuoti kainos funkciją, kurią nusako klaidos signalas ei(t), taip, kad turimas kiekvieno išėjimo neurono atsakymas tinkle statistikine prasme artėtų prie norimo atsakymo. Kriterijus naudojamas kainos funkcijai yra Vidurkio-Kvadrato-Klaidos (Mean-Square-Error) (MSE) kriterijus, apibrėžiamas kaip klaidos kvadrato sumos vidurkio-kvadrato reikšmė [Haykin, 1994]:

Kur E yra statistikinis tikimybės operatorius ir sumuojami visi išėjimo sluoksnio neuronai (i=1,…,M). Kainos funkcijos J minimizavimas atsižvelgiant į tinklo parametrus lengvai g.b. formuluojamas gradiento mažinimo (gradient descent) metodu. Šios optimizavimo procedūros problema yra ta, kad jai reikia žinių apie neapibrėžtų procesų, generuojančių pavyzdžius, statistikines charakteristikas. Praktiškai tai gali būti apeita, optimizavimo problemai surandant artimą sprendinį. Klaidos kvadratų sumos momentinė reikšmė (Instantaneous value of the sum of Squared Errors) (ISE) yra pasirinkimo kriterijus [Haykin, 1994]:Po to tinklo parametrai (svoriai) yra pritaikomi ε(t). Faktiškai ši procedūra vadovaujasi taip vadinamu LMS algoritmu, kuomet svoriai yra atnaujinami kartu su kiekvienu pavyzdžiu [Widrow and Hoff, 1960].

II.1 Mokymasis su norimu triukšmingu signalu

Vietoj to, kad svorių pritaikymui naudoti norimą signalą di(t), kaip norimas signalas išėjimo neuronui i imamas naujas signalas di(t)+ ni(t), kur ni(t) yra triukšmo periodas. Šiam triukšmo periodui priskiriamas nulinės reišmės baltas triukšmas su σ2 pokyčiu (variance) , nepriklausančiu nei nuo įėjimo signalo xk(t) nei nuo norimų signalų di(t). Neapibrėžtas triukšmo perdavimas yra priskiriamas Gauso ar vienarūšiam perdavimui.

Čia norima įrodyti, kad šis naujas norimas signalas neįtakoja galutinės svorių reikšmės statistikine prasme. Tai užtikrina, kad nauja savybė sprendžia originalią optimizavimo problemą. Turint naujus norimus signalus, MSE (4) lygties gali būti perrašyta taip:Nėra sunku įrodyti [Richard and Lippmann 1991; White, 1989; Haykin, 1994], kad (4) lygtis yra lygiKur ‘|’ simbolis žymi sąlygines galimybes (probabilities), ir ‘var’ yra kitimų (variance) sutrumpinimas.

Pastebėkite, kad antras periodas dešinėje (5) lygties pusėje prisidės prie bendros klaidos J ir koks ir bebūtų mokymosi progresas, jis neįtakos galutinės svorių reikšmės, kadangi jis nėra tinklo svorių funkcija. Optimali svorių reikšmė yra apsprendžiama tiktai pirmo (5) lygties periodo. Kuomet triukšmas yra nulinės reikšmės baltas triukšmas ir jis nepriklauso nei nuo norimo, nei nuo įėjimo signalų, mes turime(6) lygtis rodo, kad triukšmas iš lygties, kuri apibrėš galutines svorių reikšmes, dingsta, taigi mokymassi su norimo triukšmo signalu duos rezultatų, originalios optimizavimo problemos sprendimo prasme, t.y. be triukšmo pridėjimo prie norimo signalo. (learning with the noisy desired signal will yield in the mean the solution for the originaloptimization problem, i.e., without the noise added to the desired signal.) Reiktų konstatuoti, kad ši išvada galioja visoms architektūrų rūšims.Atlikimo funkcijai apibrėžti reikalingi tik išoriniai matavimai (MSE), ir tai nėra susiję nei su topologija nei su kainos funkcijos apibrėžimo būdu (statiniu ar kintamu). Nors šis sprendimas yra patenkinamas, reikia prisiminti, kad mus domina on-line algoritmas, kur yra mokymosi dinamika, t.y. kaip mokymosi progresas yra veikiamas triukšmų.

II.3 On-line algoritmas mokymuisi veikiant norimam triukšmingam signalui

Reiktų pažymėti, kad atliekamos, modifikacijos, jokiais būdais neveikia atgalinio mokymosi algoritmo realizacijos, kadangi yra modifikuojamas tik signalas, kuris yra įvedamas kaip norimas rezultatas. Taigi, siūlomos modifikacijos gali būti taikomos dar neegzistuojančioms modeliavimo sistemoms. Svarbi problema, kaip modeliavimo metu valdyti triukšmų kaitą (variance). Dėl to tolimesniame skyriuje bus apžvelgiama tiukšmų įtaka momentiniam gradientui.

II.4 Norimo triukšmingo signalo gradiente analizė.

Svorinio vektoriuas pritaikymo statiniame BP algoritme formulė, tiklui atvaizduotame 1 pav. norimame signale be triukšmų yra [Hertz et al.,1991]Svoriams tarp paslėpto sluoksnio ir išorinio sluoksnio, irSvoriams tarp iėjimo sluoksnio ir paslėpto sluoksnio, kur ŋ yra žingsnio dydis.

Su triukšmingu norimu signalu, ISE (3) lygties tampa:Lygtyse (7) ir (8) įrašant naują reikšmę εnoisy(t), gausime lygtis

Palyginus lygtis (7) su (10) ir (8) su (11) daroma išvada, kad triukšmo pridėjimo prie norimo signalo poveikis, tai extra stochastinio periodo svoriniame vektorių taikyme įtraukimas, kas gali būti modeliuojama kaip pridėtinis momentinio gradiento triukšmas (pertirbation) betriukšminiam atvejui.Stochastinio periodo bendra forma

Kur N(t) yra veiksmo funkcija gauta pakeitus originalią klaidą d(t)-y(t) įvestu triukšmu n(t).

Panagrinėkime papildomų periodų (extra terms) statistines savybes (10) ir (11) lygtyse ir pastebėkime kaip jos veikia svorinių vektorių statistiką. Bet pirmiausia, apibrėžkime atsitiktinius kintamuosius: Jeigu atsitiktiniai kintamieji ir nepriklauso vienas nuo kito, ir g ir f funkcijos yra Borelo funkcijos, tuomet f ir gtaip pat yra nepriklausomos [Feller, 1966].

Realiausios funkcijos f(x) įskaitant sigmoido funkciją, plačiai naudojamą neuroniniuose tinkluose yra Borelio funkcijos. Taigi, galima daryti išvadą, kad (10) ir (11) lygtyse triukšmas n(t) nepriklauso nuo O taip pat ir nuoTodėl gali būti užrašytos papildomų periodų (extra terms) tikimybės

ir

Jų kitimas (variance)irIš (14) ir (15) lygties galima daryti išvadą, kad nulinės reikšmės atsitiktinis triukšmas norimame signale nedaro įtakos svoriniams vektoriams, taigi pagrindinė papildomo stochastinio periodo (extra stochastic term) svorio atnaujinimo reikšmė yra nulis.

Iš (16) ir (17) lygties daromos dvi svarbios išvados: triukšmas pridėtas prie norimo signalo veikia svorio atnaujinimo kitimą proporciškai kiekvieno svorio jautrumui. Tai reiškia, kad atskiro triukšmo šaltinis išėjime yra išverčiamas į skirtingus triukšmų stiprumus kiekvienam svoriui. Antra, žingsnio dydis arba išorinio triukšmo šaltinio kitimas valdys papildomų periodų (variance of the extra terms) svoriniuose vektorių prisitaikymo formulėse kitimą, gaunamą pridedant triukšmą prie norimo signalo. Pastebima, kad, kai = 0 arba triukšmo kitimas yra nulis, tuomet stochastinis periodas (stochastic terms) išnyksta – lieka tik originalus svorio atnaujinimas (t.y. sprendžiama originali optimizacijos problema).

Šie aspektai ir idėjos gautos iš globalios optimizacijos pateikia empirines taisykles išorinių triukšmų šaltinių valdymui, gaunat reikšmingus rezultatus. Modeliavimo pradžioje norėtųsi svoriams uždėti atsitiktinius trikdžius (perturbation), tam, kad būtų leista algoritmui pabėgti iš vietinio minimumo (local minima.). Tačiau artėjant prie adaptacijos pabaigos trikdžių (perturbation) kitimas turi būti sumažintas iki nulio taip, kad svoriai galėtų pasiekti reikšmes duotas originalios optimizacijos problemos. Toliau bus naudojamas (annealing) tvarkaraštis, pasiūlytas Moody [Darken, Chang, and Moody, 1992]Kur o yra inicijuojamo žingsnio dydis, c yra paieškos laiko konstanta, ir NI – iteracijos numeris. Šių konstantų reikšmės turės būti apibrėžtos eksperimentiškai, kadangi jos priklauso nuo problemų.

III Modeliavimo rezultatai

Patvirtinant anksčiau atliktą analizę, modeliavimo rezultatai bus pateikiami dviem pavyzdžiais. Vienas jų naudoja dviejų-lygių MLP, taip vadinamos lygiškumo problemos (parity problem), kuri buvo pademonstruota vietinio minimumo (local minima) atveju, pažinimui [Rumelhart et al, 1986]. Iš modeliavimo rezultatų bus matyti, kad mokymasis labiausiai gali būti pagerintas naudojant numatytą metodą (proposed approach) ir globalų minimumą, pasiektą statistikine prasme. Kitas pavyzdys naudoja dinaminį neuroninį tinklą TDNN [Waibel et al., 1989] laiko signalų modeliavimui. Antro modeliavimo rezultatai taip pat patvirtina ankstesnę analizę.

III.I Eksperimentai su MLP

Spresime 3 bitų lygiškumo problemą. Tinklo dydis 3-3-1, t.y. 3 įėjimo neuronai, 3 paslėpti neuronai, ir 1 išėjimo neuronas. Netiesiškumas (nonlinearity) yra logistinė funkcija. Tiesioginis atgalinis mokymas (backpropagation) yra naudojamas abiem atvejais.

Buvo pridėtas Gauso (Gaussian) triukšmas su  =0.001 prie norimo signalo ir parinkti atitinkami parametrai 18 Lygtyje: c= 500 ir o= 0.3. Rezultatai parodyti 2 paveikslėlyje. Stora linija vaizduoja mokymasi su triukšmingu norimu signalu, o punktyrinė linija – su originaliu norimu signalu. Šis pavyzdys rodo, kad mokymasis artėja prie lokalaus minimumo, (local minimum) kuomet naudojamas originalus norimas signalas, bet naudojant triukšmingą norimą signalą mokymasis pasiekia globalų minimumą (global minimum) . Svarbu pabrėžti, kad mokymasis su originaliu signalu, naudoja pastovų žingsnio dydį, kai tuo tarpu signalo su triukšmais žingsnis yra gaunamas iš (18) lygties.

Naudojant skirtingus žingsnio dydžius ir skirtingus pradinius (initial) svorius, buvo pasiekti panašūs rezultatai. Tam, kad patvirtinti šio algoritmo konvergavimo galimybę, buvo remiamasi Monte Carlo modeliavimai su 100 bandymu. Rezultatai pavaizduoti 3 Paveiksle, kur punktyrinė linija yra 100 veiksmų rezulatai originaliam signalui, o stora linija – 100 veiksmų rezulatatai triukšmingam signalui. Šiame eksperimente, svoriai yra parenkami atsistiktinai, o žingsnio dydis o atsitiktinai parenkamas iš intervalo [0,1, 0,7].

Kuomet globalus minimumas (global minimum) yra 0, tuomet yra lengva paskaičiuoti reikšmę ir pokytį (mean and variance) 100 galutinių klaidų, kurios pateiktos 1 Lentelėje. Dar daugiau, mokymasisi su triukšmingu signalu laike 99% priartėjo prie globalaus minimumo, o su originaliu signalu tik 26%.

Iš 1 Lentelės, galima daryti išvadą, kad su triukšmingu signalu, mokymasis konverguoja į globalų minimumą; bet su originaliu signalu, mokymasis statistikine prasme nekonverguoja. Taigi, iš šių modeliavimo rezultatų galima daryti išvadą, kad triukšmingas signalas leidžia mokymosi algoritmui išeiti iš lokalaus minimumo (local minima).

III. II Eksperimentai su dinaminiu neuroniniu tinklu

III.I dalyje buvo pademonstruoti statinio neuroninio tinklo modeliavimo rezultatai. Tam, kad patvirtinti, jog aprašytas metodas taip pat veikia ir dinaminiuose neuroniniuose tinkluose. Dinaminės sistemos modeliavimui bus naudojamas TDNN [Waibel et al.,1989]. Bus nagrinėjama tokia sistema,

Kur ‘,’ žymi diferencijavimo operatorių. Sistemos įėjimai yra sinusoidžių aibė,

Su atsitiktine faze l.. 4 ir 5 Paveikslėliuose vaizduojami sistemos įėjimo ir atitinkamai normalizuoti išėjimo signalai.

TDNN tinklo struktūra demonstruojama 6 Paveikslėlyje, kur naudojamas keturių lygių vėlinimas. Šiame tinkle, kaip įėjimai į paslėptą lygį naudojami tik du įėjimo signalai x(t) ir x(t-4). Netiesiškumas (nonlinearity) paslėptuose neuronuose – tai logistinė funkciją. Išėjimas turi vieną tiesinį neuroną. Mokymosi algoritmas – tai BP, kur pavyzdžių klaidos surandamos atimant tinklo išėjimą y(t) iš sistemos d(t) išėjimo.

Mokymosi kreivės pavaizduotos 7 Paveikslėlyje, kur triukšmo signalo žingsnio dydis surandamas naudojant (18) Lygtį, kur c=10, 0.01, ir triukšmo kitimas 2 =0.001 . Aiškiai matyti, kad su triukšmingu signalu konvergavimas yra greitesnis ir pasiekiamas žemesnis MSE.

Naudojant skirtingus žingsnio dydžius ir svorius, pasiekiami panašūs rezultatai su MSE minimumu lygiu 0,0091.

Paveikslėlyje 8 pavaizduotos mokymosi kreivės 100 mokymosi veiksmų, kur žingsnio dydis atsitiktinai parenkamas iš intervalo [0,1, 0,01], o svoriai taip pat yra atsitiktiniai skaičiai.

Kadangi nėra žinomas šios problemos globalus minimumas, todėl naudojamas MSE minimali reikšmė 0,0091 kaip globalaus minimumo įvertis. 2 Lentelė atspindi statistikinius rezultatus 100 eksperimentų. 72% (trails) su triukšmingu signalu pasiekė globalų minimumą, ir tik 8% (trails) pasiekė globalų rezultatą su originaliu signalu.Daroma išvada, kad mokymasisi su triukšmingais signalais yra mažiau nepastovus ir mokymosi kreivės taip pat yra daug lygesnės. (smoother)

IV.Discussion

Eksperimentiškai buvo pademonstruota, kad mokymasis su triukšmingais signalais padidina pastovaus žingsnio dydžio BP algoritmo paieškos galimybes. Tai yra pasiekiama be papildomos kainos algoritmų realizavimo perioduose (This is accomplished at no extra cost in terms of algorithm implementation,), kadangi naudojamas tiesioginis atgalinis mokymas (straight backpropagation.) Papildomos savybės yra gaunamos įvedant nulinės reikšmės valdomo kitimo Gauso triukšmą ir žingsnio dydžio nustatymui pasinaudojant (18) Lygtimi.

Buvo pademonstruota, kad triukšmo pridėjimas prie norimo signalo svorių atnaujinimo formulėse prideda nulinės reikšmės stochastinį periodą (that adding noise to the desired signal adds a zero mean stochastic term in the weightupdate formulas.). Nors atskiras triukšmo signalas ir yra įvedamas į norimą signalą, tačiau stochastinio periodo kitimas kiekvienam tinklo svoriui skiriasi (proporcingai kiekvieno svorio jautrumui). Dar daugiau, šio periodo kitimas tiesiogiai valdomas žingsnio dydžio arba išorinio triukšmo šaltinio kitimo.

Tai reiškia, kad triukšmo pridėjimas prie norimo signalo yra labai paprasta ir efektyvi procedūra mokymosi proceso ištraukimo iš lokalaus minimumo. Kitimas arba žingsnio dydis turi būti parinktas (anealing) pritaikymo metu. Parinkimo (anealing) realizavimui buvo panaudota Moodžio paieška ir konvergavimo procedūra, tačiau kiekvienai problemai spręsti parametrai turi būti surandami eksperimentiškai. Žingsnio dydžio planavimas, toks, kad būtų įveiktas lokalus minimumas, išlieka atviras klausimas ne tik šiame metode, bet taip pat ir kituose stochastiniuose algoritmuose tokiuose kaip sumodeliuotas parinkimas (simulated annealing) [Kirkpatrick et al., 1983]. Mokymosi algoritmų lankstumo padidinimui yra siūlomi du skirtingi žingsnių dydžiai, vienas gradientui ir kitas – triukšmui.

Ši procedūra turi neišvengiamą jungtį su globaliu optimizavimo metodu, vadinamu stochastiniu funkciniu nesklandumų šalinimu (stochastic functional smoothing) [Rubinstein, 1981 and 1986]. Priede aiškinama, kad tiesioginė stochastinio funkcinio nesklandumų šalinimo versija sutrikdo gradientą kartu su triukšmo periodu proporcingai Hesano paviršiui. ( an on-line ver-sion of stochastic functional smoothing perturbs the true gradient with a noise term proportional to the Hessian of the performance surface.)

Kuomet signalas pridedamas prie norimo signalo, tikrinis (true) gradientas taip pat yra paveikiamas triukšmų periodo. Šiuo atveju poveikis yra proporcingas naujos veikimo funkcijos gradientui, kuris gaunamas iš originalaus skirtumo tarp d(t) ir y(t), kartu su įvestu triukšmu. Šis paviršius yra susijęs su originaliu, bet gali ir žymiai skirtis. Taigi, kuomet triukšmų šaltinis paprastai yra nustatomas į nulinę Gauso reikšmę, galima tikėtis mažiau optimalių rezultatų, lyginant su stochastinės funkcijos lyginimu (stochastic functional smoothing.). Tačiau algoritmo paprastumas ir geras veikimas gautas eksperimentuose skatina toliau dirbti prie šio metodo.

Priedas

Šio priedo tikslas yra susieti triukšmo pridėjimą prie norimo signalo naudojant stochastinį funkcinį lyginimo metodą, kuris yra globali optimizacijos procedūra.

A.I Stochastinio funkcinio lyginimo optimizacijos apžvalga

Stochastiniame funkciniame lyginime, originali neišgaubta funkcija yra perkeliama pagalbinės lyginimo funkcijos, kuri turi kai kurias optimizavimo savybes (t.y. atskiras minimumas). Dirbant su lyginimo funkcija, gali būti atsrastas optimalios problemos globalus minimumas .

Lyginimo kainos funkcijos klasė parametrizuota ß yra apibrėžiama kaip [Rubinstein, 1981 and 1986]Kur ß yra valdymo parametras, o y yra atsitiktinis dydis.

Dėl J ˆ (wtam, kad būti naudingam originaliai optimizacijai, h ˆ (v impulso atsakymas turi tenkinti keleta sąlygų [žr. Rubinstein, 1981 ir 1986 detaliau], taip, kad

parametras apsprendžia lyginimo taikomo J(w) laipsnį. Dideliam lyginimo poveikis yra didelis ir atvirkščiai. Kuomet  0 J ˆ () = J , tuomet nėra lyginimo. Intuityviai aišku, kad norint išvengti lokalaus minimumo, optimizacijos pradžioje  turi būti pakankamai didelis. Tačiau siekiant optimumo lyginimo efektyvumas turi būti mažinamas leidžiant ß artėti prie nulio. Taigi minimumo taške w* laukiamas sutapimas tarp J(w) ir J ˆ ( Atitinkamai, konstruojant iteratyvią w* paieškos procedūrą, yra reikalinga lyginimo funkcijų aibė J ˆ(ß s=1,2,……

Jei signalo atsakymo dalis yra išrenkama kaip daugianormalinė funkcija su dydžiu n ir kitimu ß, tai Lyginimo kainos funkcijos gradientas gali būti įvertintas taip [Styblinski and Tang, 1990]Kur N yra pavyzdžių su daugybe kintamųjų iš (23) Lygties skaičius. Taigi, lyginimo kainos funkcijos gradientas gali būti randamas iš originalios kainos funkcijos.

A.II Tiesioginė stochastinės lyginimo funkcijos Optimizavimo realizacija

Susiejami triukšmo norimame signale poveikis ((10) ir (11) lygtys) su tiesiogine lyginimo funkcinių gradientų realizacija ((24) Lygtis)). Bus taikoma stochastinės aproksimacijos savybė [Robbins and Monro, 1951].Kuomet ISE aproksimuoja (stochastine prasme) į MSE ir gradiento operatorius yra tiesinis operatorius, lyginimo kainos funkcijos gradientas εˆ gali būti įvertintas pagal analogiją su Lygtimi (25), taip

Dėl supaprastinimo, čia yra ignoruojamas diskretinio laiko indeksas t. Reiktų pabrėžti, kad iš L.(24), kuri atspindi originalios stochastinės lyginimo funkcijos optimizacijos artėjimą prie L.(26), kuri yra tiesioginis L.(24) įvertis, tik vienintelė stochastinės aproksimacijos savybė buvo taikoma taip, kad būtų garantuotas tiesioginio įvertinimo stabilumas [Robbins and Monro, 1951; Kusher and Calrk, 1978; Wang and Principe, 1995]. Tiesioginis vienpusisi įvertis naudojamas L.(26) yra pagrindas gradiento įverčio naudojamo LMS ir BP algoritmuose.

L.(26) išreiškia įvertinimą ε(w) gradiento, kuomet w yra paveikiamas atsitiktinio kintamojo βv j . Šis metodas praktiniam realizavimui yra per brangus, kadangi svoriai turi būti veikiami (gradiento skaičiavimui pageidaujamas antras tinklas). Taigi, šis metodas tiesiogiai nėra įgyvendinamas. Realizacijos supaprastinimui siūloma atlikti Teiloro seriją ekspansijų apie w,ir antrame etape jį suskaidyti.

Literatūra

1. Darken, C., Chang, J., and Moody, J., “Learning Rate Schedules for Faster Stochastic Gradient Search,” IEEE Neural Networks for Signal Processing, 1992.2. Fahlman, S., “Fast-Learning Variations on Back-Propagation: An Empirical Study,” In Proc. Of 1988 Conn. Model Summer School.3. Feller, W, An Introduction to Probability Theory and Its Applications, Vol. 1, 2rd ed. Wiley, NewYork, 1966.4. Haykin, S, Neural Networks—A Comprehensive Foundation, Macmillan College Publishing Company, New York, 1994.5. Hertz J., Krogh A., Palmer R. G., “Introduction to the theory of neural computation,” Addison-Wesley,1991.6. Hinton G. E., “Connectionist learning procedure,” In machine learning: Paradigms and methods, J. G. Carbonell, ed., pp. 185-234. MIT Press, Cambridge, MA, 1989.7. Holmstrom L., and Koistinen, P., “Using Additive Noise in Back-Propagation Training,” IEEE Trans. on Neural Networks, Vol. 3, No.1, 1992.8. Kirkpatrick, S., et. al., “Optimization by simulated annealing,” Science 220, 671-680.9. Krogh, A. and Hertz, J., “Generalization in a Linear Perceptron in the Present of Noise,” J. Phys. A: Math. Gen. 25(1992) 1135-1147.10. Kushner, H., “Asymptotic Global Behavior for Stochastic Approximation and Diffusions with Slowly Decreasing Noise Effects: Global Minimization via Monte Carlo,” SIAM J. APPL.MATH. Vol. 47, No. 1 Feb., 1987.

11. Kushner, H, and Clark, D. S., Stochastic Approximation Methods for Constrained and Uncon-strained Systems, Springer-Verlag, New York, 1978.12. Matsuoka, K., “Noise Injection into Inputs in Back-Propagation Learning,” IEEE Trans. Systems, Man, and Cybernetics, Vol. 22, No. 3, 1992.13. Richard M., Lippmann R. P., “Neural network classifiers estimate Bayesian a posteriori probabil-ity,” Neural Computation, 3, 461-483, 1991.14. Robbins, H., and S. Monroe, “A stochastic approximation method,” Annals of Mathematical Sta-tistics 22, 1951.15. Rognvaldsson, T., “On Langevin Updating in Multilayer Perceptrons,” Neural Computation, 6.916-926, 1994.16. Rubinstein, R., Simulation and the Monte Carlo Method, Wiley,1981.17. Rubinstein, R., Monte Carlo Optimization, Simulation and Sensitivity of the Queueing Networks,Wiley, 1986.18. Rumelhart et al, Parallel Distributed Processing, Vol.1, MIT Press, 1986.19. Styblinski, M.A., and Tang, T.-S, “Experiments in Nonconvex Optimization: Stochastic Approxi-mation with Function Smoothing and Simulated Annealing,” Neural Networks, Vol.3, 1990.20. Szu, H., “Fast simulated annealing,” AIP conf. Proc. 151:Neural Networks for Computing, Snow-bird, UT, 1986.21. Waibel, A., T. Hanazawa, G. Hinton, K. Shikano, K. J. Lang, “Phoneme recognition using time-delay neural networks,” IEEEE Trams. ASSP-37, 1989.22. Wang, C., and J. C. Principe, “On-line stochastic functional smoothing optimization for neural network training, submitted to Neural Networks, 1995.23. Werbos, p., “Generalization of backpropagation with application to a recurrent gas market model,” Neural Networks, 1, 339-356.24. Widrow, B., and Hoff, M., “Adaptive switching circuits,” IRE WESCON Convention Record, pp.96-104, 1960.