Ce este o rețea neuronală bayesiană? Fundal, idee de bază și funcție

Publicat: 2020-12-23

Cuprins

Introducere

Acest articol tratează conceptul fundamental al rețelelor neuronale bayesiene. Acest concept special de rețele neuronale bayesiene intră în joc atunci când date nevăzute sunt introduse în rețeaua neuronală, creând incertitudine.

Măsura acestei incertitudini în predicție, care lipsește din Arhitecturile rețelelor neuronale, este ceea ce explică Bayesian Neural Nets. Acesta abordează supraadaptarea, dar ajută și la caracteristicile suplimentare, cum ar fi estimarea incertitudinii și distribuția probabilității. Conceptul de rețele neuronale a fost de asemenea explicat.

Citiți: Tipuri de învățare supravegheată

Contextul rețelei neuronale bayesiene

Comparând unul dintre cele mai performante sisteme de inteligență artificială din ultimii zece ani, toate aceste mașini au un lucru în comun - încorporează o tehnică sofisticată numită Deep Learning.

Prin deschiderea conceptului de Deep Learning, se poate observa că este un nume care a permis o abordare relativ nouă a Inteligenței Artificiale, numită Rețele Neurale, care au fost în tendințe inconsecvente de mai bine de 70 de ani. Ca exemplu, se observă că conceptul de rețele neuronale se bazează vag pe creierul uman, care constă din milioane de noduri de procesare conectate ca o plasă densă la fel ca fire împletite.

Prin urmare, rețelele neuronale bayesiene abordează în mod convenabil problema incertitudinilor în datele de antrenament care sunt astfel alimentate.

Ideea de bază a rețelei neuronale bayesiene

Rețelele neuronale, cunoscute mai popular sub numele de rețele neuronale, reprezintă o modalitate eficientă de învățare automată, în care computerul învață, analizează și realizează sarcinile analizând exemplele de antrenament. Exemplele folosite sunt în mare parte etichetate manual în avans. De exemplu, luați un sistem de recunoaștere a obiectelor.

Informațiile referitoare la imaginile etichetate cu automobile, mașini, case sau orice obiect sunt date sau alimentate. Apoi formulează o inferență logică în modelul vizual inserat ca date care trebuie să fie corelate în mod constant cu alte etichete specifice.

Arhitecții care lucrează cu rețele neuronale au fost victorioși în defalcarea și învățarea unor mapări foarte complexe de intrare și ieșire din date. Cu toate acestea, o cunoaștere de bază a aceluiași sistem de cartografiere de intrare și de ieșire ajunge de obicei să nu satisfacă majoritatea situațiilor, mai ales atunci când este nevoie de integrarea credinței unui anumit model sau în circumstanțe în care datele sunt limitate.

Rețelele neuronale bayesiene sunt acele criterii sau parametri care în majoritatea circumstanțelor sunt exprimate ca distribuție și sunt de obicei învățați prin conceptul de inferență bayesiană, în comparație cu o valoare deterministă. Ei au o capacitate interioară de a digera funcția complexă, neliniară din date și apoi de a exprima incertitudinile - ambele în același timp. Prin urmare, i-a condus și la un rol mai înalt în căutarea de a strânge și de a construi o IA mai fiabilă și mai competentă.

Trebuie citit: Tipuri de modele de regresie în învățarea automată

Ce sunt rețelele neuronale bayesiene?

Prin urmare, rețeaua neuronală bayesiană se referă la extinderea rețelei standard în ceea ce privește inferența anterioară. Rețelele neuronale bayesiene se dovedesc a fi extrem de eficiente în anumite setări când incertitudinea este mare și absolută. Aceste circumstanțe sunt și anume sistemul de luare a deciziilor, sau cu o setare de date relativ mai scăzută, sau orice fel de învățare bazată pe modele.

Rețelele neuronale profunde (DNN) tind să formuleze o inferență logică cu datele date fără a avea vreo experiență anterioară cu setul de date. Ca urmare, au rezultate excepționale de bine cu date care sunt neliniare prin natură și, prin urmare, necesită o cantitate mare de date pentru unicul scop de instruire. Datorită încărcării de mai multe informații, problema suprafețelor supraetajate.

Dilema care apare în situația actuală este că rețelele neuronale, așa cum s-a observat mai înainte, funcționează excepțional de bine cu datele care sunt alimentate cu unicul scop de antrenament, dar vor avea tendința de a avea performanțe slabe atunci când date noi și străine sunt introduse în sistem. Acest lucru face ca Nets să fie orbi la anumite incertitudini în datele de antrenament în sine, ceea ce îi face să fie prea încrezători în predicțiile lor, ceea ce poate induce în eroare. Pentru a elimina astfel de erori, sunt folosite așadar rețelele neuronale bayesiene.

Cum funcționează rețelele neuronale bayesiene (BNN)?

Obiectul și ideea principală din spatele rețelelor neuronale bayesiene sunt că fiecare unitate este în asociere cu distribuția probabilității, care include ponderile și părtinirile.

Ele sunt cunoscute ca variabile aleatoare, care vor oferi o valoare complet diferită de fiecare dată când sunt accesate.

Luând un exemplu, dacă X este o variabilă și este o variabilă complet aleatorie, reprezintă distribuția normală. De fiecare dată când este accesat X, este dată o valoare divergentă a lui X. Procesul de obținere a unei valori divergente a de fiecare dată când valoarea lui X este preluată se numește Eșantionare. Valoarea care este derivată din fiecare eșantion depinde de distribuția probabilității.

Pe măsură ce sfera distribuției probabilităților crește, incertitudinea este direct proporțională; ca urmare, se ridică și el. În mod obișnuit, într-o rețea neuronală, fiecare strat trebuie să aibă ponderi care sunt fixe, cu prejudecățile care de obicei dau seama de ieșire. O rețea bayesiană, pe de altă parte, va avea distribuția de probabilitate care va fi atașată stratului însuși.

De fiecare dată se execută o trecere înainte multiplă, cu un nou set de greutăți, precum și părtiniri. Prin urmare, este folosit pentru a trata problema clasificării. Ieșirea este furnizată pentru fiecare trecere făcută înainte. Datele încărcate ca imagine de intrare sunt ceea ce duce la o incertitudine sporită. Într-un astfel de caz, este o imagine pe care rețeaua nu a mai întâlnit-o înainte pentru clasele de ieșire.

Concluzie

Este sigur să concluzionam că rețelele neuronale bayesiene sunt o binecuvântare atunci când vine vorba de integrare și de a face față incertitudinilor. De asemenea, s-au manifestat că îmbunătățesc performanțele de predicție.

Problemele fundamentale primare care apar în dezvoltarea rețelei neuronale bayesiene sau a oricărui model bazat pe probabilitate sunt calculele insolubile ale distribuției anterioare și așteptările lor respective. Mai mult decât atât, este excepțional de clar că problema supraadaptării este tratată cu multă putere de către rețelele bayesiene.

Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Cum se face un model grafic dintr-o rețea bayesiană?

Prin legarea tuturor nodurilor implicate în fiecare componentă, o rețea bayesiană poate fi transformată într-un model grafic nedirecționat. Acest lucru necesită unirea părinților fiecărui nod. Un graf moral este un graf nedirecționat care corespunde unei rețele bayesiene specifice. Calculul graficului moral este prima etapă în multe tehnici de calcul ale rețelelor bayesiene.

Care este relația dintre o rețea bayesiană și probabilitate?

O rețea bayesiană este creată folosind un grafic direcționat aciclic. O rețea neuronală bayesiană este un model de probabilitate care este factorizat prin aplicarea unei singure distribuții de probabilitate condiționată pentru fiecare variabilă pentru modelul dat. Distribuția se bazează pe părinții din grafic. Variabilele din grafic care sunt separate sunt încă independente, dar separarea grafică de bază a graficului nedirecționat este înlocuită cu separarea d mai dificilă, care ia în considerare influența explicațiilor concurente pentru valorile observate.

Menționați vreo presupunere pe care o fac rețelele bayesiene?

Când ni se oferă clasificarea țintă, o presupunere critică pentru clasificatorii bayesieni naivi este că toate valorile variabilelor sunt independente condiționat. Această ipoteză ajută foarte mult la simplificarea calculelor funcției obiectiv din punct de vedere al probabilității posterioare. Cu toate acestea, pentru unele aplicații, cum ar fi documentele text și semnalele vocale, această presupunere poate să nu fie corectă. Rețelele de credințe bayesiene pot fi o alegere utilă în acest scenariu. Ei folosesc un set de probabilități independente condiționat, mai degrabă decât să impună toate valorile posibile tuturor variabilelor.