Hvad er konvolutionelle neurale netværk?

Udgivet den

Maj 3, 2023

Læsetid:3 minutter, 26 sekunder

Der er en række former for foldende neurale netværk, sammen med konventionelle CNN'er, tilbagevendende neurale netværk, totalt foldede netværk og rumlige transformatornetværk - blandt andre.

Konventionelle CNN'er

Konventionelle CNN'er, ofte kendt som "vanilje" CNN'er, omfatter en samling af foldede og poolede lag, vedtaget af et antal totalt relaterede lag. Som nævnt tidligere, udfører hvert foldningslag på dette fællesskab en samling af foldninger med et sæt lærbare filtre for at udtrække muligheder fra indtastningsbilledet.

Lenet-5-strukturen, en af mange første effektive CNN'er til håndskrevne ciffergenkendelse, eksemplificerer et konventionelt CNN. Den har to enheder af foldning og pooling lag efter to totalt relaterede lag. Effektiviteten af CNN'er i billedgenkendelse er blevet bekræftet af Lenet-5-strukturen, som desuden har gjort dem ekstra bredt brugt i pc's fantasifulde og forudseende opgaver.

En arkitektur af Lenet 5-modellen

Gentagne neurale netværk

Tilbagevendende neurale netværk (RNN'er) er en slags neurale netværk, der kan forløbe med sekventiel viden ved at overvåge konteksten af tidligere input. Gentagne neurale netværk kan forløbe af input af forskellige længder og producere output afhængigt af de tidligere input, i modsætning til typiske feedforward neurale netværk, som udelukkende indlæser viden i en bestemt rækkefølge.

For eksempel kan RNN'er bruges i NLP-handlinger svarende til tekstindholdsæra eller sprogoversættelse. Et tilbagevendende neuralt samfund vil være dygtige til sætningspar på to helt forskellige sprog, der skal læres at oversætte mellem de 2.

En arkitektur af et tilbagevendende neuralt netværk

RNN'en behandler data efter hinanden og producerer ved hvert trin et outputdokument baseret på indtastningsdokumentet og det tidligere output. RNN kan producere rigtige oversættelser selv for komplicerede tekster, da det sporer tidligere input og output.

Fuldstændig foldede netværk

Totally Convolutional Networks (FCN'er) er en slags neurale fællesskabsstrukturer, der generelt bruges i pc's fantasifulde og forudseende opgaver svarende til billedsegmentering, objektdetektering og billedklassificering. FCN'er vil konstant være dygtige ved at bruge backpropagation til at kategorisere eller sektionere fotos.

Backpropagation er en coaching-algoritme, der beregner gradienterne af tabet ved hjælp af vægten af et neuralt samfund. En maskine, der studerer mannequinens evne til at forudsige det forventede output for en given indgang, måles ved en tabsoperation.

FCN'er er for det meste udelukkende baseret på foldningslag, da de ikke har helt relaterede lag, hvilket gør dem ekstra tilpasningsdygtige og beregningsmæssigt miljøvenlige end konventionelle foldningsneurale netværk. Et fællesskab, der accepterer et indtastningsbillede og udsender placeringen og klassificeringen af objekter i hele billedet, er en forekomst af et FCN.

Rumligt transformatorfællesskab

Et Spatial Transformer Community (STN) bruges i pc's fantasifulde og forudseende opgaver for at øge den rumlige invariance af muligheder opdaget fra fællesskabet. Fleksibiliteten af et neuralt samfund til at anerkende mønstre eller objekter i et billede uanset deres geografiske placering, orientering eller dimension er kendt som rumlig invarians.

Et fællesskab, der anvender en opdaget rumlig transformation på et indtastningsbillede tidligere end yderligere behandling, er en forekomst af et STN. Transformationen kan meget vel bruges til at justere objekter gennem hele billedet, rette perspektivforvrængninger eller lave forskellige rumlige ændringer for at øge fællesskabets effektivitet på et bestemt job.

En ændring refererer til enhver handling, der ændrer et billede indirekte, svarende til B. rotation, skalering eller beskæring. Justering refererer tilbage til midlerne til at garantere, at objekter i et billede er centreret, justeret eller placeret i en konstant og signifikant tilgang.

Perspektivforvrængning opstår, når objekter i et billede virker skæve eller forvrængede på grund af den vinkel eller afstand, som billedet blev taget fra. Ved at gøre brug af en række matematiske transformationer til billedet, svarende til B. kan affine transformationer bruges til at rette perspektivforvrængning. Affine transformationer beskytter parallelle spor og afstandsforhold mellem faktorer til højre for perspektivforvrængninger eller forskellige rumlige ændringer i et billede.

Rumlige ændringer kontrollerer med enhver ændring inden for den rumlige konstruktion af et billede, svarende til B. Spejlvending, drejning eller forskydning af billedet. Disse modifikationer kan øge coaching viden eller håndtere særlige udfordringer i processen, svarende til: B. belysning, distinktion eller baggrundsvariationer.

Kilde link

Glad

0 %

Sad

0 %

Spændt

0 %

Sleepy

0 %

Vred

0 %

Surprise

0 %

Azeez Mustafa

Azeez begyndte sin FinTech-karrierevej i 2008 efter voksende interesse og intriger om markedsguider og hvordan de formåede at vinde på slagmarken i den finansielle verden. Efter et årti med læring, læsning og træning af branchen, er han nu en eftertragtet handelsprofessionel, teknisk / valutaanalytiker og fondsforvalter - samt en forfatter.

Sidst opdateret : Maj 3, 2023

Hvad er konvolutionelle neurale netværk?

Konventionelle CNN'er

Gentagne neurale netværk

Fuldstændig foldede netværk

Rumligt transformatorfællesskab

Crypto Nyheder

Seneste indlæg