Deep Residual Shrinkage Network: Dull Deallusrwydd Artiffisial ar gyfer Data Swnllyd Iawn

Mae’r Deep Residual Shrinkage Network yn fersiwn well o’r Deep Residual Network. Yn y bôn, mae’n integreiddio Deep Residual Network, Attention Mechanisms, a swyddogaethau trothwy meddal (soft thresholding).

I raddau, gellir deall egwyddor weithio’r Deep Residual Shrinkage Network fel a ganlyn: mae’n defnyddio Attention Mechanisms i nodi nodweddion (features) di-bwys ac yn defnyddio swyddogaethau trothwy meddal i’w gosod i sero; ar y llaw arall, mae’n nodi nodweddion pwysig ac yn eu cadw. Mae’r broses hon yn cryfhau gallu’r rhwydwaith niwral dwfn i echdynnu nodweddion defnyddiol o signalau sy’n cynnwys sŵn.

1. Cymhelliant Ymchwil

Yn gyntaf, wrth ddosbarthu samplau, mae presenoldeb sŵn—fel Gaussian noise, pink noise, a Laplacian noise—yn anochel. Yn fwy eang, mae samplau yn aml yn cynnwys gwybodaeth sy’n amherthnasol i’r dasg ddosbarthu bresennol, y gellir ei deall hefyd fel sŵn. Gall y sŵn hwn effeithio’n negyddol ar berfformiad y dosbarthu. (Mae trothwy meddal yn gam allweddol mewn llawer o algorithmau “signal denoising”.)

Er enghraifft, yn ystod sgwrs wrth ymyl ffordd, gall y sain gael ei chymysgu â sŵn cyrn ceir ac olwynion. Wrth wneud “speech recognition” ar y signalau hyn, bydd y canlyniadau yn anochel yn cael eu heffeithio gan y synau cefndir hyn. O safbwynt Deep Learning, dylid dileu’r nodweddion sy’n cyfateb i’r cyrn a’r olwynion o fewn y rhwydwaith niwral dwfn er mwyn eu hatal rhag effeithio ar ganlyniadau’r adnabod lleferydd.

Yn ail, hyd yn oed o fewn yr un set ddata, mae faint o sŵn yn aml yn amrywio o sampl i sampl. (Mae hyn yn rhannu tebygrwydd ag Attention Mechanisms; gan gymryd set ddata delwedd fel enghraifft, gall lleoliad y gwrthrych targed fod yn wahanol ar draws delweddau, a gall Attention Mechanisms ganolbwyntio ar leoliad penodol y gwrthrych targed ym mhob delwedd.)

Er enghraifft, wrth hyfforddi dosbarthwr cath-a-chi, ystyriwch bum delwedd sydd wedi’u labelu fel “ci”. Efallai bod y ddelwedd gyntaf yn cynnwys ci a llygoden, yr ail yn gi a gŵydd, y trydydd yn gi a iâr, y pedwerydd yn gi ac asyn, a’r pumed yn gi a hwyaden. Yn ystod yr hyfforddiant, bydd y dosbarthwr yn anochel yn dioddef ymyrraeth gan wrthrychau amherthnasol fel llygod, gwyddau, ieir, asynnod, a hwyaid, gan arwain at ostyngiad yn gywirdeb y dosbarthu. Os gallwn nodi’r gwrthrychau amherthnasol hyn—y llygod, gwyddau, ieir, asynnod, a hwyaid—a dileu eu nodweddion cyfatebol, mae’n bosibl gwella cywirdeb y dosbarthwr cath-a-chi.

2. Trothwy Meddal (Soft Thresholding)

Mae trothwy meddal (soft thresholding) yn gam craidd mewn llawer o algorithmau “signal denoising”. Mae’n dileu nodweddion sydd â gwerthoedd absoliwt is na throthwy (threshold) penodol ac yn crebachu nodweddion sydd â gwerthoedd absoliwt uwch na’r trothwy hwn tuag at sero. Gellir ei weithredu gan ddefnyddio’r fformiwla ganlynol:

\[y = \begin{cases} x - \tau & x > \tau \\ 0 & -\tau \le x \le \tau \\ x + \tau & x < -\tau \end{cases}\]

Y deilliad (derivative) o allbwn y trothwy meddal mewn perthynas â’r mewnbwn yw:

\[\frac{\partial y}{\partial x} = \begin{cases} 1 & x > \tau \\ 0 & -\tau \le x \le \tau \\ 1 & x < -\tau \end{cases}\]

Fel y gwelir uchod, mae deilliad y trothwy meddal naill ai’n 1 neu’n 0. Mae’r eiddo hwn yn union yr un fath â swyddogaeth actifadu ReLU. Felly, gall trothwy meddal hefyd leihau’r risg i algorithmau Deep Learning ddioddef o “gradient vanishing” a “gradient exploding”.

Yn y swyddogaeth trothwy meddal, rhaid i osodiad y trothwy fodloni dau amod: yn gyntaf, rhaid i’r trothwy fod yn rif positif; yn ail, ni all y trothwy fod yn fwy na gwerth mwyaf y signal mewnbwn, fel arall bydd yr allbwn yn sero i gyd.

Yn ogystal, mae’n well i’r trothwy fodloni trydydd amod: dylai fod gan bob sampl ei drothwy annibynnol ei hun yn seiliedig ar ei gynnwys sŵn.

Mae hyn oherwydd bod cynnwys sŵn yn aml yn amrywio rhwng samplau. Er enghraifft, mae’n gyffredin o fewn yr un set ddata i Sampl A gynnwys llai o sŵn tra bod Sampl B yn cynnwys mwy o sŵn. Yn yr achos hwn, wrth berfformio trothwy meddal mewn algorithm “denoising”, dylai Sampl A ddefnyddio trothwy llai, tra dylai Sampl B ddefnyddio trothwy mwy. Er bod y nodweddion a’r trothwyau hyn yn colli eu diffiniadau ffisegol eglur mewn rhwydweithiau niwral dwfn, mae’r rhesymeg sylfaenol yn aros yr un fath. Mewn geiriau eraill, dylai fod gan bob sampl ei drothwy annibynnol ei hun wedi’i bennu gan ei gynnwys sŵn penodol.

3. Mecanwaith Attention (Attention Mechanism)

Mae Attention Mechanisms yn gymharol hawdd eu deall ym maes Computer Vision. Gall systemau gweledol anifeiliaid wahaniaethu targedau trwy sganio’r ardal gyfan yn gyflym, gan ganolbwyntio sylw wedyn ar y gwrthrych targed i echdynnu mwy o fanylion tra’n atal gwybodaeth amherthnasol. Am fanylion, cyfeiriwch at lenyddiaeth sy’n ymwneud ag Attention Mechanisms.

Mae’r Squeeze-and-Excitation Network (SENet) yn ddull Deep Learning cymharol newydd sy’n defnyddio Attention Mechanisms. Ar draws samplau gwahanol, mae cyfraniad gwahanol sianeli nodwedd (feature channels) i’r dasg ddosbarthu yn aml yn amrywio. Mae SENet yn defnyddio is-rwydwaith (sub-network) bach i gael set o bwysau (weights) ac yna’n lluosi’r pwysau hyn â nodweddion y sianeli priodol i addasu maint y nodweddion ym mhob sianel. Gellir ystyried y broses hon fel cymhwyso lefelau gwahanol o sylw (attention) i wahanol sianeli nodwedd.

Squeeze-and-Excitation Network

Yn y dull hwn, mae gan bob sampl ei set annibynnol ei hun o bwysau. Mewn geiriau eraill, mae’r pwysau ar gyfer unrhyw ddau sampl mympwyol yn wahanol. Yn SENet, y llwybr penodol ar gyfer cael pwysau yw “Global Pooling → Fully Connected Layer → ReLU Function → Fully Connected Layer → Sigmoid Function.”

Squeeze-and-Excitation Network

4. Trothwy Meddal o dan Deep Attention Mechanism

Mae’r Deep Residual Shrinkage Network yn cymryd ysbrydoliaeth o strwythur is-rwydwaith SENet a grybwyllwyd uchod i weithredu trothwy meddal o dan Deep Attention Mechanism. Trwy’r is-rwydwaith (a ddangosir o fewn y blwch coch), gellir dysgu set o drothwyau i gymhwyso trothwy meddal i bob sianel nodwedd.

Deep Residual Shrinkage Network

Yn yr is-rwydwaith hwn, cyfrifir gwerthoedd absoliwt yr holl nodweddion yn y map nodwedd (feature map) yn gyntaf. Yna, trwy Global Average Pooling a chyfartaleddu, ceir nodwedd, a nodir fel A. Yn y llwybr arall, mae’r map nodwedd ar ôl Global Average Pooling yn cael ei fewnbynnu i rwydwaith “Fully Connected” bach. Mae’r rhwydwaith hwn yn defnyddio’r swyddogaeth Sigmoid fel ei haen olaf i normaleiddio’r allbwn rhwng 0 ac 1, gan roi cyfernod a nodir fel α. Gellir mynegi’r trothwy terfynol fel α × A. Felly, y trothwy yw lluoswm rhif rhwng 0 ac 1 a chyfartaledd gwerthoedd absoliwt y map nodwedd. Mae’r dull hwn yn sicrhau bod y trothwy nid yn unig yn bositif ond hefyd ddim yn ormodol o fawr.

At hynny, mae samplau gwahanol yn arwain at drothwyau gwahanol. O ganlyniad, i raddau, gellir dehongli hyn fel Attention Mechanism arbenigol: mae’n nodi nodweddion sy’n amherthnasol i’r dasg bresennol, yn eu trawsnewid i werthoedd sy’n agos at sero trwy ddwy haen “convolutional”, ac yn eu gosod i sero gan ddefnyddio trothwy meddal; fel arall, mae’n nodi nodweddion sy’n berthnasol i’r dasg bresennol, yn eu trawsnewid i werthoedd sy’n bell o sero trwy ddwy haen “convolutional”, ac yn eu cadw.

Yn olaf, trwy stacio nifer penodol o fodiwlau sylfaenol ynghyd â haenau “convolutional”, Batch Normalization, swyddogaethau actifadu, Global Average Pooling, a haenau allbwn “Fully Connected”, adeiladir y Deep Residual Shrinkage Network cyflawn.

Deep Residual Shrinkage Network

5. Gallu Cyffredinoli

Mae’r Deep Residual Shrinkage Network, mewn gwirionedd, yn ddull dysgu nodweddion (feature learning) cyffredinol. Mae hyn oherwydd, mewn llawer o dasgau dysgu nodweddion, mae samplau fwy neu lai yn cynnwys rhywfaint o sŵn yn ogystal â gwybodaeth amherthnasol. Gall y sŵn a’r wybodaeth amherthnasol hon effeithio ar berfformiad dysgu nodweddion. Er enghraifft:

Mewn dosbarthu delweddau, os yw delwedd yn cynnwys llawer o wrthrychau eraill ar yr un pryd, gellir deall y gwrthrychau hyn fel “sŵn.” Efallai y bydd y Deep Residual Shrinkage Network yn gallu defnyddio’r Attention Mechanism i sylwi ar y “sŵn” hwn ac yna defnyddio trothwy meddal i osod y nodweddion sy’n cyfateb i’r “sŵn” hwn i sero, a thrwy hynny o bosibl wella cywirdeb dosbarthu delweddau.

Mewn adnabod lleferydd (speech recognition), yn benodol mewn amgylcheddau cymharol swnllyd fel lleoliadau sgwrsio wrth ymyl ffordd neu y tu fewn i weithdy ffatri, gall y Deep Residual Shrinkage Network wella cywirdeb adnabod lleferydd, neu o leiaf, cynnig methodoleg sy’n gallu gwella cywirdeb adnabod lleferydd.

Reference

Minghang Zhao, Shisheng Zhong, Xuyun Fu, Baoping Tang, Michael Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, 2020, 16(7): 4681-4690.

https://ieeexplore.ieee.org/document/8850096

BibTeX

@article{Zhao2020,
  author    = {Minghang Zhao and Shisheng Zhong and Xuyun Fu and Baoping Tang and Michael Pecht},
  title     = {Deep Residual Shrinkage Networks for Fault Diagnosis},
  journal   = {IEEE Transactions on Industrial Informatics},
  year      = {2020},
  volume    = {16},
  number    = {7},
  pages     = {4681-4690},
  doi       = {10.1109/TII.2019.2943898}
}

Effaith Academaidd

Mae’r papur hwn wedi derbyn dros 1,400 o ddyfyniadau ar Google Scholar.

Yn ôl amcangyfrifon ceidwadol, mae Deep Residual Shrinkage Networks (DRSN) wedi cael eu defnyddio mewn dros 1,000 o gyhoeddiadau. Mae’r gweithiau hyn naill ai wedi cymhwyso’r rhwydwaith yn uniongyrchol neu wedi’i wella ar draws ystod eang o feysydd, gan gynnwys peirianneg fecanyddol, pŵer trydan, gweledigaeth gyfrifiadurol (computer vision), gofal iechyd, prosesu lleferydd, dadansoddi testun, radar, a synhwyro o bell.