Deep Residual Shrinkage Network, Deep Residual Network रो ही एक सुधार्यो (improved) रूप छ। असल म, Deep Residual Shrinkage Network म तीन चीजां मिलेली छ: Deep Residual Network, Attention Mechanisms, अन Soft Thresholding functions।
आपण Deep Residual Shrinkage Network कसियाँ काम करे, ये वात आसानियाँ समझ सका। पेली, ये network Attention Mechanisms use करन unimportant features न ओळखे (identify करे)। पछी, network Soft Thresholding functions use करन ई unimportant features न zero बणा दे। उंधो, network important features न ओळखे अन वने संभाल राखे। ये process Deep Neural Network री ताकत बढ़ावे छ। ये process network न मदद करे छ क वो noise वाळा signals म से भी काम की (useful) features निकाल सके।
1. शोध रो कारण (Research Motivation)
सब सू पेली वात, जद algorithm samples न classify करे, तब noise आवे ही छ। Noise रा घणा examples छ, जसीयां क Gaussian noise, pink noise, अन Laplacian noise। थोड़ा और विस्तार सू देखूँ, तो samples म घणी बार आसी जाणकारी होवे जो current classification task के लिए बेकार (irrelevant) होवे। आपण ई बेकार जाणकारी न noise मान सका। ये noise classification performance न कमजोर कर सके छ। (Soft thresholding घणा signal denoising algorithms म एक घणो जरूरी step छ।)
उदाहरण के लिए (For example), सड़क किनारे एक वात-चीत (conversation) न समझो। Audio म गाड़ी के horn अन पहीया (wheels) री आवाज आ सके। आपण ई signals पर speech recognition कर सका। पण background sounds result पर असर डाले छ। Deep Learning रा हिसाब सू, Deep Neural Network न horn अन wheels री आवाज वाळा features न हटा देणू चाइजे। ऐसा करणे सू ये features speech recognition रा results न खराब कोनी करे।
दूसरी वात, अलग-अलग samples म noise री मात्रा अलग-अलग होवे छ। ये फर्क एक ही dataset म भी हो सके छ। (ये फर्क Attention Mechanisms सू मिलदो-जुलदो छ। एक image dataset रो उदाहरण लो। हर photo म target object री जगह अलग हो सके। Attention Mechanisms हर photo म target object री सही जगह पर ध्यान लगा सके।)
समझो क आपण एक cat-and-dog classifier train कर रया छ, अन 5 photo छ जिपर “dog” लिख्यो छ। Image 1 म कूतो (dog) अन उंद्रो (mouse) हो सके। Image 2 म कूतो अन हंस (goose) हो सके। Image 3 म कूतो अन मुर्गी (chicken) हो सके। Image 4 म कूतो अन गधो (donkey) हो सके। Image 5 म कूतो अन बत्तख (duck) हो सके। Training रा time, ये बेकार चीजां classifier न confuse करे। ये चीजां छ: mouse, geese, chickens, donkeys, अन ducks। इससे classification accuracy कम होवे छ। अगर आपण ई बेकार चीजां न पिछाण ले, तो आपण उनका features हटा सका। इस तरह सू, आपण cat-and-dog classifier री accuracy बढ़ा सका।
2. सॉफ्ट थ्रेशोल्डिंग (Soft Thresholding)
Soft thresholding घणा signal denoising algorithms रो core step छ। अगर features री absolute values एक threshold सू कम होवे, तो algorithm ई features न हटा दे। अगर features री absolute values ई threshold सू ज्यादा होवे, तो algorithm ई features न zero री तरफ shrink करे (सिकोड़े)। Researchers नीचे दिए गए formula सू Soft thresholding use कर सके:
\[y = \begin{cases} x - \tau & x > \tau \\ 0 & -\tau \le x \le \tau \\ x + \tau & x < -\tau \end{cases}\]Input रा हिसाब सू Soft thresholding output रो derivative छ:
\[\frac{\partial y}{\partial x} = \begin{cases} 1 & x > \tau \\ 0 & -\tau \le x \le \tau \\ 1 & x < -\tau \end{cases}\]ऊपर वाळो formula बतावे छ क Soft thresholding रो derivative या तो 1 होवे या 0। ये गुण (property) बिलकुल ReLU activation function जस्यो ही छ। इसलिए, Soft thresholding deep learning algorithms म gradient vanishing अन gradient exploding रो खतरो कम करे छ।
Soft thresholding function म, threshold set करती बखत दो शर्तां (conditions) माननी पड़े। पेली, threshold positive number होणू चाइजे। दूसरी, threshold input signal री maximum value सू ज्यादा कोनी होणू चाइजे। नहीं तो, output पूरो zero हो जावेगा।
साथे ही, threshold न तीसरी शर्त भी माननी चाइजे। हर sample रो noise content अलग होवे, इसलिए हर sample रो खुद रो अलग (independent) threshold होणू चाइजे।
कारण यो छ क noise content हर sample म बदलता रवे छ। जसीयां क, एक ही dataset म Sample A म कम noise हो सके अन Sample B म ज्यादा noise हो सके। ई हालत म, Soft thresholding करता time, Sample A न छोटा threshold use करणू चाइजे। Sample B न बड़ा threshold use करणू चाइजे। Deep Neural Networks म, ये features अन thresholds अपणा physical मतलब खो सके छ। पण, असली logic वो ही रवे छ। मतलब, हर sample रो एक independent threshold होणू चाइजे। वो threshold sample के अंदर कितना noise छ, उस पर depend करे।
3. अटेंशन मैकेनिज्म (Attention Mechanism)
Researchers computer vision field म Attention Mechanisms न आसानी सू समझ सके छ। जानवरा (Animals) री आँख पूरी जगह न जल्दी scan कर के target न पिछाण सके। पछी, उनकी आँख target object पर attention focus करे। इससे system ज्यादा details निकाल सके। साथे ही, system बेकार जाणकारी (irrelevant information) न दबा दे। ज्यादा जाणकारी वास्ते, Attention Mechanisms री किताब पढ़ सको।
Squeeze-and-Excitation Network (SENet) एक नया deep learning method छ जो Attention Mechanisms use करे छ। अलग-अलग samples म, अलग-अलग feature channels classification task म अलग-अलग मदद करे। SENet एक छोटा sub-network use कर के “Learn a set of weights” (weights रो set निकाले)। पछी, SENet ई weights न उनके features channels सू multiply करे। आपण इस process न “Apply weighting to each feature channel” के सका। ये process हर channel म features री size adjust करे। इसने आपण आसियाँ समझ सका क अलग-अलग feature channels पर अलग-अलग level रो attention लगायो जा रयो छ।
ई तरीके म, हर sample कने weights रो एक independent set होवे छ। मतलब, कोई भी दो samples रा weights अलग-अलग होवे। SENet म, weights निकालणो रो रास्तो छ: “Global Pooling → Fully Connected Layer → ReLU Function → Fully Connected Layer → Sigmoid Function.”
4. Deep Attention Mechanism रे साथे Soft Thresholding
Deep Residual Shrinkage Network SENet sub-network रो structure use करे छ। Network ई structure न Deep Attention Mechanism रा under Soft thresholding करवा वास्ते use करे। ये sub-network (जो लाल डब्बे/red box म दिखायो गयो छ) thresholds रो एक set सीखे (Learn a set of thresholds)। पछी, network ई thresholds use कर के हर feature channel पर Soft thresholding apply करे।
ई sub-network म, system सब सू पेली input feature map रा सारे features री absolute values निकाले। पछी, system global average pooling अन averaging करे जिससे एक feature मिले, जिने आपण A मान सका। दूसरी तरफ (Identity path), system feature map न global average pooling के बाद एक छोटे fully connected network म डाले। ई fully connected network आखिरी layer म Sigmoid function use करे। ये function output न 0 अन 1 के बीच म normalize करे। इससे एक coefficient मिले, जिने आपण α मान सका। आपण final threshold न α × A के सका। इसलिए, threshold दो numbers रो product छ। एक number 0 अन 1 के बीच छ। दूसरा number feature map री absolute values रो average छ। ये method पक्का करे छ क threshold positive होवे। ये method ये भी पक्का करे छ क threshold घणो बड़ो ना होवे।
और तो और, अलग-अलग samples सू अलग-अलग thresholds बणे छ। इसलिए, आपण ई method न एक special Attention Mechanism समझ सका। ये mechanism current task के लिए बेकार features न पिछाणे। ये mechanism दो Convolutional layers द्वारा ई features न 0 के करीब ले आवे। पछी, ये mechanism Soft thresholding use कर के ई features न zero बणा दे। या फिर, ये mechanism current task के लिए जरूरी features न पिछाणे। ये mechanism दो Convolutional layers द्वारा ई features न 0 सू दूर ले जावे। आखिरी म, ये mechanism ई features न बचा ले (preserves)।
आखिरी म, आपण basic modules न एक के ऊपर एक रख सका (Stack many basic modules)। आपण Convolutional layers, Batch Normalization, Activation functions, Global Average Pooling, अन Fully Connected output layers भी जोड़ा। ई process सू पूरो Deep Residual Shrinkage Network बण जावे।
5. जनरलाइजेशन क्षमता (Generalization Capability)
Deep Residual Shrinkage Network feature learning वास्ते एक general method छ। कारण यो छ क घणा feature learning tasks म, samples म noise होवे ही छ। Samples म irrelevant information भी होवे। ये noise अन irrelevant information feature learning performance न खराब कर सके। जसीयां क:
Image classification न समझो। एक photo म घणी दूसरी चीजां भी हो सके। आपण ई चीजां न “Noise” मान सका। Deep Residual Shrinkage Network शायद Attention Mechanism use कर सके। Network ई “Noise” पर ध्यान दे। पछी, network Soft thresholding use कर के ई “Noise” वाळा features न zero बणा दे। इससे image classification री accuracy बढ़ सके छ।
Speech recognition न समझो। खास कर के noisy environments म, जसीयां क सड़क किनारे या factory workshop म वात-चीत। Deep Residual Shrinkage Network speech recognition accuracy बढ़ा सके छ। या कम से कम, network एक तरीको (methodology) देवे छ। ये methodology speech recognition accuracy बढ़ाणे के काबिल छ।
संदर्भ (Reference)
Minghang Zhao, Shisheng Zhong, Xuyun Fu, Baoping Tang, Michael Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, 2020, 16(7): 4681-4690.
https://ieeexplore.ieee.org/document/8850096
BibTeX
@article{Zhao2020,
author = {Minghang Zhao and Shisheng Zhong and Xuyun Fu and Baoping Tang and Michael Pecht},
title = {Deep Residual Shrinkage Networks for Fault Diagnosis},
journal = {IEEE Transactions on Industrial Informatics},
year = {2020},
volume = {16},
number = {7},
pages = {4681-4690},
doi = {10.1109/TII.2019.2943898}
}
अकादमिक प्रभाव (Academic Impact)
Google Scholar पर ई paper न 1,400 सू ज्यादा citations मिल्या छ।
अधूरे आंकड़ों (statistics) रा हिसाब सू, researchers Deep Residual Shrinkage Network (DRSN) न 1,000 सू ज्यादा publications/studies म use करयो छ। ये applications घणा fields म छ। ई fields म mechanical engineering, electrical power, vision, healthcare, speech, text, radar, अन remote sensing शामिल छ।