Deep Residual Shrinkage Network: Highly Noisy Data-ৰ বাবে এটা Artificial Intelligence Method

Deep Residual Shrinkage Network হৈছে Deep Residual Network-ৰ এটা improved variant (উন্নত সংস্কৰণ)। আচলতে, এইটো Deep Residual Network, attention mechanisms, আৰু soft thresholding functions-ৰ এটা integration (সংমিশ্ৰণ)।

কিছু পৰিমাণে, Deep Residual Shrinkage Network-ৰ কাম কৰাৰ নীতিটো এনেদৰে বুজিব পাৰি: ই attention mechanisms ব্যৱহাৰ কৰি unimportant features (অগুৰুত্বপূৰ্ণ বৈশিষ্ট্য) সমূহ চিনাক্ত কৰে আৰু soft thresholding functions ব্যৱহাৰ কৰি সেইবোৰক zero (শূণ্য) কৰি দিয়ে; বা আন কথাত ক’বলৈ গ’লে, ই important features সমূহ চিনাক্ত কৰে আৰু সেইবোৰক সংৰক্ষণ কৰে। এই প্ৰক্ৰিয়াটোৱে noise থকা signal-ৰ পৰা useful features আহৰণ কৰিবলৈ deep neural network-ৰ ক্ষমতা বৃদ্ধি কৰে।

1. Research Motivation (গৱেষণাৰ উদ্দেশ্য)

প্ৰথমতে, যেতিয়া আমি samples classify (শ্ৰেণীবিভাজন) কৰোঁ, তেতিয়া Gaussian noise, pink noise, আৰু Laplacian noise-ৰ দৰে noise থকাটো স্বাভাৱিক (inevitable)। বহল অৰ্থত ক’বলৈ গ’লে, samples-ত প্ৰায়ে current classification task-ৰ লগত সম্পৰ্ক নথকা তথ্য থাকিব পাৰে, আৰু এই তথ্যবোৰকো noise বুলি ধৰিব পাৰি। এই noise-এ classification performance-ত বেয়া প্ৰভাৱ পেলাব পাৰে। (Soft thresholding হৈছে বহুতো signal denoising algorithms-ৰ এটা মূল পদক্ষেপ।)

উদাহৰণস্বৰূপে, ৰাস্তাৰ কাষত কথা পাতিলে, কথা-বতৰাৰ শব্দৰ লগত গাড়ীৰ হৰ্ণ আৰু চকাৰ শব্দ মিহলি হৈ থাকিব পাৰে। যেতিয়া আমি এই signal-বোৰৰ ওপৰত speech recognition কৰোঁ, তেতিয়া ফলাফলত এই হৰ্ণ আৰু চকাৰ শব্দই নিশ্চিতভাৱে প্ৰভাৱ পেলাব। Deep learning-ৰ দৃষ্টিকোণৰ পৰা চাবলৈ গলে, হৰ্ণ আৰু চকাৰ শব্দৰ লগত জড়িত features সমূহ deep neural network-ৰ ভিতৰতে আঁতৰাই পেলাব লাগে, যাতে সেইবোৰে speech recognition-ৰ ফলাফলত প্ৰভাৱ পেলাব নোৱাৰে।

দ্বিতীয়তে, একেটা dataset-ৰ ভিতৰতে, বেলেগ বেলেগ sample-ত noise-ৰ পৰিমাণ প্ৰায়ে বেলেগ বেলেগ হয়। (ইয়াৰ লগত attention mechanisms-ৰ মিল আছে; এটা image dataset-ৰ উদাহৰণ ল’লে, বিভিন্ন ছবিত target object-ৰ স্থান বেলেগ বেলেগ হ’ব পাৰে, আৰু attention mechanisms-এ প্ৰতিখন ছবিত target object থকা নিৰ্দিষ্ট স্থানত focus কৰিব পাৰে।)

উদাহৰণস্বৰূপে, যেতিয়া আমি এটা cat-and-dog classifier train কৰোঁ, ধৰি লওক “কুকুৰ” (dog) লেবেল থকা ৫খন ছবি আছে। প্ৰথম ছবিখনত কুকুৰ আৰু নিগনি থাকিব পাৰে, দ্বিতীয়খনত কুকুৰ আৰু হাঁহ (goose), তৃতীয়খনত কুকুৰ আৰু কুকুৰা, চতুৰ্থখনত কুকুৰ আৰু গাধ, আৰু পঞ্চমখনত কুকুৰ আৰু পাতিহাঁহ (duck) থাকিব পাৰে। Training-ৰ সময়ত, classifier-টোৱে নিগনি, হাঁহ, কুকুৰা, গাধ আৰু পাতিহাঁহৰ দৰে অপ্ৰয়োজনীয় বস্তুৰ পৰা interference বা বাধাৰ সন্মুখীন হ’ব, যাৰ ফলত classification accuracy কমি যাব পাৰে। যদি আমি এই অপ্ৰয়োজনীয় বস্তুবোৰ—নিগনি, হাঁহ, কুকুৰা, গাধ আৰু পাতিহাঁহ—চিনাক্ত কৰি সিহঁতৰ features সমূহ আঁতৰাব পাৰোঁ, তেন্তে cat-and-dog classifier-ৰ accuracy বৃদ্ধি কৰাটো সম্ভৱ।

2. Soft Thresholding

Soft thresholding হৈছে বহুতো signal denoising algorithms-ৰ এটা core step (মূল পদক্ষেপ)। ই এটা নিৰ্দিষ্ট threshold-তকৈ কম absolute values থকা features সমূহক eliminate (আঁতৰাই) কৰে আৰু যিবোৰ features-ৰ absolute values এই threshold-তকৈ বেছি, সেইবোৰক zero-ৰ দিশত shrink (সংকুচিত) কৰে। ইয়াক তলত দিয়া সূত্ৰৰ দ্বাৰা implement কৰিব পাৰি:

\[y = \begin{cases} x - \tau & x > \tau \\ 0 & -\tau \le x \le \tau \\ x + \tau & x < -\tau \end{cases}\]

Input-ৰ সাপেক্ষে soft thresholding output-ৰ derivative হৈছে:

\[\frac{\partial y}{\partial x} = \begin{cases} 1 & x > \tau \\ 0 & -\tau \le x \le \tau \\ 1 & x < -\tau \end{cases}\]

ওপৰত দেখুোৱাৰ দৰে, soft thresholding-ৰ derivative হয় 1 নহয় 0। এই ধৰ্মটো ReLU activation function-ৰ সৈতে একে। সেয়েহে, soft thresholding-এ deep learning algorithms-ত gradient vanishing আৰু gradient exploding-ৰ সমস্যা (risk) কম কৰিব পাৰে।

Soft thresholding function-ত, threshold set কৰোঁতে দুটা চৰ্ত মানিব লাগিব: প্ৰথম, threshold-টো এটা positive number (ধনাত্মক সংখ্যা) হ’ব লাগিব; দ্বিতীয়, threshold-টো input signal-ৰ maximum value-তকৈ বেছি হ’ব নোৱাৰে, নহলে output সম্পূৰ্ণৰূপে zero হৈ যাব।

ইয়াৰ উপৰিও, threshold-টোৱে তৃতীয় এটা চৰ্ত পূৰণ কৰাটো বাঞ্ছনীয়: প্ৰতিটো sample-ৰ noise content-ৰ ওপৰত নিৰ্ভৰ কৰি তাৰ নিজা independent threshold থাকিব লাগে।

ইয়াৰ কাৰণ হ’ল, samples-ৰ মাজত noise-ৰ পৰিমাণ প্ৰায়ে বেলেগ বেলেগ হয়। উদাহৰণস্বৰূপে, একেটা dataset-ৰ ভিতৰত Sample A-ত কম noise আৰু Sample B-ত বেছি noise থকাটো এটা সাধাৰণ কথা। এনে ক্ষেত্ৰত, denoising algorithm-ত soft thresholding কৰোঁতে, Sample A-ৰ বাবে সৰু threshold আৰু Sample B-ৰ বাবে ডাঙৰ threshold ব্যৱহাৰ কৰা উচিত। যদিও deep neural networks-ত এই features আৰু thresholds-ৰ স্পষ্ট ভৌতিক সংজ্ঞা (physical definitions) হেৰাই যায়, তথাপিও ইয়াৰ অন্তৰ্নিহিত যুক্তি একেই থাকে। অৰ্থাৎ, প্ৰতিটো sample-ৰ নিজৰ noise content-ৰ দ্বাৰা নিৰ্ধাৰিত নিজা independent threshold থাকিব লাগে।

3. Attention Mechanism

Computer Vision-ৰ ক্ষেত্ৰত Attention mechanisms বুজাটো তুলনামূলকভাৱে সহজ। প্ৰাণীৰ visual system-এ গোটেই অঞ্চলটো দ্ৰুতভাৱে scan কৰি targets চিনাক্ত কৰিব পাৰে, আৰু তাৰ পিছত অলাগতিয়াল তথ্যক বাদ দি অধিক সবিশেষ (details) উলিয়াবলৈ target object-ৰ ওপৰত attention (মনোযোগ) কেন্দ্ৰীভূত কৰে। সবিশেষ জানিবলৈ, অনুগ্ৰহ কৰি attention mechanisms সম্পৰ্কীয় গৱেষণা পত্ৰসমূহ পঢ়ক।

Squeeze-and-Excitation Network (SENet) হৈছে attention mechanisms ব্যৱহাৰ কৰা এটা নতুন deep learning method। বিভিন্ন samples-ত, classification task-ৰ বাবে বেলেগ বেলেগ feature channels-ৰ অৱদান (contribution) প্ৰায়ে বেলেগ বেলেগ হয়। SENet-এ এটা সৰু sub-network ব্যৱহাৰ কৰি weights-ৰ এটা set (Learn a set of weights) লাভ কৰে আৰু তাৰ পিছত এই weights-বোৰক সংশ্লিষ্ট channels-ৰ features-ৰ সৈতে পূৰণ কৰি প্ৰতিটো channel-ৰ feature-ৰ মান adjust কৰে। এই প্ৰক্ৰিয়াটোক বিভিন্ন feature channels-ত বিভিন্ন স্তৰৰ attention প্ৰয়োগ কৰা বুলি ভাবিব পাৰি (Apply weighting to each feature channel)।

Squeeze-and-Excitation Network

এই পদ্ধতিত, প্ৰতিটো sample-ৰ নিজা independent weights-ৰ set থাকে। অৰ্থাৎ, যিকোনো দুটা sample-ৰ weights বেলেগ বেলেগ হয়। SENet-ত, weights পোৱাৰ নিৰ্দিষ্ট পথটো হ’ল “Global Pooling → Fully Connected Layer → ReLU Function → Fully Connected Layer → Sigmoid Function”।

Squeeze-and-Excitation Network

4. Deep Attention Mechanism-ৰ সৈতে Soft Thresholding

Deep Residual Shrinkage Network-এ ওপৰত উল্লেখ কৰা SENet sub-network গঠনৰ পৰা অনুপ্ৰেৰণা লৈ deep attention mechanism-ৰ জৰিয়তে soft thresholding প্ৰণয়ন (implement) কৰে। ৰঙা বাকচৰ (red box) ভিতৰত থকা sub-network-ৰ জৰিয়তে, প্ৰতিটো feature channel-ত soft thresholding প্ৰয়োগ কৰিবলৈ thresholds-ৰ এটা set শিকিব পাৰি (Learn a set of thresholds)।

Deep Residual Shrinkage Network

এই sub-network-ত, প্ৰথমতে input feature map-ৰ সকলো features-ৰ absolute values লোৱা হয়। তাৰপিছত global average pooling আৰু averaging কৰি এটা feature পোৱা যায়, যাক A বুলি ধৰা হয়। আনটো পথত, global average pooling-ৰ পিছত feature map-খন এটা সৰু fully connected network-লৈ পঠিওৱা হয়। এই fully connected network-এ Sigmoid function-ক ইয়াৰ শেষ স্তৰ (last layer) হিচাপে ব্যৱহাৰ কৰি output-টো 0 আৰু 1-ৰ মাজত normalize কৰে আৰু এটা coefficient পায়, যাক α বুলি ধৰা হয়। চূড়ান্ত threshold-ক α × A হিচাপে প্ৰকাশ কৰিব পাৰি। সেয়েহে, threshold হৈছে 0 আৰু 1-ৰ মাজৰ এটা সংখ্যা আৰু feature map-ৰ absolute values-ৰ গড়ৰ গুণফল। এই পদ্ধতিয়ে নিশ্চিত কৰে যে threshold-টো কেৱল positive-এ নহয়, বৰ বেছি ডাঙৰো নহয়।

তদুপৰি, বেলেগ বেলেগ samples-ৰ বাবে thresholds বেলেগ বেলেগ হয়। ফলস্বৰূপে, কিছু পৰিমাণে, ইয়াক এটা বিশেষ ধৰণৰ attention mechanism বুলি ক’ব পাৰি: ই current task-ৰ লগত সম্পৰ্ক নথকা features চিনাক্ত কৰে, দুটা convolutional layers-ৰ জৰিয়তে সেইবোৰক 0-ৰ ওচৰৰ মানলৈ লৈ যায়, আৰু soft thresholding ব্যৱহাৰ কৰি সেইবোৰক zero কৰি দিয়ে; অথবা, ই current task-ৰ লগত সম্পৰ্ক থকা features চিনাক্ত কৰে, দুটা convolutional layers-ৰ জৰিয়তে সেইবোৰক 0-ৰ পৰা দূৰৈৰ মানলৈ লৈ যায়, আৰু সেইবোৰক preserve বা সংৰক্ষণ কৰে।

অৱশেষত, নিৰ্দিষ্ট সংখ্যক basic modules-ৰ লগতে convolutional layers, batch normalization, activation functions, global average pooling, আৰু fully connected output layers stack কৰি (Stack many basic modules), সম্পূৰ্ণ Deep Residual Shrinkage Network গঠন কৰা হয়।

Deep Residual Shrinkage Network

5. Generalization Capability (সাধাৰণীকৰণ ক্ষমতা)

Deep Residual Shrinkage Network আচলতে এটা general feature learning method। কাৰণ হৈছে, বহুতো feature learning tasks-ত, samples-ত কম-বেছি পৰিমাণে কিছু noise আৰু অলাগতিয়াল তথ্য (irrelevant information) থাকে। এই noise আৰু অলাগতিয়াল তথ্যই feature learning-ৰ ফলাফলত প্ৰভাৱ পেলাব পাৰে। উদাহৰণস্বৰূপে:

Image classification-ত, যদি এখন ছবিত একে সময়তে আন বহুতো বস্তু থাকে, তেন্তে এই বস্তুবোৰক “noise” বুলি বুজিব পাৰি। Deep Residual Shrinkage Network-এ হয়তো attention mechanism ব্যৱহাৰ কৰি এই “noise” লক্ষ্য কৰিব পাৰে আৰু তাৰ পিছত soft thresholding ব্যৱহাৰ কৰি এই “noise”-ৰ লগত জড়িত features সমূহক zero কৰি দিব পাৰে, যাৰ ফলত image classification accuracy বৃদ্ধি হোৱাৰ সম্ভাৱনা থাকে।

Speech recognition-ৰ ক্ষেত্ৰত, বিশেষকৈ ৰাস্তাৰ কাষত বা কাৰখানাৰ ভিতৰত কথা পতাৰ দৰে কোলাহলপূৰ্ণ পৰিৱেশত (noisy environments), Deep Residual Shrinkage Network-এ speech recognition accuracy উন্নত কৰিব পাৰে, বা কমেও speech recognition accuracy উন্নত কৰিব পৰা এটা ধাৰণা (methodology) আগবঢ়ায়।

Reference

Minghang Zhao, Shisheng Zhong, Xuyun Fu, Baoping Tang, Michael Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, 2020, 16(7): 4681-4690.

https://ieeexplore.ieee.org/document/8850096

BibTeX

@article{Zhao2020,
  author    = {Minghang Zhao and Shisheng Zhong and Xuyun Fu and Baoping Tang and Michael Pecht},
  title     = {Deep Residual Shrinkage Networks for Fault Diagnosis},
  journal   = {IEEE Transactions on Industrial Informatics},
  year      = {2020},
  volume    = {16},
  number    = {7},
  pages     = {4681-4690},
  doi       = {10.1109/TII.2019.2943898}
}

Academic Impact (শৈক্ষিক প্ৰভাৱ)

এই পেপাৰখনৰ Google Scholar-ত 1400-ৰো অধিক citation আছে।

অসম্পূৰ্ণ পৰিসংখ্যা (incomplete statistics) অনুসৰি, Deep Residual Shrinkage Network (DRSN) ইতিমধ্যে mechanical engineering, electrical power, vision, healthcare, speech, text, radar, আৰু remote sensing-ৰ দৰে বহুতো ক্ষেত্ৰত 1000-ৰো অধিক গৱেষণা পত্ৰ বা অধ্যয়নত পোনপটীয়াকৈ প্ৰয়োগ কৰা হৈছে বা উন্নত কৰি (modified) প্ৰয়োগ কৰা হৈছে।