شبکه Deep Residual Shrinkage Network یک نسخه بهبودیافته از Deep Residual Network است. در اصل، این شبکه تلفیقی از Deep Residual Network، مکانیزمهای توجه (Attention mechanisms) و توابع Soft thresholding است.
تا حدودی، اصول کاری Deep Residual Shrinkage Network را میتوان اینگونه درک کرد: این شبکه از Attention mechanisms استفاده میکند تا Featureهای غیرمهم را شناسایی کرده و با استفاده از توابع Soft thresholding آنها را صفر کند؛ و برعکس، Featureهای مهم را شناسایی و حفظ نماید. این فرآیند توانایی Deep Neural Network را در استخراج Featureهای مفید از سیگنالهای حاوی نویز ارتقا میدهد.
1. انگیزه تحقیق (Research Motivation)
نخست، هنگام طبقهبندی نمونهها (Samples)، وجود نویز—مانند Gaussian noise، Pink noise و Laplacian noise—اجتنابناپذیر است. به بیان وسیعتر، نمونهها اغلب حاوی اطلاعاتی هستند که با Task طبقهبندی فعلی نامرتبطاند، که این اطلاعات نیز میتوانند به عنوان نویز تفسیر شوند. این نویز ممکن است بر عملکرد طبقهبندی تأثیر منفی بگذارد. (لازم به ذکر است که Soft thresholding یک گام کلیدی در بسیاری از الگوریتمهای حذف نویز یا Signal Denoising است.)
برای مثال، در طول یک گفتگو در کنار جاده، صدای ضبط شده ممکن است با صدای بوق ماشینها و چرخها ترکیب شود. هنگام انجام تشخیص گفتار (Speech Recognition) روی این سیگنالها، نتایج ناگزیر تحت تأثیر این صداهای پسزمینه قرار میگیرند. از دیدگاه Deep Learning، فیچرهای (Features) مربوط به بوق و چرخها باید در داخل Deep Neural Network حذف شوند تا از تأثیر آنها بر نتایج تشخیص گفتار جلوگیری شود.
دوم، حتی در یک Dataset یکسان، میزان نویز اغلب از یک نمونه به نمونه دیگر متفاوت است. (این موضوع شباهتهایی با Attention mechanisms دارد؛ با در نظر گرفتن یک Dataset تصویری به عنوان مثال، مکان شیء هدف ممکن است در تصاویر مختلف متفاوت باشد، و Attention mechanisms میتوانند روی مکان خاص شیء هدف در هر تصویر تمرکز کنند.)
به عنوان مثال، هنگام آموزش یک Classifier سگ و گربه، ۵ تصویر با برچسب “سگ” را در نظر بگیرید. تصویر اول ممکن است شامل یک سگ و یک موش باشد، دومی یک سگ و یک غاز، سومی یک سگ و یک مرغ، چهارمی یک سگ و یک الاغ، و پنجمی یک سگ و یک اردک. در طول آموزش، Classifier ناگزیر تحت تداخل اشیاء نامرتبط مانند موش، غاز، مرغ، الاغ و اردک قرار میگیرد که منجر به کاهش دقت طبقهبندی میشود. اگر بتوانیم این اشیاء نامرتبط—موش، غاز، مرغ، الاغ و اردک—را شناسایی کرده و Featureهای مربوط به آنها را حذف کنیم، امکان بهبود دقت Classifier سگ و گربه وجود دارد.
2. آستانهگذاری نرم (Soft Thresholding)
روش Soft thresholding یک گام اصلی در بسیاری از الگوریتمهای Signal Denoising است. این روش Featureهایی را که قدر مطلق آنها کمتر از یک آستانه (Threshold) مشخص است حذف میکند و Featureهایی را که قدر مطلق آنها بیشتر از این آستانه است، به سمت صفر Shrink (منقبض) میکند. این عمل میتواند با استفاده از فرمول زیر پیادهسازی شود:
\[y = \begin{cases} x - \tau & x > \tau \\ 0 & -\tau \le x \le \tau \\ x + \tau & x < -\tau \end{cases}\]مشتق خروجی Soft thresholding نسبت به ورودی عبارت است از:
\[\frac{\partial y}{\partial x} = \begin{cases} 1 & x > \tau \\ 0 & -\tau \le x \le \tau \\ 1 & x < -\tau \end{cases}\]همانطور که در بالا نشان داده شد، مشتق Soft thresholding یا ۱ است یا ۰. این ویژگی دقیقاً مشابه تابع فعالسازی ReLU است. بنابراین، Soft thresholding همچنین میتواند ریسک مواجهه الگوریتمهای Deep Learning با مشکلات Gradient Vanishing و Gradient Exploding را کاهش دهد.
در تابع Soft thresholding، تعیین مقدار Threshold باید دو شرط را برآورده کند: اول، Threshold باید یک عدد مثبت باشد؛ دوم، Threshold نمیتواند از مقدار ماکزیمم سیگنال ورودی بیشتر باشد، در غیر این صورت خروجی کاملاً صفر خواهد شد.
علاوه بر این، بهتر است که Threshold شرط سومی را نیز برآورده کند: هر نمونه (Sample) باید بر اساس محتوای نویز خود، Threshold مستقل و منحصر به فرد خود را داشته باشد.
دلیل این امر آن است که محتوای نویز اغلب در میان نمونهها متفاوت است. برای مثال، در یک Dataset یکسان رایج است که نمونه A حاوی نویز کمتری باشد در حالی که نمونه B حاوی نویز بیشتری است. در این حالت، هنگام انجام Soft thresholding در یک الگوریتم حذف نویز، نمونه A باید از Threshold کوچکتری استفاده کند، در حالی که نمونه B باید از Threshold بزرگتری استفاده نماید. اگرچه در Deep Neural Networkها، این Featureها و Thresholdها تعاریف فیزیکی صریح خود را از دست میدهند، اما منطق پایه و زیربنایی یکسان باقی میماند. به عبارت دیگر، هر نمونه باید Threshold مستقل خود را داشته باشد که توسط محتوای نویز خاص آن تعیین میشود.
3. مکانیزم توجه (Attention Mechanism)
مفهوم Attention mechanisms در حوزه بینایی ماشین (Computer Vision) نسبتاً قابل درک است. سیستمهای بینایی حیوانات میتوانند با اسکن سریع کل منطقه، اهداف را تشخیص دهند و سپس توجه (Attention) را روی شیء هدف متمرکز کنند تا جزئیات بیشتری استخراج کرده و اطلاعات نامرتبط را سرکوب نمایند. برای جزئیات، لطفاً به ادبیات مربوط به Attention mechanisms مراجعه کنید.
شبکه Squeeze-and-Excitation Network (SENet) نشاندهنده یک روش نسبتاً جدید در Deep Learning است که از Attention mechanisms استفاده میکند. در نمونههای مختلف، سهم Feature Channelهای مختلف در Task طبقهبندی اغلب متفاوت است. مدل SENet از یک زیرشبکه (Sub-network) کوچک برای به دست آوردن مجموعهای از وزنها (Learn a set of weights) استفاده میکند و سپس این وزنها را در Featureهای کانالهای مربوطه ضرب میکند (Apply weighting to each feature channel) تا بزرگی Featureها را در هر کانال تنظیم کند. این فرآیند میتواند به عنوان اعمال سطوح مختلفی از توجه (Attention) به Feature Channelهای مختلف در نظر گرفته شود (Weighting).
در این رویکرد، هر نمونه دارای مجموعه وزنهای مستقل خود است. به عبارت دیگر، وزنها برای هر دو نمونهی دلخواه، متفاوت هستند. در SENet، مسیر خاص برای به دست آوردن وزنها عبارت است از: “Global Pooling → Fully Connected Layer → ReLU Function → Fully Connected Layer → Sigmoid Function”.
4. آستانهگذاری نرم با مکانیزم توجه عمیق (Soft Thresholding with Deep Attention Mechanism)
شبکه Deep Residual Shrinkage Network از ساختار زیرشبکه SENet که در بالا ذکر شد الهام میگیرد تا Soft thresholding را تحت یک مکانیزم توجه عمیق پیادهسازی کند. از طریق این زیرشبکه (که در کادر قرمز نشان داده شده است)، میتوان مجموعهای از آستانهها را یاد گرفت (Learn a set of thresholds) تا Soft thresholding را روی هر Feature Channel اعمال کرد.
در این زیرشبکه، ابتدا قدر مطلق تمام Featureها در Feature Map ورودی محاسبه میشود. سپس، از طریق Global Average Pooling و میانگینگیری، یک Feature به دست میآید که با A نشان داده میشود. در مسیر دیگر (Identity path مربوط به محاسبه آستانه)، Feature Map پس از Global Average Pooling وارد یک شبکه تمام متصل (Fully Connected) کوچک میشود. این شبکه کوچک از تابع Sigmoid به عنوان لایه نهایی خود استفاده میکند تا خروجی را بین ۰ و ۱ نرمالسازی کند و یک ضریب به دست میآورد که با α نشان داده میشود. آستانه (Threshold) نهایی میتواند به صورت α × A بیان شود. بنابراین، Threshold حاصلضربِ یک عدد بین ۰ و ۱ در میانگین قدر مطلقهای Feature Map است. این روش تضمین میکند که Threshold نه تنها مثبت است، بلکه بیش از حد بزرگ نیز نخواهد بود.
علاوه بر این، نمونههای مختلف منجر به Thresholdهای متفاوتی میشوند. در نتیجه، تا حدودی، این میتواند به عنوان یک Attention Mechanism تخصصی تفسیر شود: این مکانیزم Featureهای نامرتبط با Task فعلی را شناسایی میکند، آنها را از طریق دو لایه کانولوشن (Convolutional layers) به مقادیر نزدیک به صفر تبدیل میکند، و با استفاده از Soft thresholding آنها را صفر میکند؛ یا برعکس، Featureهای مرتبط با Task فعلی را شناسایی کرده، آنها را به مقادیری دور از صفر تبدیل میکند و آنها را حفظ مینماید.
در نهایت، با پشتهسازی (Stacking) تعداد مشخصی از ماژولهای پایه (Stack many basic modules) به همراه لایههای کانولوشن، Batch Normalization، توابع فعالسازی، Global Average Pooling و لایههای خروجی Fully Connected، ساختار کامل Deep Residual Shrinkage Network ساخته میشود.
5. قابلیت تعمیم (Generalization Capability)
شبکه Deep Residual Shrinkage Network در واقع یک روش عمومی برای یادگیری ویژگی (Feature Learning) است. دلیل این امر آن است که در بسیاری از وظایف Feature Learning، نمونهها کم و بیش حاوی مقداری نویز و همچنین اطلاعات نامرتبط هستند. این نویز و اطلاعات نامرتبط ممکن است بر عملکرد یادگیری ویژگی تأثیر بگذارند. برای مثال:
در طبقهبندی تصویر (Image Classification)، اگر یک تصویر همزمان حاوی اشیاء بسیار دیگری باشد، این اشیاء میتوانند به عنوان “نویز” درک شوند. Deep Residual Shrinkage Network ممکن است بتواند از Attention mechanism برای توجه به این “نویز” استفاده کند و سپس Soft thresholding را به کار گیرد تا Featureهای مربوط به این “نویز” را صفر کند، و بدین ترتیب پتانسیل بهبود دقت طبقهبندی تصویر را دارد.
در تشخیص گفتار (Speech Recognition)، به ویژه در محیطهای نسبتاً پر سر و صدا مانند محیط گفتگو در کنار جاده یا داخل کارگاه کارخانه، Deep Residual Shrinkage Network ممکن است دقت تشخیص گفتار را بهبود بخشد، یا حداقل، متدولوژیای ارائه دهد که قادر به بهبود دقت تشخیص گفتار باشد.
مرجع (Reference)
BibTeX
@article{Zhao2020,
author = {Minghang Zhao and Shisheng Zhong and Xuyun Fu and Baoping Tang and Michael Pecht},
title = {Deep Residual Shrinkage Networks for Fault Diagnosis},
journal = {IEEE Transactions on Industrial Informatics},
year = {2020},
volume = {16},
number = {7},
pages = {4681-4690},
doi = {10.1109/TII.2019.2943898}
}
تأثیر علمی (Academic Impact)
این مقاله بیش از ۱۴۰۰ بار در Google Scholar ارجاع (Citation) شده است.
بر اساس آمار غیررسمی، Deep Residual Shrinkage Network (DRSN) در بیش از ۱۰۰۰ مقاله/پژوهش در طیف وسیعی از زمینهها، از جمله مهندسی مکانیک، برق قدرت، بینایی ماشین، مراقبتهای بهداشتی، گفتار، متن، رادار و سنجش از دور، مستقیماً اعمال شده یا پس از اصلاح به کار گرفته شده است.