Deep Residual Shrinkage Network: یک روش هوش مصنوعی برای داده‌های با نویز شدید (Highly Noisy Data)

شبکه Deep Residual Shrinkage Network یک نسخه بهبودیافته از Deep Residual Network است. در اصل، این شبکه تلفیقی از Deep Residual Network، مکانیزم‌های توجه (Attention mechanisms) و توابع Soft thresholding است.

تا حدودی، اصول کاری Deep Residual Shrinkage Network را می‌توان این‌گونه درک کرد: این شبکه از Attention mechanisms استفاده می‌کند تا Featureهای غیرمهم را شناسایی کرده و با استفاده از توابع Soft thresholding آن‌ها را صفر کند؛ و برعکس، Featureهای مهم را شناسایی و حفظ نماید. این فرآیند توانایی Deep Neural Network را در استخراج Featureهای مفید از سیگنال‌های حاوی نویز ارتقا می‌دهد.

1. انگیزه تحقیق (Research Motivation)

نخست، هنگام طبقه‌بندی نمونه‌ها (Samples)، وجود نویز—مانند Gaussian noise، Pink noise و Laplacian noise—اجتناب‌ناپذیر است. به بیان وسیع‌تر، نمونه‌ها اغلب حاوی اطلاعاتی هستند که با Task طبقه‌بندی فعلی نامرتبط‌اند، که این اطلاعات نیز می‌توانند به عنوان نویز تفسیر شوند. این نویز ممکن است بر عملکرد طبقه‌بندی تأثیر منفی بگذارد. (لازم به ذکر است که Soft thresholding یک گام کلیدی در بسیاری از الگوریتم‌های حذف نویز یا Signal Denoising است.)

برای مثال، در طول یک گفتگو در کنار جاده، صدای ضبط شده ممکن است با صدای بوق ماشین‌ها و چرخ‌ها ترکیب شود. هنگام انجام تشخیص گفتار (Speech Recognition) روی این سیگنال‌ها، نتایج ناگزیر تحت تأثیر این صداهای پس‌زمینه قرار می‌گیرند. از دیدگاه Deep Learning، فیچرهای (Features) مربوط به بوق و چرخ‌ها باید در داخل Deep Neural Network حذف شوند تا از تأثیر آن‌ها بر نتایج تشخیص گفتار جلوگیری شود.

دوم، حتی در یک Dataset یکسان، میزان نویز اغلب از یک نمونه به نمونه دیگر متفاوت است. (این موضوع شباهت‌هایی با Attention mechanisms دارد؛ با در نظر گرفتن یک Dataset تصویری به عنوان مثال، مکان شیء هدف ممکن است در تصاویر مختلف متفاوت باشد، و Attention mechanisms می‌توانند روی مکان خاص شیء هدف در هر تصویر تمرکز کنند.)

به عنوان مثال، هنگام آموزش یک Classifier سگ و گربه، ۵ تصویر با برچسب “سگ” را در نظر بگیرید. تصویر اول ممکن است شامل یک سگ و یک موش باشد، دومی یک سگ و یک غاز، سومی یک سگ و یک مرغ، چهارمی یک سگ و یک الاغ، و پنجمی یک سگ و یک اردک. در طول آموزش، Classifier ناگزیر تحت تداخل اشیاء نامرتبط مانند موش، غاز، مرغ، الاغ و اردک قرار می‌گیرد که منجر به کاهش دقت طبقه‌بندی می‌شود. اگر بتوانیم این اشیاء نامرتبط—موش، غاز، مرغ، الاغ و اردک—را شناسایی کرده و Featureهای مربوط به آن‌ها را حذف کنیم، امکان بهبود دقت Classifier سگ و گربه وجود دارد.

2. آستانه‌گذاری نرم (Soft Thresholding)

روش Soft thresholding یک گام اصلی در بسیاری از الگوریتم‌های Signal Denoising است. این روش Featureهایی را که قدر مطلق آن‌ها کمتر از یک آستانه (Threshold) مشخص است حذف می‌کند و Featureهایی را که قدر مطلق آن‌ها بیشتر از این آستانه است، به سمت صفر Shrink (منقبض) می‌کند. این عمل می‌تواند با استفاده از فرمول زیر پیاده‌سازی شود:

\[y = \begin{cases} x - \tau & x > \tau \\ 0 & -\tau \le x \le \tau \\ x + \tau & x < -\tau \end{cases}\]

مشتق خروجی Soft thresholding نسبت به ورودی عبارت است از:

\[\frac{\partial y}{\partial x} = \begin{cases} 1 & x > \tau \\ 0 & -\tau \le x \le \tau \\ 1 & x < -\tau \end{cases}\]

همان‌طور که در بالا نشان داده شد، مشتق Soft thresholding یا ۱ است یا ۰. این ویژگی دقیقاً مشابه تابع فعال‌سازی ReLU است. بنابراین، Soft thresholding همچنین می‌تواند ریسک مواجهه الگوریتم‌های Deep Learning با مشکلات Gradient Vanishing و Gradient Exploding را کاهش دهد.

در تابع Soft thresholding، تعیین مقدار Threshold باید دو شرط را برآورده کند: اول، Threshold باید یک عدد مثبت باشد؛ دوم، Threshold نمی‌تواند از مقدار ماکزیمم سیگنال ورودی بیشتر باشد، در غیر این صورت خروجی کاملاً صفر خواهد شد.

علاوه بر این، بهتر است که Threshold شرط سومی را نیز برآورده کند: هر نمونه (Sample) باید بر اساس محتوای نویز خود، Threshold مستقل و منحصر به فرد خود را داشته باشد.

دلیل این امر آن است که محتوای نویز اغلب در میان نمونه‌ها متفاوت است. برای مثال، در یک Dataset یکسان رایج است که نمونه A حاوی نویز کمتری باشد در حالی که نمونه B حاوی نویز بیشتری است. در این حالت، هنگام انجام Soft thresholding در یک الگوریتم حذف نویز، نمونه A باید از Threshold کوچکتری استفاده کند، در حالی که نمونه B باید از Threshold بزرگتری استفاده نماید. اگرچه در Deep Neural Networkها، این Featureها و Thresholdها تعاریف فیزیکی صریح خود را از دست می‌دهند، اما منطق پایه و زیربنایی یکسان باقی می‌ماند. به عبارت دیگر، هر نمونه باید Threshold مستقل خود را داشته باشد که توسط محتوای نویز خاص آن تعیین می‌شود.

3. مکانیزم توجه (Attention Mechanism)

مفهوم Attention mechanisms در حوزه بینایی ماشین (Computer Vision) نسبتاً قابل درک است. سیستم‌های بینایی حیوانات می‌توانند با اسکن سریع کل منطقه، اهداف را تشخیص دهند و سپس توجه (Attention) را روی شیء هدف متمرکز کنند تا جزئیات بیشتری استخراج کرده و اطلاعات نامرتبط را سرکوب نمایند. برای جزئیات، لطفاً به ادبیات مربوط به Attention mechanisms مراجعه کنید.

شبکه Squeeze-and-Excitation Network (SENet) نشان‌دهنده یک روش نسبتاً جدید در Deep Learning است که از Attention mechanisms استفاده می‌کند. در نمونه‌های مختلف، سهم Feature Channelهای مختلف در Task طبقه‌بندی اغلب متفاوت است. مدل SENet از یک زیرشبکه (Sub-network) کوچک برای به دست آوردن مجموعه‌ای از وزن‌ها (Learn a set of weights) استفاده می‌کند و سپس این وزن‌ها را در Featureهای کانال‌های مربوطه ضرب می‌کند (Apply weighting to each feature channel) تا بزرگی Featureها را در هر کانال تنظیم کند. این فرآیند می‌تواند به عنوان اعمال سطوح مختلفی از توجه (Attention) به Feature Channelهای مختلف در نظر گرفته شود (Weighting).

Squeeze-and-Excitation Network

در این رویکرد، هر نمونه دارای مجموعه وزن‌های مستقل خود است. به عبارت دیگر، وزن‌ها برای هر دو نمونه‌ی دلخواه، متفاوت هستند. در SENet، مسیر خاص برای به دست آوردن وزن‌ها عبارت است از: “Global Pooling → Fully Connected Layer → ReLU Function → Fully Connected Layer → Sigmoid Function”.

Squeeze-and-Excitation Network

4. آستانه‌گذاری نرم با مکانیزم توجه عمیق (Soft Thresholding with Deep Attention Mechanism)

شبکه Deep Residual Shrinkage Network از ساختار زیرشبکه SENet که در بالا ذکر شد الهام می‌گیرد تا Soft thresholding را تحت یک مکانیزم توجه عمیق پیاده‌سازی کند. از طریق این زیرشبکه (که در کادر قرمز نشان داده شده است)، می‌توان مجموعه‌ای از آستانه‌ها را یاد گرفت (Learn a set of thresholds) تا Soft thresholding را روی هر Feature Channel اعمال کرد.

Deep Residual Shrinkage Network

در این زیرشبکه، ابتدا قدر مطلق تمام Featureها در Feature Map ورودی محاسبه می‌شود. سپس، از طریق Global Average Pooling و میانگین‌گیری، یک Feature به دست می‌آید که با A نشان داده می‌شود. در مسیر دیگر (Identity path مربوط به محاسبه آستانه)، Feature Map پس از Global Average Pooling وارد یک شبکه تمام متصل (Fully Connected) کوچک می‌شود. این شبکه کوچک از تابع Sigmoid به عنوان لایه نهایی خود استفاده می‌کند تا خروجی را بین ۰ و ۱ نرمال‌سازی کند و یک ضریب به دست می‌آورد که با α نشان داده می‌شود. آستانه (Threshold) نهایی می‌تواند به صورت α × A بیان شود. بنابراین، Threshold حاصل‌ضربِ یک عدد بین ۰ و ۱ در میانگین قدر مطلق‌های Feature Map است. این روش تضمین می‌کند که Threshold نه تنها مثبت است، بلکه بیش از حد بزرگ نیز نخواهد بود.

علاوه بر این، نمونه‌های مختلف منجر به Thresholdهای متفاوتی می‌شوند. در نتیجه، تا حدودی، این می‌تواند به عنوان یک Attention Mechanism تخصصی تفسیر شود: این مکانیزم Featureهای نامرتبط با Task فعلی را شناسایی می‌کند، آن‌ها را از طریق دو لایه کانولوشن (Convolutional layers) به مقادیر نزدیک به صفر تبدیل می‌کند، و با استفاده از Soft thresholding آن‌ها را صفر می‌کند؛ یا برعکس، Featureهای مرتبط با Task فعلی را شناسایی کرده، آن‌ها را به مقادیری دور از صفر تبدیل می‌کند و آن‌ها را حفظ می‌نماید.

در نهایت، با پشته‌سازی (Stacking) تعداد مشخصی از ماژول‌های پایه (Stack many basic modules) به همراه لایه‌های کانولوشن، Batch Normalization، توابع فعال‌سازی، Global Average Pooling و لایه‌های خروجی Fully Connected، ساختار کامل Deep Residual Shrinkage Network ساخته می‌شود.

Deep Residual Shrinkage Network

5. قابلیت تعمیم (Generalization Capability)

شبکه Deep Residual Shrinkage Network در واقع یک روش عمومی برای یادگیری ویژگی (Feature Learning) است. دلیل این امر آن است که در بسیاری از وظایف Feature Learning، نمونه‌ها کم و بیش حاوی مقداری نویز و همچنین اطلاعات نامرتبط هستند. این نویز و اطلاعات نامرتبط ممکن است بر عملکرد یادگیری ویژگی تأثیر بگذارند. برای مثال:

در طبقه‌بندی تصویر (Image Classification)، اگر یک تصویر همزمان حاوی اشیاء بسیار دیگری باشد، این اشیاء می‌توانند به عنوان “نویز” درک شوند. Deep Residual Shrinkage Network ممکن است بتواند از Attention mechanism برای توجه به این “نویز” استفاده کند و سپس Soft thresholding را به کار گیرد تا Featureهای مربوط به این “نویز” را صفر کند، و بدین ترتیب پتانسیل بهبود دقت طبقه‌بندی تصویر را دارد.

در تشخیص گفتار (Speech Recognition)، به ویژه در محیط‌های نسبتاً پر سر و صدا مانند محیط گفتگو در کنار جاده یا داخل کارگاه کارخانه، Deep Residual Shrinkage Network ممکن است دقت تشخیص گفتار را بهبود بخشد، یا حداقل، متدولوژی‌ای ارائه دهد که قادر به بهبود دقت تشخیص گفتار باشد.

مرجع (Reference)

Minghang Zhao, Shisheng Zhong, Xuyun Fu, Baoping Tang, Michael Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, 2020, 16(7): 4681-4690. https://ieeexplore.ieee.org/document/8850096

BibTeX

@article{Zhao2020,
  author    = {Minghang Zhao and Shisheng Zhong and Xuyun Fu and Baoping Tang and Michael Pecht},
  title     = {Deep Residual Shrinkage Networks for Fault Diagnosis},
  journal   = {IEEE Transactions on Industrial Informatics},
  year      = {2020},
  volume    = {16},
  number    = {7},
  pages     = {4681-4690},
  doi       = {10.1109/TII.2019.2943898}
}

تأثیر علمی (Academic Impact)

این مقاله بیش از ۱۴۰۰ بار در Google Scholar ارجاع (Citation) شده است.

بر اساس آمار غیررسمی، Deep Residual Shrinkage Network (DRSN) در بیش از ۱۰۰۰ مقاله/پژوهش در طیف وسیعی از زمینه‌ها، از جمله مهندسی مکانیک، برق قدرت، بینایی ماشین، مراقبت‌های بهداشتی، گفتار، متن، رادار و سنجش از دور، مستقیماً اعمال شده یا پس از اصلاح به کار گرفته شده است.

Tags: Deep Learning AI