درک دنیای بصری برای انسانها آنقدر ساده است که تقریبا تمامی عکسالعملهای ما نسبت به محیط بصری اطراف بهصورت ناخودآگاه انجام میگیرد. وقتی چیزی را میبینیم، اغلب اوقات برای تشخیص آن نیازی به مطالعه (ذهنی) نداریم. اما این مسئله در مورد کامپیوترها بسیار پیچیده است. تشخیص چهرهی انسان از دیگر اجسام و موجودات محیط، برای کامپیوترها یک مشکل بسیار بزرگ محسوب میشود.
علاوه بر این، حل این مسئله نیز نیازمند تلاش و هزینه بسیار بالایی خواهد بود. امروزه تکنولوژی تشخیص چهره و بینایی کامپیوتر از اصلیترین نیازهای علم و صنعت بهشمار میآیند. پیشرفت بسیاری از تکنولوژیهای امروزی از جمله خودروهای بدون راننده، نرمافزارهای تشخیص چهره، کارخانههای هوشمند که بتوانند وجود خطا و ناهماهنگی در خط تولید را تشخیص دهند و نرمافزارهایی که به شرکتهای بیمه امکان پردازش و دستهبندی اتوماتیک اسناد را بدهند، همگی به پیشرفت سیستم تشخیص تصویر و بینایی کامپیوتر بستگی دارند.
تعلیم بینایی به کامپیوتر سخت و پرهزینه است
یکی از راههای موثر برای حل این مشکل بهکارگیری فرادادهها برای دیتاهای بدون ساختار است. شاید استخدام یک متخصص برای طبقهبندی و جداسازی آرشیو فیلمها از آرشیو موسیقی کمی سخت بهنظر یرسد اما بهکارگیری همین افراد متخصص برای آموزش سیستم مسیریابی یک خودروی بدون راننده جهت تشخیص عابرین پیاده از دیگر خودروها و یا شناسایی، دستهبندی و فیلترکردن تصاویر روزانه میلیونها کاربر شبکههای اجتماعی تقریبا غیرممکن است.
بنابراین اولین راهحل این مشکل استفاده از شبکههای عصبی است. با اینکه از لحاظ تئوریک استفاده از شبکههای نورونی مرسوم جهت تحلیل تصاویر ممکن است، اما از لحاظ عملی و محاسباتی بسیار پرهزینه خواهد بود. برای مثال تحلیل یک تصویر نسبتا کوچک (50 × 50 پیکسل) نیازمند 900 داده ورودی و بیش از نیم میلیون پارامتر خواهد بود. شاید انجام این کار برای ماشینهای محاسباتی امکانپذیر باشد اما زمانی که بخواهیم تصاویر بزرگتر (500 × 500 پیکسل) را تحلیل و پردازش کنیم، تعداد ورودی و شبکههای نورونی مورد نیاز برای انجام این کار تقریبا غیرقابل شمارش خواهد بود.
چاره چیست؟
خوشبختانه با اعمال یک سری تغییرات در ساختار شبکههای عصبی، میتوان تصاویر بزرگتر را نیز پردازش کرد. این نوع شبکههای عصبی تغییر یافته را “شبکههای عصبی پیچیده” (CNNs) مینامند. یکی از مزایای شبکههای عصبی، کاربردپذیری آنها در مصارف مختلف است؛ اما پس از بهکارگیری آنها در پردازش تصاویر میبینیم که این مزیت به یک مشقت تبدیل میشود. اما با طراحی شبکههای عصبی مختص پردازش تصاویر، میتوانیم این ماموریت غیرممکن را تا حدی ممکن بسازیم.
یکی از مزیتهای شبکههای عصبی پیچیده، تشخیص دو پیکسل مجاور یکدیگر به عنوان دو پیکسل مرتبط است به همین دلیل برای پردازش پیکسلهای مجاور از یک سلول عصبی استفاده میشود. به بیان فنیتر، شبکههای عصبی پیچیده با فیلتر و تلفیق پیکسلهای مجاور در تصاویر، پردازش تصاویر از لحاظ حجم محاسباتی را تا حد زیادی کاهش میدهند. این در حالی است که در شبکههای عصبی معمولی برای پردازش هر پیکسل از یک سلول عصبی استفاده میشود که همین مسئله یکی از دلایل اصلی افزایش تعداد نورونهای عصبی مورد نیاز برای پردازش تصویر خواهد بود. ناگفته نماند که افزایش تعداد نورونهای عصبی موجب افزایش بار محاسباتی و درنتیجه کاهش دقت در محاسبات خواهد شد.
شبکههای عصبی پیچیده به جای اتصال هر ورودی به یک نورون، با محدود کردن روابط بین پیکسلهای تصاویر، هر نورون را مسئول پردازش یک دسته از پیکسلها میکند (3×3 یا 5×5 پیکسل برای هر نورون). بدین ترتیب، هر نورون مسئولیت پردازش بخش کوچکی از تصویر را به عهده میگیرد. این ساختار کم و بیش به ساختار عصبی نورونهای مغز که در آن هر سلول عصبی مسئولیت پاسخگویی به بخش خاصی از بدن را به عهده میگیرند، شباهتهایی دارد.
ساختار درونی شبکههای عصبی
فیلترینگ پیکسلها چگونه انجام میگیرد؟ راز انجام این کار در اضافه شدن دو لایه جدید به این شبکهی عصبی است: لایههای درهم پیچیده و لایههای ادقام کننده. در پایین مراحل پردازش را بهطور کامل شرح دادهایم. این مراحل در اصل به یک شبکه عصبی طراحی شده جهت تشخیص اینکه یک زن سالخورده در تصاویر وجود دارد یا خیر، مربوط میشود. قدم اول مربوط به لایهی درهم پیچیده است که این قدم خود شامل چند مرحله مجزا میشود.
1. ابتدا تصویر یک پیرزن را به یک سری قطعات 3×3 پیکسلی تبدیل میکنیم.
2. در قدم بعدی هریک از این قطعات را برای پردازش به درون یک نورون عصبی تک لایه میفرستیم.
3. سپس مقادیر خروجی را به شکلی که از لحاظ عددی محتوای قسمت خاصی از تصاویر را معرفی میکنند، دستهبندی میکنیم. هر پیکسل وظیفه تعریف ارتفاع، طول و رنگ (سه بعد مختلف) را برعهده دارد. بنابراین در این مورد، هر قطعه تعریفی 3×3×3 خواهد داشت. در ضمن برای پردازش ویدئوها، بُعد زمان نیز درنظر گرفته میشود.
حال نوبت به لایهی ادغام کننده میرسد که این دستههای سهبعدی یا چهار بعدی را دریافت کرده سپس آنها را به دستههایی با سایز و ابعاد کوچکتر تبدیل میکند. محصول بهدست آمده، دستههای ادغام شدهای هستند که تنها شامل بخشهای با اهمیت میشوند و بخشهای مشابه به یکدیگر و کماهمیت حذف شدهاند. این مرحله موجب کاهش حجم محاسبات تا بیشترین حد ممکن خواهد شد.
در مرحله پایانی، دستههای تغییر سایز یافته (کوچک شده) را به عنوان ورودی برای شبکههای عصبی استفاده میکنیم. از آنجایی که سایز دادههای ورودی در مرحله اول و دوم تاحد قابل توجهی کاهش داده شد، شبکههای عصبی معمولی هم میتوانند بدون هیچ دردسری این دادهها را پردازش کنند. خروجیهای بهدست آمده از این مرحله پایانی نشان دهنده مقدار کارایی سیستم در تشخیص تصاویر فرد سالخورده داخل تصاویر خواهد بود.
بهکارگیری شبکههای عصبی
ساخت شبکههای عصبی پیچیده ممکن است زمانبر و بسیار پرهزینه باشد. ناگفته نماند که اخیرا رابطهای برنامهنویسی مختلفی برای سازمانها طراحی شدهاند که به آنها امکان پردازش و تشخیص چهره را بدون نیاز به سیستم بینایی کامپیوتر شخصی یا تخصص در بخش یادگیری ماشینی را میدهد. در پایین مهمترین برنامههای کاربردی در این بخش را برایتان نام بردهایم.
Google Cloud Vision: این محصول شرکت گوگل که برپایه فریمورک TensoFlow و رابط برنامهنویسی REST عمل میکند، قادر است اشیاء و چهره افراد را تشخیص دهد. این رابط میتواند با استفاده از موتور جستجوی تصویری گوگل، تصویر مشابه به یکدیگر در سراسر وب را جستجو و پیدا کند.
IBM Watson Visual Recognition: این برنامه که به عنوان بخشی از پروژه Watson Developer Cloud شناخته میشود، از امکانات پیشفرض خوب و کارآمدی برخوردار است. این برنامه نیز همچون رابط کاربری گوگل از سیستم OCR و تشخیصNSFW برخوردار است. Clarif.ai میگوید: این سرویس تازه وارد به عرصه تشخیص تصاویر است که از رابط برنامه نویسیREST نیز پشتیبانی میکند. یکی از نکات جالب این برنامه، پشتیبانی از ماژولهای مختلفی است که میتوانند در ساخت الگوریتمهایی که قابلیت تشخیص شرایط مختلف از جمله جشن عروسی، مسافرت و غذا و رستوران را دارند، کمک کنند.
با اینکه این رابطهای برنامهنویسی و طراحی برای کاربردهای عمومی مناسب هستند، اما برای انجام وظایف تخصصی احتمالا به تهیه تجهیزات و دستگاههای حرفهای نیاز خواهد بود. خوشبختانه کتابخانههای الکترونیکی امروزی با ارائه دیتاها بهصورت از پیش محاسبه و بهینه شده، کار را برای دانشمندان امروزی بسیار آسان کردهاند و متخصصین میتوانند بدون نیاز به محاسبه و پردازش گام به گام دادهها، با خیال راحت بر روی آموزش مدلها تمرکز کنند. بسیاری از این مراکز از جملهTensorFlow، DeepLearning4J، Torch و Theano سالهاست که با موفقیت و در زمینههای مختلف مورد استفاده قرار میگیرند.