رقم المقالة : 2020020313602 زيارة : 10112 الصفحة: 155 - 168

نوع المخطوط: المحکّمة

تبدیل توالی پروتئین به تصویر جهت طبقه¬بندی با شبکه عصبی کانولوشنی

الموضوعات :

رضا احسن ¹ , منصور ابراهیمی ² , روح الله دیانت ³

1 - عضو هیات علمی
2 - دانشکده علوم پایه - دانشگاه قم - قم - ایران
3 - دانشکده فنی مهندسی - دانشگاه قم - قم – ایران

تاريخ الإرسال : 09 الإثنين , جمادى الثانية, 1441 تاريخ التأكيد : 22 الأربعاء , جمادى الأولى, 1442 تاريخ الإصدار : 04 الأربعاء , ربيع الأول, 1442

الکلمات المفتاحية: تبدیل توالی پروتئین به تصویر, فیلتر گابور, شبکه عصبی کانولوشنی, طبقه¬بندی توالی پروتئین.,

ملخص المقالة :

از آنجا که روش‌‌های مخصوص طبقه‌‌بندی توالی یادگیری ماشین، جهت طبقه‌‌بندی پروتئین‌‌های سالم و سرطانی موفق نبودند بنابراین یافتن راهکاری برای بازنمایی این توالی‌‌ها جهت طبقه بندی افراد سالم و مریض با رویکردهای یادگیری عمیق ضرورت تام دارد. در این مطالعه، روش‌‌های مختلف بازنمایی توالی پروتئین، جهت طبقه‌‌بندی توالی پروتئین افراد سالم و سرطان خون، مورد بررسی قرار گرفته است. نتایج نشان داد که تبدیل حروف اسید آمینه به بردار ویژگی یک‌‌بعدی در طبقه بندی 2 کلاس موفق نبود و فقط یک کلاس مریض تشخیص داده شد. با تغییر بردار ویژگی به‌‌صورت اعداد رنگی دقت تشخیص کلاس سالم کمی بهبود یافت. روش بازنمایی توالی پروتئینی به‌‌صورت یکپارچه دودویی، با ابتکار حفظ دنباله توالی در دو حالت یک‌بعدی و دوبعدی(تصویر با اعمال فیلتر گابور)، نسبت به روشهای قبلی موثرتر بود. بازنمایی توالی پروتئین به شکل تصویر دودویی با اعمال فیلتر گابور با دقت 100% توالی پروتئین افراد سالم و 98.6% توالی پروتئین افراد دارای سرطان خون را طبقه‌‌بندی کرد. یافته‌‌های این تحقیق نشان داد که بازنمایی توالی پروتئین به شکل تصویر دودویی با اعمال فیلتر گابور، می‌‌تواند به‌‌عنوان روش موثر جدید دربازنمایی توالی‌‌های پروتئینی جهت طبقه‌‌بندی، ارایه نماید.

المصادر:

[1] A. Gupta, H. Wang, and M. Ganapathiraju, "Learning structure in gene expression data using deep architectures, with an application to gene clustering," 2015, pp. 1328-1335.
[2] Y. Liu, S. Zhou, and Q. Chen, "Discriminative deep belief networks for visual data classification," Pattern Recognition, vol. 44, pp. 2287-2296, 2011.
[3] J. Chen, R. Swofford, J. Johnson, B. B. Cummings, N. Rogel, K. Lindblad-Toh, et al., "A quantitative framework for characterizing the evolutionary history of mammalian gene expression," Genome research, vol. 29, pp. 53-63, 2019.
[4] T. Hardy, J. Feng, D. Lawrence, T. Fullston, and H. Scott, "Application of Artificial Intelligence To Analysis of The Embryonic Genome For Preimplantation Genetic Diagnosis," Pathology, vol. 51, p. S65, 2019.
[5] C. S. Boddy and S. Ma, "Frontline therapy of CLL: evolving treatment paradigm," Current hematologic malignancy reports, vol. 13, pp. 69-77, 2018.
[6] K. He, D. Ge, and M. He, "Big data analytics for genomic medicine," International journal of molecular sciences, vol. 18, p. 412, 2017.
[7] C. Angermueller, T. Pärnamaa, L. Parts, and O. Stegle, "Deep learning for computational biology," Molecular systems biology, vol. 12, p. 878, 2016.
[8] M. Leung, H. Xiong, L. Lee, and B. Frey, "Deep learning of the tissueregulated splicing code," Bioinformatics 30, pp. i121 – i129, 2014.
[9] H. Xiong, B. Alipanahi, L. Lee, H. Bretschneider, D. Merico, R. Yuen, et al., "The human splicing code reveals new insights into the genetic determinants of disease," Science 347, p. 1254806, 2015.
[10] J. Yosinski, J. Clune, Y. Bengio, and H. Lipson, "How transferable are features in deep neural networks?," Advances in Neural Information Processing Systems 27, pp. 3320-3328, 2014.
[11] B. Alipanahi, A. Delong, M. Weirauch, and B. Frey, "Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning," Nat Biotechnol 33, pp. 831 – 838, 2015.
[12] J. Zhou and O. Troyanskaya, "Predicting effects of noncoding variants with deep learning-based sequence model," Nat Methods 12, pp. 931 – 934, 2015.
[13] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson, "CNN features off-the-shelf: an astounding baseline for recognition," 2018, pp. 512-519.
[14] W. Sun, T.-L. B. Tseng, J. Zhang, and W. Qian, "Enhancing deep convolutional neural network scheme for breast cancer diagnosis with unlabeled data," Computerized Medical Imaging and Graphics, vol. 57, pp. 4-9, 2017.
[15] I. Guyon, J. Weston, S. Barnhill, and V. Vapnik, "Gene selection for cancer classification using support vector machines," Machine learning, vol. 46, pp. 389-422, 2002.
[16] M. D. Zeiler and R. Fergus, "Visualizing and understanding convolutional networks," in European conference on computer vision, 2014, pp. 818-833.
[17] M. Biswas, A. Tiwari, M. Turk, J. Laird, C. Asare, L. Saba, et al., "A Review on a Deep Learning Perspective in Brain Cancer Classification," Cancers, vol. 11, 2019.
[18] J. Schmidhuber, "Deep learning in neural networks: An overview," Neural networks, vol. 61, pp. 85-117, 2015.
[19] J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, et al., "Recent advances in convolutional neural networks," Pattern Recognition, vol. 77, pp. 354-377, 2018.
[20] M. A. Jafri, S. A. Ansari, M. H. Alqahtani, and J. W. Shay, "Roles of telomeres and telomerase in cancer, and advances in telomerase-targeted therapies," Genome medicine, vol. 8, p. 69, 2016. "
[21] X. Chu and K. L. Chan, "Rotation and scale invariant texture analysis with tunable Gabor filter banks," in Pacific-Rim Symposium on Image and Video Technology, 2009, pp. 83-93.
[22] R. C. González, R. E. Woods, and S. L. Eddins, Digital Image Processing Using MATLAB: Pearson, 2004.
[23] I. Guyon and A. Elisseeff, "An introduction to variable and feature selection," Journal of machine learning research, vol. 3, pp. 1157-1182, 2003.
[24] H. Liu and L. Yu, "Toward integrating feature selection algorithms for classification and clustering," IEEE Transactions on Knowledge & Data Engineering, pp. 491-502, 2005.

نص كامل:

راهنماي‌ جدید تهيه ‌مقاله براي مجله علمی و پژوهشی رایانش نرم و فن-آوری اطلاعات

دو فصلنامه علمي

فناوري اطلاعات و ارتباطات ایران

سال دوازدهم، شماره‌هاي 43 و 44، بهار و تابستان 1399

صفحات: 155_168

$E:\E Drive\logo\iicta Logo0.JPG$

تبدیل توالی پروتئین به تصویر جهت طبقهبندی با شبکه عصبی کانولوشنی

رضا احسن * منصور ابراهیمی ** روح الله دیانت *

* استادیار دانشکده فنی مهندسی - دانشگاه قم - قم – ایران

**دانشیار دانشکده علوم پایه - دانشگاه قم - قم - ایران

تاریخ دریافت: 14/11/1398 تاریخ پذیرش: 18/08/1399

نوع مقاله: پژوهشی

چکیده

واژگان کلیدی: تبدیل توالی پروتئین به تصویر، فیلتر گابور، شبکه عصبی کانولوشنی، طبقهبندی توالی پروتئین.

1- مقدمه

ساختار ژنومی و پروتئینی هر جاندار توسط یک سری از توالی‌های خاص تکرارای درست شده است. چهار نوکلئوتید آدنین، گوانین، تیمین، و سیتوزین ساختار اصلی توالی‌های ژنومی و بیست اسید آمینه ساختار توالی پروتئین را تشکیل می‌دهند. به‌‌دلیل تکراری بودن این توالی‌ها امکان استفاده از مدل‌‌های مختلف داده کاوی در تحلیل ژنومی فراهم شده است[1]. در چند دهه اخیر، پیشرفت در زیست‌شناسی مولکولی و تجهیزات مورد نیاز تحقیق در این زمینه باعث افزایش سریع تعیین توالی ژنوم بسیاری از گونه‌های موجودات شد، به‌‌طوری‌‌که پروژه‌های تعیین توالی ژنوم‌ها از پروژه‌های بسیار رایج به‌‌حساب می‌آیند. مطالعه وابستگی این پروفایل‌‌های توالی پروتئینی و حالت‌‌های بیماری یا مراحل سلول‌‌ها نقش مهمی را در کاربردهای بالینی و بیولوژیکی بازی می‌‌کند [2][Abdel-Zaher, 2016 #107@@author-year][, #107@@hidden]. پروفایل‌‌های توالی پروتئینی می‌‌تواند از چندین نمونه بافت به‌‌دست آورده شود و در مقایسه ژن‌‌های بیان شده در بافت نرمال با آن ژن‌‌هایی که در بافت بیمار است، فرد می‌‌تواند به بصیرت بهتری در طب آسیب شناسی بیماری برسد [3]. یکی از بیماری‌‌های مهم در این زمینه سرطان می‌‌باشد.

سرطان در واقع یک بیماری ژنتیکی است که مشخصه آن جهش (تغییر در توالی ژنوم) در بخشی از DNA در یک یا چند گروه از سلول‌‌های طبیعی می‌‌باشد که منجر به تقسیم نامحدود این سلول‌‌ها می‌‌گردد [4]. سرطان خون یا لوسمی بیماری پیش‌‌رونده و بدخیم اعضای خون‌‌ساز بدن است. این بیماری در اثر تکثیر و تکامل ناقص گویچه‌‌های سفید خون و پیش‌‌سازهای آن در خون و مغز استخوان ایجاد می‌‌شود. به این معنی که مغز استخوان به‌‌صورت غیر عادی، مقدار بسیار زیادی سلول خونی تولید می‌‌کند که باعث توقف در تولید سلول‌‌های سفید می‌‌شوند و توانایی فرد در مقابله با بیماری‌‌ها از بین می‌‌رود. این سلول‌‌ها که با سلول‌‌های خون نرمال متفاوت هستند بر تولید سایر انواع سلول‌‌های خونی که توسط مغز استخوان ساخته می‌‌شود مانند گویچه‌‌های قرمز خون که اکسیژن به بافت‌‌های بدن می‌‌رسانند و پلاکت‌‌های خونی که از لخته شدن جلوگیری می‌‌کنند، اثر می‌‌گذارند [5]. پیشرفت‌‌های فن آوری در علم ژنتیک و تصویر برداری یک انفجاری در ایجاد حجم زیادی از نمونه‌های مولکولی و سلولی کرده است. تحلیل و بررسی این حجم زیاد از نمونه‌های مولکولی و سلولی با روشهای متعارف با توجه به ابعاد بالای داده‌های بیولوژیکی چالش برانگیز است [6]. روشهای مدرن یادگیری ماشین، از قبیل یادگیری عمیق، نویدی برای قدرت نفوذ به ساختار مخفی بین مجموعه داده‌های بسیار بزرگ و ساخت پیش بینی‌های دقیق دارد. ارزش شبکه عصبی عمیق در این زمینه دو جنبه است. ابتدا، شیوه‌‌های قدیمی یادگیری ماشین نمی‌تواند مستقیما روی توالی اجرا شود، بنابراین نیازمند ویژگی‌های از پیش تعریف شده دارد که می‌تواند بر اساس دانش قبلی استخراج شود مانند حضور یا عدم حضور متغیر‌‌های تک نوکلئوتیدی¹ ;تعداد دفعاتی که زیر توالی² ظاهر شده; توالی‌های تکراری کوتاه نوکلئوتیدی یا آمینواسیدی³; و دنباله‌‌های حفظ شده که در نسلهای مختلف تغییر نکرده است⁴. شبکه‌های عصبی عمیق به‌‌صورت خودکار نه دستی، الگوهای مشترک از داده‌‌ها را از طریق یادگیری ویژگی پیدا می‌‌کنند. بدین معنی که بازنمایی غنی شده‌‌ای از داده‌‌های توالی ایجاد می‌کند تا بتواند وابستگی‌های غیر خطی و اثرات متقابل آنها را در محدوده توالی گسترده‌‌تر در مقیاس ژنومی متعدد را نشان دهد و این بازنمایی در روند دسته‌‌بندی، بین دسته‌‌ها یا کلاس‌‌های مختلف از توالی، بهتر تمایز قائل می‌‌شود [7]. کاربرد مفید دیگر یادگیری عمیق موفقیت در پیدا کردن و وصل کردن بخشهای اطلاعاتی کدکننده ژن یعنی اگزون‌‌ها می‌باشد⁵ [8, 9]; یادگیری عمیق در تشخیص ویژگی‌های پروتئین‌های متصل‌شونده به ِDNA و RNA [10]; در تشخیص ویژگی‌های علائم اپی ژنتیک که مطالعه بر روی تاثیرات محیط برای باز شدن رشته‌های DNA یا RNA پیچ خورده برای بیان شدن را دارند[11] ;و همچنین به منظور مطالعه کشف اثرات تغییر رشته‌های DNA [12]، موفقیت آمیز عمل کرده است. یکی از بهترین و دقیق‌ترین روش‌های یادگیری عمیق در این زمینه، شبکه عصبی کانولوشنی است، در شبکه عصبی کانولوشنی استخراج ویژگی به‌‌صورت سلسله مرتبی انجام می‌‌شود [13].

2- ادبیات تحقیق

سال‌های اخیر انفجاري در پیشرفت تکنیک‌‌هایی با تکنولوژي بالا براي دستیابی و نشان دادن جنبه‌هاي مختلف فعالیت ژن به وجود آمده است. اکنون با استفاده از این تکنولوژي‌‌هاي جدید، شناسایی ارتباطات جدید بین ژن‌ها را با قدرت تفکیک پذیري بالاتر نسبت به گذشته ممکن ساخته است. براي مثال خیلی زود این امکان وجود خواهد داشت که نقشه کل مجموعه کنش متقابل پروتئین براي هر ارگانیسم نیز مشخص شود. دسترسی این مجموعه داده وسیع ژنوم یک فرصت بی نظیر براي کشف ویژگی‌هاي سلولی جدید از منظر سیستمی می‌دهد و توانایی دانشمندان را در پیش‌بینی صحیح عملکرد ژن در حجم‌‌هاي وسیع افزایش می‌دهد [14]. شماری از تکنیک‌‌های طبقه‌‌بندی یادگیری ماشین جهت طبقه‌بندی بافت به دو نوع سرطانی و نرمال استفاده شده است. بعلاوه تعداد زیاد ویژگی در مقابل تعداد کم نمونه‌‌های آموزشی، حل این مساله را خیلی سخت‌‌تر می‌‌کند [15]. در گذشته، راه‌حل‌های زیادی جهت مساله طبقه‌‌بندی سرطان پیشنهاد شده است. در این روش‌‌ها، بیشتر از کاهش فضای مشخصه با انتخاب و یا استخراج ویژگی استفاده شده است. اگرچه این منجر به مشکلاتی با آن روش‌‌هایی می‌‌شود که اکثرا مقیاس پذیر نیستند و نمی‌توانند به انواع جدید سرطان بدون باز طراحی مشخصات جدید تعمیم داده شوند. بعلاوه این تکنیک‌ها نمی‌توانند راه‌‌حل موثری از نمونه‌‌های بافت از دیگر سرطان‌ها اتخاذ کنند [16]. یادگیری عمیق در حال حاضر با تحلیل ژن‌های بیمار برای کمک به تشخیص بیماری‌ها مورد استفاده است. این تکنیک می‌تواند سلول‌های سرطانی را تشخیص دهد که دانشمندان موفق به مشاهده آن‌ها نشده‌اند همچنین می‌تواند به محققان در درک بهتر جهش‌های عامل سرطان و توسعه درمان‌های جدید برای آن‌ها کمک کند [17]. یادگیری عمیق از زیر شاخه‌‌های یادگیری ماشین است. این روش ویژگی را به‌‌صورت سلسله مراتبی از لایه‌‌های مختلف از طریق توابع غیر خطی استخراج می‌کند ورودی هر لایه خروجی لایه قبلی است و آموزش آن می‌‌تواند به‌‌صورت با ناظر یا بدون ناظر باشد.در واقع تک لایه مخفی در شبکه عصبی با تعدادی زیادی(عمیق) لایه جایگزین شده است [18]. شبکه‌‌های عصبی کانولوشنی یکی از مهم‌‌ترین روش‌‌های یادگیری عمیق هستند که در آنها چندین لایه با روشی قدرتمند آموزش می‌‌بینند. این روش بسیار کارآمد بوده و یکی از رایج‌‌ترین روشها در کاربردهای مختلف بینایی کامپیوتر است [19]. پروتئین‌‌ها مى‌‌توانند فعال كننده يا مهار كننده بيمارى باشند علاوه بر نقش خود به عنوان يك عامل تمايز، سركوبگر تومور نيز مى‌‌باشند. در حـدود 90% از سـلول‌‌های سرطانـی دارای فعالیـت بـالای ترکیبـات نوکلئوپروتئینـی می‌‌باشـند کـه سـبب می‌‌شـود سـلول‌‌ها رشـد غیرعادی داشته باشـند [20]. بنابراین بررسی فعالیـت توالی پروتئینی سـلول‌‌های سرطانـی، می‌‌توانـد به عنـوان ابـزاری برای تشـخیص و طبقه‌بندی بیماری سرطان مورد استفاده قرار گیرد. در ارتباط با این مساله و جهت تسهیل و توسعه نسخه‌‌های تعمیم یافته‌تر دسته کننده‌های سرطان، در این تحقیق، ما راه کلی‌‌تری از یادگیری مشخصه‌‌ها به وسیله کاربرد یادگیری مشخصه با ناظر و روش‌‌های یادگیری عمیق ، در واقع شبکه کانولوشنی را پیشنهاد می‌‌دهیم. در روش پیشنهادی از داده‌‌های توالی پروتئینی بیماران مبتلا به سرطان خون و انسان سالم، استفاده شده است. در این مقاله ما در رابطه با نوع جدیدی از برنامه‌های کاربردی در آنالیز دستاوردهایی از بازنمایی توالی پروتئین به تصویر را بحث می‌کنیم. هدف اصلی این مطالعه استفاده از قابلیت‌های شبکه عصبی کانولوشنی جهت طبقه‌بندی تصاویر بازنمایی شده از توالی پروتئین می‌باشد. ما ابتدا نوآوری در این تحقیق یعنی تبدیل توالی پروتئین به تصویر را ارائه می‌‌دهیم برای این منظور روش‌های مختلف در تبدیل توالی پروتئین به تصاویر را پیشنهاد می‌دهیم. سپس با اعمال فیلتر گایوربا زاویه و طول موج مختلف به تصویر دودویی، دقت طبقه‌بندی معماری پیشنهاد شده شبکه عصبی کانولوشنی را بررسی کرده و تعیین می‌کنیم با چه تنظیماتی می‌توانیم در بینش بیولوژیکی با تبدیل توالی پروتئین به تصویر باینری از آن استفاده نماییم. ما همچنین زمان آموزش برای رسیدن به دقت کل 100% جهت طبقه‌بندی توالی‌‌های پروتئین سالم و سرطان خون بازنمایی شده با تصویر دودویی را با اعمال حالت‌های مختلف زوایا و طول موج فیلتر گابور و چگونگی بهترین استفاده از این تکنولوژی جدید را مورد بحث قرار می‌دهیم.

3- شبکه عصبی کانولوشنی

شبکه عصبی کانولوشنی ردهای از یادگیری عمیق هستند که معمولا برای تحلیل تصاویر در یادگیریماشین استفاده میشوند. ساختار شبکه کانولوشنی از فرایندهای زیستی قشر بینایی گربه الهام گرفته شده است. این ساختار بهگونهای استکه تک نورونها، تنها در یک ناحیه محدود به تحریک پاسخ میدهند که به آن ناحیه ادراکی گفته میشود. نواحی ادراکی نورونهای مختلف، بهصورت جزئی باهم همپوشانی دارند به گونهای که کل میدان دید را پوشش میدهند. یک شبکه عصبی کانولوشنی از سه لایه اصلی تشکیل می‌شود که عبارتند از : لایه کانولوشنی⁶، لایه ادغام⁷ و لایه تماما متصل⁸. لایه های مختلف وظایف مختلفی را انجام می‌دهد. در هر شبکه عصبی کانولوشنی دو مرحله برای آموزش وجود دارد. مرحله پیش‌رو ⁹و مرحله پس انتشار¹⁰. در مرحله اول تصویر ورودی به لایه کانولوشن شبکه تغذیه می‌شود و این عمل چیزی جز ضرب نقطه ای بین ماتریس تصویر ورودی و ماتریس فیلتر در هر لایه کانولوشن نیست. خروجی لایه های کانولوشن نشاندهنده ویژگیهای سطح بالا در دادهها است، به عبارت ساده هدف لایههای کانولوشن در پردازش عکس ساختن ویژگیها از داده های خام میباشد، آنها به دنبال اشیا و دنبالههای با معنی موجود در عکس می‌گردند اما هیچ تصمیم گیری در مورد طبقهبندی انجام نمیدهند. فلت کردن این ویژگیها در انتهای شبکه و اتصال آنها به دو لایه تماما متصل معمولا یک روش ارزان «از لحاظ بار محاسباتی» برای یادگیری ترکیبات غیرخطی این ویژگیها است. ابعاد ماتریس وزن، برای تولید تعداد نرونهای لازم در لایه تمام متصل برابر است با حاصلضرب تعداد این نرونها در تعداد نرونهای لایه قبلی آنها . یکسوساز ¹¹، جهت صفر کردن مقادیر منفی ماتریس بدست آمده، استفاده می شود. لایه ادغام معمولا بعد از لایه کانولوشن قرار می گیرد و اندازه داده را کوچک می کنند. در ترکیب نورونها، مکانیزمهای مختلفی وجود دارد که معروفترین آنها ادغام ماکسیمم¹² است. در این مکانیزم پنجره هایی بر روی ماتریس بدستآمده مرحله قبل اعمال شده و با گام مشخصی حرکت میکند و وظیفه آن قرار دادن ماکسیمم اعداد موجود در پنجره بهجای اعداد می باشد. لایه بیشینه هموار¹³ خروجی لایه تماما متصل¹⁴ را به توزیع احتمال کلاسها تبدیل میکند. سپس خروجی شبکه محاسبه می‌شود. به منظور تنظیم پارامترهای شبکه (مقادیر فیلترهای لایه کانولوشن و ماتریسهای وزن لایه های تماما متصل)، در مرحله اول با استفاده از یک تابع خطا ¹⁵، خروجی شبکه را با پاسخ صحیح مقایسه کرده و خطا محاسبه میشود. در مرحله بعدی بر اساس میزان خطای محاسبه شده مرحله پسانتشارخطا آغاز میشود. در این مرحله گرادیانت هر پارامتر، با توجه به قاعده زنجیرهای¹⁶محاسبه میشود و تمامی پارامترها با توجه به تاثیری که بر خطای ایجادشده در شبکه دارند تغییر پیدا میکنند. بعد از بروز شدن پارامترها، مرحله بعدی پیشرو شروع میشود. با تکرار تعداد مناسبی از این مراحل، آموزش شبکه پایان مییابد.

4- فیلتر گابور

در كاربردهاي مختلف بينايي كامپيوتر از قبيل آناليز بافت و آشكارسازي لبه، توابع گابور بطور وسيعي استفاده شدهاند . فيلتر گابور يك فيلتر خطي و محلي است. هسته كانولوشن فيلتر گابور حاصلضرب يك تابع نمايي مختلط و گوسين است ]21[. مجموعه فیلترهای گابور از طریق رابطه (1) بدست آورده می‌شوند.

(1)

در رابطه (1) طول موج فرکانس سینوسی، زاویه چرخش فيلترهاي گابور برای تعیین جهت نوارهای موازی تابع گابور ، جابه‌جایی فاز برای تعیین تقارن تابع گابور، انحراف استاندارد پوشش تابع گاوسی، نسبت ابعاد فضایی و بیضوی، درصورتي كه به‌‌طور مناسب و دقيق تنظيم شوند، عملكرد بسيار مناسبي در تشخيص ويژگي‌‌هاي بافت و لبه بافت دارند ]22[. ويژگي ديگر فيلترهاي گابور درجه تفكيك مشترك بالاي آنها است. اين بدان معني است كه پاسخ آنها هم در حوزه مكان و هم در حوزه فركانس كاملا محلي و قابل تنظيم كردن است.

در این مقاله زوایای مختلف چرخش فیلتر گابور با 2 طول موج فرکانس سینوسی جهت استخراج ویژگی‌های مهمتر مورد مقایسه قرار می‌گیرند.

5- روش‌های طبقه‌بندی توالی

سه روش متداول جهت طبقه‌‌بندی توالی وجود دارد. روش اول، طبقه‌‌بندی مبتنی بر ویژگی است. کل تعداد ویژگی‌های یک توالی پروتئین به طول n ، شامل همه زیرمجموعه‌های ممکن برای مکان آمینواسیدها، به‌صورت رابطه 2 تعریف می‌شود.

(2)

در رابطه 2، n تعداد ویژگی‌‌های اولیه است. و k نیز زیر مجموعه انتخاب شده است. نشان داده شده است که پیدا کردن زیر مجموعه بهینه، یک مسئله NP-hard است [23, 24]. به‌‌عنوان روش‌‌های مبتنی بر ویژگی، در مرحله اول موقعیت حروف اسید آمینه به عنوان ویژگی تعریف شدند. در مرحله دوم، در حین حفظ یکپارچگی، حروف اسید آمینه توالی پروتئین به بردار دودویی تبدیل می‌‌شود؛ در این روش بازنمایی، به‌‌دلیل اینکه دنباله توالی‌‌ها باید حفظ شود، برای تک تک حروف اسید آمینه، در طول توالی پروتئین، اگر حرف مورد نظر ظاهر شود، مقدار 1 و در غیر این‌‌صورت مقدار 0 جایگزین می‌‌شود. جدول 1 بازنمایی توالی پروتئین به شکل بردار دودویی را نشان می‌دهد.

[1] SNVs

[2] K-mer

[3] Motif

[4] conservation

[5] splicing

[6] Convolution

[7] Pooling

[8] Full Connected

[9] Feed-Forward

[10] Back Propagation

[11] RELU

[12] Max pooling

[13] Softmax

[14] fully connected

[15] loss function

[16] chain rule

جدول 1: نگاشت توالی پروتئین به بردار دودویی

توالی پروتئین	MKLIILQHVT…
آمینو اسید	A											R											...	I											L											...	V
بردار دودویی	0	0	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0	0	0	…	...	0	0	0	1	1	0	0	0	0	0	…	0	0	1	0	0	1	0	0	0	0	…	...	0	0	0	0	0	0	0	0	1	0	…

روش دوم، طبقه‌‌بندی مبتنی بر فاصله است که شباهت بین توالی‌‌ها را بررسی می‌‌کند. به‌‌دلیل تفاوت در طول توالی‌‌های انتخاب شده در مجموعه داده‌‌ها این روش مورد بررسی قرار نگرفت. روش سوم، طبقه مبتنی بر مدل است. در این مقاله، با نوشتن برنامه متلب از شبکه عصبی کانولوشنی در روش‌های پیشنهادی بازنمایی نگاشت توالی پروتئین، جهت طبقه بندی توالی مبتنی بر مدل استفاده شد.

6- روش‌‌های پیشنهادی بازنمایی نگاشت توالی پروتئین جهت طبقه‌بندی مبتنی بر مدل

در این بخش جهت ایجاد قالب ورودی معماری شبکه عصبی کانولوشنی طراحی شده در نرم‌‌افزار متلب، روش‌های پیشنهادی بازنمایی نگاشت توالی پروتئین به عدد ارائه می‌شود. برای ایجاد قالب ورودی طبقه‌بندی مبتنی بر مدل، در روش اول از با زنمایی توالی پروتئین به شکل آرایه یک‌‌بعدی از مقادیر عدد صحیح استفاده می‌شود. در این روش بازنمایی، حروف توالی اسید آمینه پروتئین، با استفاده از دستور aa2int نرمافزار متلب، به عدد صحیح مطابق جدول 2 تبدیل می‌شوند. در نتیجه قالب ورودی شبکه عصبی کانولوشنی در این روش، یک بردار شامل 289 عدد صحیح می‌باشد. برای ایجاد قالب ورودی طبقه‌بندی مبتنی بر مدل، در روش دوم از بازنمایی توالی پروتئین به شکل تصویر در قالب‌های بردار رنگی، تصویر رنگی مربعی، تصویر باینری و همچنین از تصویر باینری با اعمال فیلتر گابور به عنوان روش پیشنهادی، استفاده می‌شود.

جدول 2: نگاشت توالی پروتئین به عدد صحیح با تبدیل آمینو اسید به عدد صحیح با تابع aa2int متلب

عدد صحیح	کد	آمینواسید
1	A	Alanine
2	R	Arginine
3	N	Asparagine
4	D	Aspartic acid
5	C	Cysteine
6	E	Glutamic acid
7	Q	Glutamine
8	G	Glycine
9	H	Histidine
10	I	Isoleucine
11	L	Leucine
12	K	Lysine
13	M	Methionine
14	F	Phenylalanine
15	P	Proline
16	S	Serine
17	T	Threonine
18	W	Tryptophan
19	Y	Tyrosine
20	V	Valine
0	X	Unknown

در بازنمایی توالی پروتئین به شکل تصویر در ابتدا به ازای هر آمینو اسید، یک رشته بیتی شامل نوزده عدد 0 و یک عدد 1 ایجاد میشود. کد عدد صحیح آمینو اسید، محل قرار گرفتن 1 را در رشته بیتی مطابق با شکل 1 مشخص مینماید. به عنوان مثال رشته بیتی "00000000000000000010"، کد R با عدد صحیح 2 را نشان می‌دهد.

شکل 1: نگاشت اسید آمینه به رشته بیتی

در قالب بردار رنگی، بهازای هر رشته بیتی یک کد رنگ RGB تولید میشود برای اینکار از تبدیل کد باینری رشته بیتی به دسیمال مطابق شکل 2 استفاده شده است. در نتیجه بهازای هر حرف توالی پروتئین یک کد RGB تولید میشود. در این روش قالب ورودی یک بردار 289 X 1 خواهد شد.

کد RGB

رشته بیتی

توالی پروتئین

4096 2048 1024 512 512 1024 ...

0 0 0 0 0 0 0 0

0 0 0 0 0 0 1 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 1

0 0 0 1 1 0 0 0 . . .

0 0 1 0 0 1 0 0

0 1 0 0 0 0 0 0

1 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

MKLIILQH…

شکل 2: مراحل بازنمایی توالی پروتئین به 289 x1 کد RGB

در قالب تصویر رنگی مربعی هر 17 کد RGB در یک سطر قرار می‌گیرد، شکل 3 قالب ورودی به‌صورت تصویر رنگی 17 X 17 را نشان می‌دهد. سطر اول تصویر رنگی، بازنمایی 17 حرف اول دنباله توالی پروتئین و سطر دوم نیز، 17 حرف دوم، و سطرهای بعدی هم به همین ترتیب نگاشت می‌شوند.

تصویر رنگی 17x17

کد RGB

توالی پروتئین با طول 289

4096 2048 1024 512 512 1024 ...

…

MKLIILQH…

شکل 3: مراحل بازنمایی توالی پروتئین به تصویر رنگی 17 X17

برای ایجاد تصویر باینری 289 X 20 بر اساس رشته بیتی توالی پروتئین، در هر ستون تنها یک پیکسل سفید قرار میگیرد. مکان این پیکسل با توجه به مکان عدد یک در رشته بیتی مشخص میشود. مطابق با شکل 4، هر حرف از توالی پروتئین، یک ستون از تصویر باینری را نشان میدهد.با توجه به اینکه طول تصویر باینری ایجاد شده با طول دنباله توالی یکسان میشود در نتیجه مفهوم دنباله در توالی حفظ میشود. عرض تصویر برابر 20 یعنی تعداد اسید آمینه انتخاب شدهاست، لذا در هر ستون تنها یک پیکسل سفید وجود خواهد داشت که باعث می‌شود در این قالب ورودی، اسیدهای آمینه به صورت یکنواخت بازنمایی شوند. قالب پیشنهادی ورودی شبکه عصبی کانولوشنی در این مقاله جهت استخراج ویژگیهای مهمتر، با اعمال فیلتر گابور در تصویر باینری، جهت بازنمایی توالی پروتئین مطابق با شکل 4 معرفی میشود.

شکل 4: تبدیل توالی پروتئین به تصویرباینری با ابعاد 289 x20

7- جامعه آماری

در این پژوهش، 2143 توالی اسید آمینه پروتئین از سایت مرکز ملی اطلاعات زیست فناوری معروف به NCBI که یکی از مراکز و شاخه‌های کتابخانه ملی پزشکی ایالات متحده آمریکا است و خود زیر مجموعه موسسه علمی سلامت NIH است، جمع آوری شده است. با توجه به اینکه طول توالیها متفاوت بودند، در مرحله انتخاب دادهها، 460 توالی پروتئین با طول بین 235 و 289 انتخاب شد.

8- نمونه آماری

نمونه آماري شامل 2 کلاس توالی پروتئینی است که عبارتند از:

سالم¹: این کلاس شامل 59 توالی پروتئینی که سرطان خون ندارند، میباشد.

سرطان خون² : این کلاس شامل 401 توالی پروتئینی، از افرادی است که دچار بیماری سرطان خون می باشند.

9- 6 مجموعه داده برای مدل‌های پیش‌بینی

مجموعه داده‌ها در این تحقیق به 6 روش مختلف بازنمایی شده‌اند. شکل 6 فلوچارت روش‌های طبقه‌بندی این مجموعه‌ داده‌ها را نشان می‌دهد.

مجموعه داده اول شامل داده‌های اسمی، جهت طبقه بندی مدل‌های مبتنی بر ویژگی ایجاد شد، در این مجموعه داده موقعیت حروف اسیدآمینه به عنوان ویژگی تعریف شد، تعداد 289 ویژگی برای هر توالی در نظر گرفته شد. در مجموعه داده دوم در حین حفظ یکپارچگی، حروف اسید آمینه توالی پروتئین به بردار دودویی تبدیل می‌‌شوند؛ در این روش بازنمایی، به‌‌دلیل اینکه دنباله توالی‌‌ها باید حفظ شود، برای تک تک حروف اسید آمینه، در طول توالی پروتئین، اگر حرف مورد نظر ظاهر شود، مقدار 1 و در‌ غیر‌این‌‌صورت مقدار 0 جایگزین می‌‌شود. تعداد کل ویژگی‌ها در این روش 289*20 برابر با 5780 خواهد شد. این مجموعه داده نیز جهت طبقه بندی مدل‌های مبتنی بر ویژگی ایجاد شد، روش‌های طبقه‌بندی مبتنی بر ویژگی در این 2 مجموعه داده شامل درختان تصمیم، ماشین بردار پشتیبان، و روش‌های گروهی می‌باشد. مجموعه داده سوم، برداری از اعداد صحیح است، برای هر توالی به طول 289، برداری شامل 289 عدد صحیح به‌عنوان ویژگی، مطابق با اعداد صحیح جدول 1 تعریف شد، شبکه عصبی کانولوشنی با معماری معرفی شده در شکل 5 جهت طبقه بندی مبتنی بر مدل برای این مجموعه داده انتخاب شد. در معماری این شبکه عصبی کانولوشنی از 11 لایه پس از لایه ورودی برای طبقه‌‌بندی استفاده شده است. لایه اول از لایه کانولوشن با 30 فیلتر با ابعاد 3X1، لایه دوم از یکسوساز جهت صفر کردن اعداد منفی خروجی لایه قبل، لایه سوم لایه کانولوشن با 60 فیلتر 2X1 و لایه چهارم نیز لایه یکسوساز، لایه پنجم لایه ادغام با ناحیه ادراکی 2X1 با عملگر حداکثر با گام 2، لایه ششم لایه کانولوشن با 80 فیلتر3X1، لایه هفتم لایه یکسوساز، لایه هشتم و نهم تماما متصل به‌‌ترتیب با 33 و 2 نورون، لایه دهم لایه بیشینه هموار و لایه یازدهم، لایه طبقه‌بندی³ تعریف شده است.

$E:\Influenza\new data\data new site\ProteinFasta All HA\matlab\influenza 16 class\cnn3.tif$

شکل 5: معماری شبکه عصبی کانولوشن با ورودی عدد آرایه یک‌‌بعدی .

مجموعه داده چهارم با بردار کد رنگ ایجاد شد، در این مجموعه داده به‌ازای هر توالی 289 کد رنگ به عنوان ویژگی در نظر گرفته شد. برای این مجموعه داده نیز جهت طبقه بندی مبتنی بر مدل از شبکه عصبی کانولوشنی با معماری شکل 5 استفاده شد.

[1] Normal

[2] Leukemia

[3] classification

شکل 6: روش‌های طبقه‌بندی در 6 مجموعه‌ داده‌

در مجموعه داده پنجم، برای هر توالی تصویر رنگی 17X17 تعریف شد. در این روش 2 مدل معماری شبکه عصبی عمیق پیشنهاد داده شد. مطابق با شکل 7 در مدل اول از شبکه عصبی کانولوشنی با 11 لایه پس از لایه ورودی برای طبقهبندی تصاویر رنگی مربعی بازنمایی شده از توالیهای پروتئین استفاده شد. لایه اول از لایه کانولوشنی با 20 فیلتر با ابعاد 5 X 5، لایه دوم از یکسوساز جهت صفر کردن اعداد منفی خروجی لایه قبل، لایه سوم لایه کانولوشنی با 60 فیلتر 4 X 4 و لایه چهارم نیز لایه یکسوساز، لایه پنجم لایه ادغام با ناحیه ادراکی 2 X 2 با عملگر ماکسیمم، لایه ششم لایه کانولوشنی با 80 فیلتر 3 X 3، لایه هفتم لایه یکسوساز، لایه هشتم و نهم تماما متصل به ترتیب با 20 و 2 نورون، لایه دهم، لایه بیشینه هموار و لایه یازدهم، لایه طبقه‌بندی تعریف شده است.

شکل 7: مدل اول شبکه عصبی کانولوشن جهت طبقه‌بندی تصویر رنگی 17X17

مطابق با شکل 8 در مدل دوم، از 10 لایه پس از لایه ورودی جهت طبقهبندی تصاویر رنگی مربعی بازنمایی شده از توالیهای پروتئین استفاده شد. در لایه اول، از 30 فیلتر کانولوشن با ابعاد 3 X 3، لایه دوم از لایه ادغام جهت کاهش ابعاد با ناحیه ارداکی 2 X 2، لایه سوم شامل 60 فیلتر کانولوشن با ابعاد 2 X 2، لایه چهارم مانند لایه دوم، لایه پنجم شامل80 فیلتر کانولوشن با ابعاد 3 X 3، لایه ششم نیز شبیه لایه چهارم و دوم از لایه ادغام با ناحیه ادراکی 2 X 2، لایه هفتم و هشتم لایه های تماما متصل به ترتیب با 33 و 2 نرون، لایه نهم، لایه بیشینه هموار و لایه دهم، لایه طبقه‌بندی تعریف شده است.

شکل 8: مدل دوم شبکه عصبی کانولوشن در روش اول پیشنهادی

مطابق با شکل 9 در روش پیشنهادی سوم از 10 لایه شبکه عصبی کانولوشنی برای طبقه‌‌بندی خروجی فیلتر گابور تصاویر دودویی 289 X 20 استفاده می‌‌شود. لایه اول شامل 10 فیلتر کانولوشن با ابعاد 100 X 10، لایه دوم: لایه یکسوساز، لایه سوم: لایه ادغام با ناحیه ادراکی 50 X 5، لایه چهارم شامل 10 فیلتر کانولوشن با ابعاد 80 X 4، لایه پنجم: لایه یکسوساز، لایه ششم: لایه تماما متصل با 100 نورون، لایه هفتم: لایه یکسوساز، لایه هشتم: لایه تماما متصل با 2 نورون، لایه نهم: لایه بیشینه هموار، لایه دهم: لایه طبقه‌بندی در نظر گرفته شده است.

شکل 9: معماری شبکه کانولوشن در روش پیشنهادی تبدیل توالی پروتئین به تصاویر دودویی

10- ارزیابی مدل‌های پیشنهادی طبقه‌بندی توالی پروتئین سالم و مریض(سرطانی)

با توجه به عدم توازن تعداد نمونه‌‌های هر دو کلاس، جهت ارزیابی دقت، از روش 2-fold-Cross-Validation (در مرحله اول 50 درصد اول داده‌‌ها در هر کلاس به عنوان داده‌‌های آموزشی و 50 درصد دوم نیز به عنوان داده‌‌های تست و در مرحله دوم 50 درصد اول تست و 50 درصد دوم آموزشی در نظر گرفته می‌‌شوند) جهت مقایسه عملکرد مدل‌‌های مخصوص طبقه‌‌بندی توالی با مدل‌‌های طبقه‌‌بندی مبتنی با تصویر استفاده شده است. در این ارزیابی از حساسیت¹ (تقسیم تعداد درست تشخیص داده شده یک کلاس بر تعداد واقعی همان کلاس) و دقت² (تقسیم تعداد درست تشخیص داده شده یک کلاس بر تعداد پیش‌‌بینی همان کلاس) و دقت‌‌کل³ (تقسیم تعداد درست تشخیص داده شده 2 کلاس بر تعداد کل نمونه‌‌های تست) استفاده شده است.

11- یافته‌ها

روش‌های طبقه‌‌بندی یادگیرنده نرم‌‌افزار متلب⁴ شامل 3 روش درخت تصمیم(Fine Tree, Medium Tree, Coarse Tree)، ‌‌ و 7 روش ماشین بردار پشتیبان (Logistic Regression, Linear SVM, Quadratic SVM, Cubic SVM, Fine Gaussian SVM, Medium Gaussian SVM, ) و 3 روش گروهی (Ensemble Boosted Trees, Ensemble Bagged Trees, Ensemble RUS Boosted Trees) جهت طبقه‌بندی 2 کلاس نامتوازن سالم و مریض در 2 مجموعه داده مبتنی بر ویژگی معرفی شده در شکل 5 مورد استفاده قرار گرفتند. جدول 3، ارزیابی روش‌‌های طبقه‌‌بندی یادگیرنده نرم‌‌افزار متلب با داده اسمی در مجموعه داده مبتنی بر ویژگی را نشان می‌‌دهد. در این مجموعه داده، روش طبقه‌بندی Ensemble Bagged Trees بیشترین دقت کل را در طبقه‌بندی 2 کلاس ارائه داد. جدول 4 نیز ارزیابی روش‌‌های طبقه‌‌بندی یادگیرنده نرم‌‌افزار متلب با داده بردار دودویی در مجموعه داده مبتنی بر ویژگی را نشان می‌‌دهد. در این مجموعه داده، روش‌های طبقه‌بندی Quadratic SVM و Cubic SVM با دقت 92.0% بیشترین دقت کل را در طبقه‌بندی 2 کلاس ارائه دادند. همچنین در مقایسه جدول 3 با 4 مشاهده شد در بیشتر روش‌‌های طبقه‌‌بندی یادگیرنده نرم‌‌افزار متلب در روش‌‌های مبتنی بر ویژگی، ورودی توالی به‌‌صورت بردار دودویی نتایج بهتری نسبت به ورودی داده‌‌های اسمی ارائه می‌دهند. علت افزایش دقت به 2 دلیل می‌باشد. اول اینکه در روش بازنمایی با برداردودویی، دنباله توالی پروتئین به‌صورت یکپارچه کد شده‌اند، دوم اینکه پیوستگی در زیر دنباله در این روش بازنمایی حفظ شده است. جدول 5 ارزیابی روش‌‌های طبقه مبتنی بر مدل را نشان می‌‌دهد. شبکه عصبی کانولوشنی مجموعه داده بردار عددی یک‌‌بعدی کلاس 1 را تشخیص نداد. ارزیابی طبقه‌بندی شبکه عصبی کانولوشنی با ورودی به‌صورت بردار کد رنگ نسبت‌به بردار عددی بهتر شد. در هر 2 روش بردار عدد صحیح و بردار کد رنگ به‌دلیل بازنمایی غیر یکپارچه حروف توالی، ارزیابی مناسبی نداشتند. شبکه عصبی کانولوشنی بر روی تصاویر رنگی مربعی در قالب (17 X 17)، در دو معماری مختلف جهت آموزش شبکه ارائه شد. هر یک از معماری‌‌ها با مقادیر و لایه‌‌های مختلف، مورد بررسی و تحلیل قرار گرفته شد. در این بررسی مشاهده شد که به‌‌دلیل قطعه قطعه شدن دنباله برای ایجاد تصویر مربعی در 2 مدل شبکه عصبی کانولوشنی، و همچنین با توجه به یکپارچه نبودن بازنمایی اسید‌‌های آمینه به مقادیر رنگی به‌‌دلیل تفاوت بسیار زیاد اعداد رنگی ایجاد شده از اسید‌‌های آمینه، دقت و حساسیت کلاس 1 کمتر از 50% شد. اما در روش پیشنهادی با تعریف قالب ورودی به شکل تصاویر (289 X 20( دودویی و اعمال فیلتر گابور، دقت و حساسیت هر 2 کلاس بیشتر از 90% شد. جهت رسیدن به دقت کل بالاتر و تعیین تعداد دفعات لازم برای آموزش داده‌های آموزشی شبکه عصبی، 4 زاویه (0 و 45 و 90 و 135) و 2 طول موج (5 و 10) برای اعمال فیلتر گابور در نظر گرفته شد. نتایج جدول 6 نشان می‌دهد که زاویه 90 درجه از دو جنبه تعداد دفعات لازم برای آموزش داده‌های آموزشی شبکه عصبی و دقت کل داده‌های تست، با توجه به روش بازنمایی تصویر باینری و نگاشت حروف اسیدآمینه به‌صورت یکنواخت دودویی در عرض تصویر، مناسب‌تر است. همانطور که مشاهده می‌‌شود کمترین دقت و حسایت در تشخیص کلاس سالم، مربوط به روش‌‌های مبتنی بر ویژگی، با ورودی داده‌‌های اسمی توالی پروتئین در مدل Logistic regression و Ensemble Boosted Trees و با ورودی بردار دودویی توالی پروتئین در مدل Coarse Gaussian SVM و Ensemble Boosted Trees همچنین در مدل‌‌های مبتنی بر مدل با ویژگی‌‌ها به‌‌صورت بردار عددی یک‌‌بعدی در شبکه عصبی کانولوشنی با میانگین 0% و بیشترین دقت و حساسیت در ورودی تصاویر دودویی با ابعاد 289 X 20 و اعمال فیلتر گابور با زاویه 90 درجه در روش پیشنهادی با میانگین 95.4% را نشان دادند. در تشخیص کلاس مریض (سرطانی) کمترین دقت و حساسیت در مدل Logistic regression در روش‌‌مبتنی بر ویژگی در ورودی بردار دودویی با میانگین 89% و بیشترین دقت و حساسیت با میانگین 99.3% با ورودی تصویر دودویی با ابعاد 289 X 20 و اعمال فیلتر گابور با زاویه 90 درجه در روش پیشنهادی مشاهده شد. پایین‌‌ترین و بالاترین دقت کل در مجموع تشخیص هر 2 کلاس نیز به‌‌ترتیب در مدل Logistic regression در روش‌‌مبتنی بر ویژگی در ورودی بردار دودویی با دقت کل 81.3% و در روش سوم پیشنهادی با ورودی تصویر دودویی با ابعاد 289 X 20 و اعمال فیلتر گابور (طول موج 10 و زاویه 90 درجه) با دقت کل 98.8% بدست آمد.

جدول 3: حساسیت و دقت ارزیابی 2Fold-Cross-Validation روش‌‌های طبقه‌‌بندی یادگیرنده نرم‌‌افزار متلب با ورودی داده‌‌های اسمی توالی پروتئین مبتنی بر ویژگی

روش طبقه‌بندی			نوع کلاس	حساسیت Recall		دقت Precision	دقت کل Accuracy
Fine Tree	1	47%	50%		87.2%
	2	93%	92%
Medium Tree	1	47%	50%		87.2%
	2	93%	92%
Coarse Tree	1	37%	50%		87.2%
	2	95%	91%
Logistic Regression	1	0%	0%		87.2%
	2	100%	87%
Linear SVM	1	2%	50%		87.2%
	2	99%	87%
Quadratic SVM	1	2%	50%		87.2%
	2	99%	87%
Cubic SVM	1	2%	50%		87.2%
	2	99%	87%
Fine Gaussian SVM	1	2%	33%		87.0%
	2	99%	87%
Medium Gaussian SVM	1	2%	50%		87.2%
	2	99%	87%
Coarse Gaussian SVM	1	2%	33%		87.0%
	2	99%	87%
Ensemble Boosted Trees	1	0%	0%		87.2%
	2	100%	87%
Ensemble Bagged Trees	1	24%	100%		90.2%
	2	100%	90%
Ensemble RUS Boosted Trees	1	71%	58%		89.6%
	2	92%	96%

جدول 4: حساسیت و دقت ارزیابی 2Fold-Cross-Validation روش‌‌های طبقه‌‌بندی یادگیرنده نرم‌‌افزار متلب با ورودی روش ابتکاری بازنمایی یکپارچه دودویی توالی پروتئین مبتنی بر ویژگی

روش طبقه‌بندی			نوع کلاس	حساسیت Recall		دقت Precision	دقت کل Accuracy
Fine Tree	1	63%	59%		89.6%
	2	94%	94%
Medium Tree	1	63%	59%		89.6%
	2	94%	94%
Coarse Tree	1	44%	55%		88.5%
	2	95%	94%
Logistic Regression	1	76%	38%		81.3%
	2	82%	96%
Linear SVM	1	24%	100%		90.2%
	2	100%	90%
Quadratic SVM	1	37%	100%		92.0%
	2	100%	92%
Cubic SVM	1	37%	100%		92.0%
	2	100%	92%
Fine Gaussian SVM	1	27%	100%		90.7%
	2	100%	90%
Medium Gaussian SVM	1	29%	100%		90.9%
	2	100%	91%
Coarse Gaussian SVM	1	0%	0%		87.2%
	2	100%	87%
Ensemble Boosted Trees	1	0%	0%		87.2%
	2	100%	87%
Ensemble Bagged Trees	1	29%	100%		90.9%
	2	100%	91%
Ensemble RUS Boosted Trees	1	85%	43%		83.5%
	2	83%	97%

جدول 5: مقایسه حساسیت و دقت ارزیابی 2Fold-Cross-Validation روش‌‌های بازنمایی توالی پروتئین مبتنی بر مدل

نوع روش بازنمایی توالی پروتئین			نوع کلاس	حساسیت Recall		دقت Precision	دقت کل Accuracy
بردار اعداد صحیح 289X1			1	0.0%		0.0%	87.2%
			2	100%		87%
بردار کد رنگ 289X1			1	48.4%		68.2%	90.2%
			2	96.6%		92.5%
معماری اول تصویررنگی 17X17			1	45.2%		45.2%	85.5%
2	91.6%	91.6%
معماری دوم تصویر رنگی 17X17			1	50%		9.7%	86.8%
2	87.7%	98.5%
تصویر دودویی 289X20			1	17.2%		100%	89.5%
2	100%	89.3%
تصویر دودویی با فیلتر گابور	1	100%	90.7%		98.8%
	2	98.6%	100%

جدول 6: مقایسه حساسیت و دقت ارزیابی 2Fold-Cross-Validation و تعداد آموزش روش‌‌های اعمال فیلتر گابور در تصویر دودویی

نوع فیلتر گابور	تعداد آموزش	نوع کلاس	حساسیت Recall	دقت Precision	دقت کل Accuracy
بدون فیلتر	350	1	17.2%	100%	89.5%
		2	100%	89.3%
زاویه 0 طول 5	200	1	58.6%	60.7%	90.0%
		2	94.5%	94.0%
زاویه 0 طول 10	350	1	48.3%	70.0%	90.8%
		2	97.0%	92.8%
زاویه 45 طول 5	250	1	66.5%	65.5%	91.3%
		2	95.0%	95.0%
زاویه 45 طول 10	350	1	55.2%	59.3%	89.5%
		2	94.5%	93.6%
زاویه 90 طول 5	200	1	82.8%	88.9%	96.5%
		2	98.5%	97.5%
زاویه 90 طول 10	200	1	100%	90.7%	98.8%
		2	98.6%	100%
زاویه 135 طول 5	250	1	31.0%	90.0%	90.8%
		2	99.5%	90.9%
زاویه 135 طول 10	250	1	34.5%	76.9%	90.4%
		2	98.5%	91.2%

12- بحث

روش‌های طبقه بندی مخصوص توالی مبتنی بر ویژگی، به‌‌دلیل در نظر نگرفتن ارتباط بین زیر مجموعه‌‌های توالی به‌‌عنوان ویژگی، که بر اساس موقعیت زیر مجموعه در توالی معنی پیدا می‌‌کنند، و همچنین روش‌‌های طبقه بندی مخصوص توالی مبتنی بر فاصله، به‌‌دلیل تفاوت در طول توالی پروتئین، و در نهایت روش‌‌های طبقه بندی مخصوص توالی مبتنی بر مدل با ورودی بردار یک‌‌بعدی به‌‌ازای هر توالی، به‌‌دلیل عدم یکپارچگی در کد کردن حروف اسید آمینه، جهت طبقه بندی 460 توالی پروتئین با طول بین 235 و 289 در 2 کلاس سالم و سرطانی موفق نبودند. جهت بهبود دقت طبقه‌‌بندی در روش‌‌های یادگیری ماشین، با رویکرد ابتکاری، در حین حفظ یکپارچگی، حروف اسید آمینه توالی پروتئین به بردار دودویی تبدیل شدند. جهت بهبود دقت در طبقه‌بندی مبتنی بر مدل در شبکه عصبی کانولوشنی، 3 روش‌‌ برای بازنمایی توالی پروتئین به تصویر ارائه شد. روش اول، در تبدیل حروف توالی پروتئین به کد رنگ به‌‌دلیل بازنمایی غیریکپارچه برای هر اسید آمینه موفق نبود. روش دوم با تغییر ساختار دنباله با کنار هم قرار دادن هر 17 اسید آمینه برای ایجاد تصویر رنگی مربعی، در طبقه‌‌بندی توالی‌‌ها، موفق نبود. روش سوم، بازنمایی تصویر دودویی به‌‌دلیل بازنمایی یکپارچه اسید آمینه و عدم تغییر در ساختار اصلی دنباله و اعمال فیلتر گابور برای استخراج ویژگی‌‌های مناسب مانند بافت و لبه بافت بسیار موفق عمل کرد. با توجه به اینکه عرض تصاویر دودویی تعیین کننده نوع اسید آمینه موجود در توالی پروتئین می‌‌باشد زاویه فیلتر گابور 90 درجه به بهترین شکل ویژگی‌‌های موثر را استخراج کردند. تجزیه و تحلیل انجام شده بر روی روش‌‌های بازنمایی توالی پروتئین، بیان کننده موفقیت نگاشت توالی به‌‌صورت ماتریس 2 بعدی نسبت‌‌به بردار یک‌‌بعدی را نشان می‌‌دهد. ماتریس 2 بعدی به شکل دودویی، به‌‌دلیل حفظ یکپارچگی در بازنمایی حروف اسید آمینه در عرض ماتریس، نسبت به حالت یک‌‌بعدی که حروف اسید آمینه بدون رعایت یکپارچگی به عدد نگاشت می‌‌شوند، بازنمایی مناسب‌‌تری دارند. علت مهم عدم موفقیت طبقه‌بندی در نگاشت توالی پروتئین به عدد ارایه یک بعدی، جایگزین کردن دادههای اسمی با داده‌های عددی می‌باشد، اختلاف این اعداد برای شبکه عصبی معنی دار خواهد بود و لایه های مختلف شبکه عصبی نمی‌توانند بازنمایی خوبی از این اعداد ایجاد نمایند و پارامترهای وزن لایه تمام متصل نیز برای پیش‌بینی کلاس درست، به خوبی آموزش نخواهد دید. از طرف دیگر بهدلیل یکسان بودن طول ماتریس با طول توالی، ساختار توالی در بازنمایی به‌صورت ماتریس دودویی حفظ می‌شود و وابستگیهای موجود بین حروف اسید آمینه که با ترتیب قرار گرفتن آنها در دنباله تعریف می شود نیز برقرار می‌ماند، این در حالی است که برخی از این وابستگیها، در روش‌های مخصوص توالی مبتنی بر ویژگی نادیده گرفته می‌شود زیرا که آنها بخشی از زیر مجموعه‌های توالی را به عنوان ویژگیها در نظر می‌گیرند. فیلنر گابور همانطور که در تصاویر، بهعنوان تشخیص لبه و بافت تعریف می‌شود. در تصویر دودویی بازنمایی شده از توالی، جهت تشخیص وابستگیهای مهم در بین حروف اسید آمینه اعمال شده است، لذا بازنمایی توالی به‌ صورت ماتریس دودویی در درجه اول، یکنواختی در تبدیل حروف اسید آمینه را با استفاده از اعداد دودویی برقرار می‌کند، و در درجه دوم، وابستگی بین حروف اسید آمینه توالی که در ترتیب این حروف تعریف می شود، را حفظ میکند. در نتیجه ماتریس دودویی به‌‌عنوان ورودی شبکه عصبی کانولوشنی، بازنمایی مناسبی از توالی پروتئین را ارائه می‌دهد. رویکرد ارائه شده یادگیری عمیق با اعمال فیلتر گابور به تصویر دودویی و معماری شبکه عصبی کانولوشنی شامل 11 لایه معرفی شد. لایه‌های کانولوشن در این معماری با اعمال فیلترهای مختلف برای پیچش⁵ کردن تصویر دودویی ورودی و همینطور برای نگاشت ویژگی⁶‌های میانی استفاده می‌شود. اتصال محلی فیلترها با تصویر دودویی ورودی ارتباط موجود در زیر دنباله توالی را یاد می‌گیرند و با نگاشت ویژگی که انجام می‌شود تعداد پارامترها تصویر دودویی ورودی بسیار کاهش می‌یابد. ابعاد 100x10 فیلتر با گام 1 در لایه اول کانولوشن به این دلیل انتخاب شده است که عرض تصویر دودویی ورودی برابر 20 و طول تصویر دودویی ورودی برابر 289 می‌باشد و بتواند وابستگی تقریبا نیمی از زیر دنباله را در توالی استخراج و نگاشت کند. لایه یکسوساز بعد از این لایه مقادیر منفی را صفر می‌کند، لایه ادغام نیز برای کاهش ابعاد و لایه کانولوشن دوم با 10 فیلتر 80x40 نیز طوری انتخاب شده است که تقریبا نیمی از ابعاد خروجی لایه قبل را پوشش دهد. لایه یکسوساز مجددا جهت صفر کردن اعداد منفی و 2 لایه تماما متصل جهت آموزش وزن‌ها برای نگاشت داده‌ها ابتدا به 100 عدد و سپس به 2 عدد تعریف شده است. لایه بیشینه هموار جهت تعیین احتمال پیش‌بینی هر کلاس و لایه طبقه‌بندی برای تعیین کلاس خروجی در نظر گرفته شده است.

13- نتیجه گیری

استفاده از ابزارهای کامپیوتری مکانیزه کننده، مخصوصا در یادگیری عمیق به منظور تسهیل آنالیزهای پزشکی و تشخیص، یک عرصه مهم و امید بخش می‌‌باشد. در این تحقیق نشان دادیم که چگونه یادگیری مشخصه با ناظر، می‌‌تواند برای داده توالی پروتئین اسید‌‌های آمینه، با استفاده از یادگیری عمیق مورد استفاده قرار گیرد. مزیت اصلی روش پیشنهادی نسبت به روش‌‌های قبلی طبقه‌بندی داده توالی اسیدهای آمینه پروتئین، انتخاب بازنمایی متناسب با نگاشت ژنوم با رویکرد یادگیری عمیق بود. به‌‌دلیل تفاوت در ابعاد تصاویر بازنمایی شده در سه روش پیشنهادی، از معماری‌‌های متفاوتی برای ایجاد شبکه عصبی کانولوشنی برای هر روش پیشنهادی استفاده شد. روش پیشنهادی موفق ما در این تحقیق، نگاشت توالی پروتئین اسیدهای آمینه به‌‌صورت تصاویر دودویی با ابعاد 289 X 20 و اعمال فیلتر گابور با زاویه 90 درجه روی تصاویر و همچنین طبقه‌‌بندی تصاویر با شبکه عصبی کانولوشنی با معماری پیشنهادی، ذکر شده در این مقاله می‌‌باشد. نتایج بدست آمده از تجزیه و تحلیل بر روی داده‌‌های توالی پروتئینی اسیدهای آمینه افراد سالم و افراد دارای سرطان خون ، نشان داد که روش پیشنهادی، جهت طبقه‌‌بندی افراد سالم و افراد دارای سرطان خون با وجود عدم توازن در تعداد نمونه داده‌های 2 کلاس به‌‌دلیل استفاده از رمزگذاری یکپارچه حروف اسید آمینه و عدم تغییر ساختار دنباله و همچنین اعمال فیلتر گابور با زاویه 90 درجه بسیار موفقیت آمیز صورت گرفته است و بنابراین نوید دهنده دستیابی کلی‌تر و جامع‌تری برای طبقه‌بندی داده توالی اسیدهای آمینه پروتئین خواهد بود.

مراجع

[1] A. Gupta, H. Wang, and M. Ganapathiraju, "Learning structure in gene expression data using deep architectures, with an application to gene clustering," 2015, pp. 1328-1335.

[2] Y. Liu, S. Zhou, and Q. Chen, "Discriminative deep belief networks for visual data classification," Pattern Recognition, vol. 44, pp. 2287-2296, 2011.

[3] J. Chen, R. Swofford, J. Johnson, B. B. Cummings, N. Rogel, K. Lindblad-Toh, et al., "A quantitative framework for characterizing the evolutionary history of mammalian gene expression," Genome research, vol. 29, pp. 53-63, 2019.

[4] T. Hardy, J. Feng, D. Lawrence, T. Fullston, and H. Scott, "Application of Artificial Intelligence To Analysis of The Embryonic Genome For Preimplantation Genetic Diagnosis," Pathology, vol. 51, p. S65, 2019.

[5] C. S. Boddy and S. Ma, "Frontline therapy of CLL: evolving treatment paradigm," Current hematologic malignancy reports, vol. 13, pp. 69-77, 2018.

[6] K. He, D. Ge, and M. He, "Big data analytics for genomic medicine," International journal of molecular sciences, vol. 18, p. 412, 2017.

[7] C. Angermueller, T. Pärnamaa, L. Parts, and O. Stegle, "Deep learning for computational biology," Molecular systems biology, vol. 12, p. 878, 2016.

[8] M. Leung, H. Xiong, L. Lee, and B. Frey, "Deep learning of the tissueregulated splicing code," Bioinformatics 30, pp. i121 – i129, 2014.

[9] H. Xiong, B. Alipanahi, L. Lee, H. Bretschneider, D. Merico, R. Yuen, et al., "The human splicing code reveals new insights into the genetic determinants of disease," Science 347, p. 1254806, 2015.

[10] J. Yosinski, J. Clune, Y. Bengio, and H. Lipson, "How transferable are features in deep neural networks?," Advances in Neural Information Processing Systems 27, pp. 3320-3328, 2014.

[11] B. Alipanahi, A. Delong, M. Weirauch, and B. Frey, "Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning," Nat Biotechnol 33, pp. 831 – 838, 2015.

[12] J. Zhou and O. Troyanskaya, "Predicting effects of noncoding variants with deep learning-based sequence model," Nat Methods 12, pp. 931 – 934, 2015.

[13] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson, "CNN features off-the-shelf: an astounding baseline for recognition," 2018, pp. 512-519.

[14] W. Sun, T.-L. B. Tseng, J. Zhang, and W. Qian, "Enhancing deep convolutional neural network scheme for breast cancer diagnosis with unlabeled data," Computerized Medical Imaging and Graphics, vol. 57, pp. 4-9, 2017.

[15] I. Guyon, J. Weston, S. Barnhill, and V. Vapnik, "Gene selection for cancer classification using support vector machines," Machine learning, vol. 46, pp. 389-422, 2002.

[16] M. D. Zeiler and R. Fergus, "Visualizing and understanding convolutional networks," in European conference on computer vision, 2014, pp. 818-833.

[17] M. Biswas, A. Tiwari, M. Turk, J. Laird, C. Asare, L. Saba, et al., "A Review on a Deep Learning Perspective in Brain Cancer Classification," Cancers, vol. 11, 2019.

[18] J. Schmidhuber, "Deep learning in neural networks: An overview," Neural networks, vol. 61, pp. 85-117, 2015.

[19] J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, et al., "Recent advances in convolutional neural networks," Pattern Recognition, vol. 77, pp. 354-377, 2018.

[20] M. A. Jafri, S. A. Ansari, M. H. Alqahtani, and J. W. Shay, "Roles of telomeres and telomerase in cancer, and advances in telomerase-targeted therapies," Genome medicine, vol. 8, p. 69, 2016. "

[21] X. Chu and K. L. Chan, "Rotation and scale invariant texture analysis with tunable Gabor filter banks," in Pacific-Rim Symposium on Image and Video Technology, 2009, pp. 83-93.

[22] R. C. González, R. E. Woods, and S. L. Eddins, Digital Image Processing Using MATLAB: Pearson, 2004.

[23] I. Guyon and A. Elisseeff, "An introduction to variable and feature selection," Journal of machine learning research, vol. 3, pp. 1157-1182, 2003.

[24] H. Liu and L. Yu, "Toward integrating feature selection algorithms for classification and clustering," IEEE Transactions on Knowledge & Data Engineering, pp. 491-502, 2005.

[1] Recall

[2] Precision

[3] Accuracy

[4] Classification Learner - MathWorks

[5] Convolve

[6] Feature mapping

Converting protein sequence to image for classification with convolutional neural network

Reza Ahsan, PhD Student of Information Technology 1, Mansour Ebrahimi, Associate Professor 2, Rouhollah Dianat, Assistant Professor 3

1- Faculty of Engineering, University of Qom, Qom, Iran, Email: ahsan@qom-iau.ac.ir

2- Faculty of Basic sciences, University of Qom, Qom, Iran, Iran, Email: mansour@future.edu

3- Faculty of Engineering, University of Qom, Qom, Iran, Email: rdianat@qom.ac.ir

Abstract

Since methods for sequencing machine learning sequences were not successful in classifying healthy and cancerous proteins, it is imperative to find a way to represent these sequences to classify healthy and ill individuals with deep learning approaches. In this study different methods of protein sequence representation for classification of protein sequence of healthy individuals and leukemia have been studied. Results showed that conversion of amino acid letters to one-dimensional feature vectors in classification of 2 classes was not successful and only one disease class was detected. By changing the feature vector to colored numbers, the accuracy of the healthy class recognition was slightly improved. The binary protein sequence representation method was more efficient than the previous methods with the initiative of sequencing the sequences in both one-dimensional and two-dimensional (image by Gabor filtering). Protein sequence representation as binary image was classified by applying Gabor filter with 100% accuracy of the protein sequence of healthy individuals and 98.6% protein sequence of those with leukemia. The findings of this study showed that the representation of protein sequence as binary image by applying Gabor filter can be used as a new effective method for representation of protein sequences for classification.

Keywords: Converting protein sequence to image, Gabor filter, Convolution Neural Network, Protein classification.

شارک

عنوان URL للمقالة

تبدیل توالی پروتئین به تصویر جهت طبقه¬بندی با شبکه عصبی کانولوشنی

رایمگ

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية