Converting protein sequence to image for classification with convolutional neural network
Subject Areas : Generalreza ahsan 1 , mansour ebrahimi 2 , dianat dianat 3
1 - عضو هیات علمی
2 -
3 -
Keywords: : Converting protein sequence to image, Gabor filter, Convolution Neural Network, Protein classification.,
Abstract :
Since methods for sequencing machine learning sequences were not successful in classifying healthy and cancerous proteins, it is imperative to find a way to represent these sequences to classify healthy and ill individuals with deep learning approaches. In this study different methods of protein sequence representation for classification of protein sequence of healthy individuals and leukemia have been studied. Results showed that conversion of amino acid letters to one-dimensional feature vectors in classification of 2 classes was not successful and only one disease class was detected. By changing the feature vector to colored numbers, the accuracy of the healthy class recognition was slightly improved. The binary protein sequence representation method was more efficient than the previous methods with the initiative of sequencing the sequences in both one-dimensional and two-dimensional (image by Gabor filtering). Protein sequence representation as binary image was classified by applying Gabor filter with 100% accuracy of the protein sequence of healthy individuals and 98.6% protein sequence of those with leukemia. The findings of this study showed that the representation of protein sequence as binary image by applying Gabor filter can be used as a new effective method for representation of protein sequences for classification
[1] A. Gupta, H. Wang, and M. Ganapathiraju, "Learning structure in gene expression data using deep architectures, with an application to gene clustering," 2015, pp. 1328-1335.
[2] Y. Liu, S. Zhou, and Q. Chen, "Discriminative deep belief networks for visual data classification," Pattern Recognition, vol. 44, pp. 2287-2296, 2011.
[3] J. Chen, R. Swofford, J. Johnson, B. B. Cummings, N. Rogel, K. Lindblad-Toh, et al., "A quantitative framework for characterizing the evolutionary history of mammalian gene expression," Genome research, vol. 29, pp. 53-63, 2019.
[4] T. Hardy, J. Feng, D. Lawrence, T. Fullston, and H. Scott, "Application of Artificial Intelligence To Analysis of The Embryonic Genome For Preimplantation Genetic Diagnosis," Pathology, vol. 51, p. S65, 2019.
[5] C. S. Boddy and S. Ma, "Frontline therapy of CLL: evolving treatment paradigm," Current hematologic malignancy reports, vol. 13, pp. 69-77, 2018.
[6] K. He, D. Ge, and M. He, "Big data analytics for genomic medicine," International journal of molecular sciences, vol. 18, p. 412, 2017.
[7] C. Angermueller, T. Pärnamaa, L. Parts, and O. Stegle, "Deep learning for computational biology," Molecular systems biology, vol. 12, p. 878, 2016.
[8] M. Leung, H. Xiong, L. Lee, and B. Frey, "Deep learning of the tissueregulated splicing code," Bioinformatics 30, pp. i121 – i129, 2014.
[9] H. Xiong, B. Alipanahi, L. Lee, H. Bretschneider, D. Merico, R. Yuen, et al., "The human splicing code reveals new insights into the genetic determinants of disease," Science 347, p. 1254806, 2015.
[10] J. Yosinski, J. Clune, Y. Bengio, and H. Lipson, "How transferable are features in deep neural networks?," Advances in Neural Information Processing Systems 27, pp. 3320-3328, 2014.
[11] B. Alipanahi, A. Delong, M. Weirauch, and B. Frey, "Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning," Nat Biotechnol 33, pp. 831 – 838, 2015.
[12] J. Zhou and O. Troyanskaya, "Predicting effects of noncoding variants with deep learning-based sequence model," Nat Methods 12, pp. 931 – 934, 2015.
[13] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson, "CNN features off-the-shelf: an astounding baseline for recognition," 2018, pp. 512-519.
[14] W. Sun, T.-L. B. Tseng, J. Zhang, and W. Qian, "Enhancing deep convolutional neural network scheme for breast cancer diagnosis with unlabeled data," Computerized Medical Imaging and Graphics, vol. 57, pp. 4-9, 2017.
[15] I. Guyon, J. Weston, S. Barnhill, and V. Vapnik, "Gene selection for cancer classification using support vector machines," Machine learning, vol. 46, pp. 389-422, 2002.
[16] M. D. Zeiler and R. Fergus, "Visualizing and understanding convolutional networks," in European conference on computer vision, 2014, pp. 818-833.
[17] M. Biswas, A. Tiwari, M. Turk, J. Laird, C. Asare, L. Saba, et al., "A Review on a Deep Learning Perspective in Brain Cancer Classification," Cancers, vol. 11, 2019.
[18] J. Schmidhuber, "Deep learning in neural networks: An overview," Neural networks, vol. 61, pp. 85-117, 2015.
[19] J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, et al., "Recent advances in convolutional neural networks," Pattern Recognition, vol. 77, pp. 354-377, 2018.
[20] M. A. Jafri, S. A. Ansari, M. H. Alqahtani, and J. W. Shay, "Roles of telomeres and telomerase in cancer, and advances in telomerase-targeted therapies," Genome medicine, vol. 8, p. 69, 2016. "
[21] X. Chu and K. L. Chan, "Rotation and scale invariant texture analysis with tunable Gabor filter banks," in Pacific-Rim Symposium on Image and Video Technology, 2009, pp. 83-93.
[22] R. C. González, R. E. Woods, and S. L. Eddins, Digital Image Processing Using MATLAB: Pearson, 2004.
[23] I. Guyon and A. Elisseeff, "An introduction to variable and feature selection," Journal of machine learning research, vol. 3, pp. 1157-1182, 2003.
[24] H. Liu and L. Yu, "Toward integrating feature selection algorithms for classification and clustering," IEEE Transactions on Knowledge & Data Engineering, pp. 491-502, 2005.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال دوازدهم، شمارههاي 43 و 44، بهار و تابستان 1399 صفحات: 155_168 |
|
تبدیل توالی پروتئین به تصویر جهت طبقهبندی با شبکه عصبی کانولوشنی
رضا احسن * منصور ابراهیمی ** روح الله دیانت *
* استادیار دانشکده فنی مهندسی - دانشگاه قم - قم – ایران
**دانشیار دانشکده علوم پایه - دانشگاه قم - قم - ایران
تاریخ دریافت: 14/11/1398 تاریخ پذیرش: 18/08/1399
نوع مقاله: پژوهشی
چکیده
از آنجا که روشهای مخصوص طبقهبندی توالی یادگیری ماشین، جهت طبقهبندی پروتئینهای سالم و سرطانی موفق نبودند بنابراین یافتن راهکاری برای بازنمایی این توالیها جهت طبقه بندی افراد سالم و مریض با رویکردهای یادگیری عمیق ضرورت تام دارد. در این مطالعه، روشهای مختلف بازنمایی توالی پروتئین، جهت طبقهبندی توالی پروتئین افراد سالم و سرطان خون، مورد بررسی قرار گرفته است. نتایج نشان داد که تبدیل حروف اسید آمینه به بردار ویژگی یکبعدی در طبقه بندی 2 کلاس موفق نبود و فقط یک کلاس مریض تشخیص داده شد. با تغییر بردار ویژگی بهصورت اعداد رنگی دقت تشخیص کلاس سالم کمی بهبود یافت. روش بازنمایی توالی پروتئینی بهصورت یکپارچه دودویی، با ابتکار حفظ دنباله توالی در دو حالت یکبعدی و دوبعدی(تصویر با اعمال فیلتر گابور)، نسبت به روشهای قبلی موثرتر بود. بازنمایی توالی پروتئین به شکل تصویر دودویی با اعمال فیلتر گابور با دقت 100% توالی پروتئین افراد سالم و 98.6% توالی پروتئین افراد دارای سرطان خون را طبقهبندی کرد. یافتههای این تحقیق نشان داد که بازنمایی توالی پروتئین به شکل تصویر دودویی با اعمال فیلتر گابور، میتواند بهعنوان روش موثر جدید دربازنمایی توالیهای پروتئینی جهت طبقهبندی، ارایه نماید.
واژگان کلیدی: تبدیل توالی پروتئین به تصویر، فیلتر گابور، شبکه عصبی کانولوشنی، طبقهبندی توالی پروتئین.
1- مقدمه
ساختار ژنومی و پروتئینی هر جاندار توسط یک سری از توالیهای خاص تکرارای درست شده است. چهار نوکلئوتید آدنین، گوانین، تیمین، و سیتوزین ساختار اصلی توالیهای ژنومی و بیست اسید آمینه ساختار توالی پروتئین را تشکیل میدهند. بهدلیل تکراری بودن این توالیها امکان استفاده از مدلهای مختلف داده کاوی در تحلیل ژنومی فراهم شده است[1]. در چند دهه اخیر، پیشرفت در زیستشناسی مولکولی و تجهیزات مورد نیاز تحقیق در این زمینه باعث افزایش سریع تعیین توالی ژنوم بسیاری از گونههای موجودات شد، بهطوریکه پروژههای تعیین توالی ژنومها از پروژههای بسیار رایج بهحساب میآیند. مطالعه وابستگی این پروفایلهای توالی پروتئینی و حالتهای بیماری یا مراحل سلولها نقش مهمی را در کاربردهای بالینی و بیولوژیکی بازی میکند [2][Abdel-Zaher, 2016 #107@@author-year][, #107@@hidden]. پروفایلهای توالی پروتئینی میتواند از چندین نمونه بافت بهدست آورده شود و در مقایسه ژنهای بیان شده در بافت نرمال با آن ژنهایی که در بافت بیمار است، فرد میتواند به بصیرت بهتری در طب آسیب شناسی بیماری برسد [3]. یکی از بیماریهای مهم در این زمینه سرطان میباشد.
سرطان در واقع یک بیماری ژنتیکی است که مشخصه آن جهش (تغییر در توالی ژنوم) در بخشی از DNA در یک یا چند گروه از سلولهای طبیعی میباشد که منجر به تقسیم نامحدود این سلولها میگردد [4]. سرطان خون یا لوسمی بیماری پیشرونده و بدخیم اعضای خونساز بدن است. این بیماری در اثر تکثیر و تکامل ناقص گویچههای سفید خون و پیشسازهای آن در خون و مغز استخوان ایجاد میشود. به این معنی که مغز استخوان بهصورت غیر عادی، مقدار بسیار زیادی سلول خونی تولید میکند که باعث توقف در تولید سلولهای سفید میشوند و توانایی فرد در مقابله با بیماریها از بین میرود. این سلولها که با سلولهای خون نرمال متفاوت هستند بر تولید سایر انواع سلولهای خونی که توسط مغز استخوان ساخته میشود مانند گویچههای قرمز خون که اکسیژن به بافتهای بدن میرسانند و پلاکتهای خونی که از لخته شدن جلوگیری میکنند، اثر میگذارند [5]. پیشرفتهای فن آوری در علم ژنتیک و تصویر برداری یک انفجاری در ایجاد حجم زیادی از نمونههای مولکولی و سلولی کرده است. تحلیل و بررسی این حجم زیاد از نمونههای مولکولی و سلولی با روشهای متعارف با توجه به ابعاد بالای دادههای بیولوژیکی چالش برانگیز است [6]. روشهای مدرن یادگیری ماشین، از قبیل یادگیری عمیق، نویدی برای قدرت نفوذ به ساختار مخفی بین مجموعه دادههای بسیار بزرگ و ساخت پیش بینیهای دقیق دارد. ارزش شبکه عصبی عمیق در این زمینه دو جنبه است. ابتدا، شیوههای قدیمی یادگیری ماشین نمیتواند مستقیما روی توالی اجرا شود، بنابراین نیازمند ویژگیهای از پیش تعریف شده دارد که میتواند بر اساس دانش قبلی استخراج شود مانند حضور یا عدم حضور متغیرهای تک نوکلئوتیدی1 ;تعداد دفعاتی که زیر توالی2 ظاهر شده; توالیهای تکراری کوتاه نوکلئوتیدی یا آمینواسیدی3; و دنبالههای حفظ شده که در نسلهای مختلف تغییر نکرده است4. شبکههای عصبی عمیق بهصورت خودکار نه دستی، الگوهای مشترک از دادهها را از طریق یادگیری ویژگی پیدا میکنند. بدین معنی که بازنمایی غنی شدهای از دادههای توالی ایجاد میکند تا بتواند وابستگیهای غیر خطی و اثرات متقابل آنها را در محدوده توالی گستردهتر در مقیاس ژنومی متعدد را نشان دهد و این بازنمایی در روند دستهبندی، بین دستهها یا کلاسهای مختلف از توالی، بهتر تمایز قائل میشود [7]. کاربرد مفید دیگر یادگیری عمیق موفقیت در پیدا کردن و وصل کردن بخشهای اطلاعاتی کدکننده ژن یعنی اگزونها میباشد5 [8, 9]; یادگیری عمیق در تشخیص ویژگیهای پروتئینهای متصلشونده به ِDNA و RNA [10]; در تشخیص ویژگیهای علائم اپی ژنتیک که مطالعه بر روی تاثیرات محیط برای باز شدن رشتههای DNA یا RNA پیچ خورده برای بیان شدن را دارند[11] ;و همچنین به منظور مطالعه کشف اثرات تغییر رشتههای DNA [12]، موفقیت آمیز عمل کرده است. یکی از بهترین و دقیقترین روشهای یادگیری عمیق در این زمینه، شبکه عصبی کانولوشنی است، در شبکه عصبی کانولوشنی استخراج ویژگی بهصورت سلسله مرتبی انجام میشود [13].
2- ادبیات تحقیق
سالهای اخیر انفجاري در پیشرفت تکنیکهایی با تکنولوژي بالا براي دستیابی و نشان دادن جنبههاي مختلف فعالیت ژن به وجود آمده است. اکنون با استفاده از این تکنولوژيهاي جدید، شناسایی ارتباطات جدید بین ژنها را با قدرت تفکیک پذیري بالاتر نسبت به گذشته ممکن ساخته است. براي مثال خیلی زود این امکان وجود خواهد داشت که نقشه کل مجموعه کنش متقابل پروتئین براي هر ارگانیسم نیز مشخص شود. دسترسی این مجموعه داده وسیع ژنوم یک فرصت بی نظیر براي کشف ویژگیهاي سلولی جدید از منظر سیستمی میدهد و توانایی دانشمندان را در پیشبینی صحیح عملکرد ژن در حجمهاي وسیع افزایش میدهد [14]. شماری از تکنیکهای طبقهبندی یادگیری ماشین جهت طبقهبندی بافت به دو نوع سرطانی و نرمال استفاده شده است. بعلاوه تعداد زیاد ویژگی در مقابل تعداد کم نمونههای آموزشی، حل این مساله را خیلی سختتر میکند [15]. در گذشته، راهحلهای زیادی جهت مساله طبقهبندی سرطان پیشنهاد شده است. در این روشها، بیشتر از کاهش فضای مشخصه با انتخاب و یا استخراج ویژگی استفاده شده است. اگرچه این منجر به مشکلاتی با آن روشهایی میشود که اکثرا مقیاس پذیر نیستند و نمیتوانند به انواع جدید سرطان بدون باز طراحی مشخصات جدید تعمیم داده شوند. بعلاوه این تکنیکها نمیتوانند راهحل موثری از نمونههای بافت از دیگر سرطانها اتخاذ کنند [16]. یادگیری عمیق در حال حاضر با تحلیل ژنهای بیمار برای کمک به تشخیص بیماریها مورد استفاده است. این تکنیک میتواند سلولهای سرطانی را تشخیص دهد که دانشمندان موفق به مشاهده آنها نشدهاند همچنین میتواند به محققان در درک بهتر جهشهای عامل سرطان و توسعه درمانهای جدید برای آنها کمک کند [17]. یادگیری عمیق از زیر شاخههای یادگیری ماشین است. این روش ویژگی را بهصورت سلسله مراتبی از لایههای مختلف از طریق توابع غیر خطی استخراج میکند ورودی هر لایه خروجی لایه قبلی است و آموزش آن میتواند بهصورت با ناظر یا بدون ناظر باشد.در واقع تک لایه مخفی در شبکه عصبی با تعدادی زیادی(عمیق) لایه جایگزین شده است [18]. شبکههای عصبی کانولوشنی یکی از مهمترین روشهای یادگیری عمیق هستند که در آنها چندین لایه با روشی قدرتمند آموزش میبینند. این روش بسیار کارآمد بوده و یکی از رایجترین روشها در کاربردهای مختلف بینایی کامپیوتر است [19]. پروتئینها مىتوانند فعال كننده يا مهار كننده بيمارى باشند علاوه بر نقش خود به عنوان يك عامل تمايز، سركوبگر تومور نيز مىباشند. در حـدود 90% از سـلولهای سرطانـی دارای فعالیـت بـالای ترکیبـات نوکلئوپروتئینـی میباشـند کـه سـبب میشـود سـلولها رشـد غیرعادی داشته باشـند [20]. بنابراین بررسی فعالیـت توالی پروتئینی سـلولهای سرطانـی، میتوانـد به عنـوان ابـزاری برای تشـخیص و طبقهبندی بیماری سرطان مورد استفاده قرار گیرد. در ارتباط با این مساله و جهت تسهیل و توسعه نسخههای تعمیم یافتهتر دسته کنندههای سرطان، در این تحقیق، ما راه کلیتری از یادگیری مشخصهها به وسیله کاربرد یادگیری مشخصه با ناظر و روشهای یادگیری عمیق ، در واقع شبکه کانولوشنی را پیشنهاد میدهیم. در روش پیشنهادی از دادههای توالی پروتئینی بیماران مبتلا به سرطان خون و انسان سالم، استفاده شده است. در این مقاله ما در رابطه با نوع جدیدی از برنامههای کاربردی در آنالیز دستاوردهایی از بازنمایی توالی پروتئین به تصویر را بحث میکنیم. هدف اصلی این مطالعه استفاده از قابلیتهای شبکه عصبی کانولوشنی جهت طبقهبندی تصاویر بازنمایی شده از توالی پروتئین میباشد. ما ابتدا نوآوری در این تحقیق یعنی تبدیل توالی پروتئین به تصویر را ارائه میدهیم برای این منظور روشهای مختلف در تبدیل توالی پروتئین به تصاویر را پیشنهاد میدهیم. سپس با اعمال فیلتر گایوربا زاویه و طول موج مختلف به تصویر دودویی، دقت طبقهبندی معماری پیشنهاد شده شبکه عصبی کانولوشنی را بررسی کرده و تعیین میکنیم با چه تنظیماتی میتوانیم در بینش بیولوژیکی با تبدیل توالی پروتئین به تصویر باینری از آن استفاده نماییم. ما همچنین زمان آموزش برای رسیدن به دقت کل 100% جهت طبقهبندی توالیهای پروتئین سالم و سرطان خون بازنمایی شده با تصویر دودویی را با اعمال حالتهای مختلف زوایا و طول موج فیلتر گابور و چگونگی بهترین استفاده از این تکنولوژی جدید را مورد بحث قرار میدهیم.
3- شبکه عصبی کانولوشنی
شبکه عصبی کانولوشنی ردهای از یادگیری عمیق هستند که معمولا برای تحلیل تصاویر در یادگیریماشین استفاده میشوند. ساختار شبکه کانولوشنی از فرایندهای زیستی قشر بینایی گربه الهام گرفته شده است. این ساختار بهگونهای استکه تک نورونها، تنها در یک ناحیه محدود به تحریک پاسخ میدهند که به آن ناحیه ادراکی گفته میشود. نواحی ادراکی نورونهای مختلف، بهصورت جزئی باهم همپوشانی دارند به گونهای که کل میدان دید را پوشش میدهند. یک شبکه عصبی کانولوشنی از سه لایه اصلی تشکیل میشود که عبارتند از : لایه کانولوشنی6، لایه ادغام7 و لایه تماما متصل8. لایه های مختلف وظایف مختلفی را انجام میدهد. در هر شبکه عصبی کانولوشنی دو مرحله برای آموزش وجود دارد. مرحله پیشرو 9و مرحله پس انتشار10. در مرحله اول تصویر ورودی به لایه کانولوشن شبکه تغذیه میشود و این عمل چیزی جز ضرب نقطه ای بین ماتریس تصویر ورودی و ماتریس فیلتر در هر لایه کانولوشن نیست. خروجی لایه های کانولوشن نشاندهنده ویژگیهای سطح بالا در دادهها است، به عبارت ساده هدف لایههای کانولوشن در پردازش عکس ساختن ویژگیها از داده های خام میباشد، آنها به دنبال اشیا و دنبالههای با معنی موجود در عکس میگردند اما هیچ تصمیم گیری در مورد طبقهبندی انجام نمیدهند. فلت کردن این ویژگیها در انتهای شبکه و اتصال آنها به دو لایه تماما متصل معمولا یک روش ارزان «از لحاظ بار محاسباتی» برای یادگیری ترکیبات غیرخطی این ویژگیها است. ابعاد ماتریس وزن، برای تولید تعداد نرونهای لازم در لایه تمام متصل برابر است با حاصلضرب تعداد این نرونها در تعداد نرونهای لایه قبلی آنها . یکسوساز 11، جهت صفر کردن مقادیر منفی ماتریس بدست آمده، استفاده می شود. لایه ادغام معمولا بعد از لایه کانولوشن قرار می گیرد و اندازه داده را کوچک می کنند. در ترکیب نورونها، مکانیزمهای مختلفی وجود دارد که معروفترین آنها ادغام ماکسیمم12 است. در این مکانیزم پنجره هایی بر روی ماتریس بدستآمده مرحله قبل اعمال شده و با گام مشخصی حرکت میکند و وظیفه آن قرار دادن ماکسیمم اعداد موجود در پنجره بهجای اعداد می باشد. لایه بیشینه هموار13 خروجی لایه تماما متصل14 را به توزیع احتمال کلاسها تبدیل میکند. سپس خروجی شبکه محاسبه میشود. به منظور تنظیم پارامترهای شبکه (مقادیر فیلترهای لایه کانولوشن و ماتریسهای وزن لایه های تماما متصل)، در مرحله اول با استفاده از یک تابع خطا 15، خروجی شبکه را با پاسخ صحیح مقایسه کرده و خطا محاسبه میشود. در مرحله بعدی بر اساس میزان خطای محاسبه شده مرحله پسانتشارخطا آغاز میشود. در این مرحله گرادیانت هر پارامتر، با توجه به قاعده زنجیرهای16محاسبه میشود و تمامی پارامترها با توجه به تاثیری که بر خطای ایجادشده در شبکه دارند تغییر پیدا میکنند. بعد از بروز شدن پارامترها، مرحله بعدی پیشرو شروع میشود. با تکرار تعداد مناسبی از این مراحل، آموزش شبکه پایان مییابد.
4- فیلتر گابور
در كاربردهاي مختلف بينايي كامپيوتر از قبيل آناليز بافت و آشكارسازي لبه، توابع گابور بطور وسيعي استفاده شدهاند . فيلتر گابور يك فيلتر خطي و محلي است. هسته كانولوشن فيلتر گابور حاصلضرب يك تابع نمايي مختلط و گوسين است ]21[. مجموعه فیلترهای گابور از طریق رابطه (1) بدست آورده میشوند.
(1)
در رابطه (1) طول موج فرکانس سینوسی، زاویه چرخش فيلترهاي گابور برای تعیین جهت نوارهای موازی تابع گابور ، جابهجایی فاز برای تعیین تقارن تابع گابور، انحراف استاندارد پوشش تابع گاوسی، نسبت ابعاد فضایی و بیضوی، درصورتي كه بهطور مناسب و دقيق تنظيم شوند، عملكرد بسيار مناسبي در تشخيص ويژگيهاي بافت و لبه بافت دارند ]22[. ويژگي ديگر فيلترهاي گابور درجه تفكيك مشترك بالاي آنها است. اين بدان معني است كه پاسخ آنها هم در حوزه مكان و هم در حوزه فركانس كاملا محلي و قابل تنظيم كردن است.
در این مقاله زوایای مختلف چرخش فیلتر گابور با 2 طول موج فرکانس سینوسی جهت استخراج ویژگیهای مهمتر مورد مقایسه قرار میگیرند.
5- روشهای طبقهبندی توالی
سه روش متداول جهت طبقهبندی توالی وجود دارد. روش اول، طبقهبندی مبتنی بر ویژگی است. کل تعداد ویژگیهای یک توالی پروتئین به طول n ، شامل همه زیرمجموعههای ممکن برای مکان آمینواسیدها، بهصورت رابطه 2 تعریف میشود.
(2)
در رابطه 2، n تعداد ویژگیهای اولیه است. و k نیز زیر مجموعه انتخاب شده است. نشان داده شده است که پیدا کردن زیر مجموعه بهینه، یک مسئله NP-hard است [23, 24]. بهعنوان روشهای مبتنی بر ویژگی، در مرحله اول موقعیت حروف اسید آمینه به عنوان ویژگی تعریف شدند. در مرحله دوم، در حین حفظ یکپارچگی، حروف اسید آمینه توالی پروتئین به بردار دودویی تبدیل میشود؛ در این روش بازنمایی، بهدلیل اینکه دنباله توالیها باید حفظ شود، برای تک تک حروف اسید آمینه، در طول توالی پروتئین، اگر حرف مورد نظر ظاهر شود، مقدار 1 و در غیر اینصورت مقدار 0 جایگزین میشود. جدول 1 بازنمایی توالی پروتئین به شکل بردار دودویی را نشان میدهد.
[1] SNVs
[2] K-mer
[3] Motif
[4] conservation
[5] splicing
[6] Convolution
[7] Pooling
[8] Full Connected
[9] Feed-Forward
[10] Back Propagation
[11] RELU
[12] Max pooling
[13] Softmax
[14] fully connected
[15] loss function
[16] chain rule
جدول 1: نگاشت توالی پروتئین به بردار دودویی
|
روش دوم، طبقهبندی مبتنی بر فاصله است که شباهت بین توالیها را بررسی میکند. بهدلیل تفاوت در طول توالیهای انتخاب شده در مجموعه دادهها این روش مورد بررسی قرار نگرفت. روش سوم، طبقه مبتنی بر مدل است. در این مقاله، با نوشتن برنامه متلب از شبکه عصبی کانولوشنی در روشهای پیشنهادی بازنمایی نگاشت توالی پروتئین، جهت طبقه بندی توالی مبتنی بر مدل استفاده شد.
6- روشهای پیشنهادی بازنمایی نگاشت توالی پروتئین جهت طبقهبندی مبتنی بر مدل
در این بخش جهت ایجاد قالب ورودی معماری شبکه عصبی کانولوشنی طراحی شده در نرمافزار متلب، روشهای پیشنهادی بازنمایی نگاشت توالی پروتئین به عدد ارائه میشود. برای ایجاد قالب ورودی طبقهبندی مبتنی بر مدل، در روش اول از با زنمایی توالی پروتئین به شکل آرایه یکبعدی از مقادیر عدد صحیح استفاده میشود. در این روش بازنمایی، حروف توالی اسید آمینه پروتئین، با استفاده از دستور aa2int نرمافزار متلب، به عدد صحیح مطابق جدول 2 تبدیل میشوند. در نتیجه قالب ورودی شبکه عصبی کانولوشنی در این روش، یک بردار شامل 289 عدد صحیح میباشد. برای ایجاد قالب ورودی طبقهبندی مبتنی بر مدل، در روش دوم از بازنمایی توالی پروتئین به شکل تصویر در قالبهای بردار رنگی، تصویر رنگی مربعی، تصویر باینری و همچنین از تصویر باینری با اعمال فیلتر گابور به عنوان روش پیشنهادی، استفاده میشود.
جدول 2: نگاشت توالی پروتئین به عدد صحیح با تبدیل آمینو اسید به عدد صحیح با تابع aa2int متلب
|
در بازنمایی توالی پروتئین به شکل تصویر در ابتدا به ازای هر آمینو اسید، یک رشته بیتی شامل نوزده عدد 0 و یک عدد 1 ایجاد میشود. کد عدد صحیح آمینو اسید، محل قرار گرفتن 1 را در رشته بیتی مطابق با شکل 1 مشخص مینماید. به عنوان مثال رشته بیتی "00000000000000000010"، کد R با عدد صحیح 2 را نشان میدهد.
شکل 1: نگاشت اسید آمینه به رشته بیتی |
در قالب بردار رنگی، بهازای هر رشته بیتی یک کد رنگ RGB تولید میشود برای اینکار از تبدیل کد باینری رشته بیتی به دسیمال مطابق شکل 2 استفاده شده است. در نتیجه بهازای هر حرف توالی پروتئین یک کد RGB تولید میشود. در این روش قالب ورودی یک بردار 289 X 1 خواهد شد.
شکل 2: مراحل بازنمایی توالی پروتئین به 289 x1 کد RGB |
در قالب تصویر رنگی مربعی هر 17 کد RGB در یک سطر قرار میگیرد، شکل 3 قالب ورودی بهصورت تصویر رنگی 17 X 17 را نشان میدهد. سطر اول تصویر رنگی، بازنمایی 17 حرف اول دنباله توالی پروتئین و سطر دوم نیز، 17 حرف دوم، و سطرهای بعدی هم به همین ترتیب نگاشت میشوند.
شکل 3: مراحل بازنمایی توالی پروتئین به تصویر رنگی 17 X17 |
برای ایجاد تصویر باینری 289 X 20 بر اساس رشته بیتی توالی پروتئین، در هر ستون تنها یک پیکسل سفید قرار میگیرد. مکان این پیکسل با توجه به مکان عدد یک در رشته بیتی مشخص میشود. مطابق با شکل 4، هر حرف از توالی پروتئین، یک ستون از تصویر باینری را نشان میدهد.با توجه به اینکه طول تصویر باینری ایجاد شده با طول دنباله توالی یکسان میشود در نتیجه مفهوم دنباله در توالی حفظ میشود. عرض تصویر برابر 20 یعنی تعداد اسید آمینه انتخاب شدهاست، لذا در هر ستون تنها یک پیکسل سفید وجود خواهد داشت که باعث میشود در این قالب ورودی، اسیدهای آمینه به صورت یکنواخت بازنمایی شوند. قالب پیشنهادی ورودی شبکه عصبی کانولوشنی در این مقاله جهت استخراج ویژگیهای مهمتر، با اعمال فیلتر گابور در تصویر باینری، جهت بازنمایی توالی پروتئین مطابق با شکل 4 معرفی میشود.
شکل 4: تبدیل توالی پروتئین به تصویرباینری با ابعاد 289 x20 . |
7- جامعه آماری
در این پژوهش، 2143 توالی اسید آمینه پروتئین از سایت مرکز ملی اطلاعات زیست فناوری معروف به NCBI که یکی از مراکز و شاخههای کتابخانه ملی پزشکی ایالات متحده آمریکا است و خود زیر مجموعه موسسه علمی سلامت NIH است، جمع آوری شده است. با توجه به اینکه طول توالیها متفاوت بودند، در مرحله انتخاب دادهها، 460 توالی پروتئین با طول بین 235 و 289 انتخاب شد.
8- نمونه آماری
نمونه آماري شامل 2 کلاس توالی پروتئینی است که عبارتند از:
سالم1: این کلاس شامل 59 توالی پروتئینی که سرطان خون ندارند، میباشد.
سرطان خون2 : این کلاس شامل 401 توالی پروتئینی، از افرادی است که دچار بیماری سرطان خون می باشند.
9- 6 مجموعه داده برای مدلهای پیشبینی
مجموعه دادهها در این تحقیق به 6 روش مختلف بازنمایی شدهاند. شکل 6 فلوچارت روشهای طبقهبندی این مجموعه دادهها را نشان میدهد.
مجموعه داده اول شامل دادههای اسمی، جهت طبقه بندی مدلهای مبتنی بر ویژگی ایجاد شد، در این مجموعه داده موقعیت حروف اسیدآمینه به عنوان ویژگی تعریف شد، تعداد 289 ویژگی برای هر توالی در نظر گرفته شد. در مجموعه داده دوم در حین حفظ یکپارچگی، حروف اسید آمینه توالی پروتئین به بردار دودویی تبدیل میشوند؛ در این روش بازنمایی، بهدلیل اینکه دنباله توالیها باید حفظ شود، برای تک تک حروف اسید آمینه، در طول توالی پروتئین، اگر حرف مورد نظر ظاهر شود، مقدار 1 و در غیراینصورت مقدار 0 جایگزین میشود. تعداد کل ویژگیها در این روش 289*20 برابر با 5780 خواهد شد. این مجموعه داده نیز جهت طبقه بندی مدلهای مبتنی بر ویژگی ایجاد شد، روشهای طبقهبندی مبتنی بر ویژگی در این 2 مجموعه داده شامل درختان تصمیم، ماشین بردار پشتیبان، و روشهای گروهی میباشد. مجموعه داده سوم، برداری از اعداد صحیح است، برای هر توالی به طول 289، برداری شامل 289 عدد صحیح بهعنوان ویژگی، مطابق با اعداد صحیح جدول 1 تعریف شد، شبکه عصبی کانولوشنی با معماری معرفی شده در شکل 5 جهت طبقه بندی مبتنی بر مدل برای این مجموعه داده انتخاب شد. در معماری این شبکه عصبی کانولوشنی از 11 لایه پس از لایه ورودی برای طبقهبندی استفاده شده است. لایه اول از لایه کانولوشن با 30 فیلتر با ابعاد 3X1، لایه دوم از یکسوساز جهت صفر کردن اعداد منفی خروجی لایه قبل، لایه سوم لایه کانولوشن با 60 فیلتر 2X1 و لایه چهارم نیز لایه یکسوساز، لایه پنجم لایه ادغام با ناحیه ادراکی 2X1 با عملگر حداکثر با گام 2، لایه ششم لایه کانولوشن با 80 فیلتر3X1، لایه هفتم لایه یکسوساز، لایه هشتم و نهم تماما متصل بهترتیب با 33 و 2 نورون، لایه دهم لایه بیشینه هموار و لایه یازدهم، لایه طبقهبندی3 تعریف شده است.
شکل 5: معماری شبکه عصبی کانولوشن با ورودی عدد آرایه یکبعدی .
|
مجموعه داده چهارم با بردار کد رنگ ایجاد شد، در این مجموعه داده بهازای هر توالی 289 کد رنگ به عنوان ویژگی در نظر گرفته شد. برای این مجموعه داده نیز جهت طبقه بندی مبتنی بر مدل از شبکه عصبی کانولوشنی با معماری شکل 5 استفاده شد.
[1] Normal
[2] Leukemia
[3] classification
شکل 6: روشهای طبقهبندی در 6 مجموعه داده |
در مجموعه داده پنجم، برای هر توالی تصویر رنگی 17X17 تعریف شد. در این روش 2 مدل معماری شبکه عصبی عمیق پیشنهاد داده شد. مطابق با شکل 7 در مدل اول از شبکه عصبی کانولوشنی با 11 لایه پس از لایه ورودی برای طبقهبندی تصاویر رنگی مربعی بازنمایی شده از توالیهای پروتئین استفاده شد. لایه اول از لایه کانولوشنی با 20 فیلتر با ابعاد 5 X 5، لایه دوم از یکسوساز جهت صفر کردن اعداد منفی خروجی لایه قبل، لایه سوم لایه کانولوشنی با 60 فیلتر 4 X 4 و لایه چهارم نیز لایه یکسوساز، لایه پنجم لایه ادغام با ناحیه ادراکی 2 X 2 با عملگر ماکسیمم، لایه ششم لایه کانولوشنی با 80 فیلتر 3 X 3، لایه هفتم لایه یکسوساز، لایه هشتم و نهم تماما متصل به ترتیب با 20 و 2 نورون، لایه دهم، لایه بیشینه هموار و لایه یازدهم، لایه طبقهبندی تعریف شده است.
شکل 7: مدل اول شبکه عصبی کانولوشن جهت طبقهبندی تصویر رنگی 17X17 |
مطابق با شکل 8 در مدل دوم، از 10 لایه پس از لایه ورودی جهت طبقهبندی تصاویر رنگی مربعی بازنمایی شده از توالیهای پروتئین استفاده شد. در لایه اول، از 30 فیلتر کانولوشن با ابعاد 3 X 3، لایه دوم از لایه ادغام جهت کاهش ابعاد با ناحیه ارداکی 2 X 2، لایه سوم شامل 60 فیلتر کانولوشن با ابعاد 2 X 2، لایه چهارم مانند لایه دوم، لایه پنجم شامل80 فیلتر کانولوشن با ابعاد 3 X 3، لایه ششم نیز شبیه لایه چهارم و دوم از لایه ادغام با ناحیه ادراکی 2 X 2، لایه هفتم و هشتم لایه های تماما متصل به ترتیب با 33 و 2 نرون، لایه نهم، لایه بیشینه هموار و لایه دهم، لایه طبقهبندی تعریف شده است.
شکل 8: مدل دوم شبکه عصبی کانولوشن در روش اول پیشنهادی |
مطابق با شکل 9 در روش پیشنهادی سوم از 10 لایه شبکه عصبی کانولوشنی برای طبقهبندی خروجی فیلتر گابور تصاویر دودویی 289 X 20 استفاده میشود. لایه اول شامل 10 فیلتر کانولوشن با ابعاد 100 X 10، لایه دوم: لایه یکسوساز، لایه سوم: لایه ادغام با ناحیه ادراکی 50 X 5، لایه چهارم شامل 10 فیلتر کانولوشن با ابعاد 80 X 4، لایه پنجم: لایه یکسوساز، لایه ششم: لایه تماما متصل با 100 نورون، لایه هفتم: لایه یکسوساز، لایه هشتم: لایه تماما متصل با 2 نورون، لایه نهم: لایه بیشینه هموار، لایه دهم: لایه طبقهبندی در نظر گرفته شده است.
شکل 9: معماری شبکه کانولوشن در روش پیشنهادی تبدیل توالی پروتئین به تصاویر دودویی |
10- ارزیابی مدلهای پیشنهادی طبقهبندی توالی پروتئین سالم و مریض(سرطانی)
با توجه به عدم توازن تعداد نمونههای هر دو کلاس، جهت ارزیابی دقت، از روش 2-fold-Cross-Validation (در مرحله اول 50 درصد اول دادهها در هر کلاس به عنوان دادههای آموزشی و 50 درصد دوم نیز به عنوان دادههای تست و در مرحله دوم 50 درصد اول تست و 50 درصد دوم آموزشی در نظر گرفته میشوند) جهت مقایسه عملکرد مدلهای مخصوص طبقهبندی توالی با مدلهای طبقهبندی مبتنی با تصویر استفاده شده است. در این ارزیابی از حساسیت1 (تقسیم تعداد درست تشخیص داده شده یک کلاس بر تعداد واقعی همان کلاس) و دقت2 (تقسیم تعداد درست تشخیص داده شده یک کلاس بر تعداد پیشبینی همان کلاس) و دقتکل3 (تقسیم تعداد درست تشخیص داده شده 2 کلاس بر تعداد کل نمونههای تست) استفاده شده است.
11- یافتهها
روشهای طبقهبندی یادگیرنده نرمافزار متلب4 شامل 3 روش درخت تصمیم(Fine Tree, Medium Tree, Coarse Tree)، و 7 روش ماشین بردار پشتیبان (Logistic Regression, Linear SVM, Quadratic SVM, Cubic SVM, Fine Gaussian SVM, Medium Gaussian SVM, ) و 3 روش گروهی (Ensemble Boosted Trees, Ensemble Bagged Trees, Ensemble RUS Boosted Trees) جهت طبقهبندی 2 کلاس نامتوازن سالم و مریض در 2 مجموعه داده مبتنی بر ویژگی معرفی شده در شکل 5 مورد استفاده قرار گرفتند. جدول 3، ارزیابی روشهای طبقهبندی یادگیرنده نرمافزار متلب با داده اسمی در مجموعه داده مبتنی بر ویژگی را نشان میدهد. در این مجموعه داده، روش طبقهبندی Ensemble Bagged Trees بیشترین دقت کل را در طبقهبندی 2 کلاس ارائه داد. جدول 4 نیز ارزیابی روشهای طبقهبندی یادگیرنده نرمافزار متلب با داده بردار دودویی در مجموعه داده مبتنی بر ویژگی را نشان میدهد. در این مجموعه داده، روشهای طبقهبندی Quadratic SVM و Cubic SVM با دقت 92.0% بیشترین دقت کل را در طبقهبندی 2 کلاس ارائه دادند. همچنین در مقایسه جدول 3 با 4 مشاهده شد در بیشتر روشهای طبقهبندی یادگیرنده نرمافزار متلب در روشهای مبتنی بر ویژگی، ورودی توالی بهصورت بردار دودویی نتایج بهتری نسبت به ورودی دادههای اسمی ارائه میدهند. علت افزایش دقت به 2 دلیل میباشد. اول اینکه در روش بازنمایی با برداردودویی، دنباله توالی پروتئین بهصورت یکپارچه کد شدهاند، دوم اینکه پیوستگی در زیر دنباله در این روش بازنمایی حفظ شده است. جدول 5 ارزیابی روشهای طبقه مبتنی بر مدل را نشان میدهد. شبکه عصبی کانولوشنی مجموعه داده بردار عددی یکبعدی کلاس 1 را تشخیص نداد. ارزیابی طبقهبندی شبکه عصبی کانولوشنی با ورودی بهصورت بردار کد رنگ نسبتبه بردار عددی بهتر شد. در هر 2 روش بردار عدد صحیح و بردار کد رنگ بهدلیل بازنمایی غیر یکپارچه حروف توالی، ارزیابی مناسبی نداشتند. شبکه عصبی کانولوشنی بر روی تصاویر رنگی مربعی در قالب (17 X 17)، در دو معماری مختلف جهت آموزش شبکه ارائه شد. هر یک از معماریها با مقادیر و لایههای مختلف، مورد بررسی و تحلیل قرار گرفته شد. در این بررسی مشاهده شد که بهدلیل قطعه قطعه شدن دنباله برای ایجاد تصویر مربعی در 2 مدل شبکه عصبی کانولوشنی، و همچنین با توجه به یکپارچه نبودن بازنمایی اسیدهای آمینه به مقادیر رنگی بهدلیل تفاوت بسیار زیاد اعداد رنگی ایجاد شده از اسیدهای آمینه، دقت و حساسیت کلاس 1 کمتر از 50% شد. اما در روش پیشنهادی با تعریف قالب ورودی به شکل تصاویر (289 X 20( دودویی و اعمال فیلتر گابور، دقت و حساسیت هر 2 کلاس بیشتر از 90% شد. جهت رسیدن به دقت کل بالاتر و تعیین تعداد دفعات لازم برای آموزش دادههای آموزشی شبکه عصبی، 4 زاویه (0 و 45 و 90 و 135) و 2 طول موج (5 و 10) برای اعمال فیلتر گابور در نظر گرفته شد. نتایج جدول 6 نشان میدهد که زاویه 90 درجه از دو جنبه تعداد دفعات لازم برای آموزش دادههای آموزشی شبکه عصبی و دقت کل دادههای تست، با توجه به روش بازنمایی تصویر باینری و نگاشت حروف اسیدآمینه بهصورت یکنواخت دودویی در عرض تصویر، مناسبتر است. همانطور که مشاهده میشود کمترین دقت و حسایت در تشخیص کلاس سالم، مربوط به روشهای مبتنی بر ویژگی، با ورودی دادههای اسمی توالی پروتئین در مدل Logistic regression و Ensemble Boosted Trees و با ورودی بردار دودویی توالی پروتئین در مدل Coarse Gaussian SVM و Ensemble Boosted Trees همچنین در مدلهای مبتنی بر مدل با ویژگیها بهصورت بردار عددی یکبعدی در شبکه عصبی کانولوشنی با میانگین 0% و بیشترین دقت و حساسیت در ورودی تصاویر دودویی با ابعاد 289 X 20 و اعمال فیلتر گابور با زاویه 90 درجه در روش پیشنهادی با میانگین 95.4% را نشان دادند. در تشخیص کلاس مریض (سرطانی) کمترین دقت و حساسیت در مدل Logistic regression در روشمبتنی بر ویژگی در ورودی بردار دودویی با میانگین 89% و بیشترین دقت و حساسیت با میانگین 99.3% با ورودی تصویر دودویی با ابعاد 289 X 20 و اعمال فیلتر گابور با زاویه 90 درجه در روش پیشنهادی مشاهده شد. پایینترین و بالاترین دقت کل در مجموع تشخیص هر 2 کلاس نیز بهترتیب در مدل Logistic regression در روشمبتنی بر ویژگی در ورودی بردار دودویی با دقت کل 81.3% و در روش سوم پیشنهادی با ورودی تصویر دودویی با ابعاد 289 X 20 و اعمال فیلتر گابور (طول موج 10 و زاویه 90 درجه) با دقت کل 98.8% بدست آمد.
جدول 3: حساسیت و دقت ارزیابی 2Fold-Cross-Validation روشهای طبقهبندی یادگیرنده نرمافزار متلب با ورودی دادههای اسمی توالی پروتئین مبتنی بر ویژگی
|
جدول 4: حساسیت و دقت ارزیابی 2Fold-Cross-Validation روشهای طبقهبندی یادگیرنده نرمافزار متلب با ورودی روش ابتکاری بازنمایی یکپارچه دودویی توالی پروتئین مبتنی بر ویژگی
|
جدول 5: مقایسه حساسیت و دقت ارزیابی 2Fold-Cross-Validation روشهای بازنمایی توالی پروتئین مبتنی بر مدل
|
جدول 6: مقایسه حساسیت و دقت ارزیابی 2Fold-Cross-Validation و تعداد آموزش روشهای اعمال فیلتر گابور در تصویر دودویی
|
12- بحث
روشهای طبقه بندی مخصوص توالی مبتنی بر ویژگی، بهدلیل در نظر نگرفتن ارتباط بین زیر مجموعههای توالی بهعنوان ویژگی، که بر اساس موقعیت زیر مجموعه در توالی معنی پیدا میکنند، و همچنین روشهای طبقه بندی مخصوص توالی مبتنی بر فاصله، بهدلیل تفاوت در طول توالی پروتئین، و در نهایت روشهای طبقه بندی مخصوص توالی مبتنی بر مدل با ورودی بردار یکبعدی بهازای هر توالی، بهدلیل عدم یکپارچگی در کد کردن حروف اسید آمینه، جهت طبقه بندی 460 توالی پروتئین با طول بین 235 و 289 در 2 کلاس سالم و سرطانی موفق نبودند. جهت بهبود دقت طبقهبندی در روشهای یادگیری ماشین، با رویکرد ابتکاری، در حین حفظ یکپارچگی، حروف اسید آمینه توالی پروتئین به بردار دودویی تبدیل شدند. جهت بهبود دقت در طبقهبندی مبتنی بر مدل در شبکه عصبی کانولوشنی، 3 روش برای بازنمایی توالی پروتئین به تصویر ارائه شد. روش اول، در تبدیل حروف توالی پروتئین به کد رنگ بهدلیل بازنمایی غیریکپارچه برای هر اسید آمینه موفق نبود. روش دوم با تغییر ساختار دنباله با کنار هم قرار دادن هر 17 اسید آمینه برای ایجاد تصویر رنگی مربعی، در طبقهبندی توالیها، موفق نبود. روش سوم، بازنمایی تصویر دودویی بهدلیل بازنمایی یکپارچه اسید آمینه و عدم تغییر در ساختار اصلی دنباله و اعمال فیلتر گابور برای استخراج ویژگیهای مناسب مانند بافت و لبه بافت بسیار موفق عمل کرد. با توجه به اینکه عرض تصاویر دودویی تعیین کننده نوع اسید آمینه موجود در توالی پروتئین میباشد زاویه فیلتر گابور 90 درجه به بهترین شکل ویژگیهای موثر را استخراج کردند. تجزیه و تحلیل انجام شده بر روی روشهای بازنمایی توالی پروتئین، بیان کننده موفقیت نگاشت توالی بهصورت ماتریس 2 بعدی نسبتبه بردار یکبعدی را نشان میدهد. ماتریس 2 بعدی به شکل دودویی، بهدلیل حفظ یکپارچگی در بازنمایی حروف اسید آمینه در عرض ماتریس، نسبت به حالت یکبعدی که حروف اسید آمینه بدون رعایت یکپارچگی به عدد نگاشت میشوند، بازنمایی مناسبتری دارند. علت مهم عدم موفقیت طبقهبندی در نگاشت توالی پروتئین به عدد ارایه یک بعدی، جایگزین کردن دادههای اسمی با دادههای عددی میباشد، اختلاف این اعداد برای شبکه عصبی معنی دار خواهد بود و لایه های مختلف شبکه عصبی نمیتوانند بازنمایی خوبی از این اعداد ایجاد نمایند و پارامترهای وزن لایه تمام متصل نیز برای پیشبینی کلاس درست، به خوبی آموزش نخواهد دید. از طرف دیگر بهدلیل یکسان بودن طول ماتریس با طول توالی، ساختار توالی در بازنمایی بهصورت ماتریس دودویی حفظ میشود و وابستگیهای موجود بین حروف اسید آمینه که با ترتیب قرار گرفتن آنها در دنباله تعریف می شود نیز برقرار میماند، این در حالی است که برخی از این وابستگیها، در روشهای مخصوص توالی مبتنی بر ویژگی نادیده گرفته میشود زیرا که آنها بخشی از زیر مجموعههای توالی را به عنوان ویژگیها در نظر میگیرند. فیلنر گابور همانطور که در تصاویر، بهعنوان تشخیص لبه و بافت تعریف میشود. در تصویر دودویی بازنمایی شده از توالی، جهت تشخیص وابستگیهای مهم در بین حروف اسید آمینه اعمال شده است، لذا بازنمایی توالی به صورت ماتریس دودویی در درجه اول، یکنواختی در تبدیل حروف اسید آمینه را با استفاده از اعداد دودویی برقرار میکند، و در درجه دوم، وابستگی بین حروف اسید آمینه توالی که در ترتیب این حروف تعریف می شود، را حفظ میکند. در نتیجه ماتریس دودویی بهعنوان ورودی شبکه عصبی کانولوشنی، بازنمایی مناسبی از توالی پروتئین را ارائه میدهد. رویکرد ارائه شده یادگیری عمیق با اعمال فیلتر گابور به تصویر دودویی و معماری شبکه عصبی کانولوشنی شامل 11 لایه معرفی شد. لایههای کانولوشن در این معماری با اعمال فیلترهای مختلف برای پیچش5 کردن تصویر دودویی ورودی و همینطور برای نگاشت ویژگی6های میانی استفاده میشود. اتصال محلی فیلترها با تصویر دودویی ورودی ارتباط موجود در زیر دنباله توالی را یاد میگیرند و با نگاشت ویژگی که انجام میشود تعداد پارامترها تصویر دودویی ورودی بسیار کاهش مییابد. ابعاد 100x10 فیلتر با گام 1 در لایه اول کانولوشن به این دلیل انتخاب شده است که عرض تصویر دودویی ورودی برابر 20 و طول تصویر دودویی ورودی برابر 289 میباشد و بتواند وابستگی تقریبا نیمی از زیر دنباله را در توالی استخراج و نگاشت کند. لایه یکسوساز بعد از این لایه مقادیر منفی را صفر میکند، لایه ادغام نیز برای کاهش ابعاد و لایه کانولوشن دوم با 10 فیلتر 80x40 نیز طوری انتخاب شده است که تقریبا نیمی از ابعاد خروجی لایه قبل را پوشش دهد. لایه یکسوساز مجددا جهت صفر کردن اعداد منفی و 2 لایه تماما متصل جهت آموزش وزنها برای نگاشت دادهها ابتدا به 100 عدد و سپس به 2 عدد تعریف شده است. لایه بیشینه هموار جهت تعیین احتمال پیشبینی هر کلاس و لایه طبقهبندی برای تعیین کلاس خروجی در نظر گرفته شده است.
13- نتیجه گیری
استفاده از ابزارهای کامپیوتری مکانیزه کننده، مخصوصا در یادگیری عمیق به منظور تسهیل آنالیزهای پزشکی و تشخیص، یک عرصه مهم و امید بخش میباشد. در این تحقیق نشان دادیم که چگونه یادگیری مشخصه با ناظر، میتواند برای داده توالی پروتئین اسیدهای آمینه، با استفاده از یادگیری عمیق مورد استفاده قرار گیرد. مزیت اصلی روش پیشنهادی نسبت به روشهای قبلی طبقهبندی داده توالی اسیدهای آمینه پروتئین، انتخاب بازنمایی متناسب با نگاشت ژنوم با رویکرد یادگیری عمیق بود. بهدلیل تفاوت در ابعاد تصاویر بازنمایی شده در سه روش پیشنهادی، از معماریهای متفاوتی برای ایجاد شبکه عصبی کانولوشنی برای هر روش پیشنهادی استفاده شد. روش پیشنهادی موفق ما در این تحقیق، نگاشت توالی پروتئین اسیدهای آمینه بهصورت تصاویر دودویی با ابعاد 289 X 20 و اعمال فیلتر گابور با زاویه 90 درجه روی تصاویر و همچنین طبقهبندی تصاویر با شبکه عصبی کانولوشنی با معماری پیشنهادی، ذکر شده در این مقاله میباشد. نتایج بدست آمده از تجزیه و تحلیل بر روی دادههای توالی پروتئینی اسیدهای آمینه افراد سالم و افراد دارای سرطان خون ، نشان داد که روش پیشنهادی، جهت طبقهبندی افراد سالم و افراد دارای سرطان خون با وجود عدم توازن در تعداد نمونه دادههای 2 کلاس بهدلیل استفاده از رمزگذاری یکپارچه حروف اسید آمینه و عدم تغییر ساختار دنباله و همچنین اعمال فیلتر گابور با زاویه 90 درجه بسیار موفقیت آمیز صورت گرفته است و بنابراین نوید دهنده دستیابی کلیتر و جامعتری برای طبقهبندی داده توالی اسیدهای آمینه پروتئین خواهد بود.
مراجع
[1] A. Gupta, H. Wang, and M. Ganapathiraju, "Learning structure in gene expression data using deep architectures, with an application to gene clustering," 2015, pp. 1328-1335.
[2] Y. Liu, S. Zhou, and Q. Chen, "Discriminative deep belief networks for visual data classification," Pattern Recognition, vol. 44, pp. 2287-2296, 2011.
[3] J. Chen, R. Swofford, J. Johnson, B. B. Cummings, N. Rogel, K. Lindblad-Toh, et al., "A quantitative framework for characterizing the evolutionary history of mammalian gene expression," Genome research, vol. 29, pp. 53-63, 2019.
[4] T. Hardy, J. Feng, D. Lawrence, T. Fullston, and H. Scott, "Application of Artificial Intelligence To Analysis of The Embryonic Genome For Preimplantation Genetic Diagnosis," Pathology, vol. 51, p. S65, 2019.
[5] C. S. Boddy and S. Ma, "Frontline therapy of CLL: evolving treatment paradigm," Current hematologic malignancy reports, vol. 13, pp. 69-77, 2018.
[6] K. He, D. Ge, and M. He, "Big data analytics for genomic medicine," International journal of molecular sciences, vol. 18, p. 412, 2017.
[7] C. Angermueller, T. Pärnamaa, L. Parts, and O. Stegle, "Deep learning for computational biology," Molecular systems biology, vol. 12, p. 878, 2016.
[8] M. Leung, H. Xiong, L. Lee, and B. Frey, "Deep learning of the tissueregulated splicing code," Bioinformatics 30, pp. i121 – i129, 2014.
[9] H. Xiong, B. Alipanahi, L. Lee, H. Bretschneider, D. Merico, R. Yuen, et al., "The human splicing code reveals new insights into the genetic determinants of disease," Science 347, p. 1254806, 2015.
[10] J. Yosinski, J. Clune, Y. Bengio, and H. Lipson, "How transferable are features in deep neural networks?," Advances in Neural Information Processing Systems 27, pp. 3320-3328, 2014.
[11] B. Alipanahi, A. Delong, M. Weirauch, and B. Frey, "Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning," Nat Biotechnol 33, pp. 831 – 838, 2015.
[12] J. Zhou and O. Troyanskaya, "Predicting effects of noncoding variants with deep learning-based sequence model," Nat Methods 12, pp. 931 – 934, 2015.
[13] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson, "CNN features off-the-shelf: an astounding baseline for recognition," 2018, pp. 512-519.
[14] W. Sun, T.-L. B. Tseng, J. Zhang, and W. Qian, "Enhancing deep convolutional neural network scheme for breast cancer diagnosis with unlabeled data," Computerized Medical Imaging and Graphics, vol. 57, pp. 4-9, 2017.
[15] I. Guyon, J. Weston, S. Barnhill, and V. Vapnik, "Gene selection for cancer classification using support vector machines," Machine learning, vol. 46, pp. 389-422, 2002.
[16] M. D. Zeiler and R. Fergus, "Visualizing and understanding convolutional networks," in European conference on computer vision, 2014, pp. 818-833.
[17] M. Biswas, A. Tiwari, M. Turk, J. Laird, C. Asare, L. Saba, et al., "A Review on a Deep Learning Perspective in Brain Cancer Classification," Cancers, vol. 11, 2019.
[18] J. Schmidhuber, "Deep learning in neural networks: An overview," Neural networks, vol. 61, pp. 85-117, 2015.
[19] J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, et al., "Recent advances in convolutional neural networks," Pattern Recognition, vol. 77, pp. 354-377, 2018.
[20] M. A. Jafri, S. A. Ansari, M. H. Alqahtani, and J. W. Shay, "Roles of telomeres and telomerase in cancer, and advances in telomerase-targeted therapies," Genome medicine, vol. 8, p. 69, 2016. "
[21] X. Chu and K. L. Chan, "Rotation and scale invariant texture analysis with tunable Gabor filter banks," in Pacific-Rim Symposium on Image and Video Technology, 2009, pp. 83-93.
[22] R. C. González, R. E. Woods, and S. L. Eddins, Digital Image Processing Using MATLAB: Pearson, 2004.
[23] I. Guyon and A. Elisseeff, "An introduction to variable and feature selection," Journal of machine learning research, vol. 3, pp. 1157-1182, 2003.
[24] H. Liu and L. Yu, "Toward integrating feature selection algorithms for classification and clustering," IEEE Transactions on Knowledge & Data Engineering, pp. 491-502, 2005.
[1] Recall
[2] Precision
[3] Accuracy
[4] Classification Learner - MathWorks
[5] Convolve
[6] Feature mapping
Converting protein sequence to image for classification with convolutional neural network
Reza Ahsan, PhD Student of Information Technology 1, Mansour Ebrahimi, Associate Professor 2, Rouhollah Dianat, Assistant Professor 3
1- Faculty of Engineering, University of Qom, Qom, Iran, Email: ahsan@qom-iau.ac.ir
2- Faculty of Basic sciences, University of Qom, Qom, Iran, Iran, Email: mansour@future.edu
3- Faculty of Engineering, University of Qom, Qom, Iran, Email: rdianat@qom.ac.ir
Abstract
Since methods for sequencing machine learning sequences were not successful in classifying healthy and cancerous proteins, it is imperative to find a way to represent these sequences to classify healthy and ill individuals with deep learning approaches. In this study different methods of protein sequence representation for classification of protein sequence of healthy individuals and leukemia have been studied. Results showed that conversion of amino acid letters to one-dimensional feature vectors in classification of 2 classes was not successful and only one disease class was detected. By changing the feature vector to colored numbers, the accuracy of the healthy class recognition was slightly improved. The binary protein sequence representation method was more efficient than the previous methods with the initiative of sequencing the sequences in both one-dimensional and two-dimensional (image by Gabor filtering). Protein sequence representation as binary image was classified by applying Gabor filter with 100% accuracy of the protein sequence of healthy individuals and 98.6% protein sequence of those with leukemia. The findings of this study showed that the representation of protein sequence as binary image by applying Gabor filter can be used as a new effective method for representation of protein sequences for classification.
Keywords: Converting protein sequence to image, Gabor filter, Convolution Neural Network, Protein classification.