سایت دانلود پژوهش ها و منابع علمی دانشگاهی فنی تخصصی همه رشته ها – این سایت صرفا جهت کمک به گردآوری داده ها برای نگارش پژوهش های علمی و صرفه جویی در وقت پژوهشگران راه اندازی شده است
3-1-2) محاسبه و پیشپردازش توصیفکنندهها........................................................................................................................533-1-3) انتخاب اعضای سریهای آموزشی و ارزیابی به روش خوشهبندی k-میانگین................................................................543-1-4) انتخاب بهترین توصیف کننده و مدلسازی خطی..........................................................................................................553-1-5) مدلسازی غیر خطی با شبکهی عصبی مصنوعی پرسپترون چند لایه563-2) بحث و نتیجهگیری573-2-1) تفسیر توصیفکنندهها..................................................................................................................................................753-2-2) بررسی نتایج.................................................................................................................................................................61
3-2-3) ارزیابی نتایج مدل.........................................................................................................................................................633-3) جمعبندی نهایی65فصل چهارم: پیشبینی دمای ذوب مایعات یونی و نمکهای مربوطه با بهرهگیری از رویکرد QSPR674-1) روش کار704-1-1) سری دادهها..................................................................................................................................................................70
4-1-2) محاسبه و پیشپردازش توصیفکنندهها........................................................................................................................72
4-1-3) تقسیمبندی سری دادهها توسط روش تحلیل خوشهای....................................................................................................73
4-1-4) انتخاب متغیر و مدلسازی خطی....................................................................................................................................744-1-5) مدلسازی به روش شبکهی عصبی پرسپترون چند لایه (MLP)77
4-2) بحث و نتیجهگیری794-2-1) تفسیر توصیفکنندهها..................................................................................................................................................79
4-2-2) ارزیابی نتایج مدلها.....................................................................................................................................................814-3) جمعبندی نهایی.....................................................................................................................................................................82
منابع83فهرست شکلها
عنوان صفحه
شکل 2-1: طرحی ساده از خوشه بندی سلسلهای13
شکل 2-2: شمایی کلی از الگوریتم ژنتیک25
شکل 2-3: شمایی کلی از یک نرون29
شکل 2-4: ساختار کلی پرسپترون تک لایه29
شکل 2-5: ساختار شبکه پیشرو دولایه با توابع سیگموید در لایه پنهان و لایه خروجی30
شکل 2-6: کمینه کلی و کمینه محلی31
شکل 2-7: ساختار کلی آموزش با ناظر32
شکل 3-1: شمایی از شبکهی بهینه شدهی پرسپترون57
شکل 3-2: نمودار مقادیر تجربی سمیت در برابر مقادیر محاسبه شده با مدل پرسپترون چند لایه62
شکل 3-3: نتایج تحلیل حساسیت63
شکل 3-4: قلمرو کاربرد مدل ارائه شده به صورت نمودار ویلیامز64
شکل 1-4: نمودار حاصل از آنالیز خوشهای76
شکل 4-2: نمودار تغییر ضریب همبستگی و لگاریتم خطای استاندارد مدل در برابر تعداد توصیفکنندهها75
شکل 4-3: شبکهی عصبی پرسپترون طراحی شده جهت پیشبینی دمای ذوب مایعات یونی78
شکل 4-4: نمودار حاصل از تحلیل حساسیت79
شکل 4-5: قلمرو کاربرد مدل81
فهرست جدولها
عنوان صفحه
جدول 3-1: سری دادههای سمیت تجربی و پیش بینی شده به صورت (log EC50)44
جدول 3-2: ماتریس ضرایب همبستگی بین توصیفکنندههای انتخاب شده55
جدول 3-3: آنیونهای متنوع به کار رفته در ساختار مایعات یونی موجود در سری داده60
جدول 3-4: پایههای کاتیونی به کار رفته در سری داده61
جدول 3-5: نتایج حاصل از مدلهای خطی و غیر خطی62
جدول 4-1: مقادیر پیشبینی شده و تجربی دمای ذوب مایعات یونی70
جدول 4-2: ماتریس ضرایب همبستگی بین توصیفکنندههای انتخاب شده76
جدول 4-3: ضرایب و آمارههای مدل MLR77
جدول 4-4: نتایج حاصل از مدلهای خطی و غیرخطی78
فصل اول
مقدمه
کمومتریکس یا شیمی سنجی در حقیقت کاربرد علوم آمار، کامپیوتر و ریاضی در شیمی میباشد [1]. از روشهای ذکر شده برای درک بهتر اطلاعات شیمیایی که در آزمایشگاه بدست میآید استفاده میشود، به این صورت که با استفاده از تحلیل دادههای شیمیایی بدست آمده اطلاعات مفید استخراج می شود تا با توجه به این اطلاعات بتوان آزمایشهای مورد نظر را با بازدهی بهتر طراحی کرد.کاربرد روشهای ریاضی در شیمی سابقه دیرین دارد ولی با توجه به پیشرفت علوم کامپیوتر و کاربرد آن در علوم روشهای کمومتریکس در دهه اخیر پیشرفت بسیار داشته است. در این دو دهه روشهای کمومتریکس مختلفی توسط شیمیدانها با کمک متخصصین علوم کامپیوتر، ریاضی و آمار ارائه شده است. بسیاری از شیمیدانها و کسانی که از روشهای کمومتریکس استفاده میکنند دانشمند سوئدی به نام ولدرا به عنوان اولین کسی که این روشها را معرفی کرده است نام میبرند و به او لقب پدر علم کمومتریکس را دادهاند [2]. کمومتریکس درشاخههای مختلف شیمی مورد استفاده قرار میگیـرد. بـرخی از کاربردهای آن شامل کنترل فرآیندها، تجزیه و تحلیل و شناخت الگوها، پردازش علائم و بهینه کردن شرایط میباشد. یکی از زمینههای مهم کاربرد کمومتریکس در مطالعاتی است که خواص مولکولها را به ویژگیهای ساختاری آنها نسبت میدهد. موارد خاصی از این تحقیقات و مطالعات شامل موارد رابطهی کمی ساختار-فعالیت(QSAR)، رابطهی کمی ساختار-سمیت(QSTR)، رابطهی کمی ساختار-خصوصیت(QSPR) است که به منظور سهولت و کلی نگری تمامی این موارد تحت عنوان QSAR قرار می گیرند.
1-1) اجزای اصلی QSAR
یک رابطه ی کمیساختار – فعالیت از سه بخش مجزای زیر تشکیل میگردد ;[3]
دادههای معتبر مربوط به فعالیت یا ویژگی مورد مطالعه که باید مدل سازی و در نهایت پیش بینی شوند. تعدادی از خصوصیاتی که میتوانند برای مدل سازی QSAR مورد استفاده قرار گیرند به شرح زیر میباشند: فعالیت دارویی، فعالیت سمی، خصوصیات فیزیکوشیمیایی و تاثیرات سموم شیمیایی در محیط زیست.
توصیفکنندهها یا همان متغیرهایی که مدل براساس آنها ساخته میشود. ویژگیهای هر ملکول که معمولا با در نظر گرفتن ساختار ملکولی به صورت کمیمحاسبه میشوند، در واقع همان متغیرهای مورد استفاده در مدل سازی میباشند.
روشی (اعم از ریاضی یا آماری) که برای فرمول بندی مدل از آن استفاده میگردد.
روشهای بسیاری جهت مدل سازی QSAR به کار میروند که تعدادی از آنها به قرار زیر میباشند:
رگرسیون خطی چند تایی (MLR)، روشی ریاضی است که معمولا برای برقراری ارتباط بین ویژگیهای ساختاری مولکول و خواص آن در مطالعات QSPR/QSAR به کار میرود. این روش هنگامی که بین توصیفکنندهها برهمکنشی وجود نداشته و ارتباط آنها با فعالیت مورد نظر خطی باشد مفید است.[4]
شبکه عصبی مصنوعی (ANN)، که با تقلید از شبکههای عصبی بیولوژیکی مثل مغز انسان ساخته شدهاند الگویی برای پردازش اطلاعات میباشند که بر پایه اتصال به هم پیوسته چندین واحد پردازشی عمل میکنند [5].
ماشین بردار پشتیبان (SVM)، یکی دیگر از روشهای یادگیری راهنمایی شده است که از آن برای طبقه بندی و آنالیز رگرسیون استفاده میکنند[6] .
کمترین مربعات جزیی (PLS)، این روش با روش MLR، تفاوت چندانی ندارد. تنها فرضیاتی که براساس آن ضرایب متغیرهای مدل محاسبه میگردند در دو روش با هم متفاوت است[7] .
1-2) انواع روشهای QSAR
روشهایQSAR را میتوان به سه گروه تقسیمبندی کرد[8]. اولین روش، QSAR دو بعدی است که در آن ساختار سه بعدی مولکول در نظر گرفته نمیشود. در این روش مولکول با استفاده از یک سری توصیفکنندههای مولکولی نمایش داده میشود که مقادیر عددی آن مشخصه مفاهیم متنوعی از ساختار مولکولی است و در مجموع با در نظر گرفتن فعالیت مشاهده شده مدل پیشگو ساخته میشود.
روش دوم QSAR سه بعدی است که بطور مثال با رهیافت CoMFA نشان داده میشود [8]. در این روش ساختار سه بعدی مولکول مورد بررسی قرار میگیرد. به این منظور ابتدا مولکول در یک شبکه منظم سه بعدی قرار گرفته و سپس برهمکنشهای الکتروستاتیک و فضایی بین مولکول مورد نظر و یک اتم فرضی قرار گرفته در محل نقاط تقاطع این شبکه توری مانند (مثل کربن)، محاسبه شده و به عنوان توصیفکننده استفاده میشود تا با ایجاد مدل، برهمکنشهای الکتروستاتیک و فضایی مطلوب بدست آید. به وضوح این روش مزایای بسیار زیادی نسبت به روش سادهتر دو بعدی دارد اما پیچیدگیهای آن نیز بیشتر است.
روش سوم که QSAR چهار بعدی است، یک روش توسعه یافته از QSAR سه بعدی میباشد و توسط هاپفینگر و همکارانش ارائه شد [9] که اطلاعات مربوط به صورتبندی را در بعد چهارم در نظر میگیرد. مشابه با روش CoMFA، QSARچهار بعدی با مشخص کردن یک مجموعه از نقاط شبکه که خصوصیات مولکول را ارزیابی کند شروع میشود. این روش علاوه بر نقاط شبکه از کل صورتبندی، نمونه برداری کرده و از اطلاعات بدست آمده از آن استفاده میکند تا سلولهای اشغال شده در شبکه را ارزیابی کند و از این خصوصیات مولکولی برای ساختن مدل استفاده میکند.
1-3) اهداف QSAR
روابط کمیساختار – فعالیت باید به عنوان ابزاری علمیتلقی گردند که اجازه ی کشف و همچنین تجزیه و تحلیل روابط نهفته در میان دادههای موجود را به ما میدهند. اهداف زیادی را از ایجاد یک QSAR میتوان برشمرد که تعدادی از آنها به صورت زیر است[8]:
1- پیش بینی فعالیت زیستی وخصوصیات فیزیکو- شیمیایی
2- درک بهتر مکانیسم عمل دریک سری از ترکیبات شیمیایی
3- صرفه جویی درهزینههای تولید محصول ( داروها ، آفت کشها ، و ترکیبات شیمیایی جدید)
4- کاهش دادن ودربرخی موارد حتی جایگزینی استفاده از حیوانات آزمایشگاهی
با توجه به این اهداف، مدل سازی خصوصیات مایعات یونی که از پرکاربردترین ترکیبات در علم شیمی بشمار میروند، میتواند بسیار مفید واقع گردد. در ادامه مایعات یونی به صورت مختصر معرفی گردیدهاند.
1-4) نگاهی گذرا برمایعات یونی
مایعات یونی اولین بار در سال ١٩١۴ با سنتز اتیل آمونیوم نیترات (نقطه ذوب C˚12) شناخته شدند اما تا سال ١٩۵١ کاربرد گسترده ای نداشتند [10] . در پی یافتن روش جدیدی برای تهیه آلومینیم به طریق آبکاری با مخلوط کردن دو پودر سفید رنگ آلکیل پیریدینیوم کلرید با 3AlCl مشاهده شد که این دو با یکدیگر واکنش میدهند و مایع بی رنگ آلکیل پیریدینیوم تتراکلروآلومینات تولید میشود[11] . با این توصیف همچنان به این دسته از ترکیبات فقط با کنجکاوی نگاه میشد تا اینکه در چند دهه اخیر به عنوان جایگزین، برای حلالهای آلی متداول واکنشهای شیمیایی مطرح شدند. به طور کلی تعریفهای گوناگونی برای یک مایع یونی وجود دارند که شاید پذیرفته شدهترین آنها «یک ماده متشکل از یونها با نقطه ذوب پایینتر از 100 درجهی سانتیگراد» باشد [12] . مایعات یونی را با نام های نمک های مذاب، مایعات یونی غیرآبی یا مایعات یونی دمای اتاق نیز میشناسند[13] . اگر دمای ذوب نمک زیر دمای اتاق (25درجهی سانتیگراد) باشد به آن مایع یونی دمای اتاق میگویند. این ترکیبات متشکل از یک کاتیون آلی غیر متقارن سنگین شامل فسفر یا نیتروژن مانند آلکیل ایمیدازولیوم، پیرولیدینیوم، آمونیم، فسفونیوم و انواع مختلفی از آنیونهای آلی مانند تری فلئورو استات و یا آنیونهای معدنی کلرید، برمید، تترافلئوروبورات و هگزافلئوروفسفات و ... میباشند [13]. ترکیب آنیونها و کاتیونهای مختلف به طور گسترده تعداد مایعات یونی را گسترش دادهاست و تاکنون بیش از 2000 مایع یونی شناخته شدهاند. از آنجا که معمولا میتوان با اتصال یک کاتیون و آنیون خاص مایع یونی مورد نیاز برای یک کاربرد به خصوص را تولید کرد به این حلالها، حلال طراح نیز گفته میشود[12] .
مهمترین ویژگیهای مایعات یونی عبارتاند از:[14]
خواص فیزیکی مایعات یونی با تغییر ترکیب شیمیایی آنیونها و کاتیونها تغییر میکنند.
مایعات یونی غیر فرارند بنابراین در سیستمهای با خلاء زیاد قابل استفادهاند که این موضوع از بروز برخی مشکلات فرایندی جلوگیری میکند.
بسیاری از ترکیبات آلی و معدنی در آنها قابل حلاند.
عدم حلالیت مایعات یونی در برخی از حلالها (مانند آلکانها) یک محیط قطبی غیر آبی ایجاد میکند که این عامل، در سیستمهای جداسازی دو فازی و چند فازی، بازیابی کاتالیست را (فرایند سبز) آسان میکند.
این ترکیبات میتوانند، نه تنها به عنوان یک حلال، بلکه به عنوان یک کاتالیست فعال نیز در واکنش شرکت کنند.
همچنین مایعات یونی خواص بی نظیر دیگری از قبیل پنجرهی الکتروشیمیایی وسیع، هدایت الکتریکی زیاد، تحرک یونی، گسترهی دمایی مایع وسیع، به شدت سولواته کننده، عدم فراریت، اشتعال ناپذیری و گسترهی پایداری گرمایی وسیع نیز دارند.
با وجود محدودیت تعداد پایه های کاتیونی مایعات یونی که بیشتر مشتقات ایمیدازول، پیریدین و پیرولیدین هستند، به دلیل تنوع ترکیبی با آنیون های مختلف، امروزه تعداد بیشماری مایع یونی ساخته شدهاست. در مجموع، قابلیتهای منحصر به فرد مایعات یونی مانند فشار بخار ناچیز، پایداری حرارتی خوب و قابلیت انحلال گونههای قطبی، این ترکیبات را جایگزین مناسبی برای حلالهای آلی فاقد چنین ویژگیهایی میکند [15]. در نتیجهی همین ویژگیها، مایعات یونی بهطور گسترده در زمینههای مختلف کاربردی شیمی تجزیه شامل: کروماتوگرافی گازی، کروماتوگرافی مایع با عملکرد بالا، استخراج مایع- مایع، میکرواستخراج٬ طیفسنجی جرمی، الکتروفورز و حسگرها به کار میروند[14] .
از اینرو، با توجه به کاربرد گستردهی مایعات یونی درفرآیندهای شیمیایی و اهمیت دمای ذوب این ترکیبات در نوع کاربرد آنها، در این پروژه سعی شده با استفاده از رویکرد QSPR، مدلهایی برای پیشبینی دمای ذوب این ترکیبات ارائه گردد و همچنین به منظور بررسی عوامل مؤثر بر بروز فعالیت سمی مایعات یونی در سلولهای زنده، مسموم کنندگی سلولی این ترکیبات نیز با استفاده از رویکرد QSAR مدلسازی شود.
فصل دوم
تئوری
نتایج مطالعات ساختار- فعالیت/ ویژگی علاوه بر شفافسازی نحوه ارتباط بین خواص مولکولها و ویژگیهای ساختمانی آنها، به پژوهشگران در پیشبینی رفتار مولکولهای جدید براساس رفتار مولکولهای مشابه کمک میکند. به مجموعه ابزارها و روشهایی که به این منظور مورد استفاده قرار میگیرند روشهای پارامتری گویند. در روشهای پارامتری سعی میکنند بین یک سری توصیف کنندههای مولکولی با فعالیت یا خاصیت مورد نظر ارتباط منطقی برقرار نمایند. توصیفکنندههای مولکولی که به این منظور استفاده میشوند، مقادیر عددی میباشند که جنبههای مختلف ساختاری مولکول را به طور کمینشان میدهند. وقتی خصوصیات ساختاری گونهها و فعالیت آنها توسط اعداد و ارقام بیان میشود میتوان رابطه ریاضی یا کمی، بین ساختار و فعالیت گونه ایجاد کرد. این رابطه میتواند برای پیشبینی پاسخ بیولوژیکی یا شیمیایی دیگر ساختارها مورد استفاده قرار گیرد. به عبارتی دیگر در این گونه مطالعات توصیفکنندهها به عنوان متغیرهای مستقل و پارامتر بیولوژیکی یا شیمیایی مورد نظر به عنوان متغیر وابسته در نظر گرفته میشوند. در مرحله مدلسازی مدلی از متغیر وابسته بر حسب متغیرهای مستقل ساخته میشود، سپس در مرحله پیشبینی مدل ساخته شده مورد ارزیابی قرار میگیرد. مراحل کلی مدلسازی به روش پارامتری به شرح زیر است:
1- جمع آوری سری دادهها
2- وارد کردن ساختارهای مولکولی و بهینهسازی آنها
3- محاسبه توصیفکنندههای مولکولی
4- تجزیه و تحلیل آماری توصیفکندهها و انتخاب مؤثرترین آنها
5- ایجاد مدلهای آماری
6- انتخاب بهترین مدل و ارزیابی اعتبار مدل انتخابشده
2-1) جمعآوری سری دادههااولین مرحله، جمعآوری و انتخاب یک سری مولکولی از منابع قابل اعتماد و در دسترس است. بایستی کمیت مورد مدلسازی برای ترکیبات مختلف، در شرایط عملی یکسان بدست آمده باشد تا نتیجه قابل قبولتر و مناسبتری بدست آید. در مدلهای خطی سری دادهها به دو قسمت سری کالیبراسیون و سری ارزیابی تقسیم میشوند[7] . عملیات مدلسازی بر روی سری کالیبراسیون که اکثر مولکولها را در بر میگیرد، انجام میشود. از سری ارزیابی برای بررسی قدرت پیشبینی و اعتبار مدل استفاده میشود. ترکیبات سری ارزیابی به نحوی انتخاب میشوند که نماینده جمعیت مولکولهای سری کالیبراسیون باشند. لازم به ذکر است که مولکولهای سری ارزیابی در هیچ یک از مراحل مدلسازی شرکت ندارند. در مدل سازی به روشهایی مانند شبکه عصبی مصنوعی از سری کالیبراسیون به دلیل استفاده در مرحله آموزش با عنوان سری آموزشی نام برده میشود. سری ارزیابی نیز به دو دسته به نامهای سری ارزیابی داخلی یا سری پیشبینی و سری ارزیابی خارجی تقسیم میشود. سری پیشبینی برای کنترل خطای مدلسازی و جلوگیری از ایجاد آموزش اضافی در حین ساخت مدل و سری ارزیابی، برای ارزیابی اعتبار مدل و تخمین قدرت پیشگویی آن بهکار میرود.
2-1-1) روشهای تقسیم بندی سری دادهها
به طور معمول، دو روش وجود دارند که از رایجترین روشهای تقسیم بندی سری دادهها در مدلسازی QSAR به شمار میروند[16] :
1- روش انتخاب تصادفی: در این روش سری دادهها به صورت کاملا تصادفی و بدون در نظر گرفتن هیچ گونه معیار خاصی، به سریهای آموزشی و ارزیابی تقسیم میگردد. عمدهترین نقص این روش این است که در این روش ترکیبات بدون در نظر گرفتن هیچگونه ارتباطی با ساختارشان، دستهبندی میگردند. به همین دلیل احتمال بسیار زیادی وجود دارد که ترکیباتی خارج از قلمرو کاربرد مدل، در سری ارزیابی قرار گیرند[7] . بنابراین از آنجایی که این ترکیبات توسط مدل برونیابی میشوند، پیشبینیهای مدل برای این ترکیبات غیرقابل اعتماد خواهد بود[17] .
2- روش مرتبسازیy-: در این روش سری دادهها به صورت نزولی یا صعودی مرتب شده و از هر قسمت آن بهعنوان نماینده یک داده برای قرار گرفتن در سری ارزیابی انتخاب میشود[7] . حتی در این روش نیز ضمانتی وجود ندارد که سریهای آموزشی و ارزیابی روی تمامی نقاط نماینده در فضای توصیفکنندهها پراکنده بوده و سری آموزشی بتواند تمامی نقاط موجود در سری دادهها را تحت پوشش قرار دهد[18] . در حقیقت انتخاب سریهای آموزشی و ارزیابی باید بر اساس نزدیکی نقاط نمایندهی سری آموزشی به نقاط نمایندهی سری ارزیابی در فضای چند بعدی توصیف کنندهها صورت گیرد. در اصل مفهوم "نزدیکی"، بر اساس مهمترین فرضی است که منجر به شکل گیری روابط QSAR گردیده است[16] :
" ترکیبات مشابه، خصوصیات مشابهی دارند"
در این پروژه از روشی نوین به نام تحلیل خوشهای (CA) [19]جهت انتخاب صحیح اعضای سریهای آموزشی و ارزیابی (براساس ساختار) استفاده شده است که در ادامه معرفی میگردد.
2-1-1-1) تحلیل خوشهای (CA)
تحلیل خوشهای یا خوشهبندی نسبت دادن یک سری از اشیاء به گروههای معین (یا خوشهها) می باشد، به نحوی که اشیاء موجود دریک خوشه از برخی جهات مشابه بوده ودارای وجه اشتراک باشند. خوشهبندی یکی از روشهای موجود یادگیری غیر نظارت شده است که روشی معمول برای آنالیز آماری دادهها در بسیاری از زمینههای علمی شامل: یادگیری ماشینی، دادهکاوی، تشخیص الگو، آنالیز تصاویر، بازیابی اطلاعات و زیست فناوری می باشند[20] . علاوه بر اصطلاح خوشهبندی عبارات دیگری نیز دررابطه باهمین مفهوم مورد استفاده قرار میگیرند که شامل: طبقهبندی خودکار، دستهبندی عددی، آنالیز ردهشناسی و بتریولوژی میباشند.
2-1-1-2) انواع خوشهبندی
الگوریتمهای سلسله مراتبی با استفاده از گروههایی که قبلا تشکیل شدهاند گروههای جدیدی را پیدا میکنند. این الگوریتمها غالبا یا تراکمی (از بالا به پایین) هستند، یا انشعابی (از پایین به بالا). الگوریتمهای تراکمی با هر عنصر که به عنوان یک خوشهی مجزا درنظر گرفته شده است شروع میشوند و آنها را به گروههای بزرگتر تبدیل میکنند[21] . الگوریتمهای انشعابی با تمامی سری داده شروع میشوند و با تقسیم کردن آنها به گروهها یا خوشههای کوچکتر ادامه می یابند (شکل 2-1 را ببینید). الگوریتمهای تفکیکی معمولا تمامی خوشهها را به صورت یکباره تعیین میکنند اما میتوانند بعنوان الگوریتمهای انشعابی در خوشهبندی سلسلهای نیز بکار روند. الگوریتمهای خوشهبندی چگالی مبنا، به منظور کشف گروههایی با شکل دلخواه ابداع شدهاند. در این رویکرد یک خوشه بصورت منطقهای درنظر گرفته میشود که چگالی یا تراکم اشیاء در آن از حد آستانه بیشتر باشد. الگوریتمهای خوشهای فضایی ، به دنبال خوشههایی میگردند که فقط بتوان انها را دریک تجسم خاص از دادهها (خمیده، بخشی از فضا) مشاهده کرد[22] .
شکل2-1) طرحی ساده از خوشه بندی سلسلهای
2-1-1-3) اندازهگیری فاصله
یکی از مراحل خوشهبندی انتخاب مقیاس اندازهگیری فاصله است که نحوهی محاسبهی میزان شباهت دوعنصر را تعیین میکند. این انتخاب می تواند بر شکل خوشهها تاثیرگذار باشد بنابراین یک عنصر می تواند براساس نوع فاصلهی انتخابی مربوط به یک خوشهی خاص باشد که با تغییر نوع فاصله، این عنصر به خوشهی دیگری تعلق گیرد. توابع فاصلهای که متداولترند شامل موارد زیر می شوند: فاصله اقلیدسی، فاصلهی منهتن، فاصله ماهالانوبیس، زاویهی بین دو بردار نیز میتواند به عنوان مقیاس فاصله در نظر گرفته شود[23] . مورد دیگری که در خوشهبندی از اهمیت بالایی برخوردار است این است که آیا از فواصل متقارن استفاه میشود یا فواصل نامتقارن. بسیاری از توابع فاصله که در بالا به آنها اشاره شد دارای خصوصیت متقارن بودن فواصلاند. این تقارن به این معنی است که فاصلهی شیء A از B دقیقا با فاصلهی شیء B از A یکسان است. درعین حال باید دقت شود که یک مقیاس مناسب، اندازههای متقارن ارائه میدهد.
2-1-1-4) دستهبندی تفکیکی
انواع زیادی از این نوع دستهبندی وجود دارد که در ادامه به تعدادی از آنها اشاره شده است.
2-1-1-4-2) دسته بندی مبهم C- میانگین
(2-1)
دردسته بندی مبهم یا نامشخص[22] ، هرنقطه به جای اینکه کاملا به یک دستهی مشخص نسبت داده شود بادرجهای از میزان تعلق به یک دسته تعیین میگردد. بناباین نقاط روی مرز یک دسته میتوانند متعلق به آن دسته در نظر گرفته شوند اما با درجهی تعلق کمتری نسبت به نقاط مرکزی دسته. برای هرنقطهی x ضریبی تعریف میشود که میزان تعلق آن نقطه رابه دستهی K ام نشان میدهد Uk(x). معمولا مجموع ضرایب برای هر نقطهای یک تعریف می شود. مرکز یک دسته، مرکز تمامی نقاطی است که میزان تعلق آنها به دسته در فرمول زیر در نظر گرفته میشود:
Centerk= xUk(x)mxxUk(x)mx= نقطه
k= دسته
m= پارامتر واقعی
(2-2)
درجهی تعلق با معکوس فاصله تا مرکز دسته ارتباط دارد:
Ukx= 1d (Centerk , x)d= فاصله
سپس ضرایب نرمال شده با یک پارامتر واقعی m >1 به نحوی که مجموع آنها یک شود، مبهم سازی میگردند.
(2-3)
Ukx= 1j(d (Centerk , x)d (Centerj , x))2(m-1)برای 2= m به راحتی می توان به نحوی نرمال سازی راانجام داد که مجموع مقادیر آنها به صورت خطی یک شود. این الگوریتم با الگوریتم k- میانگین بسیار مشابهت دارد.
2-1-1-4-3) الگوریتم دستهبندی QT
دسته بندی QT (آستانه کیفیت)[21] روش جایگزین برای تفکیک دادهها در دسته بندیهای ژنی است. این الگوریتم درمقایسه با الگوریتم K- میانگین به نیروی محاسباتی بیشتری نیازمند است، اما به تعیین تعداد دستهها پیش از اجرای الگوریتم نیاز ندارد وهمیشه نتایج یکسانی را پس از هر مرتبه اجرا بدست میدهد. در این روش فاصلهی بین یک نقطه ویک گروه از نقاط با استفاده از روش اتصال کامل (در نظر گرفتن بیشترین فاصله از نقطهی مورد نظر تا هر نقطه از اعضای گروه ) محاسبه می شود.
2-1-1-4-1) خوشه بندی K- میانگین
(2-4)
الگوریتم K-میانگین [16]روشی از آنالیز خوشهای است که n شیء را به k سری دستهبندی میکند. هرنقطه از دادهها به دستهای اختصاص مییابد که مرکز آن نزدیکترین محل به نقطهی مورد نظر است. مرکز، درحقیقت میانگین تمامی نقاط درون دسته است. اگر یک سری از اشیاء را به صورت {x1, x2, …, xn}در نظر بگیریم به نحوی که هر شیء یک بردار حقیقی d بعدی باشد، خوشهبندی K- میانگین تلاش میکند تا n شیء را به k سری تقسیمبندی کند (n S={s1, s2, …, sn} (k ≤، به صورتی که مجموع مربعات درون خوشهای (wcss) کمترین مقدار باشد.
argsmini=1kxi∈sixj-μi2xj=شیءS= دسته
در این رابطه، μi میانگین نقاط درون si میباشد.
اصطلاح « K- میانگین» برای اولین بار توسط جیم مک کویین در سال 1967 به کار برده شد. هر چند که نظریهی اولیهی آن مربوط به شخصی به نام هوگو اسینهاوس در سال 1956 میباشد. الگوریتمهای مختلفی از الگوریتمهای اکتشافی برای حل مسئلهی خوشهبندی K- میانگین وجود دارد که متداولترین آنها الگوریتم استاندارد میباشد. این الگوریتم از روش پالایش مکرر بهره میبرد. شایان ذکر است که این الگوریتم در علم رایانه تحت عنوان الگوریتم للوید نیز شناخته میشود.
با فرض اولیهی K- میانگین {m1, …, mk}، الگوریتم با نوسان بین دو مرحله جلو میرود. اولین مرحله، مرحلهی تعیین یا انتصاب است که در آن هر شیء به خوشهای که دارای نزدیکترین میانگین است تعلق میگیرد. در حقیقت اشیاء مورد نظر با در نظر گرفتن رابطهی زیر دستهبندی میگردند.
(2-5)
si(t)= xj:xj-mi(t)≤xj-mi(t) for all i=1, 2, …, ks= دسته
m=میانگین
x=شیء
مرحلهی دوم، مرحلهی نوسازی میباشد. در این مرحله میانگینهای جدیدی (طبق فرمول زیر) محاسبه میگردند که در مرکز اعضای خوشه قرار دارند.
(2-6)
mi(t)= 1si(t)xj∈ si(t)xjs= دسته
m=میانگین
x=شیء
زمانی که در انتصابات انجام گرفته دیگر تغییری صورت نگیرد، الگوریتم به همگرایی رسیده است و پایان یافته تلقی میگردد. مراحل این الگوریتم به اختصاربه صورت زیر است:
تعداد دستهها راانتخاب میکنیم (K).
بصورت تصادفی K دسته ایجاد ومراکز آنها تعیین میگردند.
مراکز دستههای جدید دوباره محاسبه میگردند.
دومرحلهی قبلی را تا زمانی که الگوریتم به همگرایی برسد (یعنی زمانی که اعضای موجود دردسته دیگر تغییر نکنند) تکرار می شوند.
مهمترین مزیت این الگوریتم سادگی وسرعت آن است که اجازه میدهد آن رابرروی سری دادههای بزرگ اجرا کنیم. درعین حال دو نکته وجود دارند که باید مد نظر قرار گیرند:
مفهوم میانگین باید به وضوح برای تمامی مراحل تعریف شده وثابت باشد.
از آنجایی که دستهها در ابتدا به صورت تصادفی تشکیل میگردند، نتایج حاصله می توانند در هر مرتبه از اجرای الگوریتم متفاوت باشند، بناباین داشتن درکی کلی از تعداد دستههای موجود درسری داده به صورت تجربی به اجرای صحیح این الگوریتم کمک می کند.
2-2) بهینهسازی ساختارهای مولکولی
مولکولها معمولا با استفاده از نرمافزارهایی مانند Hyperchem [24] رسم میشوند. درنهایت، ساختار مولکولها به وسیله روش مکانیک مولکولی و یا روشهای نیمه تجربی بهینه میشوند. سپس ماتریس سهبعدی این ساختارها به صورت ورودی به نرمافزارهایی مانندMopac [25]، Dragon [26]وارد شده تا توصیفکنندههای مولکولی محاسبه شوند.
2-3) محاسبه توصیفکنندههای مولکولیتوصیفکنندههای مولکولی نتیجه نهایی یک استدلال و روش ریاضی هستند که اطلاعات شیمیایی را به رمز تبدیل میکنند و آنها را به صورت یک نماد نشان میدهند طوری که ارائه دهنده ویژگیهای یک مولکول به صورت یک عدد مفید باشند. برای مثال ممکن است توصیفکنندهها، ویژگیهای فیزیکی و شیمیایی یک مولکول باشند و یا ممکن است مقادیر ناشی از بکارگیری روشهای الگوریتمی برای ساختارهای مولکولی باشند. به عبارت دیگر میتوان گفت که هر توصیفکننده، اطلاعات خاصی از مولکول را که بر کمیت مورد مدلسازی اثر میگذارد در اختیار قرار میدهد که از اهمیت به سزایی برخوردار است. در صورتی که توصیفکنندههای انتخاب شده مناسب نباشند، عمل مدلسازی با مشکل مواجه شده و مدل مناسب به دست نخواهد آمد. بنابراین در انتخاب توصیفکنندهها باید دقت کرد و توصیفکنندههایی میبایست انتخاب شوند که در ارتباط با ویژگی مورد نظر مولکول بوده، فهم و تفسیر آنها آسان باشد و بتوانند به ساختارهای متفاوت، مقادیر عددی متفاوتی بدهند.
توصیفکنندهها را بر اساس چگونگی بیان خصوصیات مولکول میتوان به چند دسته کلی تقسیم کرد، که معروفترین آنها در اینجا آورده شده است:
1- توصیفکنندههای ساختاری
2- توصیفکنندههای توپولوژیکی
3- توصیفکنندههای هندسی
4- توصیفکنندههای الکترونی
5- توصیفکنندههای فیزیکوشیمیایی
6- توصیفکنندههای توسعهیافته
7- توصیفکنندههای LFER
2-3-1) توصیفکنندههای ساختاریاین سری توصیفکنندهها عمومیترین توصیفکنندههای مورد استفاده میباشند که ساختار ترکیب را بدون هیچگونه اطلاعاتی درباره هندسه مولکولی آن در اختیار قرار میدهند. از مهمترین توصیفکنندههای ساختاری میتوان تعداد اتمها، تعداد پیوندها، تعداد مطلق و نسبی انواع اتمهای مورد نظر و تعداد مطلق و نسبی انواع پیوندها را نام برد. این دسته توصیفکنندهها به تغییرات پیکربندی حساس نیستند و بین ایزومرها تمایزی قائل نمیشوند.
2-3-2) توصیفکنندههای توپولوژیکیتوصیفکنندههای توپولوژیکی جزء سادهترین نوع توصیفکنندهها میباشند و به ساختار فضایی مولکول ارتباطی نداشته و تنها به نوع اتمها، نوع پیوندها و نحوه ارتباط اتمها به یکدیگر وابستهاند. این پارامترها را میتوان بدون بهینه کردن ساختار مولکول محاسبه کرد. توصیفکنندههای توپولوژیکی خود به چهار دسته، توصیفکنندههای جزء، زیر ساختاری، اندیسهای توپولوژی و توصیفکنندههای محیطی تقسیم میشوند و شکلهای ساختاری از قبیل مسیر و ارتباطات را مشخص میکنند.
2-3-2-1) توصیفکنندههای جزءاین گروه از توصیفکنندهها مشخص کننده اطلاعات ساده مولکولی بوده و از نظر محاسبه سادهترین نوع توصیفکنندهها میباشند مقدار توصیفکنندههای فوق به سادگی از فرمول مولکولی ترکیب مورد نظر قابل محاسبه میباشند. این نوع از توصیفکنندهها میتوانند جرم مولکولی، حضور یا عدم حضور گروههای عاملی خاص و یا اتمهای معینی را در مولکول نشان دهند.
2-3-2-2) اندیسهای توپولوژیاین اندیسها دستهای از توصیفکنندههای توپولوژیکی هستند که اطلاعاتی راجع به ساختمان، اندازه و میزان شاخهای شدن مولکول، نحوه اتصال اتمها و نوع اتمهای موجود در یک را مولکول در اختیار ما قرار میدهند. و از روی شکلهای شیمیایی مولکولها بدست میآیند. شکل نمایش دهنده ساختار به شیوه انتزاعی است که در آن اتمهای مولکول به صورت نقطه و پیوندهای میان اتمها به صورت خطهای راست رسم شده باشند. در شکل شیمیایی وجود پیوند میان اتمها اهمیت دارد نه ماهیت آن پیوند شیمیایی. از جمله اندیسهای توپولوژی میتوان اندیس بالابان و عدد واینر را نام برد.
2-3-2-3) توصیفکنندههای زیرساختاری
این توصیفکنندهها اطلاعاتی را در مورد وجود یا عدم وجود گروههای عاملی خاص یا زیرساختارهای معین در مولکول فراهم میسازند. اگر زیرساختار مشخصی در مولکول وجود داشته باشد، توصیفکننده مقداری معادل با تعداد دفعات تکرار آن زیر ساختار در مولکول را خواهد داشت ودر غیر این صورت مقدار آن صفر خواهد شد.
2-3-2-4) توصیفکنندههای محیطیاین نوع توصیفکنندهها نحوه قرار گرفتن یک زیرساختار را در مولکول نشان میدهند. اگر یک زیرساختار خاص در مولکول وجود داشته باشد، آنگاه یک شبه مولکول توسط این زیرساختار و اولین اتم مجاور آن تشکیل میشود. مقدار توصیفکننده محیطی برای این زیرساختار خاص برابر با اندیس ارتباطی مولکول مسیر درجه اول برای شبه مولکول حاصل میباشد. در صورتی که یک زیرساختار معین چند بار در مولکول تکرار شده باشد، مقدار متوسط اندیس ارتباطی آنها در نظر گرفته میشود.
2-3-3) توصیفکنندههای هندسیتوصیفکنندههای هندسی نسبت به نوع توپولوژیک از اهمیت بیشتری برخوردارند. یکی از خصوصیات بارز این توصیفکنندهها، ارتباط آنها با ساختار سه بعدی مولکولها میباشد. بنابراین قبل از محاسبه این توصیفکنندهها باید پایدارترین ساختار فضایی مولکول تعیین شود که بهینه کردن مولکول توسط روشهای کوانتوم-مکانیک انجام میشود. حجم واندروالس، مساحت سایه، فاکتور شکل از این نوع توصیفکنندهها میباشند.
2-3-4) توصیفکنندههای الکترونیتوصیفکنندههای الکترونی بیانگر خواص الکترونی مولکولها میباشند و اطلاعات مفیدی راجع به برهمکنشهای الکترونی بین مولکولی و درون مولکولی ارائه میدهند. این نوع از برهمکنشها خواص فیزیکی و شیمیایی مولکولها را به شدت تحت تأثیر قرار میدهند. اهمیت این برهمکنشها به ویژه هنگامی که مولکولهای عملکننده قطبی باشند، بیشتر میشود. با توجه به اینکه مولکولها از تعدادی الکترون، پروتون و نوترون تشکیل شدهاند، بنابراین بسیاری از رفتارهای مولکول را میتوان با توجه به تأثیرات متقابل الکتریکی درک و توجیه نمود. هر نوع توصیفکنندهای که بتواند به نحوی یکی از عوامل مؤثر در برهمکنشهای الکترونی را بیان کند، در گروه توصیفکنندههای الکترونی قرار میگیرد. بار جزئی اتمها، نحوه توزیع بار در مولکول، فاصله بین بارهای مخالف، گشتاور دوقطبی و قطبشپذیری مولکولها را میتوان در این مورد نام برد.
2-3-5) توصیفکنندههای فیزیکو- شیمیایی
این توصیفکنندهها از جمله مهمترین توصیفکنندهها هستند و با برهمکنشهای حیاتی، همبستگی بالایی نشان میدهند. این دسته از توصیفکنندهها بیانگر بعضی از خواص فیزیکی و شیمیایی مولکولها میباشند که به ساختار مولکول وابستگی شدیدی نشان میدهند. از میان آنها میتوان لگاریتم ضریب تقسیم آب- اکتانول، ویسکوزیته، شکست مولکولی، نقطه ذوب و نقطه جوش را نام برد.
2-3-6) توصیفکنندههای توسعهیافته
توصیفکنندههایی هستند که میتوانند همزمان فرم ساختاری و الکترونی مولکول را لحاظ کنند. سرعت بالای محاسبه و دارا بودن اطلاعات بیشتری از مولکول از جمله مزایای این توصیفکنندهها میباشد. مساحت سطح جزئی باردار شده (CPSA)، مساحت سطح آبگریزی (HPSA)و توصیفکنندههای کلینگر ثابت مولکولی (WHIM) برخی از توصیف کنندههای توسعه یافته هستند.
2-3-7) توصیفکنندههای LFERمعادله کلی LFER در سال 1994 توسط آبراهام و همکارانش ارائه شد[27] . اساس معادله آنها بر مبنای
بررسی حلالیت نمونههای مختلف در یک حلال واحد بود. این معادله مستقیما ترمهای مختلف حلالیت نمونه را به یکی از خواص نمونه نسبت میدهد. فرمول زیر معروف به معادله LFER میباشد:
(2-7)
که در آن SP نشاندهنده یک خاصیت از نمونه یا جسم حلشونده، V به عنوان ترم تشکیل حفره، E نشاندهنده ضریب شکست مولی اضافی، S پارامتر قطبیت، A به عنوان خصلت اسیدی پیوند هیدروژنی و B نشاندهنده خصلت بازی پیوند هیدروژنی میباشند. به پارامترهای E، S، A، Bو V توصیفکنندههای LFER نمونه میگویند که مقادیر آنها به خود نمونه بستگی دارد و برای هر نمونه مقداری معین و ثابت میباشد. در معادله فوق به ضرایب e، s، a، b، v ثابتهای سیستم گفته میشود. این ضرایب از برهمکنش نمونه با فازها حاصل میشوند و از طریق رگرسیون خطی چندگانه اندازهگیری میشوند.
2-4) تجزیه و تحلیل آماری توصیفکنندهها و انتخاب مؤثرترین آنها
دادههای خام معمولا دچار مشکلاتی مانند نوفه، بایاس، تغییرات شدید در بازه دینامیکی و نمونه برداری هستند و استفاده از آنها به همین صورت موجب تضعیف طراحیهای بعدی خواهد شد. بدین منظور نخست متغیرهایی را که برای 80 تا 95 درصد از مولکولها یکسان هستند، حذف میکنیم، سپس در مرحله دوم همبستگی بین متغیرها را محاسبه میکنیم. ماتریس مربع ضرایب همبستگی تشکیل داده میشود و از بین توصیفکنندههایی که حاوی اطلاعات مشابهی هستند یعنی ضریب همبستگی بالایی با یکدیگر دارند (9/0R>) یکی از آنها که معمولا نحوه محاسبه آسانتری داشته یا همبستگی بیشتری با پاسخ مورد نظر دارد، حفظ شده و بقیه حذف میگردند. از آنجا که بازه تغییرات توصیف کنندههای محاسبه شده یکسان نبود و با در نظر گرفتن این که مقدار عددی بیشتر توصیف کنندهها لزوما نشان دهندهی اهمیت بیشتر آنها نمیباشد، از روش بهنجار کردن (طبق رابطهی زیر) در این پروژه جهت پیش پردازش دادهها استفاده شد.
(2-8)
yij= xij-μiσiدر این رابطه
xij دادهی اصلی، yij دادهی تغییریافته، μi میانگین و σi واریانس توصیف کننده بر روی n داده میباشند.
پس از کاهش تعداد توصیفکنندهها، مرحله انتخاب متغیر با توجه به پاسخ دادههای QSPR / QSAR انجام میشود. روشهای مختلفی برای انتخاب مؤثرترین توصیفکنندهها وجود دارد. الگوریتم ژنتیک (GA)، یکی از موفقترین روشهای مطرح در مطالعات ساختار – فعالیت میباشد که در این پروژه از آن بهره گرفتیم [28].
2-4-1) الگوریتم ژنتیک (GA)
الگوریتم ژنتیک[28] تکنیک جستجویی در علم رایانه برای یافتن راهحل تقریبی برای بهینهسازی و مسائل جستجو است. الگوریتم ژنتیک نوع خاصی از الگوریتمهای تکامل است که از تکنیکهای زیستشناسی فرگشتی مانند وراثت و جهش استفاده میکند و از برترین روشهای انتخاب متغیر در مطالعات کمومتریکس به شمار میرود. در واقع الگوریتمهای ژنتیک از اصول انتخاب طبیعی داروین برای یافتن فرمول بهینه جهت پیشبینی یا تطبیق الگو استفاده میکنند. الگوریتمهای ژنتیک اغلب گزینه خوبی برای تکنیکهای پیشبینی بر مبنای رگرسیون هستند. مختصرا گفته میشود که الگوریتم ژنتیک یا (GA) یک تکنیک برنامهنویسی است که از تکامل ژنتیکی به عنوان یک الگوی حل مسئله استفاده میکند. مسئلهای که باید حل شود ورودی است و راه حلها طبق یک الگو کدگذاری میشوند و تابع برازندگی نیز برای ارزیابی کیفیت راه حلهای ارائه شده به کار میرود. هر راه حل، کاندیدی را ارزیابی میکند که اکثر آنها به صورت تصادفی انتخاب میشوند. کلا این الگوریتمها از بخشهای زیر تشکیل میشوند : تابع برازش، نمایش، انتخاب، تغییر.
2-4-1-1) اصول الگوریتمهای ژنتیکی
هنگامی که لغت تنازع بقا به کار میرود اغلب بار ارزشی منفی آن به ذهن میآید. شاید همزمان قانون جنگل به ذهن برسد. قانون انتخاب طبیعی بدین صورت است که تنها گونههایی از یک جمعیت ادامه نسل میدهند که بهترین خصوصیات را داشته باشند و آنهایی که این خصوصیات را نداشته باشند به تدریج و در طی زمان از بین میروند. در حقیقت طبیعت با بهرهگیری از یک روش بسیار ساده (حذف تدریجی گونههای نامناسب و در عین حال تکثیر بالاتر گونههای بهینه)، توانسته است دائما هر نسل را از لحاظ خصوصیات مختلف ارتقاء بخشد. در دهه هفتاد میلادی دانشمندی از دانشگاه میشیگان به نام جان هلند ایده استفاده از الگوریتم ژنتیک را در بهینهسازیهای مهندسی مطرح کرد. ایده اساسی این الگوریتم انتقال خصوصیات موروثی توسط ژنهاست. فرض کنید مجموعه خصوصیات انسان توسط کروموزومهای او به نسل بعدی منتقل میشوند. هر ژن در این کروموزومها نماینده یک خصوصیت است. بعنوان مثال ژن 1 میتواند رنگ چشم باشد، ژن 2 طول قد، ژن 3 رنگ مو و الی آخر. حال اگر این کروموزوم به طور کامل به نسل بعد انتقال یابد، تمامی خصوصیات نسل بعدی شبیه به خصوصیات نسل قبل خواهد بود. بدیهی است که در عمل چنین اتفاقی رخ نمیدهد. در واقع بصورت همزمان دو اتفاق برای کروموزومها میافتد. اتفاق اول جهش است. جهش، به این صورت است که بعضی ژنها بصورت کاملا تصادفی تغییر میکنند. البته تعداد این گونه ژنها بسیار کم میباشد اما در هر حال این تغییر تصادفی بسیار مهم است. علاوه بر جهش اتفاق دیگری که میافتد و البته این اتفاق به تعداد بسیار بیشتری نسبت به جهش رخ میدهد چسبیدن ابتدای یک کروموزوم به انتهای یک کروموزوم دیگر است. این مسأله با نام تقاطع شناخته میشود[28] . این همان چیزیست که مثلا باعث میشود تا فرزند تعدادی از خصوصیات پدر و تعدادی از خصوصیات مادر را با هم به ارث ببرد و از شبیه شدن تام فرزند به تنها یکی از والدین جلوگیری میکند. در مسائل انتخاب متغیر، ابتدا به صورت اتفاقی یک جمعیت از رشتهها (ژنومها یا راه حلها) تولید میشود. در اینجا هررشته یک بردار سطری است که عناصر آن را متغیرها تشکیل میدهند و هر عنصر به صورت صفر یا یک در رشته کددار شده است. صفر برای مواقعی که متغیر وجود ندارد و یک برای موقعی که متغیر وجود دارد. برای هررشته از این جمعیت که به طور اتفاقی تولید شده مقدار شایستگی محاسبه میشود و بهترین رشتهها انتخاب میشوند و تحت عمل ترکیب و جهش قرار میگیرند. این فرآیند چند مرتبه تکرار میشود تا در نهایت به حل بهینه برسیم. شمای کلی از نحوهٔ عملکرد این الگوریتم در شکل زیر نمایش داده شدهاست.
جهش
زایش
فرزندان
کروموزوم
نسل جدید
جمعیت جدید
جمعیت آغازین
مورد ایدهآل
ارزیابی سازش
انتخاب والدین برتر
شکل 2-2) شمایی کلی از الگوریتم ژنتیک
2-4-1-2) روشهای انتخاب
روشهای مختلفی برای الگوریتمهای ژنتیک وجود دارند که میتوان برای انتخاب ژنومها از آنها استفاده کرد. اما روشهای لیست شده در پایین از معمولترین روشها هستند.[28]
انتخاب اصلح: مناسبترین عضو هر اجتماع انتخاب میشود.
انتخاب رولت: یک روش انتخاب است که در آن عنصری که عدد برازش (تناسب) بیشتری داشته باشد، انتخاب میشود. در واقع به نسبت عدد برازش برای هر عنصر یک احتمال تجمعی نسبت میدهیم و با این احتمال است که شانس انتخاب هر عنصر تعیین میشود.
انتخاب مقیاسی: به موازات افزایش متوسط عدد برازش جامعه، سنگینی انتخاب هم بیشتر میشود و جزئیتر. این روش وقتی کاربرد دارد که مجموعه دارای عناصری باشد که عدد برازش بزرگی دارند و فقط تفاوتهای کوچکی آنها را از هم تفکیک میکند.
انتخاب رقابتی: یک زیر مجموعه از صفات یک جامعه انتخاب میشوند و اعضای آن مجموعه با هم رقابت میکنند و سرانجام فقط یک صفت از هر زیرگروه برای تولید، انتخاب میشوند.
2-5) ایجاد مدلهای آماری
پس از ارزیابی توصیفکنندهها و انتخاب مناسبترین آنها، با استفاده از روشهای آماری مختلف به جستجوی مدل مناسبی پرداخته میشود که بتواند ارتباط بین توصیفکنندههای انتخابی و پارامترهای مورد مدلسازی را به درستی بیان کند. برای مدلسازی از روشهای گوناگون خطی و غیرخطی میتوان استفاده کرد. در پژوهش حاضر، از روش MLR به عنوان یک روش خطی و از میان روشهای غیرخطی، شبکهی عصبی پرسپترون چند لایه از شبکههای عصبی مصنوعی استفاده گردید که در ذیل به طور مختصر شرح داده میشوند.
2-5-1) رگرسیون خطی چندگانه
رگرسیون خطی چندگانه روشی است که برای مدلسازی رابطه خطی بین یک متغیر وابسته با یک یا چند متغیر مستقل بهکار برده میشود. متغیر وابسته گاهی مورد پیشبینی و متغیر مستقل پیشبینیکننده نامیده میشوند. در کار ما، توصیفکنندهها به عنوان متغیرهای مستقل درنظر گرفتهشده و کمیت مورد مدلسازی در نقش متغیر وابسته ظاهر میشود. رابطه کلی به صورت زیر است:
(2-9)
در این رابطه، yi کمیت مورد مدلسازی، xi, k مقدار k اُمین توصیفکننده مربوط به i اُمین ترکیب، k تعداد کل توصیفکنندهها، b ثابت رگرسیون، bk ضریب k اُمین توصیفکننده و ei ترم خطا میباشند. مدل بالا با حداقل مربعات تخمین زده میشود، یعنی باید به مدلی منجر شود که مجموع مربعات خطاها در آن مدل حداقل شود. معادله پیشبینی شده، مدل زیر است:
(2-10)
در اینجا علامت « ^ » مقادیر پیشبینی شده را نشان میدهد. باقیماندههای رگرسیون به صورت زیر تعریف میشود:
(2-11)
در اینجا yi پارامتر مشاهده شده i وyi پارامتر پیشبینی شده i میباشد.
الگوریتم MLR طوری است که مجموع باقیماندهها در سری دادهها صفر شود. واریانس باقیماندهها نیز سایز خطا را در نظر میگیرد که اگر مدل روی دادهها به خوبی منطبق شود، کوچک میباشد. در این روش هر چه درجه خطی بودن رابطه بین متغیرهای مستقل با وابسته بیشتر باشد و برهمکنش متغیرهای مستقل با یکدیگر کمتر باشد ، مدل بهتری بدست خواهد آمد.
2-5-2) شبکههای عصبی پرسپترون چند لایه(MLP)
اولین کارهای مربوط به شبکههای عصبی به سال 1943 برمیگردد، زمانی که یک فیزیولوژیست اعصاب به نام مککلا و یک ریاضیدان به نام پیتس رساله خود را در مورد نحوه عملکرد احتمالی نرونها در مغز منتشر کردند. از آن زمان تا سال حدود 1959 این موضوع مورد توجه مهندسین قرار نگرفت. اما در این سال از شبکههای عصبی به عنوان فیلتر تطبیقی در خطوط تلفن مورد استفاده قرار گرفت که اولین استفاده شبکه عصبی در دنیای واقعی نیز بود. در سال 1962رزنبلات مفهوم پرسپترون تک لایه را به عنوان ابزاری مفید در دستهبندی مجموعههای از دادهها به دو کلاس معرفی و برای قانون آموزش پرسپترون، اثبات پایداری ارایه نمود. در سال 1969 ، مینسکی و پپرت در رسالهاشان و کتابی به نام پرسپترونها نشان دادند که شبکه عصبی (تک لایه) در جداسازی مجموعه دادههایی که به صورت غیرخطی جداپذیرند ضعیف عمل میکند. مینسکی و پپرت ضعفهای دیگری از شبکههای عصبی را نیز نشان دادند. آنها همچنین به اشتباه اظهار داشتند که چندلایه کردن شبکه عصبی، تاثیری در حل محدودیتهای گفته شده ندارد؛ هر چند در ادامه تاکید کردند که پژوهش در این زمینه ارزشمند میباشد. این امر موجب شد پژوهش وسرمایهگذاری در زمینه شبکه عصبی به شدت کاهش یابد. در سال1982 ، اتفاقات زیادی موجب علاقه دوباره به شبکه عصبی شد. از آن جمله میتوان به ارایه مدلی توسط هپفیلد با اتصال دو طرفه نرونها و برگزاری کنفرانس آمریکایی-ژاپنی با عنوان شبکههای عصبی همیاری- رقابتی در کیوتوی ژاپن نام برد. شبکههای عصبی از این شروع مجدد پژوهشها تا به حال، پیشرفتهای زیادی به چشم دیده است. مدلهای مختلف و روشهای آموزش متنوعی معرفی و توسعه داده شدند و شبکههای عصبی در کاربردهای مختلفی برای تشخیص الگو، تقریب توابع و مدلسازی سیستمهای دینامیکی خطی و غیرخطی و ... مورد استفاده قرار گرفتند. در مرجع [29]گردآوری خوبی در زمینه تاریخچهی شبکه عصبی انجام شده است .در ادامه به بررسی عملکرد شبکه عصبی [30] MLP و نحوه آموزش آن میپردازیم.
2-5-2-1) تک نرون و ساختار (MLP)
یک نرون دارای M ورودی xi و یک خروجی است که ما آن را Y مینامیم (شکل2-3). هر ورودی با یک وزن wi همراه است. معمولا پارامتر دیگر W0 نیز وجود دارد که بایاس نامیده میشود و میتواند به عنوان وزنی در نظر گرفته شود که به ورودیX0 متصل است به صورتی که مقدار X0 همواره 1 در نظر گرفته میشود. یک تک نرون همواره به صورت پیشخور درنظر گرفته میشود به این معنی که اتصالات همواره از سمت ورودیها به خروجی جهتدهی شدهاند و به عبارت دیگر جهت جریان اطلاعات در تک نرون همواره از ورودی به خروجی است.
شکل 2-3) شمایی کلی از یک نرون
در حقیقت میتوان گفت که یک تک نرون یک تابع f(x,y) را پیاده سازی مینماید؛ از دیدگاه ورودی-خروجی، خروجی تک نرون، y، تابعی غیر خطی از ورودیهای x است. پارامترهای این تابع را وزنها و بایاس، w تشکیل میدهند. برای فعال شدن هر نرون توابع محرک مختلفی وجود دارد که بعضی از پرکاربردترین آنها شامل؛ توابع خطی، سیگمویید (لگاریتمی)، سیگمویید (تانژانت هیپربولیک)، تابع آستانه و تابع متقارن آستانه میباشند[31] . معمولا تابع محرک به وسیله طراح انتخاب میشود و سپس وزنها و بایاس به وسیله یک الگوریتم آموزش، به گونهای تنظیم میشوند که رابطه ورودی-خروجی نرون یک هدف مشخص را ارضا کند. سادهترین شکل استفاده از پرسپترونها استفاده از آنها در یک لایه است. شکل 2-4، ساختار شبکه عصبی تک لایه را نشان میدهد. همانگونه که مشاهده میشود ساختار شبکه عصبی تک لایه، شامل تعدادی گره ورودی است که به ورودی تعدادی پرسپترون که در یک لایه (لایه خروجی) قرارگرفتهاند متصل شدهاند.
شکل 2-4) ساختار کلی پرسپترون تک لایه
2-5-2-2) پرسپترون چند لایه
باید در نظر داشت که پرسپترون تکلایه تنها قادر به حل مسائل خطی است و این یکی از نواقص آن به شمار میرود. برای حل مسائل غیر خطی و همچنین زمانی که متغیرها دارای همپوشانی یا همبستگی باشند به تعداد لایههای بیشتری نیاز داریم. شکل 2-5، یک شبکه دولایه (یک لایه خروجی و یک لایه میانی) را نشان میدهد. لایه میانی به طور مستقیم از محیط خارج ورودی دریافت نکرده و به دنیای خارج نیز مستقیما خروجی نمیدهند، به همین دلیل به این لایهی از دیدگاه خارج، لایهی پنهان نیز میگویند.[32]
شکل 2-5) ساختار شبکه پیشرو دولایه با توابع سیگموید در لایه پنهان و لایه خروجی
در این نوع شبکهها معمولا هر گره به تمامی گرههای لایه بعدی متصل است که به این حالت اتصال کامل گفته میشود. همچنین همه مسیرها در جهت ورودی به خروجی است و مسیر برگشتی وجود ندارد به همین دلیل به این نوع شبکهها پیشخور گفته میشود.
2-5-2-3) آموزش شبکههای عصبی MLP
به فرآیند تغییر w و b طوری که منجر به کاهش مقادیر خطاهای شبکه شود، مرحله آموزش گویند. از شبکه آموزش دیده میتوان به عنوان ابزاری برای پیشبینی فعالیت (خاصیت) سری جدید ورودیها استفاده کرد. هدف نهایی آموزش تصحیح خطا، کم کردن تابع هزینهای است که بر اساس خطای شبکه تعریف میشود[32] . از یک دیدگاه، وقتی تابع هزینه تعریف میشود، (ti )، اختلاف خروجی شبکه و مقدار آموزش شبکه در واقع حل یک مساله بهینهسازی است. یک تابع هزینهای که به صورت معمول مورد استفاده قرار میگیرد مجموع مربعات خطا است:
(2-12)
εw=12er2e= خطا
W= بایاس
اندیس r نشاندهندهی مجموع بر روی همهی r خروجی شبکه میباشد. در این حالت، آموزش شبکه، تنظیم وزنها برای کمینه کردن یک تابع هزینه درجه دوم میباشد. نمودار تابع هزینه بر حسب وزنها یک اَبَررویه است که رویهی خطا نامیده میشود. بسته به نوع تابع محرک در شبکه دو حالت ممکن است به وجود آید: اگر در شبکه فقط از نرونهای خطی استفاده شده باشد: رویه خطا، یک تابع کاسهای شکل و دارای یک کمینه است. اگر شبکه از نرونهای غیر خطی هم استفاده کند: رویه خطا یک (یا چند) کمینه کلی دارد که کمینهی (های) محلی است. نمونهای از این حالت در شکل 2-6 آورده شده است.
شکل 2-6) کمینه کلی و کمینه محلی
به دست آوردن کمینه تابع هزینه برای آموزش بسیاری از شبکهها کار سادهای نیست و معمولا از روشهای بر پایه تکرار بر پایه گرادیان یا الگوریتمهای جستجوی هوشمند استفاده میشود. ویژگیهای یک الگوریتم مناسب، همگرایی، سرعت همگرایی، ترفند برای گیر نکردن در بهینههای محلی و حجم محاسبات کم میباشد.
روشهای آموزش از یک دیدگاه به دو دسته عمده تقسیم میشوند:
آموزش با ناظر: در این روش نمونههای آموزشی به شبکه اعمال شده و خروجی حاصل توسط سیستم یادگیری با خروجی مطلوب مقایسه میشود. از سیگنال خطای حاصل جهت تصحیح پارامترهای شبکه استفاده میشود. شکل 2-6، نمونهای از ساختار کلی آموزش با ناظر را نشان میدهد.
آموزش بدون ناظر: در این حالت خروجی مطلوب در دست نمیباشد. پارامترهای سیستم با توجه به پاسخ سیستم و شاخصهای اجرایی تعیین شده مانند شباهت در پاسخ، اصلاح و تنظیم میگردد.
شکل 2-7) ساختار کلی آموزش با ناظر
در این پایاننامه از روش لونبرگ- مارکوارت برای آموزش وزنهای شبکه استفاده شدهاست. در ادامه به معرفی مختصر این روش میپردازیم. الگوریتم لونبری-مارکوات طوری طراحی شدهاست که نیاز به محاسبه ماتریس هسیان ندارد، بنابراین باعث افزایش سرعت آموزش میشود. وقتی تابع اجرایی به فرم مجموع مربعات خطا باشد (که به طور نوعی در شبکههای پسانتشار استفاده میشود) ماتریس هسیان میتواند به شکل زیر تقریب زده شود:
(2-13)
و گرادیان نیز به صورت زیر محاسبه میشود:
(2-14)
که در آن J نمایانگر ماتریس ژاکوبیان میباشد و Je ماتریس ژاکوبیانی است که محتوی مشتقات اول خطاهای شبکه نسبت به وزنها و بایاسها است. ماتریس ژاکوبیان میتواند از طریق یک تکنیک پسانتشار استاندارد محاسبه شود. الگوریتم لونبری-مارکوات از این تقریب برای بهروزکردن الگوریتم شبه نیوتن استفاده کرده و آن را به فرم زیر درآورده است:
(2-15)
No description. Please update your profile.