پژوهش user7-258

2-1-1-3) اندازه‌گیری فاصله ...........................................................................................................................13 2-1-1-4) دسته‌بندی تفکیکی...........................................................................................................................14 2-1-1-4-1) دسته بندی مبهم C- میانگین.......................................................................................................14 2-1-1-4-2) الگوریتم دسته‌بندی QT............................................................................................................15 2-1-1-4-3) خوشه بندی K- میانگین............................................................................................................152-2) بهینه‌سازی ساختارهای مولکولی..............................................................................................................................................172-3) محاسبه توصیف‌کننده‌های مولکولی172-3-1) توصیف‌کننده‌های ساختاری.........................................................................................................................................192-3-2) توصیف کننده‌های توپولوژیکی....................................................................................................................................192-3-2-1) توصیف‌کننده‌های جزء......................................................................................................................................19 2-3-2-2) اندیس‌های توپولوژی192-3-2-3) توصیف‌کننده‌های زیرساختاری202-3-2-4) […]

سایت دانلود پژوهش ها و منابع علمی

سایت دانلود پژوهش ها و منابع علمی دانشگاهی فنی تخصصی همه رشته ها – این سایت صرفا جهت کمک به گردآوری داده ها برای نگارش پژوهش های علمی و صرفه جویی در وقت پژوهشگران راه اندازی شده است

پژوهش user7-258

پژوهش user7-258

3-1-2) محاسبه و پیش‌پردازش توصیف‌کننده‌ها........................................................................................................................533-1-3) انتخاب اعضای سری‌های آموزشی و ارزیابی به روش خوشه‌بندی k-میانگین................................................................543-1-4) انتخاب بهترین توصیف کننده و مدل‌سازی خطی..........................................................................................................553-1-5) مدلسازی غیر خطی با شبکه‌ی عصبی مصنوعی پرسپترون چند لایه563-2) بحث و نتیجه‌گیری573-2-1) تفسیر توصیف‌کننده‌ها..................................................................................................................................................753-2-2) بررسی نتایج.................................................................................................................................................................61
3-2-3) ارزیابی نتایج مدل.........................................................................................................................................................633-3) جمع‌بندی نهایی65فصل چهارم: پیش‌بینی دمای ذوب مایعات یونی و نمک‌های مربوطه با بهره‌گیری از رویکرد QSPR674-1) روش کار704-1-1) سری داده‌ها..................................................................................................................................................................70
4-1-2) محاسبه و پیش‌پردازش توصیف‌کننده‌ها........................................................................................................................72
4-1-3) تقسیم‌بندی سری داده‌ها توسط روش تحلیل خوشه‌ای....................................................................................................73
4-1-4) انتخاب متغیر و مدل‌سازی خطی....................................................................................................................................744-1-5) مدل‌سازی به روش شبکه‌ی عصبی پرسپترون چند لایه (MLP)77
4-2) بحث و نتیجه‌گیری794-2-1) تفسیر توصیف‌کننده‌ها..................................................................................................................................................79
4-2-2) ارزیابی نتایج مدل‌ها.....................................................................................................................................................814-3) جمع‌بندی نهایی.....................................................................................................................................................................82
منابع83فهرست شکلها
عنوان صفحه
شکل 2-1: طرحی ساده از خوشه بندی سلسله‌ای13
شکل 2-2: شمایی کلی از الگوریتم ژنتیک25
شکل 2-3: شمایی کلی از یک نرون29
شکل 2-4: ساختار کلی پرسپترون تک لایه29
شکل 2-5: ساختار شبکه پیشرو دولایه با توابع سیگموید در لایه پنهان و لایه خروجی30
شکل 2-6: کمینه کلی و کمینه محلی31
شکل 2-7: ساختار کلی آموزش با ناظر32
شکل 3-1: شمایی از شبکه‌ی بهینه شده‌ی پرسپترون57
شکل 3-2: نمودار مقادیر تجربی سمیت در برابر مقادیر محاسبه شده با مدل پرسپترون چند لایه62
شکل 3-3: نتایج تحلیل حساسیت63
شکل 3-4: قلمرو کاربرد مدل ارائه شده به صورت نمودار ویلیامز64
شکل 1-4: نمودار حاصل از آنالیز خوشه‌ای76
شکل 4-2: نمودار تغییر ضریب همبستگی و لگاریتم خطای استاندارد مدل در برابر تعداد توصیف‌کننده‌ها75
شکل 4-3: شبکه‌ی عصبی پرسپترون طراحی شده جهت پیش‌بینی دمای ذوب مایعات یونی78
شکل 4-4: نمودار حاصل از تحلیل حساسیت79
شکل 4-5: قلمرو کاربرد مدل81
فهرست جدولها
عنوان صفحه
جدول 3-1: سری داده‌های سمیت تجربی و پیش بینی شده به صورت (log EC50)44
جدول 3-2: ماتریس ضرایب همبستگی بین توصیفکنندههای انتخاب شده55
جدول 3-3: آنیون‌های متنوع به کار رفته در ساختار مایعات یونی موجود در سری داده60
جدول 3-4: پایه‌های کاتیونی به کار رفته در سری داده61
جدول 3-5: نتایج حاصل از مدل‌های خطی و غیر خطی62
جدول 4-1: مقادیر پیش‌بینی شده و تجربی دمای ذوب مایعات یونی70
جدول 4-2: ماتریس ضرایب همبستگی بین توصیف‌کننده‌های انتخاب شده76
جدول 4-3: ضرایب و آماره‌های مدل MLR77
جدول 4-4: نتایج حاصل از مدل‌های خطی و غیرخطی78
فصل اول
مقدمه

کمومتریکس یا شیمی سنجی در حقیقت کاربرد علوم آمار، کامپیوتر و ریاضی در شیمی می‌باشد [1]. از روش‌های ذکر شده برای درک بهتر اطلاعات شیمیایی که در آزمایشگاه بدست می‌آید استفاده می‌شود، به این صورت که با استفاده از تحلیل داده‌های شیمیایی بدست آمده اطلاعات مفید استخراج می شود تا با توجه به این اطلاعات بتوان آزمایش‌های مورد نظر را با بازدهی بهتر طراحی کرد.کاربرد روش‌های ریاضی در شیمی سابقه دیرین دارد ولی با توجه به پیشرفت علوم کامپیوتر و کاربرد آن در علوم روش‌های کمومتریکس در دهه اخیر پیشرفت بسیار داشته است. در این دو دهه روش‌های کمومتریکس مختلفی توسط شیمیدان‌ها با کمک متخصصین علوم کامپیوتر، ریاضی و آمار ارائه شده است. بسیاری از شیمیدان‌ها و کسانی که از روش‌های کمومتریکس استفاده می‌کنند دانشمند سوئدی به نام ولدرا به عنوان اولین کسی که این روش‌ها را معرفی کرده است نام می‌برند و به او لقب پدر علم کمومتریکس را داده‌اند [2]. کمومتریکس درشاخههای مختلف شیمی مورد استفاده قرار می‌گیـرد. بـرخی از کاربردهای آن شامل کنترل فرآیندها، تجزیه و تحلیل و شناخت الگوها، پردازش علائم و بهینه کردن شرایط میباشد. یکی از زمینههای مهم کاربرد کمومتریکس در مطالعاتی است که خواص مولکولها را به ویژگیهای ساختاری آنها نسبت میدهد. موارد خاصی از این تحقیقات و مطالعات شامل موارد رابطه‌ی کمی ساختار-فعالیت(QSAR)، رابطه‌ی کمی ساختار-سمیت(QSTR)، رابطه‌ی کمی ساختار-خصوصیت(QSPR) است که به منظور سهولت و کلی نگری تمامی این موارد تحت عنوان QSAR قرار می گیرند.
1-1) اجزای اصلی QSAR
یک رابطه ی کمی‌ساختار – فعالیت از سه بخش مجزای زیر تشکیل می‌گردد ;[3]
داده‌های معتبر مربوط به فعالیت یا ویژگی مورد مطالعه که باید مدل سازی و در نهایت پیش بینی شوند. تعدادی از خصوصیاتی که می‌توانند برای مدل سازی QSAR مورد استفاده قرار گیرند به شرح زیر می‌باشند: فعالیت دارویی، فعالیت سمی، خصوصیات فیزیکوشیمیایی و تاثیرات سموم شیمیایی در محیط زیست.
توصیف‌کننده‌ها یا همان متغیرهایی که مدل براساس آنها ساخته می‌شود. ویژگی‌های هر ملکول که معمولا با در نظر گرفتن ساختار ملکولی به صورت کمی‌محاسبه می‌شوند، در واقع همان متغیر‌های مورد استفاده در مدل سازی می‌باشند.
روشی (اعم از ریاضی یا آماری) که برای فرمول بندی مدل از آن استفاده می‌گردد.
روش‌های بسیاری جهت مدل سازی QSAR به کار می‌روند که تعدادی از آن‌ها به قرار زیر می‌باشند:
رگرسیون خطی چند تایی (MLR)، روشی ریاضی است که معمولا برای برقراری ارتباط بین ویژگیهای ساختاری مولکول و خواص آن در مطالعات QSPR/QSAR به کار میرود. این روش هنگامی که بین توصیفکنندهها برهمکنشی وجود نداشته و ارتباط آنها با فعالیت مورد نظر خطی باشد مفید است.[4]
شبکه عصبی مصنوعی (ANN)، که با تقلید از شبکههای عصبی بیولو‍ژیکی مثل مغز انسان ساخته شدهاند الگویی برای پردازش اطلاعات میباشند که بر پایه اتصال به هم پیوسته چندین واحد پردازشی عمل میکنند [5].
ماشین بردار پشتیبان (SVM)، یکی دیگر از روشهای یادگیری راهنمایی شده است که از آن برای طبقه بندی و آنالیز رگرسیون استفاده میکنند[6] .
کمترین مربعات جزیی (PLS)، این روش با روش MLR، تفاوت چندانی ندارد. تنها فرضیاتی که براساس آن ضرایب متغیرهای مدل محاسبه می‌گردند در دو روش با هم متفاوت است[7] .
1-2) انواع روشهای QSAR
روش‌هایQSAR را می‌توان به سه گروه تقسیم‌بندی کرد[8]. اولین روش، QSAR دو بعدی است که در آن ساختار سه ‌بعدی مولکول در نظر گرفته نمی‌شود. در این روش مولکول با استفاده از یک سری توصیف‌کننده‌های مولکولی نمایش داده می‌شود که مقادیر عددی آن مشخصه مفاهیم متنوعی از ساختار مولکولی است و در مجموع با در نظر گرفتن فعالیت مشاهده شده مدل پیشگو ساخته می‌شود.
روش دوم QSAR سه بعدی است که بطور مثال با رهیافت CoMFA نشان داده می‌شود [8]. در این روش ساختار سه بعدی مولکول مورد بررسی قرار می‌گیرد. به این منظور ابتدا مولکول در یک شبکه منظم سه‌ بعدی قرار گرفته و سپس برهمکنش‌های الکتروستاتیک و فضایی بین مولکول مورد نظر و یک اتم فرضی قرار گرفته در محل نقاط تقاطع این شبکه توری مانند (مثل کربن)، محاسبه شده و به عنوان توصیف‌کننده استفاده می‌شود تا با ایجاد مدل، برهمکنشهای الکتروستاتیک و فضایی مطلوب بدست آید. به وضوح این روش مزایای بسیار زیادی نسبت به روش ساده‌تر دو بعدی دارد اما پیچیدگی‌های آن نیز بیشتر است.
روش سوم که QSAR چهار بعدی است، یک روش توسعه یافته از QSAR سه بعدی می‌باشد و توسط هاپفینگر و همکارانش ارائه شد [9] که اطلاعات مربوط به صورتبندی را در بعد چهارم در نظر می‌گیرد. مشابه با روش CoMFA، QSARچهار بعدی با مشخص کردن یک مجموعه از نقاط شبکه که خصوصیات مولکول را ارزیابی کند شروع می‌شود. این روش علاوه بر نقاط شبکه از کل صورتبندی، نمونه برداری کرده و از اطلاعات بدست آمده از آن استفاده می‌کند تا سلولهای اشغال شده در شبکه را ارزیابی کند و از این خصوصیات مولکولی برای ساختن مدل استفاده می‌کند.
1-3) اهداف QSAR
روابط کمی‌ساختار – فعالیت باید به عنوان ابزاری علمی‌تلقی گردند که اجازه ی کشف و همچنین تجزیه و تحلیل روابط نهفته در میان داده‌های موجود را به ما می‌دهند. اهداف زیادی را از ایجاد یک QSAR می‌توان برشمرد که تعدادی از آنها به صورت زیر است[8]:
1- پیش بینی فعالیت زیستی وخصوصیات فیزیکو- شیمیایی
2- درک بهتر مکانیسم عمل دریک سری از ترکیبات شیمیایی
3- صرفه جویی درهزینه‌های تولید محصول ( داروها ، آفت کش‌ها ، و ترکیبات شیمیایی جدید)
4- کاهش دادن ودربرخی موارد حتی جایگزینی استفاده از حیوانات آزمایشگاهی
با توجه به این اهداف، مدل سازی خصوصیات مایعات یونی که از پرکاربردترین ترکیبات در علم شیمی بشمار میروند، میتواند بسیار مفید واقع گردد. در ادامه مایعات یونی به صورت مختصر معرفی گردیدهاند.
1-4) نگاهی گذرا برمایعات یونی
مایعات یونی اولین بار در سال ١٩١۴ با سنتز اتیل آمونیوم نیترات (نقطه ذوب C˚12) شناخته شدند اما تا سال ١٩۵١ کاربرد گسترده ای نداشتند [10] . در پی یافتن روش جدیدی برای تهیه آلومینیم به طریق آبکاری با مخلوط کردن دو پودر سفید رنگ آلکیل پیریدینیوم کلرید با 3AlCl مشاهده شد که این دو با یکدیگر واکنش می‌دهند و مایع بی رنگ آلکیل پیریدینیوم تتراکلروآلومینات تولید می‌شود[11] . با این توصیف همچنان به این دسته از ترکیبات فقط با کنجکاوی نگاه می‌شد تا اینکه در چند دهه اخیر به عنوان جایگزین، برای حلال‌های آلی متداول واکنش‌های شیمیایی مطرح شدند. به طور کلی تعریف‌های گوناگونی برای یک مایع یونی وجود دارند که شاید پذیرفته شده‌ترین آنها «یک ماده متشکل از یون‌ها با نقطه ذوب پایین‌تر از 100 درجه‌ی سانتی‌گراد» باشد [12] . مایعات یونی را با نام های نمک های مذاب، مایعات یونی غیرآبی یا مایعات یونی دمای اتاق نیز می‌شناسند[13] . اگر دمای ذوب نمک زیر دمای اتاق (25درجه‌ی سانتی‌گراد) باشد به آن مایع یونی دمای اتاق می‌گویند. این ترکیبات متشکل از یک کاتیون آلی غیر متقارن سنگین شامل فسفر یا نیتروژن مانند آلکیل ایمیدازولیوم، پیرولیدینیوم، آمونیم، فسفونیوم و انواع مختلفی از آنیون‌های آلی مانند تری فلئورو استات و یا آنیون‌های معدنی کلرید، برمید، تترافلئوروبورات و هگزافلئوروفسفات و ... می‌باشند [13]. ترکیب آنیون‌ها و کاتیون‌های مختلف به طور گسترده تعداد مایعات یونی را گسترش داده‌است و تاکنون بیش از 2000 مایع یونی شناخته شده‌اند. از آنجا که معمولا می‌توان با اتصال یک کاتیون و آنیون خاص مایع یونی مورد نیاز برای یک کاربرد به خصوص را تولید کرد به این حلال‌ها، حلال‌ طراح نیز گفته می‌شود[12] .
مهمترین ویژگی‌های مایعات یونی عبارت‌اند از:[14]
خواص فیزیکی مایعات یونی با تغییر ترکیب شیمیایی آنیون‌ها و کاتیون‌ها تغییر می‌کنند.
مایعات یونی غیر فرارند بنابراین در سیستم‌های با خلاء زیاد قابل استفاده‌اند که این موضوع از بروز برخی مشکلات فرایندی جلوگیری می‌کند.
بسیاری از ترکیبات آلی و معدنی در آنها قابل حل‌اند.
عدم حلالیت مایعات یونی در برخی از حلال‌ها (مانند آلکان‌ها) یک محیط قطبی غیر آبی ایجاد می‌کند که این عامل، در سیستم‌های جداسازی دو فازی و چند فازی، بازیابی کاتالیست را (فرایند سبز) آسان می‌کند.
این ترکیبات می‌توانند، نه تنها به عنوان یک حلال، بلکه به عنوان یک کاتالیست فعال نیز در واکنش شرکت کنند.
همچنین مایعات یونی خواص بی نظیر دیگری از قبیل پنجره‌ی الکتروشیمیایی وسیع، هدایت الکتریکی زیاد، تحرک یونی، گستره‌ی دمایی مایع وسیع، به شدت سولواته کننده، عدم فراریت، اشتعال ناپذیری و گستره‌ی پایداری گرمایی وسیع نیز دارند.
با وجود محدودیت تعداد پایه های کاتیونی مایعات یونی که بیشتر مشتقات ایمیدازول، پیریدین و پیرولیدین هستند، به دلیل تنوع ترکیبی با آنیون های مختلف، امروزه تعداد بیشماری مایع یونی ساخته شده‌است. در مجموع، قابلیت‌های منحصر به فرد مایعات یونی مانند فشار بخار ناچیز، پایداری حرارتی خوب و قابلیت انحلال گونه‌های قطبی، این ترکیبات را جایگزین مناسبی برای حلال‌های آلی فاقد چنین ویژگی‌هایی می‌کند [15]. در نتیجه‌ی همین ویژگی‌ها، مایعات یونی به‌طور گسترده در زمینه‌های مختلف کاربردی شیمی تجزیه شامل: کروماتوگرافی گازی، کروماتوگرافی مایع با عملکرد بالا، استخراج مایع- مایع، میکرواستخراج٬ طیف‌سنجی جرمی، الکتروفورز و حسگرها به کار می‌روند[14] .
از اینرو، با توجه به کاربرد گسترده‌ی مایعات یونی درفرآیند‌های شیمیایی و اهمیت دمای ذوب این ترکیبات در نوع کاربرد آن‌ها‌، در این پروژه سعی شده با استفاده از رویکرد QSPR، مدل‌هایی برای پیش‌بینی دمای ذوب این ترکیبات ارائه گردد و همچنین به منظور بررسی عوامل مؤثر بر بروز فعالیت سمی مایعات یونی در سلول‌های زنده، مسموم کنندگی سلولی این ترکیبات نیز با استفاده از رویکرد QSAR مدل‌سازی شود.

فصل دوم
تئوری

نتایج مطالعات ساختار- فعالیت/ ویژگی علاوه بر شفافسازی نحوه ارتباط بین خواص مولکول‌ها و ویژگی‌های ساختمانی آنها، به پژوهشگران در پیش‌بینی رفتار مولکول‌های جدید براساس رفتار مولکول‌های مشابه کمک می‌کند. به مجموعه ابزارها و روشهایی که به این منظور مورد استفاده قرار می‌گیرند روش‌های پارامتری گویند. در روش‌های پارامتری سعی می‌کنند بین یک سری توصیف کننده‌های مولکولی با فعالیت یا خاصیت مورد نظر ارتباط منطقی برقرار نمایند. توصیف‌کننده‌های مولکولی که به این منظور استفاده می‌شوند، مقادیر عددی می‌باشند که جنبه‌های مختلف ساختاری مولکول را به طور کمی‌نشان می‌دهند. وقتی خصوصیات ساختاری گونه‌ها و فعالیت آنها توسط اعداد و ارقام بیان می‌شود می‌توان رابطه ریاضی یا کمی، بین ساختار و فعالیت گونه ایجاد کرد. این رابطه می‌تواند برای پیشبینی پاسخ بیولوژیکی یا شیمیایی دیگر ساختارها مورد استفاده قرار گیرد. به عبارتی دیگر در این گونه مطالعات توصیفکنندهها به عنوان متغیرهای مستقل و پارامتر بیولوژیکی یا شیمیایی مورد نظر به عنوان متغیر وابسته در نظر گرفته میشوند. در مرحله مدلسازی مدلی از متغیر وابسته بر حسب متغیرهای مستقل ساخته میشود، سپس در مرحله پیشبینی مدل ساخته شده مورد ارزیابی قرار میگیرد. مراحل کلی مدل‌سازی به روش پارامتری به شرح زیر است:
1- جمع آوری سری داده‌ها
2- وارد کردن ساختارهای مولکولی و بهینهسازی آنها
3- محاسبه توصیفکننده‌های مولکولی
4- تجزیه و تحلیل آماری توصیفکندهها و انتخاب مؤثرترین آنها
5- ایجاد مدلهای آماری
6- انتخاب بهترین مدل و ارزیابی اعتبار مدل انتخابشده
2-1) جمعآوری سری دادههااولین مرحله، جمعآوری و انتخاب یک سری مولکولی از منابع قابل اعتماد و در دسترس است. بایستی کمیت مورد مدل‌سازی برای ترکیبات مختلف، در شرایط عملی یکسان بدست آمده باشد تا نتیجه قابل قبولتر و مناسبتری بدست آید. در مدلهای خطی سری دادهها به دو قسمت سری کالیبراسیون و سری ارزیابی تقسیم میشوند[7] . عملیات مدل‌سازی بر روی سری کالیبراسیون که اکثر مولکولها را در بر میگیرد، انجام میشود. از سری ارزیابی برای بررسی قدرت پیشبینی و اعتبار مدل استفاده میشود. ترکیبات سری ارزیابی به نحوی انتخاب میشوند که نماینده جمعیت مولکولهای سری کالیبراسیون باشند. لازم به ذکر است که مولکولهای سری ارزیابی در هیچ یک از مراحل مدل‌سازی شرکت ندارند. در مدل سازی به روشهایی مانند شبکه عصبی مصنوعی از سری کالیبراسیون به دلیل استفاده در مرحله آموزش با عنوان سری آموزشی نام برده میشود. سری ارزیابی نیز به دو دسته به نامهای سری ارزیابی داخلی یا سری پیشبینی و سری ارزیابی خارجی تقسیم میشود. سری پیشبینی برای کنترل خطای مدلسازی و جلوگیری از ایجاد آموزش اضافی در حین ساخت مدل و سری ارزیابی، برای ارزیابی اعتبار مدل و تخمین قدرت پیشگویی آن بهکار میرود.
2-1-1) روش‌های تقسیم بندی سری داده‌ها
به طور معمول، دو روش وجود دارند که از رایج‌ترین روش‌های تقسیم بندی سری داده‌ها در مدل‌سازی QSAR به شمار می‌روند[16] :
1- روش انتخاب تصادفی: در این روش سری داده‌ها به صورت کاملا تصادفی و بدون در نظر گرفتن هیچ گونه معیار خاصی، به سری‌های آموزشی و ارزیابی تقسیم می‌گردد. عمده‌ترین نقص این روش این است که در این روش ترکیبات بدون در نظر گرفتن هیچ‌گونه ارتباطی با ساختارشان، دسته‌بندی می‌گردند. به همین دلیل احتمال بسیار زیادی وجود دارد که ترکیباتی خارج از قلمرو کاربرد مدل، در سری ارزیابی قرار گیرند[7] . بنابراین از آنجایی که این ترکیبات توسط مدل برون‌یابی می‌شوند، پیش‌بینی‌های مدل برای این ترکیبات غیر‌قابل اعتماد خواهد بود[17] .
2- روش مرتبسازیy-: در این روش سری دادهها به صورت نزولی یا صعودی مرتب شده و از هر قسمت آن بهعنوان نماینده یک داده برای قرار گرفتن در سری ارزیابی انتخاب میشود[7] . حتی در این روش نیز ضمانتی وجود ندارد که سری‌های آموزشی و ارزیابی روی تمامی نقاط نماینده در فضای توصیف‌کننده‌ها پراکنده بوده و سری آموزشی بتواند تمامی نقاط موجود در سری داده‌ها را تحت پوشش قرار دهد[18] . در حقیقت انتخاب سری‌های آموزشی و ارزیابی باید بر اساس نزدیکی نقاط نماینده‌ی سری آموزشی به نقاط نماینده‌ی سری ارزیابی در فضای چند بعدی توصیف کننده‌ها صورت گیرد. در اصل مفهوم "نزدیکی"، بر اساس مهمترین فرضی است که منجر به شکل گیری روابط QSAR گردیده است[16] :
" ترکیبات مشابه، خصوصیات مشابهی دارند"
در این پروژه از روشی نوین به نام تحلیل خوشه‌ای (CA) [19]جهت انتخاب صحیح اعضای سری‌های آموزشی و ارزیابی (براساس ساختار) استفاده شده ‌است که در ادامه معرفی می‌گردد.
2-1-1-1) تحلیل خوشه‌ای (CA)
تحلیل خوشه‌ای یا خوشه‌بندی نسبت دادن یک سری از اشیاء به گروه‌های معین (یا خوشه‌ها) می باشد، به نحوی که اشیاء موجود دریک خوشه از برخی جهات مشابه بوده ودارای وجه اشتراک باشند. خوشه‌بندی یکی از روش‌های موجود یادگیری غیر نظارت شده است که روشی معمول برای آنالیز آماری داده‌ها در بسیاری از زمینه‌های علمی شامل: یادگیری ماشینی، داده‌کاوی، تشخیص الگو، آنالیز تصاویر، بازیابی اطلاعات و زیست فناوری می باشند[20] . علاوه بر اصطلاح خوشه‌بندی عبارات دیگری نیز دررابطه باهمین مفهوم مورد استفاده قرار می‌گیرند که شامل: طبقه‌بندی خودکار، دسته‌بندی عددی، آنالیز رده‌شناسی و بتریولوژی می‌باشند.
2-1-1-2) انواع خوشه‌بندی
الگوریتم‌های سلسله مراتبی با استفاده از گروه‌هایی که قبلا تشکیل شده‌اند گروه‌های جدیدی را پیدا می‌کنند. این الگوریتم‌ها غالبا یا تراکمی (از بالا به پایین) هستند، یا انشعابی (از پایین به بالا). الگوریتم‌های تراکمی با هر عنصر که به عنوان یک خوشه‌ی مجزا درنظر گرفته شده است شروع می‌شوند و آنها را به گروه‌های بزرگتر تبدیل می‌کنند[21] . الگوریتم‌های انشعابی با تمامی سری داده شروع می‌شوند و با تقسیم کردن آنها به گروه‌ها یا خوشه‌های کوچکتر ادامه می یابند (شکل 2-1 را ببینید). الگوریتم‌های تفکیکی معمولا تمامی خوشه‌ها را به صورت یکباره تعیین می‌کنند اما می‌توانند بعنوان الگوریتم‌های انشعابی در خوشه‌بندی سلسله‌ای نیز بکار روند. الگوریتم‌های خوشه‌بندی چگالی مبنا، به منظور کشف گروه‌هایی با شکل دلخواه ابداع شده‌اند. در این رویکرد یک خوشه بصورت منطقه‌ای درنظر گرفته می‌شود که چگالی یا تراکم اشیاء در آن از حد آستانه بیشتر باشد. الگوریتم‌های خوشه‌ای فضایی ، به دنبال خوشه‌هایی می‌گردند که فقط بتوان انها را دریک تجسم خاص از داده‌ها (خمیده، بخشی از فضا) مشاهده کرد[22] .

شکل2-1) طرحی ساده از خوشه بندی سلسله‌ای
2-1-1-3) اندازه‌گیری فاصله
یکی از مراحل خوشه‌بندی انتخاب مقیاس اندازه‌گیری فاصله ‌است که نحوه‌ی محاسبه‌ی میزان شباهت دوعنصر را تعیین می‌کند. این انتخاب می تواند بر شکل خوشه‌ها تاثیرگذار باشد بنابراین یک عنصر می تواند براساس نوع فاصله‌ی انتخابی مربوط به یک خوشه‌ی خاص باشد که با تغییر نوع فاصله، این عنصر به خوشه‌ی دیگری تعلق گیرد. توابع فاصله‌ای که متداولترند شامل موارد زیر می شوند: فاصله اقلیدسی، فاصله‌ی منهتن، فاصله ماهالانوبیس، زاویه‌ی بین دو بردار نیز می‌تواند به عنوان مقیاس فاصله در نظر گرفته شود[23] . مورد دیگری که در خوشه‌بندی از اهمیت بالایی برخوردار است این است که آیا از فواصل متقارن استفاه می‌شود یا فواصل نامتقارن. بسیاری از توابع فاصله که در بالا به آنها اشاره شد دارای خصوصیت متقارن بودن فواصل‌اند. این تقارن به این معنی است که فاصله‌ی شیء A از B دقیقا با فاصله‌ی شیء B از A یکسان است. درعین حال باید دقت شود که یک مقیاس مناسب، اندازه‌های متقارن ارائه می‌دهد.
2-1-1-4) دسته‌بندی تفکیکی
انواع زیادی از این نوع دسته‌بندی وجود دارد که در ادامه به تعدادی از آنها اشاره شده است.
2-1-1-4-2) دسته بندی مبهم C- میانگین
(2-1)
دردسته بندی مبهم یا نامشخص[22] ، هرنقطه به جای اینکه کاملا به یک دسته‌ی مشخص نسبت داده شود بادرجه‌ای از میزان تعلق به یک دسته تعیین می‌گردد. بناباین نقاط روی مرز یک دسته می‌توانند متعلق به آن دسته در نظر گرفته شوند اما با درجه‌ی تعلق کمتری نسبت به نقاط مرکزی دسته. برای هرنقطه‌ی x ضریبی تعریف می‌شود که میزان تعلق آن نقطه رابه دسته‌ی K‌ ام نشان می‌دهد Uk(x). معمولا مجموع ضرایب برای هر نقطه‌ای یک تعریف می شود. مرکز یک دسته، مرکز تمامی نقاطی است که میزان تعلق آنها به دسته در فرمول زیر در نظر گرفته می‌شود:
Centerk= xUk(x)mxxUk(x)mx= نقطه
k= دسته
m= پارامتر واقعی
(2-2)
درجه‌ی تعلق با معکوس فاصله تا مرکز دسته ارتباط دارد:
Ukx= 1d (Centerk , x)d= فاصله
‌سپس ضرایب نرمال شده با یک پارامتر واقعی m >1 به نحوی که مجموع آنها یک شود، مبهم سازی می‌گردند.
(2-3)

Ukx= 1j(d (Centerk , x)d (Centerj , x))2(m-1)برای 2= m به راحتی می توان به نحوی نرمال سازی راانجام داد که مجموع مقادیر آنها به صورت خطی یک شود. این الگوریتم با الگوریتم k- میانگین بسیار مشابهت دارد.
2-1-1-4-3) الگوریتم دسته‌بندی QT
دسته بندی QT (آستانه کیفیت)[21] روش جایگزین برای تفکیک داده‌ها در دسته بندی‌های ژنی است. این الگوریتم درمقایسه با الگوریتم K- میانگین به نیروی محاسباتی بیشتری نیازمند است، اما به تعیین تعداد دسته‌ها پیش از اجرای الگوریتم نیاز ندارد وهمیشه نتایج یکسانی را پس از هر مرتبه اجرا بدست می‌دهد. در این روش فاصله‌ی بین یک نقطه ویک گروه از نقاط با استفاده از روش اتصال کامل (در نظر گرفتن بیشترین فاصله از نقطه‌ی مورد نظر تا هر نقطه از اعضای گروه )‌ محاسبه می شود.
2-1-1-4-1) خوشه بندی K- میانگین
(2-4)
الگوریتم K-میانگین [16]روشی از آنالیز خوشه‌ای است که n شیء را به k سری دسته‌بندی می‌کند. هرنقطه از داده‌ها به دسته‌ای اختصاص می‌یابد که مرکز آن نزدیکترین محل به نقطه‌ی مورد نظر است. مرکز، درحقیقت میانگین تمامی نقاط درون دسته است. اگر یک سری از اشیاء را به صورت {x1, x2, …, xn}در نظر بگیریم به نحوی که هر شیء یک بردار حقیقی d بعدی باشد، خوشه‌بندی K- میانگین تلاش می‌کند تا n شیء را به k سری تقسیم‌بندی کند (n S={s1, s2, …, sn} (k ≤، به صورتی که مجموع مربعات درون خوشه‌ای (wcss) کمترین مقدار باشد.
argsmini=1kxi∈sixj-μi2xj=شیءS= دسته
در این رابطه، μi میانگین نقاط درون si می‌باشد.
اصطلاح « K- میانگین» برای اولین بار توسط جیم مک کویین در سال 1967 به کار برده شد. هر چند که نظریه‌ی‌ اولیه‌ی آن مربوط به شخصی به نام هوگو اسین‌هاوس در سال 1956 می‌باشد. الگوریتم‌های مختلفی از الگوریتم‌های اکتشافی برای حل مسئله‌ی خوشه‌بندی K- میانگین وجود دارد که متداولترین آنها الگوریتم استاندارد می‌باشد. این الگوریتم از روش پالایش مکرر بهره می‌برد. شایان ذکر است که این الگوریتم در علم رایانه تحت عنوان الگوریتم للوید نیز شناخته می‌شود.
با فرض اولیه‌ی K- میانگین {m1, …, mk}، الگوریتم با نوسان بین دو مرحله جلو می‌رود. اولین مرحله، مرحله‌ی تعیین یا انتصاب است که در آن هر شیء به خوشه‌ای که دارای نزدیکترین میانگین است تعلق می‌گیرد. در حقیقت اشیاء مورد نظر با در نظر گرفتن رابطه‌ی زیر دسته‌بندی می‌گردند.
(2-5)

si(t)= xj:xj-mi(t)≤xj-mi(t) for all i=1, 2, …, ks= دسته
m=میانگین
x=شیء
مرحله‌ی دوم، مرحله‌ی نوسازی می‌باشد. در این مرحله میانگین‌های جدیدی (طبق فرمول زیر) محاسبه می‌گردند که در مرکز اعضای خوشه قرار دارند.
(2-6)
mi(t)= 1si(t)xj∈ si(t)xjs= دسته
m=میانگین
x=شیء
زمانی که در انتصابات انجام گرفته دیگر تغییری صورت نگیرد، الگوریتم به همگرایی رسیده است و پایان یافته تلقی می‌گردد. مراحل این الگوریتم به اختصاربه صورت زیر است:
تعداد دسته‌ها راانتخاب می‌کنیم (K).
بصورت تصادفی K دسته ایجاد ومراکز آنها تعیین می‌گردند.
مراکز دسته‌های جدید دوباره محاسبه می‌گردند.
دومرحله‌ی قبلی را تا زمانی که الگوریتم به همگرایی برسد (یعنی زمانی که اعضای موجود دردسته دیگر تغییر نکنند) تکرار می شوند.
مهمترین مزیت این الگوریتم سادگی وسرعت آن است که اجازه می‌دهد آن رابرروی سری داده‌های بزرگ اجرا کنیم. درعین حال دو نکته وجود دارند که باید مد نظر قرار گیرند:
مفهوم میانگین باید به وضوح برای تمامی مراحل تعریف شده وثابت باشد.
از آنجایی که دسته‌ها در ابتدا به صورت تصادفی تشکیل می‌گردند، نتایج حاصله می توانند در هر مرتبه از اجرای الگوریتم متفاوت باشند، بناباین داشتن درکی کلی از تعداد دسته‌های موجود درسری داده به صورت تجربی به اجرای صحیح این الگوریتم کمک می کند.

2-2) بهینهسازی ساختارهای مولکولی
مولکولها معمولا با استفاده از نرمافزارهایی مانند Hyperchem [24] رسم میشوند. درنهایت، ساختار مولکولها به وسیله روش مکانیک مولکولی و یا روشهای نیمه تجربی بهینه میشوند. سپس ماتریس سه‌بعدی این ساختارها به صورت ورودی به نرمافزارهایی مانندMopac [25]، Dragon [26]وارد شده تا توصیفکنندههای مولکولی محاسبه شوند.

2-3) محاسبه توصیفکنندههای مولکولیتوصیفکنندههای مولکولی نتیجه نهایی یک استدلال و روش ریاضی هستند که اطلاعات شیمیایی را به رمز تبدیل می‌کنند و آنها را به صورت یک نماد نشان می‌دهند طوری که ارائه دهنده ویژگیهای یک مولکول به صورت یک عدد مفید ‌باشند. برای مثال ممکن است توصیف‌کننده‌ها، ویژگی‌های فیزیکی و شیمیایی یک مولکول باشند و یا ممکن است مقادیر ناشی از بکارگیری روش‌های الگوریتمی برای ساختارهای مولکولی باشند. به عبارت دیگر میتوان گفت که هر توصیفکننده، اطلاعات خاصی از مولکول را که بر کمیت مورد مدلسازی اثر میگذارد در اختیار قرار میدهد که از اهمیت به سزایی برخوردار است. در صورتی که توصیفکنندههای انتخاب شده مناسب نباشند، عمل مدل‌سازی با مشکل مواجه شده و مدل مناسب به دست نخواهد آمد. بنابراین در انتخاب توصیفکنندهها باید دقت کرد و توصیفکنندههایی میبایست انتخاب شوند که در ارتباط با ویژگی مورد نظر مولکول بوده، فهم و تفسیر آنها آسان باشد و بتوانند به ساختارهای متفاوت، مقادیر عددی متفاوتی بدهند.
توصیفکنندهها را بر اساس چگونگی بیان خصوصیات مولکول میتوان به چند دسته کلی تقسیم کرد، که معروفترین آنها در اینجا آورده شده است:
1- توصیفکنندههای ساختاری
2- توصیفکنندههای توپولوژیکی
3- توصیفکنندههای هندسی
4- توصیفکنندههای الکترونی
5- توصیفکنندههای فیزیکوشیمیایی
6- توصیفکنندههای توسعهیافته
7- توصیفکنندههای LFER
2-3-1) توصیفکنندههای ساختاریاین سری توصیفکنندهها عمومیترین توصیفکنندههای مورد استفاده میباشند که ساختار ترکیب را بدون هیچگونه اطلاعاتی درباره هندسه مولکولی آن در اختیار قرار میدهند. از مهمترین توصیفکنندههای ساختاری میتوان تعداد اتمها، تعداد پیوندها، تعداد مطلق و نسبی انواع اتمهای مورد نظر و تعداد مطلق و نسبی انواع پیوندها را نام برد. این دسته توصیفکنندهها به تغییرات پیکربندی حساس نیستند و بین ایزومرها تمایزی قائل نمیشوند.
2-3-2) توصیفکنندههای توپولوژیکیتوصیف‌کننده‌های توپولوژیکی جزء سادهترین نوع توصیف‌کننده‌ها می‌باشند و به ساختار فضایی مولکول ارتباطی نداشته و تنها به نوع اتمها، نوع پیوندها و نحوه ارتباط اتم‌ها به یکدیگر وابستهاند. این پارامترها را می‌توان بدون بهینه کردن ساختار مولکول محاسبه کرد. توصیف‌کننده‌های توپولوژیکی خود به چهار دسته، توصیفکنندههای جزء، زیر ساختاری، اندیسهای توپولوژی و توصیفکنندههای محیطی تقسیم میشوند و شکلهای ساختاری از قبیل مسیر و ارتباطات را مشخص میکنند.
2-3-2-1) توصیفکنندههای جزءاین گروه از توصیفکنندهها مشخص کننده اطلاعات ساده مولکولی بوده و از نظر محاسبه سادهترین نوع توصیفکنندهها میباشند مقدار توصیفکنندههای فوق به سادگی از فرمول مولکولی ترکیب مورد نظر قابل محاسبه میباشند. این نوع از توصیفکنندهها میتوانند جرم مولکولی، حضور یا عدم حضور گروههای عاملی خاص و یا اتمهای معینی را در مولکول نشان دهند.
2-3-2-2) اندیسهای توپولوژیاین اندیسها دستهای از توصیفکنندههای توپولوژیکی هستند که اطلاعاتی راجع به ساختمان، اندازه و میزان شاخهای شدن مولکول، نحوه اتصال اتمها و نوع اتمهای موجود در یک را مولکول در اختیار ما قرار میدهند. و از روی شکل‌های شیمیایی مولکولها بدست می‌آیند. شکل نمایش دهنده ساختار به شیوه انتزاعی است که در آن اتمهای مولکول به صورت نقطه و پیوندهای میان اتمها به صورت خطهای راست رسم شده باشند. در شکل شیمیایی وجود پیوند میان اتمها اهمیت دارد نه ماهیت آن پیوند شیمیایی. از جمله اندیسهای توپولوژی میتوان اندیس بالابان و عدد واینر را نام برد.
2-3-2-3) توصیفکنندههای زیرساختاری
این توصیفکنندهها اطلاعاتی را در مورد وجود یا عدم وجود گروههای عاملی خاص یا زیرساختارهای معین در مولکول فراهم میسازند. اگر زیرساختار مشخصی در مولکول وجود داشته باشد، توصیفکننده مقداری معادل با تعداد دفعات تکرار آن زیر ساختار در مولکول را خواهد داشت ودر غیر این صورت مقدار آن صفر خواهد شد.
2-3-2-4) توصیفکنندههای محیطیاین نوع توصیفکنندهها نحوه قرار گرفتن یک زیرساختار را در مولکول نشان میدهند. اگر یک زیرساختار خاص در مولکول وجود داشته باشد، آنگاه یک شبه مولکول توسط این زیرساختار و اولین اتم مجاور آن تشکیل میشود. مقدار توصیفکننده محیطی برای این زیرساختار خاص برابر با اندیس ارتباطی مولکول مسیر درجه اول برای شبه مولکول حاصل میباشد. در صورتی که یک زیرساختار معین چند بار در مولکول تکرار شده باشد، مقدار متوسط اندیس ارتباطی آنها در نظر گرفته میشود.
2-3-3) توصیفکنندههای هندسیتوصیفکنندههای هندسی نسبت به نوع توپولوژیک از اهمیت بیشتری برخوردارند. یکی از خصوصیات بارز این توصیفکنندهها، ارتباط آنها با ساختار سه بعدی مولکولها میباشد. بنابراین قبل از محاسبه این توصیفکنندهها باید پایدارترین ساختار فضایی مولکول تعیین شود که بهینه کردن مولکول توسط روشهای کوانتوم-مکانیک انجام میشود. حجم واندروالس، مساحت سایه، فاکتور شکل از این نوع توصیفکنندهها میباشند.
2-3-4) توصیفکنندههای الکترونیتوصیفکنندههای الکترونی بیانگر خواص الکترونی مولکولها میباشند و اطلاعات مفیدی راجع به برهمکنشهای الکترونی بین مولکولی و درون مولکولی ارائه میدهند. این نوع از برهمکنشها خواص فیزیکی و شیمیایی مولکولها را به شدت تحت تأثیر قرار میدهند. اهمیت این برهمکنشها به ویژه هنگامی که مولکولهای عملکننده قطبی باشند، بیشتر میشود. با توجه به اینکه مولکولها از تعدادی الکترون، پروتون و نوترون تشکیل شدهاند، بنابراین بسیاری از رفتارهای مولکول را میتوان با توجه به تأثیرات متقابل الکتریکی درک و توجیه نمود. هر نوع توصیفکنندهای که بتواند به نحوی یکی از عوامل مؤثر در برهمکنشهای الکترونی را بیان کند، در گروه توصیفکنندههای الکترونی قرار میگیرد. بار جزئی اتمها، نحوه توزیع بار در مولکول، فاصله بین بارهای مخالف، گشتاور دوقطبی و قطبشپذیری مولکولها را میتوان در این مورد نام برد.
2-3-5) توصیفکنندههای فیزیکو- شیمیایی
این توصیفکنندهها از جمله مهمترین توصیفکنندهها هستند و با برهمکنشهای حیاتی، همبستگی بالایی نشان میدهند. این دسته از توصیفکنندهها بیانگر بعضی از خواص فیزیکی و شیمیایی مولکولها میباشند که به ساختار مولکول وابستگی شدیدی نشان میدهند. از میان آنها میتوان لگاریتم ضریب تقسیم آب- اکتانول، ویسکوزیته، شکست مولکولی، نقطه ذوب و نقطه جوش را نام برد.
2-3-6) توصیفکنندههای توسعهیافته
توصیفکنندههایی هستند که میتوانند همزمان فرم ساختاری و الکترونی مولکول را لحاظ کنند. سرعت بالای محاسبه و دارا بودن اطلاعات بیشتری از مولکول از جمله مزایای این توصیفکنندهها میباشد. مساحت سطح جزئی باردار شده (CPSA)، مساحت سطح آبگریزی (HPSA)و توصیفکنندههای کلی‌نگر ثابت مولکولی (WHIM) برخی از توصیف کنندههای توسعه یافته هستند.

2-3-7) توصیفکنندههای LFERمعادله کلی LFER در سال 1994 توسط آبراهام و همکارانش ارائه شد[27] . اساس معادله آنها بر مبنای
بررسی حلالیت نمونههای مختلف در یک حلال واحد بود. این معادله مستقیما ترمهای مختلف حلالیت نمونه را به یکی از خواص نمونه نسبت میدهد. فرمول زیر معروف به معادله LFER میباشد:
(2-7)
که در آن SP نشاندهنده یک خاصیت از نمونه یا جسم حلشونده، V به عنوان ترم تشکیل حفره، E نشاندهنده ضریب شکست مولی اضافی، S پارامتر قطبیت، A به عنوان خصلت اسیدی پیوند هیدروژنی و B نشاندهنده خصلت بازی پیوند هیدروژنی میباشند. به پارامترهای E، S، A، Bو V توصیفکنندههای LFER نمونه میگویند که مقادیر آنها به خود نمونه بستگی دارد و برای هر نمونه مقداری معین و ثابت میباشد. در معادله فوق به ضرایب e، s، a، b، v ثابتهای سیستم گفته میشود. این ضرایب از برهمکنش نمونه با فازها حاصل میشوند و از طریق رگرسیون خطی چندگانه اندازهگیری میشوند.
2-4) تجزیه و تحلیل آماری توصیفکنندهها و انتخاب مؤثرترین آنها
داده‌های خام معمولا دچار مشکلاتی مانند نوفه، بایاس، تغییرات شدید در بازه دینامیکی و نمونه برداری هستند و استفاده از آنها به همین صورت موجب تضعیف طراحی‌های بعدی خواهد شد. بدین منظور نخست متغیرهایی را که برای 80 تا 95 درصد از مولکولها یکسان هستند، حذف میکنیم، سپس در مرحله دوم همبستگی بین متغیرها را محاسبه میکنیم. ماتریس مربع ضرایب همبستگی تشکیل داده میشود و از بین توصیفکنندههایی که حاوی اطلاعات مشابهی هستند یعنی ضریب همبستگی بالایی با یکدیگر دارند (9/0R>) یکی از آنها که معمولا نحوه محاسبه آسانتری داشته یا همبستگی بیشتری با پاسخ مورد نظر دارد، حفظ شده و بقیه حذف میگردند. از آنجا که بازه تغییرات توصیف کننده‌های محاسبه شده یکسان نبود و با در نظر گرفتن این که مقدار عددی بیشتر توصیف کننده‌ها لزوما نشان دهنده‌ی اهمیت بیشتر آنها نمی‌باشد، از روش بهنجار کردن (طبق رابطه‌ی زیر) در این پروژه جهت پیش پردازش داده‌ها استفاده شد.
(2-8)
yij= xij-μiσiدر این رابطه
xij داده‌ی اصلی، yij داده‌ی تغییریافته، μi میانگین و σi واریانس توصیف کننده بر روی n داده می‌باشند.
پس از کاهش تعداد توصیفکنندهها، مرحله انتخاب متغیر با توجه به پاسخ دادههای QSPR / QSAR انجام میشود. روشهای مختلفی برای انتخاب مؤثرترین توصیفکنندهها وجود دارد. الگوریتم ژنتیک (GA)، یکی از موفق‌ترین روش‌های مطرح در مطالعات ساختار – فعالیت می‌باشد که در این پروژه از آن بهره گرفتیم [28].

2-4-1) الگوریتم ژنتیک (GA)
الگوریتم ژنتیک[28] تکنیک جستجویی در علم رایانه برای یافتن راه‌حل تقریبی برای بهینه‌سازی و مسائل جستجو است. الگوریتم ژنتیک نوع خاصی از الگوریتمهای تکامل است که از تکنیکهای زیست‌شناسی فرگشتی مانند وراثت و جهش استفاده می‌کند و از برترین روش‌های انتخاب متغیر در مطالعات کمومتریکس به شمار می‌رود. در واقع الگوریتم‌های ژنتیک از اصول انتخاب طبیعی داروین برای یافتن فرمول بهینه جهت پیش‌بینی یا تطبیق الگو استفاده می‌کنند. الگوریتم‌های ژنتیک اغلب گزینه خوبی برای تکنیک‌های پیش‌بینی بر مبنای رگرسیون هستند. مختصرا گفته می‌شود که الگوریتم ژنتیک یا (GA) یک تکنیک برنامه‌نویسی است که از تکامل ژنتیکی به عنوان یک الگوی حل مسئله استفاده می‌کند. مسئله‌ای که باید حل شود ورودی است و راه ‌حل‌ها طبق یک الگو کدگذاری می‌شوند و تابع برازندگی نیز برای ارزیابی کیفیت راه حل‌های ارائه شده به کار می‌رود. هر راه حل، کاندیدی را ارزیابی می‌کند که اکثر آنها به صورت تصادفی انتخاب می‌شوند. کلا این الگوریتم‌ها از بخش‌های زیر تشکیل می‌شوند : تابع برازش، نمایش، انتخاب، تغییر.
2-4-1-1) اصول الگوریتم‌های ژنتیکی
هنگامی که لغت تنازع بقا به کار می‌رود اغلب بار ارزشی منفی آن به ذهن می‌آید. شاید همزمان قانون جنگل به ذهن برسد. قانون انتخاب طبیعی بدین صورت است که تنها گونه‌هایی از یک جمعیت ادامه نسل می‌دهند که بهترین خصوصیات را داشته باشند و آنهایی که این خصوصیات را نداشته باشند به تدریج و در طی زمان از بین می‌روند. در حقیقت طبیعت با بهره‌گیری از یک روش بسیار ساده (حذف تدریجی گونه‌های نامناسب و در عین حال تکثیر بالاتر گونه‌های بهینه)، توانسته است دائما هر نسل را از لحاظ خصوصیات مختلف ارتقاء بخشد. در دهه هفتاد میلادی دانشمندی از دانشگاه میشیگان به نام جان هلند ایده استفاده از الگوریتم ژنتیک را در بهینه‌سازی‌های مهندسی مطرح کرد. ایده اساسی این الگوریتم انتقال خصوصیات موروثی توسط ژن‌هاست. فرض کنید مجموعه خصوصیات انسان توسط کروموزوم‌های او به نسل بعدی منتقل می‌شوند. هر ژن در این کروموزوم‌ها نماینده یک خصوصیت است. بعنوان مثال ژن 1 می‌تواند رنگ چشم باشد، ژن 2 طول قد، ژن 3 رنگ مو و الی آخر. حال اگر این کروموزوم به طور کامل به نسل بعد انتقال یابد، تمامی خصوصیات نسل بعدی شبیه به خصوصیات نسل قبل خواهد بود. بدیهی است که در عمل چنین اتفاقی رخ نمی‌دهد. در واقع بصورت همزمان دو اتفاق برای کروموزوم‌ها می‌افتد. اتفاق اول جهش است. جهش، به این صورت است که بعضی ژن‌ها بصورت کاملا تصادفی تغییر می‌کنند. البته تعداد این گونه ژن‌ها بسیار کم می‌باشد اما در هر حال این تغییر تصادفی بسیار مهم است. علاوه بر جهش اتفاق دیگری که می‌افتد و البته این اتفاق به تعداد بسیار بیشتری نسبت به جهش رخ می‌دهد چسبیدن ابتدای یک کروموزوم به انتهای یک کروموزوم دیگر است. این مسأله با نام تقاطع شناخته می‌شود[28] . این همان چیزیست که مثلا باعث می‌شود تا فرزند تعدادی از خصوصیات پدر و تعدادی از خصوصیات مادر را با هم به ارث ببرد و از شبیه شدن تام فرزند به تنها یکی از والدین جلوگیری می‌کند. در مسائل انتخاب متغیر، ابتدا به صورت اتفاقی یک جمعیت از رشته‌ها (ژنوم‌ها یا راه حل‌ها) تولید می‌شود. در اینجا هررشته یک بردار سطری است که عناصر آن را متغیرها تشکیل می‌دهند و هر عنصر به صورت صفر یا یک در رشته کددار شده است. صفر برای مواقعی که متغیر وجود ندارد و یک برای موقعی که متغیر وجود دارد. برای هررشته از این جمعیت که به طور اتفاقی تولید شده مقدار شایستگی محاسبه می‌شود و بهترین رشته‌ها انتخاب می‌شوند و تحت عمل ترکیب و جهش قرار می‌گیرند. این فرآیند چند مرتبه تکرار می‌شود تا در نهایت به حل بهینه برسیم. شمای کلی از نحوهٔ عملکرد این الگوریتم در شکل زیر نمایش داده شده‌است.
جهش
زایش
فرزندان
کروموزوم
نسل جدید
جمعیت جدید
جمعیت آغازین
مورد ایده‌آل
ارزیابی سازش
انتخاب والدین برتر

شکل 2-2) شمایی کلی از الگوریتم ژنتیک
2-4-1-2) روش‌های انتخاب
روش‌های مختلفی برای الگوریتم‌های ژنتیک وجود دارند که می‌توان برای انتخاب ژنوم‌ها از آن‌ها استفاده کرد. اما روش‌های لیست شده در پایین از معمول‌ترین روش‌ها هستند.[28]
انتخاب اصلح: مناسب‌ترین عضو هر اجتماع انتخاب می‌شود.
انتخاب رولت: یک روش انتخاب است که در آن عنصری که عدد برازش (تناسب) بیشتری داشته باشد، انتخاب می‌شود. در واقع به نسبت عدد برازش برای هر عنصر یک احتمال تجمعی نسبت میدهیم و با این احتمال است که شانس انتخاب هر عنصر تعیین می‌شود.
انتخاب مقیاسی: به موازات افزایش متوسط عدد برازش جامعه، سنگینی انتخاب هم بیشتر می‌شود و جزئی‌تر. این روش وقتی کاربرد دارد که مجموعه دارای عناصری باشد که عدد برازش بزرگی دارند و فقط تفاوت‌های کوچکی آن‌ها را از هم تفکیک می‌کند.
انتخاب رقابتی: یک زیر مجموعه از صفات یک جامعه انتخاب می‌شوند و اعضای آن مجموعه با هم رقابت می‌کنند و سرانجام فقط یک صفت از هر زیرگروه برای تولید، انتخاب می‌شوند.
2-5) ایجاد مدلهای آماری
پس از ارزیابی توصیفکنندهها و انتخاب مناسبترین آنها، با استفاده از روشهای آماری مختلف به جستجوی مدل مناسبی پرداخته میشود که بتواند ارتباط بین توصیفکنندههای انتخابی و پارامترهای مورد مدلسازی را به درستی بیان کند. برای مدلسازی از روشهای گوناگون خطی و غیرخطی میتوان استفاده کرد. در پژوهش حاضر، از روش MLR به عنوان یک روش خطی و از میان روشهای غیرخطی، شبکه‌ی عصبی پرسپترون چند لایه از شبکههای عصبی مصنوعی استفاده گردید که در ذیل به طور مختصر شرح داده میشوند.
2-5-1) رگرسیون خطی چندگانه
رگرسیون خطی چندگانه روشی است که برای مدلسازی رابطه خطی بین یک متغیر وابسته با یک یا چند متغیر مستقل بهکار برده میشود. متغیر وابسته گاهی مورد پیشبینی و متغیر مستقل پیشبینیکننده نامیده میشوند. در کار ما، توصیفکنندهها به عنوان متغیرهای مستقل درنظر گرفتهشده و کمیت مورد مدلسازی در نقش متغیر وابسته ظاهر میشود. رابطه کلی به صورت زیر است:
(2-9)
در این رابطه، yi کمیت مورد مدلسازی، xi, k مقدار k اُمین توصیفکننده مربوط به i اُمین ترکیب، k تعداد کل توصیفکنندهها، b ثابت رگرسیون، bk ضریب k اُمین توصیفکننده و ei ترم خطا می‌باشند. مدل بالا با حداقل مربعات تخمین زده میشود، یعنی باید به مدلی منجر شود که مجموع مربعات خطاها در آن مدل حداقل شود. معادله پیشبینی شده، مدل زیر است:
(2-10)
در اینجا علامت « ^ » مقادیر پیشبینی شده را نشان میدهد. باقیماندههای رگرسیون به صورت زیر تعریف میشود:
(2-11)
در اینجا yi پارامتر مشاهده شده i وyi پارامتر پیشبینی شده i میباشد.
الگوریتم MLR طوری است که مجموع باقیماندهها در سری دادهها صفر شود. واریانس باقیماندهها نیز سایز خطا را در نظر میگیرد که اگر مدل روی دادهها به خوبی منطبق شود، کوچک میباشد. در این روش هر چه درجه خطی بودن رابطه بین متغیرهای مستقل با وابسته بیشتر باشد و برهمکنش متغیرهای مستقل با یکدیگر کمتر باشد ، مدل بهتری بدست خواهد آمد.
2-5-2) شبکه‌های عصبی پرسپترون چند لایه(MLP)
اولین کارهای مربوط به شبکه‌های عصبی به سال 1943 برمیگردد، زمانی که یک فیزیولوژیست اعصاب به نام مک‌کلا و یک ریاضیدان به نام پیتس رساله خود را در مورد نحوه عملکرد احتمالی نرون‌ها در مغز منتشر کردند. از آن زمان تا سال حدود 1959 این موضوع مورد توجه مهندسین قرار نگرفت. اما در این سال از شبکه‌های عصبی به عنوان فیلتر تطبیقی در خطوط تلفن مورد استفاده قرار گرفت که اولین استفاده شبکه عصبی در دنیای واقعی نیز بود. در سال 1962رزنبلات مفهوم پرسپترون تک لایه را به عنوان ابزاری مفید در دسته‌بندی مجموعه‌های از داده‌ها به دو کلاس معرفی و برای قانون آموزش پرسپترون، اثبات پایداری ارایه نمود. در سال 1969 ، مینسکی و پپرت در رساله‌اشان و کتابی به نام پرسپترون‌ها نشان دادند که شبکه عصبی (تک لایه) در جداسازی مجموعه داده‌هایی که به صورت غیرخطی جداپذیرند ضعیف عمل می‌کند. مینسکی و پپرت ضعف‌های دیگری از شبکه‌های عصبی را نیز نشان دادند. آنها همچنین به اشتباه اظهار داشتند که چندلایه کردن شبکه عصبی، تاثیری در حل محدودیت‌های گفته شده ندارد؛ هر چند در ادامه تاکید کردند که پژوهش در این زمینه ارزشمند میباشد. این امر موجب شد پژوهش وسرمایه‌گذاری در زمینه شبکه عصبی به شدت کاهش یابد. در سال1982 ، اتفاقات زیادی موجب علاقه دوباره به شبکه عصبی شد. از آن جمله می‌توان به ارایه مدلی توسط هپفیلد با اتصال دو طرفه نرون‌ها و برگزاری کنفرانس آمریکایی-ژاپنی با عنوان شبکه‌های عصبی همیاری- رقابتی در کیوتوی ژاپن نام برد. شبکه‌های عصبی از این شروع مجدد پژوهش‌ها تا به حال، پیشرفت‌های زیادی به چشم دیده است. مدل‌های مختلف و روش‌های آموزش متنوعی معرفی و توسعه داده شدند و شبکه‌های عصبی در کاربردهای مختلفی برای تشخیص الگو، تقریب توابع و مدل‌سازی سیستم‌های دینامیکی خطی و غیرخطی و ... مورد استفاده قرار گرفتند. در مرجع [29]گردآوری خوبی در زمینه تاریخچه‌ی شبکه عصبی انجام شده است .در ادامه به بررسی عملکرد شبکه عصبی [30] MLP و نحوه آموزش آن می‌پردازیم.
2-5-2-1) تک نرون و ساختار (MLP)
یک نرون دارای M ورودی xi و یک خروجی است که ما آن را Y می‌نامیم (شکل2-3). هر ورودی با یک وزن wi همراه است. معمولا پارامتر دیگر W0 نیز وجود دارد که بایاس نامیده می‌شود و می‌تواند به عنوان وزنی در نظر گرفته شود که به ورودیX0 متصل است به صورتی که مقدار X0 همواره 1 در نظر گرفته می‌شود. یک تک نرون همواره به صورت پیشخور درنظر گرفته می‌شود به این معنی که اتصالات همواره از سمت ورودی‌ها به خروجی جهت‌دهی شده‌اند و به عبارت دیگر جهت جریان اطلاعات در تک نرون همواره از ورودی به خروجی است.

شکل 2-3) شمایی کلی از یک نرون
در حقیقت می‌توان گفت که یک تک نرون یک تابع f(x,y) را پیاده‌ سازی می‌نماید؛ از دیدگاه ورودی-خروجی، خروجی تک نرون، y، تابعی غیر خطی از ورودی‌های x است. پارامترهای این تابع را وزن‌ها و بایاس، w تشکیل می‌دهند. برای فعال شدن هر نرون توابع محرک مختلفی وجود دارد که بعضی از پرکاربردترین آنها شامل؛ توابع خطی، سیگمویید (لگاریتمی)، سیگمویید (تانژانت هیپربولیک)، تابع آستانه و تابع متقارن آستانه می‌باشند[31] . معمولا تابع محرک به وسیله طراح انتخاب می‌شود و سپس وزن‌ها و بایاس به وسیله یک الگوریتم آموزش، به گونه‌ای تنظیم می‌شوند که رابطه ورودی-خروجی نرون یک هدف مشخص را ارضا کند. ساده‌ترین شکل استفاده از پرسپترون‌ها استفاده از آنها در یک لایه است. شکل 2-4، ساختار شبکه عصبی تک لایه را نشان می‌دهد. همانگونه که مشاهده می‌شود ساختار شبکه عصبی تک لایه، شامل تعدادی گره ورودی است که به ورودی تعدادی پرسپترون که در یک لایه (لایه خروجی) قرارگرفته‌اند متصل شده‌اند.

شکل 2-4) ساختار کلی پرسپترون تک لایه
2-5-2-2) پرسپترون چند لایه
باید در نظر داشت که پرسپترون تک‌لایه تنها قادر به حل مسائل خطی است و این یکی از نواقص آن به شمار می‌رود. برای حل مسائل غیر خطی و همچنین زمانی که متغیرها دارای همپوشانی یا همبستگی باشند به تعداد لایه‌های بیشتری نیاز داریم. شکل 2-5، یک شبکه دولایه (یک لایه خروجی و یک لایه میانی) را نشان می‌دهد. لایه میانی به طور مستقیم از محیط خارج ورودی دریافت نکرده و به دنیای خارج نیز مستقیما خروجی نمی‌دهند، به همین دلیل به این لایه‌ی از دیدگاه خارج، لایه‌ی پنهان نیز می‌گویند.[32]

شکل 2-5) ساختار شبکه پیشرو دولایه با توابع سیگموید در لایه پنهان و لایه خروجی
در این نوع شبکه‌ها معمولا هر گره به تمامی گره‌های لایه بعدی متصل است که به این حالت اتصال کامل گفته می‌شود. همچنین همه مسیرها در جهت ورودی به خروجی است و مسیر برگشتی وجود ندارد به همین دلیل به این نوع شبکه‌ها پیشخور گفته می‌شود.
2-5-2-3) آموزش شبکه‌های عصبی MLP
به فرآیند تغییر w و b طوری که منجر به کاهش مقادیر خطاهای شبکه شود، مرحله آموزش گویند. از شبکه آموزش دیده میتوان به عنوان ابزاری برای پیشبینی فعالیت (خاصیت) سری جدید ورودیها استفاده کرد. هدف نهایی آموزش تصحیح خطا، کم کردن تابع هزینه‌ای است که بر اساس خطای شبکه تعریف می‌شود[32] . از یک دیدگاه، وقتی تابع هزینه تعریف می‌شود، (ti )، اختلاف خروجی شبکه و مقدار آموزش شبکه در واقع حل یک مساله بهینه‌سازی است. یک تابع هزینه‌ای که به صورت معمول مورد استفاده قرار می‌گیرد مجموع مربعات خطا است:
(2-12)
εw=12er2e= خطا
W= بایاس
اندیس r نشان‌دهنده‌ی مجموع بر روی همه‌ی r خروجی شبکه می‌باشد. در این حالت، آموزش شبکه، تنظیم وزن‌ها برای کمینه کردن یک تابع هزینه درجه دوم می‌باشد. نمودار تابع هزینه بر حسب وزن‌ها یک اَبَررویه است که رویه‌ی خطا نامیده می‌شود. بسته به نوع تابع محرک در شبکه دو حالت ممکن است به وجود آید: اگر در شبکه فقط از نرون‌های خطی استفاده شده باشد: رویه خطا، یک تابع کاسه‌ای شکل و دارای یک کمینه است. اگر شبکه از نرون‌های غیر خطی هم استفاده کند: رویه خطا یک (یا چند) کمینه کلی دارد که کمینه‌ی (های) محلی است. نمونه‌ای از این حالت در شکل 2-6 آورده شده است.

شکل 2-6) کمینه کلی و کمینه محلی
به دست آوردن کمینه تابع هزینه برای آموزش بسیاری از شبکه‌ها کار ساده‌ای نیست و معمولا از روش‌های بر پایه تکرار بر پایه گرادیان یا الگوریتم‌های جستجوی هوشمند استفاده می‌شود. ویژگی‌های یک الگوریتم مناسب، همگرایی، سرعت همگرایی، ترفند برای گیر نکردن در بهینه‌های محلی و حجم محاسبات کم می‌باشد.
روش‌های آموزش از یک دیدگاه به دو دسته عمده تقسیم می‌شوند:
آموزش با ناظر: در این روش نمونه‌های آموزشی به شبکه اعمال شده و خروجی حاصل توسط سیستم یادگیری با خروجی مطلوب مقایسه می‌شود. از سیگنال خطای حاصل جهت تصحیح پارامترهای شبکه استفاده می‌شود. شکل 2-6، نمونه‌ای از ساختار کلی آموزش با ناظر را نشان میدهد.
آموزش بدون ناظر: در این حالت خروجی مطلوب در دست نمی‌باشد. پارامترهای سیستم با توجه به پاسخ سیستم و شاخص‌های اجرایی تعیین شده مانند شباهت در پاسخ، اصلاح و تنظیم می‌گردد.

شکل 2-7) ساختار کلی آموزش با ناظر
در این پایان‌نامه از روش لونبرگ- مارکوارت برای آموزش وزن‌های شبکه استفاده شده‌است. در ادامه به معرفی مختصر این روش می‌پردازیم. الگوریتم لونبری-مارکوات طوری طراحی شدهاست که نیاز به محاسبه ماتریس هسیان ندارد، بنابراین باعث افزایش سرعت آموزش میشود. وقتی تابع اجرایی به فرم مجموع مربعات خطا باشد (که به طور نوعی در شبکههای پسانتشار استفاده میشود) ماتریس هسیان میتواند به شکل زیر تقریب زده شود:
(2-13)
و گرادیان نیز به صورت زیر محاسبه میشود:
(2-14)
که در آن J نمایانگر ماتریس ژاکوبیان میباشد و Je ماتریس ژاکوبیانی است که محتوی مشتقات اول خطاهای شبکه نسبت به وزنها و بایاسها است. ماتریس ژاکوبیان میتواند از طریق یک تکنیک پسانتشار استاندارد محاسبه شود. الگوریتم لونبری-مارکوات از این تقریب برای بهروزکردن الگوریتم شبه نیوتن استفاده کرده و آن را به فرم زیر درآورده است:
(2-15)

پژوهش

No description. Please update your profile.

LEAVE COMMENT

محمد علی رودسرابی سه‌شنبه 4 مهر 1396 ساعت 15:17

بانک پایان نامه های روانشناسی

بانک پایان نامه های روانشناسی

پژوهش user7-258

سایت دانلود پژوهش ها و منابع علمی

پژوهش user7-258

پژوهش user7-258

پژوهش user7-258

پژوهش

LEAVE COMMENT

بانک پایان نامه های روانشناسی

جدیدترین یادداشت‌ها

بایگانی

جستجو

پژوهش user7-258

سایت دانلود پژوهش ها و منابع علمی

پژوهش user7-258

پژوهش user7-258

پژوهش user7-258

پژوهش

LEAVE COMMENT