پژوهش user7-229

فهرست شکل‌ها و نمودارها TOC \h \z \t "فهرست شکل‌ها و نمودارها,1" شکل 1-1-ساختار تحقیق PAGEREF _Toc411942653 \h 9شکل2-1: قیاس رشد حجم داده با رشد تعداد تحلیل‌گران داده PAGEREF _Toc411942654 \h 15شکل 2-2 سلسله مراتب داده تا خرد PAGEREF _Toc411942655 […]

سایت دانلود پژوهش ها و منابع علمی

سایت دانلود پژوهش ها و منابع علمی دانشگاهی فنی تخصصی همه رشته ها – این سایت صرفا جهت کمک به گردآوری داده ها برای نگارش پژوهش های علمی و صرفه جویی در وقت پژوهشگران راه اندازی شده است

پژوهش user7-229

پژوهش user7-229

پیش‌‌‌‌بینی به عنوان یکی از مهم‌ترین شاخه‌های علمی مطرح شده است و روز به روز توسعه و پیشرفت می نماید و در بخش های مختلف به کار گرفته می‌شود. پیشرفت‌های اخیر در تکنولوژی‌های جمع‌آوری و ذخیره‌سازی داده، موجب شده که سازمان‌ها، حجم زیادی از داده‌های مربوط به فعالیت‌های روزانه‌ی خود را انباشته کنند. داده‌هایی که توسط سازمان‌ها جمع‌آوری شده است بسیار ارزشمند است و برای اهداف مختلف می‌تواند مورد استفاده قرار گیرد. یکی از این اهداف پیش‌‌‌‌بینی‌هایی می‌باشد که جهت بهبود عملکرد و برنامه‌ریزی‌هایشان از آن‌ها استفاده می‌نمایند.
مدیران سازمان‌های مختلف به دلیل عدم قطعیت و پیچیدگی محیط سعی بر آن دارند تا مکانیزمی را در اختیار داشته باشند که بتوانند آن‌ها را در امر تصمیم‌گیری‌شان یاری و مشاوره دهد و به همین دلیل سعی در استفاده از روش‌های پیش‌‌‌‌بینی دارند که به واسطه‌ی آن‌ها تخمین‌هایشان به واقعیت نزدیک و خطاهایشان بسیار‌کم باشد. این امر باعث توجه بسیاری به روش‌های نوین پیش‌‌‌‌بینی شده است.
داده‌کاوی پل ارتباطی میان علم آمار، علم کامپیوتر، هوش‌مصنوعی، الگوشناسی، فراگیری ماشین و بازنمایی بصری داده می‌باشد. داده‌کاوی فرایندی پیچیده جهت شناسایی الگوها، مدل‌های صحیح و بالقوه مفید در حجم وسیعی از داده است، به طوریکه این الگوها ومدل‌ها برای انسآن‌ها قابل درک باشند(Han et al,2006). داده‌کاوی به‌صورت یک محصول قابل خریداری نیست، بلکه یک رشته علمی و فرآیندی است که باید به‌صورت یک پروژه پیاده‌سازی شود. در گذشته موسسات آموزشی از مزیت داده‌کاوی به خوبی بعضی حوزه‌های دیگر توجه نداشته‌اند اما در سال‌های اخیر تحقیقات زیادی در زمینه بکارگیری فرآیند داده‌کاوی در امر آموزش صورت می‌گیرد. این زمینه تحقیقاتی جدید، داده‌کاوی‌آموزشی نامیده می‌شود که به امر توسعه روش‌های کشف دانش از داده‌های محیط‌های آموزشی خصوصاً دانشجویان می‌پردازد(Romero et al,2007). داده‌های جمع‌آوری شده در مورد دانشجویان می‌تواند شخصی یا آموزشی باشد که از طریق دفاتر و پایگاه داده‌های موجود در مدارس یا دانشکده‌ها جمع‌‌آوری می‌شوند. این نوع داده‌ها همچنین از طریق سیستم‌های آموزش الکترونیکی قابل دستیابی هستند. با به‌کارگیری تکنیک‌های شبکه‌عصبی و درخت‌تصمیم روی داده‌های آموزشی می توان اطلاعات و دانش مفیدی را از آن‌ها استخراج کرد که این دانش نیز به نوبه خود می‌تواند برای درک و فهم رفتار دانشجویان، کمک در امر آموزش و تدریس، ارزیابی و بهبود برنامه‌آموزشی، افزایش بازدهی و کارایی دانشجویان و اهداف دیگری بکار گرفته شود.
امروزه فضای رقابتی شدیدی در دانشگاه‌های مختلف حاکم شده است. دانشگاه‌ها برای رسیدن به اهداف خود و سبقت گرفتن از یکدیگر در تلاشند. دانشگاه‌ها نیاز به داشبورد دارند تا اطلاعات جزیی را در یک لحظه داشته باشند و این چیزی فراتر از یک نگاه کلی است. داشبوردها جهت نمایش حجم بزرگی از داده‌ها در یک نمایش گرافیکی قابل فهم هستند که کاربران با استفاده از آن‌ها قادر به تحلیل اطلاعات از طریق داده‌ها باشند (LogiXML,2011).
داشبوردهای مدیریتی سیستم‌های نرم‌افزاری نوینی هستند که به سازمان‌ها در جهت غنی‌سازی اهداف با استفاده از اطلاعات و تجزیه و تحلیل آن‌ها کمک می‌کند. داشبورد به مدیران این امکان را می‌دهد تا با تعریف، نظارت و تحلیل شاخص‌ها در ایجاد تراز بین اهداف و فعالیت‌ها و ایجاد یک محیط نمایش مشترک بین اهداف و فعالیت‌ها برای تصمیم‌گیری درست و کارامد اقدام نمایند. یک نکته که معمولا به اشتباه گرفته می‌شود این است که داشبورد تنها برای مدیران ارشد به منظور ارائه اطلاعات جامع از عملکرد سازمان به آن‌ها مورد استفاده قرار می گیرد. امروزه تکنولوژی داشبورد سازمانی به‌گونه‌ای است که می‌تواند در سطوح مختلف سازمان استقرار یابد(زرین،1388).
در این تحقیق سعی شده است تا با استفاده از اطلاعات مربوط به دانشجویان از جمله سال و ترم ورود به دانشگاه، نوع تاهل، معدل‌های دریافتی در هر ترم، نوع تحصیل، نوع شغل و دیگر اطلاعات دانشجویان دانشگاه‌های سراسری و آزاد اسلامی استان قم و امکانات موجود در محیط نرم‌افزار‌های Sql server، Matlab ، Qlick view ، Clementine ، Excelو همچنین با خوشه‌بندی داده‌ها و بکار بردن تکنیک‌های داده‌کاوی به پیش‌بینی پیشرفت‌ تحصیلی دانشجویان بپردازیم و با استفاده از نتایج پیش‌بینی و نظر خبرگان، شاخص‌ها را تعیین کرده و طراحی و پیاده‌سازی داشبورد مربوطه را انجام دهیم.
در راستای موضوع ارائه شده ما به دنبال آن هستیم تا به سوالات زیر پاسخ دهیم:
چه تکنیک داده‌کاوی برای داده‌هایمان پیش‌بینی بهتری دارد؟
متغیرهای تاثیرگذار در تعیین شاخص‌ها کدام‌اند؟
مشخص کردن اینکه کدام روش نتایج بهینه و دقیق‌تری ارائه می‌کند و پاسخ به این پرسش‌ها،‌ پیش‌بینی‌ها به طور مناسب انجام شده و این کار فواید زیادی را برای دانشگاه به همراه خواهد داشت.
1-3-ضرورت انجام تحقیق یکی از چالش‌های جدی در مدیریت امور آموزشی دانشگاه‌ها، پیش‌بینی وضعیت تحصیلی دانشجویان در نیم‌سال‌های آینده به منظور شناسایی دانشجویانی است که دچار پیشرفت یا افت تحصیلی شده و ادامه تحصیل آن‌ها با مشکل روبرو خواهد شد. در این تحقیق با استفاده از تکنیک‌های داده کاوی وضعیت تحصیلی آتی دانشجویان پیش‌بینی شده است. با بکارگیری این تکنیک‌ها و تجزیه و تحلیل و تفسیر داده‌ها مدیران آموزشی می‌توانند مشاوره‌های لازم را برای پیشگیری از رسیدن دانشجویان به وضعیت بحرانی بکار گیرند و همچنین مدیران به استفاده از ابزارهای کارا و موثر مصورسازی داشبورد مدیریتی نیاز دارند تا با نمودارها و اشکال مختلف تفسیر داده‌ها را بهتر درک کنند و بتوانند تصمیم‌گیری صحیح‌تری داشته باشند بنابراین می‌توان این ابزارهای پشتیبان تصمیم‌گیری در سیستم‌های آموزشی را مورد بهره‌برداری قرار داد و نقش مهمی را در ارتقاء سطح علمی دانشگاه‌ها داشت.
1-4-هدف‌ها و کاربردهای مورد انتظار از انجام تحقیق هدف اصلی این تحقیق، بررسی کاربرد روش‌های شبکه‌عصبی و درخت‌تصمیمC5 درجهت شناخت بهتر وضعیت تحصیلی دانشجویان و پیش‌‌‌‌بینی پیشرفت تحصیلی آن‌ها می‌باشد. عمده ترین هدف‌ها در موارد زیر به آن اشاره شده است:
خوشه‌بندی دانشجویان برای انجام پیش‌بینی بهینه
به‌کارگیری روش‌های مختلف داده‌کاوی جهت پیش‌‌‌‌بینی
مقایسه روش‌های مورد استفاده و انتخاب بهترین روش برای داده‌های مورد بحث
طراحی و پیاده‌سازی داشبورد مربوطه
1-5-جنبه جدید بودن و نوآوری طرحاین تحقیق از حیث هدف جزء تحقیق‌های کاربردی است، زیرا فنون و نظریه‌های تدوین شده در تحقیق‌های بنیادی پیشین در مورد داده‌کاوی‌آموزشی را به منظور حل مسائل اجرایی و واقعی به کار می برد. این تحقیق روش‌های مختلف پیش‌بینی را بررسی و مقایسه می‌کند که استفاده از خوشه‌بندی قبل از به‌کارگیری این روش‌ها نوآوری تکنیک خواهد بود. همچنین طراحی داشبوردی برای پیش‌بینی پیشرفت تحصیلی دانشجویان می‌تواند به عنوان ابزاری برای نمایش و گزارش گیری استفاده شود.
1-6-قلمرو مکانی و زمانی تحقیق این تحقیق در دانشگاه‌های سراسری و آزاد اسلامی استان قم انجام شده است. قلمرو زمانی تحقیق سال 1371 تا 1391 می‌باشد که در مجموع اطلاعات 10668 دانشجوی کارشناسی از دانشگاه‌های مذکور جمع‌آوری شد. جزییات بیشتر در فصل چهارم شرح داده خواهد شد.
1-7-روش تجزیه و تحلیل داده‌هابرای اجرای این تحقیق نیازمند استفاده از تمامی داده‌های مربوط به دانشجویان از جمله ویژگی‌های فردی و آموزشی آن‌ها می‌باشد اما فقط بخشی از این داده‌ها در اختیار این تحقیق قرار گرفت. پس از پالایش و آماده‌سازی داده‌ها، برای آن‌که بتوان پیشرفت تحصیلی دانشجویان را به‌صورت دقیق‌تری پیش‌بینی کرد نیازمند آن هستیم که دانشجویان را در گروه‌های مجزا از هم قرار دهیم ما برای این کار از الگوریتم خوشه‌بندی k-means استفاده می‌کنیم و بعد از انجام خوشه‌بندی برای پیش بینی از روش‌های شبکه‌عصبی و درخت‌تصمیمC5 که از روش‌های دقیق برای پیش بینی می‌باشند استفاده می‌کنیم و در انتها با استفاده از نتایج بدست آمده از پیش‌بینی‌ها و نظر خبرگان، شاخص‌ها را تدوین کرده تا بتوان براساس شاخص‌ها داشبورد ارزیابی و پیشرفت تحصیلی دانشجویان را طراحی و پیاده‌سازی کنیم.
1-8-ساختار تحقیقدر این پایان‌نامه در فصل اول پس از تشخیص، توصیف مسائل و کلیات تحقیق در دومین فصل که حاوی مرور ادبیات موضوع می‌باشد به پیش‌زمینه‌های مطالعاتی مرتبط با موضوع تحقیق و مرور داده‌کاوی و داشبورد ارائه شده در مقالات، کاربرد و ویژگی‌های بررسی شده در آن‌ها پرداخته می‌شود. در فصل سوم روش تحقیق شرح داده می‌شود و در فصل چهارم چگونگی آماده‌سازی و پیش‌پردازش داده‌ها به منظور ارتقا کیفیت داده برای مدل‌سازی شرح داده می‌شود و با مدل‌سازی، گام‌هایی در خصوص پیش‌بینی برداشته می‌شود و در انتهای این فصل با تعیین شاخص مناسب، طراحی و پیاده‌سازی داشبورد انجام می‌گیرد. درنهایت در فصل پنجم به بررسی
-168141056419 تفسیر مراحل تحقیق پرداخته و نتایج حاصل را بیان می کنیم. در شکل 1-1 مراحل تحقیق نشان داده شده است.
شکل 1-1-ساختار تحقیق1-9-تعاریف و اصطلاحاتدر این قسمت به تعریف برخی از مهم‌ترین اصطلاحات به کار گرفته شده درتحقیق،
پرداخته شده است:
داده‌کاوی‌آموزشی: یک حوزه علمی نوظهور است که به توسعه روش‌هایی برای کاوش و اکتشاف دانش در محیط‌های آموزشی می‌پردازد(Baker&Yacef,2010).
شبکه‌های‌عصبی‌مصنوعی: به زبان ساده‌تر شبکه‌های عصبی، سیستم‌ها و روش‌های محاسباتی نوینی هستند برای یادگیری ماشینی، نمایش دانش، و در انتها اعمال دانش به‌دست آمده در جهت بیش‌بینی پاسخ‌های خروجی از سامانه‌های پیچیده.
درخت‌تصمیمC5: درخت‌تصمیم یک ابزار برای پشتیبانی از تصمیم است، شیوه منحصر بفردی از ارائه یک سیستم است، که تصمیم‌گیری‌های آتی را تسهیل و سیستم را به نحو مناسبی تعریف می کند. الگوریتم درخت‌تصمیم C5 نسخه‌ی بهبود یافته از C4.5 است .
خوشه‌بندی: خوشه‌بندی را می‌توان به عنوان مهمترین مسئله در یادگیری بدون نظارت در نظر گرفت. خوشه‌بندی با یافتن یک ساختار درون یک مجموعه از داده‌های بدون برچسب درگیر است. خوشه‌ به مجموعه‌ای از داده‌ها گفته می‌شود که به هم شباهت داشته باشند. در خوشه‌بندی سعی می‌شود تا داده‌ها به خوشه‌هایی تقسیم شوند که شباهت بین داده‌های درون هر خوشه حداکثر و شباهت بین داده‌های درون خوشه‌های متفاوت حداقل شود.
داشبورد: کاربر می‌تواند آیتم‌های گزارشی مانند گرید اطلاعاتی پویا، نمودار، گیج و گزارش چاپی را در یک صفحه کنار هم قرار دهد و به‌صورت داشبوردهای اطلاعاتی مختلف نام‌گذاری و به کاربران خاص دسترسی نمایش دهد.
شاخص: شاخص‌ها به منزله معیارهایی هستند که به‌وسیله آن‌ها می‌توان کمیت، کیفیت و یا پیشرفت یک موضوع را اندازه‌گیری کرد. از آنجایی که بررسی و تجزیه و تحلیل موضوعات نیازمند اطلاعات مناسب است، شاخص‌ها اولین پل ارتباطی کارشناس با موضوع مورد‌‌ نظر است. وجود معیارها و شاخص‌های معین به منظور بررسی عملکرد گذشته و هدف‌گذاری برای آینده، از جمله مواردی است که ممکن است فرآیند تخصیص بهینه منابع و بازنگری در برنامه‌ها، اهداف و سازوکارهای حصول به آن‌ها را تسهیل کند.
پیش‌بینی: پیش بینی عبارت است از تجسم یک موقعیت در آینده براساس اطلاعات گذشته در واقع در پیش بینی براساس معیارهای کمی از داده‌های به وقوع پیوسته در زمآن‌های گذشته برای تخمین آینده استفاده می‌شود. هر تصمیمی به یک پیش‌بینی استوار است. تصمیمات دولتی بر پیش‌بنی‌های اقتصاد‌کلان، سیاسی و غیره، تصمیمات مهندسی بر پیش‌بینی میزان تحمل فشار توسط دستگاه و غیره، تصمیمات سرمایه‌گذاری بر پیش‌بینی ریسک‌ها و غیره.
1-10-نتیجه‌گیری
در فصل حاضر تلاش شد تا به منظور ترسیم فضای کلی داده‌کاوی‌آموزشی و ضرورت اجرای این تحقیق و سوالاتی که در تحقیق حاضر در پی پاسخ به آن‌ها هستیم تبیین شود.
18940143178فصل دوم:مرور ادبیات تحقیق
00فصل دوم:مرور ادبیات تحقیق

2-1- مقدمهدر اواسط نیمه‌ی دوم قرن بیستم گروهی از پژوهشگران آمریکایی دست به اقدام جالبی زدند. آن‌ها کلیه اطلاعلاتی را که انسآن‌ها تا قرن دوم میلادی از خورشید، گردش زمین، ماه، شب و روز و ... داشتند به‌صورتی قابل پردازش درآوردند و به شکل مجموعه‌ای از داده‌های عددی و سیمبلیک جهت کاوش آماده نمودند. با استفاده از روش‌های داده‌کاوی پس از حدود یک ماه خروجی الگوریتم به‌صورت مجموعه‌ای از روابط آماده شد. این روابط پس از تفسیر مجموعه قوانین حیرت‌انگیزی به شکل ذیل به‌دست آورد:
شی‌ء‌ای که زمین نامیده شده گرد است.
شیء زمین به دور شیءای که خورشید نامیده شده می‌گردد.
شیءای که ماه نامیده شده به دور زمین می‌گردد.
این اقدام باعث شد که این پژوهشگران به نتیجه مهمی دست یابند: با استفاده از داده‌کاوی می‌توان به دانشی دست یافت که خود انسان قرن‌ها بعد این دانش را کسب خواهد کرد.
در این فصل با مقدمات علم داده‌کاوی آشنا شده و سپس به تعاریف و دسته‌بندی داشبورد خواهیم پرداخت و در ادامه تحقیقات انجام شده تاکنون در زمینه داده‌کاوی آموزشی و داشبورد و چند نمونه از مراحل طراحی داشبورد را مورد بررسی قرار خواهیم داد.
2-2-انگیزه‌های کاوش دادهبه شکل 2-1 توجه کنید. دراین شکل دو نمودار وجود دارد. نمودار اول (نمودار پایین شکل) نشان‌دهنده تعداد تحلیل‌گرها است، با توجه به نمودار مشخص است با گذشت زمان تعداد تحلیل‌گرها در مقایسه با رشد داده تقریبا ثابت است. نمودار دوم نشان‌دهنده‌ی رشد داده در طی زمان می‌باشد، از روی نمودار می‌توان مشاهده نمود که حجم داده با گذشت زمان در حال رشد انفجارگونه است. به تفاوت بین این دو نمودار (فضای خالی بین دو نمودار) شکاف داده‌ای بین دو نمودار گفته می‌شود. فاصله‌ای که بین این دو نمودار است نشان می‌دهد که به مرور زمان تعداد داده‌ها نسبت به تعداد افرادی که بتوانند این داده‌ها را تحلیل کنند مرتبا در حال افزایش است، پس نیاز به ابزار مکانیزه‌ای برای تحلیل داده، روز‌به‌روز در حال افزایش است. برای تبیین سرعت رشد داده‌ها، می‌توان به نمونه‌های ذیل اشاره نمود:
مرکز ستاره‌شناسی VLBI دارای 16 تلسکوپ بزرگ است که هر یک با سرعت 1 گیگابیت بر ثانیه داده ستاره‌شناسی را برمبنای مشاهدات یک ماه 25 روز تولید می‌کنند.
شرکت مخابراتی AT&T با میلیاردها تماس در روز سروکار دارد. چنین داده‌ی عظیمی را نمی‌توان ذخیره نمود – تجزیه و تحلیل آن می‌بایست به‌صورت برخط بر روی جریان داده باشد.
تیم جمع‌آوری وب کتابخانه‌ی ملی آمریکا در ماه می 2008 اعلام نموده که کتابخانه بیش از82.6 ترابایت داده گردآوری نموده است.
موسسه‌ی Ancestry.com ادعا می‌کند که در حدود600 ترابایت اطلاعات شجره‌نامه‌ای از داده‌های سرشماری آمریکا طی سال‌های 1790 الی 1930 جمع‌آوری نموده است.
در سال 1993 تمامی ترافیک اینترنت 100 ترابایت برآورد نموده است (معادل با 5 زتابایت درسال)
با توجه به مطالب مطرح شده، شاید بتوان اولین انگیزه کاوش داده را رشد روزافزون آن
دانست. در واقع رشد داده به حدی است که تنها در صورت وجود ابزار مکانیزه برای بررسی آن می‌توان امیدوار به استفاده از آن بود. زیرا در غیر این صورت هم‌زمان با تحلیل حجم کوچکی داده، حجم بسیار زیادی از همان داده در حال تولید شدن است که هرگز فرصتی برای کاوش آن وجود نخواهد داشت. به علاوه مشکلاتی دیگر که در ادامه اشاره شده‌اند نیز وجود دارند:
معمولا دانشی که در داده‌ها وجود دارد خیلی بدیهی، روشن و واضح نیست.
تحلیل گران انسانی ممکن است هفته‌ها برای کشف اطلاعات باارزش از داده وقت صرف کنند و گاهی اوقات ممکن است با صرف زمان زیادی لزوما موفق هم نشوند.
گاهی اوقات با وجود امکان جمع‌آوری داده، این کار انجام نمی‌شود. دلیل عدم جمع‌آوری داده معمولا عدم وجود دانش برای جمع‌آوری آن است. اینکه داده سرمایه یک سازمان است خود دانشی مهم و باارزش است که همیشه وجود ندارد.
1524032321500
شکل2-1: قیاس رشد حجم داده با رشد تعداد تحلیل‌گران داده2-3-نیاز به داده‌کاوی روش سنتی تبدیل داده‌ها به دانش، متکی به تجزیه، تحلیل و تفسیر دستی است. این تجزیه و تحلیل‌های دستی مجموعه‌های داده‌ای، کند، گران و بسیار موضوعی است. در حقیقت با رشد نمایی حجم داده‌ها، این نوع تجزیه و تحلیل‌ها در بسیاری از حوزه‌ها غیر عملی است. هنگامی که مقیاس به‌کارگیری داده‌ها و استدلال بر مبنای آن‌ها فراتر از ظرفیت‌های انسانی می‌رود، امید به کمک فناوری کامپیوتر می‌رود. مساله استخراج دانش از پایگاه‌های داده‌ای بزرگ شامل مراحل بسیاری از دستکاری، بازیابی و پیش‌پردازش داده‌ها تا استدلالات ریاضی، آماری، جستجو و استنتاج می‌باشد(Wai-Ki Ching&Michael Kwok,2005).
2-4- چالش‌های داده‌کاویشاید بتوان مهم‌ترین نقاط ضعف روش‌های داده‌کاوی را در سه مورد خلاصه نمود: وجود داده، صحت داده و کافی بودن ویژگی‌ها. منظور از وجود داده‌این است که اصولا داده‌ای برای کاوش وجود داشته باشد و این‌گونه نباشد که داده در محیط مورد کاوش استخراج و یا ثبت نشده باشد. متاسفانه این مشکل در بسیاری از محیط‌های واقعی وجود دارد. صحت داده مبین آن است که داده جمع‌آوری شده صحیح بوده و نادرستی در آن وجود نداشته باشد. به عنوان مثال نباید جنسیت شخصی با نام «محسن» زن وارد شده باشد و یا اشتباه های دیگری که دلیل وجودی آن‌ها خطا در ورود داده است، رخ دهد. کافی بودن ویژگی‌ها بدین معنا است که ویژگی‌های اخذ شده برای هر رکورد یا شیء برای یادگیری مدل و یا کشف نظم حاکم بر داده موثر، مناسب و کافی باشند. به عنوان مثال اگر هدف ما یادگیری یک مدل در دسته‌بندی کننده برای تشخیص بیماری دیابت در یک کلینیک است، ثبت ویژگی قندخون بسیار مهم است در حالی که وجود ویژگی میزان تحصیلات اهمیتی ندارد. توجه کنید چنان چه هر کدام از مشکلات سه‌گانه فوق در داده وجود داشته باشند هیچ یک از الگوریتم‌های داده‌کاوی، هر قدر هم که توانا باشند، نخواهند توانست نظم حاکم بر داده را تحت هیچ شرایطی بیابند.
در داده‌کاوی چالش‌های متفاوتی وجود دارد که در اینجا به بررسی آن‌ها می پردازیم.
توجه کنید، منظور از چالش در اینجا مشکلاتی است که فرآیند داده‌کاوی و الگوریتم‌های مربوط به این فرآیند قادر به مواجهه با آن‌ها می‌باشند. بنابراین سه مورد اشاره شده، نقاط ضعف و نه چالش‌های موجود در داده‌کاوی هستند. در داده‌کاوی می‌توان چالش‌ها را به دو گروه اولیه و ثانویه تقسیم نمود. در ادامه به بررسی هر کدام از این دو دسته می‌پردازیم.
2-4-1- چالش‌های اولیهچالش‌های اولیه که انگیزه مهم به کارگیری فرآیند داده‌کاوی به جای روش‌های سنتی تحلیل داده‌ها هستند عبارتند از: حجیم بودن داده‌ها، ابعاد بالای داده‌ها، طبیعت توزیع شده و ناهمگن داده‌ها. در ادامه به بررسی هر کدام از این چالش‌ها می‌پردازیم
حجم بالای داده: الگوریتم‌های داده‌کاوی با تعداد زیادی از رکوردها کار می‌کنند و حجم زیادی از داده‌ها را پردازش می‌کنند. به طور کلی هر چه تعداد رکوردهای موجود زیادتر باشد باعث می‌شود روش‌های سنتی نتوانند این رکوردها را پردازش کنند. اگر تعداد رکوردها کم باشد فرآیند تحلیل آن‌ها بسیار ساده است و معمولا احتیاج به روش‌های داده‌کاوی نیست چرا که روش‌های ساده‌تر از داده‌کاوی نیز می‌توانند جوابگو باشند. هرچه تعداد رکوردها بیشتر باشد باعث می‌شود علم داده‌کاوی بتواند کارکرد درخشان‌تری داشته باشد. دراین موارد روش‌های ساده، سنتی و روش‌هایی که ممکن است حتی مکانیزه هم نباشند و شاید از کامپیوتر در آن‌ها استفاده نشود، نمی‌توانند خیلی کارگشا باشند.
ابعاد بالای داده‌ها: منظور از بعد همان فیلد یا ویژگی (خصیصه) می‌باشد. به طور کلی هر چه تعداد ویژگی‌ها بیشتر باشد، باعث خواهد شد که تحلیل داده‌ها مشکل‌تر شود. هرچه تعداد ویژگی‌های موجود در داده‌ها بیشتر باشد، نمی‌توان با استفاده از روش‌های سنتی بین آن‌ها نظمی پیدا کرد. این درحالی است که در این‌گونه مواقع الگوریتم‌های داده‌کاوی می‌توانند اثربخشی و توان بالقوه‌ای که دارا هستند را نشان دهند. در غیر این صورت از روش‌های ساده‌تر هم می‌توان برای پردازش داده‌ها استفاده نمود.
طبیعت توزیع شده داده‌ها: به طور کلی طبیعت توزیع شده داده‌ها وجود داده‌ها در منابع پراکنده باعث می‌شود نتوانیم از روش‌های سنتی برای پردازش داده‌ها استفاده کنیم. دراین مواقع به روش‌های داده‌کاوی نیاز داریم. این روش‌ها باید قادر باشند داده‌هایی را که در مکآن‌های مختلف ذخیره شده‌اند به گونه‌ای مدیریت کند که دانش نهفته را از نهان این داده‌های پراکنده و توزیع شده استخراج کنند.
طبیعت ناهمگن داده‌ها: در انباره داده‌ای که به‌عنوان مخزن فرآیند داده‌کاوی عمل می‌کند، انواع مختلفی از ویژگی‌ها وجود دارند. هر ویژگی محدوده مقادیر مشخص و ویژه ای اختیار می‌کند. کمینه و بیشینه مقادیر مربوط به بعضی از ویژگی‌ها باهم تفاوت زیادی دارند. بعضی از ویژگی‌ها، حوزه مقداری بسار وسیع بعضی دیگر حوزه محدودی دارند. دراین مواقع می‌توان از مباحث نرمال‌سازی برای برخورد با این مشکل استفاده کرد. اما مسائل دیگری نیز در ارتباط با ویژگی‌ها وجود دارند. به‌عنوان مثال بعضی از ویژگی‌های عددی (صحیح یا حقیقی) هستند، بعضی دودویی هستند، بعضی دیگر از ویژگی‌ها اسمی هستند (مثل رنگ چشم). بعضی از ویژگی‌ها نیز به گونه‌ای هستند که در مورد آن‌ها تنها می‌توان گفت آیا باهم مساوی هستند یا خیر (مثل رنگ چشم)، گونه‌ای دیگر از ویژگی‌ها به این شکل اند که در مورد آن‌ها علاوه بر مساوی یا نامساوی بودن می‌توان بزرگ‌تر و کوچک‌تر بودن را نیز تعیین نمود (مثل سطح تحصیلات)، در مورد برخی دیگر از ویژگی‌ها علاوه برمساوی یا نامساوی بودن و تعیین کوچک‌تر و یا بزرگ‌تری، می‌توان از عملگرهای جمع و تفریق نیز استفاده نمود (مثل تاریخ‌های تقویم) و در نهایت در مورد گروهی دیگر از ویژگی‌ها علاوه بر مساوی یا نامساوی، کوچک‌تر و یا بزرگ‌تر بودن، همچنین جمع و تفریق آن‌ها، می‌توان عملگرهای ضرب و تقسیم را نیز به کار برد (مثل قد و وزن). درنتیجه به دلیل تنوع بالای ماهیت ویژگی‌ها نمی‌توان از روش‌های سنتی برای پردازش داده‌ها استفاده نمود.
2-4-2- چالش‌های ثانویهچالش‌های ثانویه به آن دسته از چالش‌هایی گفته می‌شود که در قیاس با چالش‌های اولیه از اهمیت کمتری برخوردارند. البته می‌بایست توجه نمود، این امر بدان معنا نخواهد بود که اهمیت این چالش‌ها پایین است و یا حل مشکلات مربوط به آن‌ها کار ساده و یا کم‌تاثیری است. در ادامه به بررسی این چالش‌ها خواهیم پرداخت.
کیفیت داده : مربوط به زمانی است که کیفیت داده‌ها پایین است. به عنوان نمونه هنگامی که داده‌های ما شامل نویز، داده پرت، داده گمشده و داده تکرارشده باشد، شاهد پایین آمدن کیفیت داده‌ها خواهیم بود.
عدم مالکیت داده: به دلایل گوناگون مانند توزیع‌شدگی ممکن است نتوانیم کل داده‌ها را یک‌جا در مالکیت داشته باشیم و فرآیند کاوش را روی آن‌ها انجام دهیم.
حفظ حریم شخصی داده‌ها: مربوط به زمانی است که باید با رعایت حریم شخصی، داده‌ها را کاوش نماییم. فرآیند کاوش می‌بایست به‌گونه‌ای انجام شود که بتوان بدون دسترسی به همه داده‌ها و با دیدن تنها بخش محدودی از آن فرآیند داده‌کاوی را پیش‌برد. تفاوت حفظ حریم شخصی داده‌ها با توزیع‌شدگی و عدم مالکیت داده دراین است که در توزیع‌شدگی و عدم مالکیت داده ممکن است برای یادگیری مدل از همه داده‌ها استفاده شود ولی در اینجا ممکن است به بخشی از داده‌ها اصلا دسترسی وجود نداشته باشد، یعنی باید بتوانیم مدل خود را با همان داده‌های در دسترس بسازیم.
داده‌های جریانی: به داده‌هایی گفته می‌شود که سرعت تولید آن‌ها بالا است به گونه‌ای که فرصت تحلیل آن‌ها و ساخت مدل وجود ندارد چرا که حین انجام عملیات کاوش مرتبا داده‌های جدیدی تولید می‌شوند. بنابراین سیستم باید به صورت برخط باشد تا بتواند خودش را تصحیح کند و قادر باشد مدل به‌روزی را در اختیار قرار دهد.
2-5-معرفی داده‌کاوی برای درک کامل معنای داده‌کاوی می‌بایست ابتدا تعریف درستی از معانی کلمات داده،
اطلاعات و دانش داشته باشیم. این تعاریف در ذیل ارائه شده اند.
داده: به هر گونه سیمبل، عدد، رقم، کاراکتر، رشته و یا سیگنال که معنای خاصی را به ذهن القاء نکند داده گفته می‌شود. داده پایه‌ای‌ترین مفهوم در داده‌کاوی است که مبرا از هر‌گونه پردازشی می‌باشد.
اطلاعات: چنان‌چه در کنار عدد، کاراکتر و یا هر عنصر داده‌ای رشته‌ای به عنوان توصیف‌کننده‌ی معنای آن داده وجود داشته باشد، داده ابتدایی به اطلاعات تبدیل خواهد شد.
دانش: وجود یک رابطه میان دو عنصر اطلاعاتی مبین دانشی در آن زمینه است.
خرد: عالی‌ترین سطح بینش است که توسط علائم و نمادهای قراردادی تبیین می‌شود.
3697911930152می‌توان شکل 2-2 را جهت نشان دادن سلسله مراتب ارزشی برای معانی داده، اطلاعات، دانش و خرد در نظر گرفت. همان‌گونه که در این شکل دیده می‌شود هم‌زمان با افزایش ارزش معنایی برای مفاهیم مذکور حجم آن‌ها کاهش می‌یابد که کاملا طبیعی است. به عبارت دیگر این بسیار بدیهی است که بتوان حجم بالایی داده را با تنها چند قانون توصیف و تبیین نمود. کاری که اصلی‌ترین هدف در فرآیند داده‌کاوی است(صنیعی‌آباده،1391).
شکل 2-2 سلسله مراتب داده تا خردتعارف مختلفی برای داده‌کاوی وجود دارد، شاید بتوان تعریف ذیل را به عنوان یک تعریف کامل و جامع برای داده‌کاوی ارائه نمود:
استخراج خودکار دانش جدید و مفید از منابع داده‌ای حجیم موجود طی یک فرآیند غیر بدیهی مشخص داده‌کاوی نامیده می‌شود.
2-5-1-منشاُ علمیعلم داده‌کاوی از علوم مختلفی از جمله علم آمار، هوش مصنوعی، یادگیری ماشین، شناسایی الگو و پایگاه‌داده نشات گرفته است. در واقع این علوم ریشه‌های علم داده‌کاوی هستند. ما می‌توانیم از همه تکنیک‌هایی که در این علوم هستند بهره بگیریم به‌گونه‌ای که بتوانیم بفهمیم الگوریتم‌ها و روش‌هایی که در داده‌کاوی هستند چگونه عمل می‌کنند. الگوریتم‌های موجود در هوش مصنوعی و علم آمار کمک شایانی به داده‌کاوی می‌کنند. مباحث موجود در یادگیری ماشین و شناسایی الگو نیز با مباحثی که در داده‌کاوی هستند همپوشانی قابل ملاحظه‌ای دارند. به عنوان مثال الگوریتم‌هایی که یک مدل را یاد می‌گیرند یا الگویی را شناسایی می‌کنند، به‌خصوص اگر داده‌های مورد پردازش عددی یا متنی باشند (سیمبلیک نباشند) معمولا وجه مشترک یادگیری ماشین و شناسایی الگو با داده‌کاوی هستند. به‌علاوه، در علم پایگاه‌داده ‌یک پایگاه‌داده بزرگ داریم و همین پایگاه‌داده را در داده‌کاوی به عنوان انبار داده می‌شناسیم. این انبار داده باید حتما وجود داشته باشد تا یک الگوریتم داده‌کاوی بتواند روی آن انبار داده کار کند. حال از تکنیک‌هایی که در پایگاه‌داده برای جمع‌آوری داده‌ها وجود دارد می‌توانیم برای ایجاد این انبار داده جهت استفاده در فرآیند داده‌کاوی استفاده نماییم.
2-5-2- معماری سیستم داده‌کاویداده‌کاوی فرایند اکتشاف اطلاعات و روندهای جالب نهفته از درون حجم بسیار زیاد داده‌هایی است که در قالب پایگاه‌داده‌ای، انبارهای داده‌ای، یا هرنوع انباره اطلاعاتی، ذخیره می‌شود. براساس این دیدگاه معماری یک سیستم داده‌کاوی می‌تواند به‌صورتی‌که درشکل 2-3 نمایش داده شده است، درنظرگرفته شود.
510540-18161000شکل 2-3 معماری یک سیستم داده‌کاویپایگاه داده، پایگاه داده تحلیلی، یا مخزن اطلاعاتی دیگری
این قسمت شامل یک یا چند پایگاه داده، پایگاه داده‌ی تحلیلی یا مخازن اطلاعاتی دیگری است که دراین‌جا فنون یکپارچه‌سازی وپاک‌سازی داده‌ای ممکن است برروی داده‌ها به کار گرفته شود.
سرویس دهنده‌ی پایگاه‌داده
این سرویس دهنده مسئولیت واکشی داده را براساس درخواست داده‌کاوی کاربر بر عهده دارد.
پایگاه دانش
دامنه دانشی است که برای هدایت جستجوها ویاارزیابی جالب بودن نتایج الگوها به کار می‌رود. چنین دانشی می‌تواند دربرگیرنده سلسله مراتب مفهومی، باشد که برای سازماندهی صفات یا مقادیر صفات به سطوح مختلف انتزاع به‌کارگرفته می‌شود (دانشی ازجمله غیرمترقبه بودن آن‌ها)
موتور داده‌کاوی
این قسمت برای یک سیستم داده‌کاوی بسیار ضروری است و درواقع دربرگیرنده مجموعه‌ای
از پیمانه‌های کارکردی برای وظایفی همچون طبقه‌بندی، خوشه‌بندی، انجمنی، وتحلیل‌های تکاملی است.
پیمانه ارزیابی الگو
این قسمت نیز به‌طور‌کلی دربرگیرنده مقیاس‌های جالب بودن است و درتعامل با پیمانه‌های داده‌کاوی قرار دارد و تمرکز اصلی آن، جستجو به دنبال الگوهای جالب است. ممکن است از حدود آستانه جالب بودن برای فیلتر کردن الگوهای استخراج شده استفاده نماید. به‌صورت متناوب براساس روش به‌کار گرفته شده در داده‌کاوی می‌توان پیمانه ارزیابی الگو را با پیمانه کاوش یکی درنظر گرفت. برای داشتن داده‌کاوی کارآمدتر توصیه می‌شود ارزیابی الگوهای جالب تا حدامکان درفرآیند کاوش قرار گیرد تا دامنه جستجو محدود به الگوهای جالب شود.
واسط گرافیکی کاربر
این پیمانه ارتباط بین کاربر و سیستم داده‌کاوی را برقرار می‌سازد و به کاربر اجازه می‌دهد تا با سیستم داده‌کاوی در تعامل باشد. علاوه‌براین، این قسمت برای کاربر قابلیت مرور بر پایگاه‌داده، انبار داده ‌یا ساختارهای داده، الگوهای کشف شده و بصری‌سازی این الگوها را به صور مختلف، فراهم می‌کند.
2-5-3- مراحل عملیات داده‌کاویفرآیند داده‌کاوی شامل سه مرحله است:
آماده‌سازی داده
یادگیری مدل
ارزیابی و تفسیر مدل
در ادامه به توصیف هر کدام از این مراحل خواهیم پرداخت.
2-5-3-1-آماده‌سازی دادهاولین و مهم‌ترین مرحله در فرآیند داده‌کاوی آماده‌سازی داده می‌باشد. هدف در این
مرحله تامین ورودی مناسب برای مرحله حیاتی یادگیری مدل است. دراین مرحله داده پردازش نشده از کل منابع داده‌ای موجود (که ممکن است توزیع شده نیز باشد) استخراج شده، سپس در مرحله‌ای مستقل مورد پردازش اولیه قرار می‌گیرد. خروجی در مرحله آماده‌سازی داده عبارت است از داده پیش پردازش شده که امکان یادگیری مدل از روی آن وجود دارد.
همان‌گونه که گفته شد اولین گام در مرحله آماده‌سازی داده استخراج داده از منابع داده‌ای موجود است. در این گام می‌بایست داده‌ها که در منابع مختلفی پراکنده شده‌اند، به‌صورت متمرکز در یک محل جمع‌آوری شده و یک انباره داده مرکزی ایجاد شود. دلیل اصلی این گردآوری آن است که در اغلب موارد داده به‌صورت متمرکز در یک مکان وجود ندارد. به‌علاوه داده‌ها در بخش‌های مختلف ممکن است در فرمت‌های گوناگونی نیز ذخیره شده باشند. مثلا ممکن است بخشی از داده‌ها در یک پایگاه‌داده Oracel و بخش دیگر داده‌ها در یک پایگاه‌داده Sql ذخیره شده باشند. حتی ممکن است بخشی از داده‌ها در چند فایل اکسل یا حتی فایل متنی ذخیره شده باشند. گاهی اوقات داده‌هایی وجود دارند که روی کاغذ نوشته شده‌اند و حتی تایپ هم نشده‌اند. حال اگر قرار باشد فرآیند داده‌کاوی صورت پذیرد، باید داده‌های موجود در منابع مختلف متحد شده و در یک فرمت مشخص در یک انبار داده مرکزی ذخیره شوند. در غیر این صورت فرآیند داده‌کاوی هر چقدر هم که هوشمندانه و بی نقص انجام شود، نخواهد توانست دانشی باارزش ودرخور توجه تولید نماید.
دومین گام در مرحله آماده‌سازی داده، پیش‌پردازش داده‌های استخراج شده است. مهم‌ترین رسالت این گام زدودن مشکلات مختلفی که احتمالا در داده وجود دارند، خواهد بود. این مشکلات مانع از آن می‌شوند که مرحله‌ی یادگیری مدل بتواند نظم واقعی را در داده بیابد. در هر حال پس از پایان مرحله‌ی آماده‌سازی داده، مجموعه داده‌ای آماده خواهد شد که فاقد مشکلات جدی و کلیدی است و امکان کشف دانش نهفته در آن با استفاده از مرحله یادگیری مدل وجود دارد. این مرحله در ادامه توصیف می‌شود.
2-5-3-2-یادگیری مدل
دراین مرحله با استفاده از الگوریتم‌های متنوع و با توجه به ماهیت داده سعی ما بر این است که نظم های مختلف موجود در داده را شناسایی نموده و در فرمتی مشخص به عنوان دانش نهفته در داده ارائه کنیم. برای یادگیری مدل می‌بایست روش‌های آن را به‌درستی شناخت تا بتوان در جای مناسب، روش درست را انتخاب نمود و به‌کار بست. در بخش 2-8 انواع روش‌های یادگیری مدل در داده‌کاوی مورد بحث و بررسی قرار خواهند گرفت. قبل از آن به توضیح مرحله نهایی در داده‌کاوی یعنی ارزیابی و تفسیر مدل می‌پردازیم.
2-5-3-3-ارزیابی و تفسیر مدلدر این مرحله دانش تولید شده در مرحله قبل ارزیابی شده و مورد تفسیر قرار می‌گیرد. منظور از ارزیابی دانش آن است که می‌بایست میزان صحت دانش تولید شده مشخص شود تا بتوان به آن اعتماد نمود و به صورت عملی از آن استفاده کرد. روش‌های مختلفی برای ارزیابی دانش تولید شده، وجود دارند که رابطه‌ی تنگاتنگی با روش یادگیری مدل دارند.
تفسیر مدل به معنای آن است که دانش تولید شده را مورد بررسی قرار داده و توجیهی معنایی جهت تبیین منطق آن ارائه نماییم. در صورت قابل تفسیر بودن دانش تولید شده، انجام این کار بسیار ساده است (به عنوان مثال زمانی که دانش به‌صورت درخت یا مجموعه قوانین باشد). در مقابل امکان تفسیر دانش برای مواقعی که دانش به صورت غیرقابل تفسیر باشد (مانند دانش تولید شده توسط شبکه‌های عصبی و یا ماشین بردار پشتیبان) بسیار مشکل‌تر و شاید غیرممکن خواهد بود.
2-6- محدودیت‌های داده‌کاویداده‌کاوی نیاز شما را به دانستن نجارت داده‌ها و روش‌های تحلیل داده‌های شما را حذف نخواهد کرد. درواقع داده‌کاوی به تحلیل‌های با یافتن الگوها و روابط بین داده‌ها کمک نخواهد کرد و علاوه‌براین الگوهایی که توسط داده‌کاوی کشف می‌شوند باید در دنیای واقعی وارسی شوند.
باید همواره به خاطر داشت که رابطه پیش گویآن‌های که به‌وسیله داده‌کاوی یافته می‌شود، لزوما سبب انجام رفتاری خاص یا عکس‌العمل نمی‌شود. داده‌کاوی هیچگاه جای یک مدیر یا تحلیل‌گرحرفه‌ای را نمی‌گیرد بلکه ابزار جدید و قدرتمندی را دراختیارشان قرار می‌دهد تا به کمک آن بتوانند در کارها و وظایف خود موفق‌تر و دقیق‌تر عمل نمایند بنابراین کاری که داده‌کاوی می‌تواند انجام دهد استفاده از تجارب و یافتن الگوهایی دقیق و جدید می‌باشد که سبب توسعه و رشد آن شرکت خواهد شد(پناهی آذر،1385).
2-7- قابلیت‌های داده‌کاویاهداف سطح بالای داده‌کاوی، پیش‌‌‌‌بینی و توصیف یا ترکیبی از پیش‌‌‌‌بینی و توصیف است. هدف پیش‌‌‌‌بینی متمرکز بر روی دقت در توانایی پیش‌‌‌‌بینی است و هدف توصیف، متمرکز بر روی درک فرآیند تولید داده‌هاست. در پیش‌‌‌‌بینی، تا زمانی‌که مدل قدرت پیش‌‌‌‌بینی دارد، کاربر توجهی به این‌که آیا مدل منعکس کننده واقعیت باشد ندارد. مثلا مدلی که شاخص‌های مالی را به شکلی غیرخطی ترکیب می‌کند تا نرخ تبادل بازار را پیش‌‌‌‌بینی کند. از سویی دیگر، مدل توصیفی به عنوان انعکاس واقعیت تفسیر می‌شود (مثلا مدلی که متغیرهای اقتصادی و جمعیتی را به پیشرفت‌های آموزشی مرتبط می‌سازد، به عنوان مبنایی برای توصیه‌های سیاست اجتماعی منتهی به تغییر استفاده می‌شود).
2-8- روش‌های یادگیری مدل در داده‌کاویروش‌های مختلف کاوش داده در دو گروه روش‌های پیش‌بینی و روش‌های توصیفی طبقه‌بندی می‌شوند. در ادامه به شرح هر کدام از این دو گروه می‌پردازیم.
2-8-1- روش‌های پیش‌بینیاین روش‌ها از مقادیر بعضی از ویژگی‌ها برای پیش‌بینی کردن مقدار یک ویژگی مشخص استفاده می‌کنند. در متون علمی مختلف روش‌های پیش‌بینی بانام روش‌های باناظر نیز شناخته می‌شوند. روش‌های دسته‌بندی، رگرسیون و تشخیص انحراف سه روش یادگیری مدل در داده‌کاوی با ماهیت پیش‌بینی هستند.‌
2-8-1-1- دسته‌بندیدر الگوریتم‌های دسته‌بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده‌های آموزشی و مجموعه داده‌های آزمایشی تقسیم می‌شود، با استفاده از مجموعه داده‌های آموزشی مدل ساخته می‌شود و از مجموعه داده آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده می‌شود. هر رکورد شامل یک مجموعه از ویژگی‌ها است. یکی از این ویژگی‌ها، ویژگی دسته نامیده می‌شود. در الگوریتم‌های دسته‌بندی چون ویژگی دسته مربوط به هر رکورد مشخص است بنابراین جزء الگوریتم‌های باناظر محسوب می‌شوند. الگوریتم‌های باناظر شامل دو مرحله با عنوان مرحله آموزش و مرحله ارزیابی هستند. در مرحله آموزش، مجموعه داده‌های آموزشی به یکی از الگوریتم‌های دسته‌بندی داده می‌شود تا براساس مقادیر سایر ویژگی‌ها برای مقادیر ویژگی دسته، مدل ساخته شود. شکل مدل ساخته شده به نوع الگوریتم یادگیرنده بستگی دارد. به عنوان مثال اگر الگوریتم یادگیرنده الگوریتم درخت‌تصمیم باشد مدل ساخته شده یک درخت‌تصمیم خواهد بود، اگر الگوریتم یادگیرنده یک دسته‌بندی مبتنی بر قانون باشد مدل ساخته شده یک مجموعه قانون خواهد بود. در هر صورت با نوجه به الگوریتم یادگیرنده مورد استفاده درمرحله‌ی آموزش، مدل ساخته می‌شود. پس از ساخت مدل در مرحله ارزیابی، دقت مدل ساخته شده به کمک مجموعه داده‌های آزمایشی که مدل ساخته شده در مرحله آموزش این مجموعه داده‌ها را ندیده است، ارزیابی خواهد شد. از مجموعه داده‌های آزمایشی در مرحله آموزش و ساخت مدل استفاده نمی‌شود.
2-8-1-2- رگرسیونپیش‌بینی مقدار یک متغیر پیوسته براساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیرخطی رگرسیون نامیده می‌شود. رگرسیون در علوم آمار و شبکه‌های عصبی به صورت وسیع مورد مطالعه و بررسی قرار می‌گیرد. در واقع یک بردار x به‌عنوان ورودی داریم که به یک متغیر خروجیy نگاشت شده است. هدف محاسبه yیا همانF(x) است که از روی تخمین تابع مقدار آن محاسبه می‌شود. در اینجا می‌بایست به ازای یک بردارx ، مقدار دقیق y قابل محاسبه باشد. این کاربرد نیز مانند دسته‌بندی یک کاربرد از نوع پیش‌بینی یا با ناظر است. دلیل آن‌هم کاملاً روشن است، چرا که باید مقدار یک متغیر که در این‌جا با نشان داده شده، از روی مقادیر متغیرهای دیگر که آن را با بردار x مشخص می‌کنیم، پیش‌بینی شود. بنابراین در رگرسیون هم دو مرحله آموزش و ارزیابی وجود خواهد داشت که طی آن‌ها از مجموعه داده‌های آموزشی و مجموعه داده‌های آزمایشی استفاده می‌شود. روش‌های موجود در رگرسیون بیشتر مبتنی بر ریاضیات آماری هستند. یک نوع خاصی از رگرسیون، پیش‌بینی سری‌های زمانی است. در مسائل پیش‌بینی سری‌های زمانی یکی از متغیرهای اصلی زمان می‌باشد. در این مسائل یک مجموعه ازx ها و y ها به‌صورت یک تابع ریاضی وجود دارند. به عبارت دیگر به ازای هر xفقط و فقط یک y موجود می‌باشد. (درغیر این صورت زمان به عقب برخواهد گشت). هدف این است که به ازای یک x جدید مقدار y آن را پیش‌بینی کنیم. به‌عنوان مثال تغییرات قیمت سهام ایران خودرو را از سه سال پیش تا به امروز به صورت یک نمودار داریم، حال می‌خواهیم ادامه این نمودار را برای مدتی مشخص ( مثلاً یک ماه آینده) پیش‌بینی کنیم. به این مساله پیش‌بینی سری زمانی گفته می‌شود که نوع خاصی از رگرسیون است. بدیهی است که رگرسیون لزوماً می‌تواند سری زمانی نباشد.
2-8-1-3-تشخیص انحرافآخرین کاربرد مهم یادگیری با ناظر در داده‌کاوی تشخیص انحراف است. در مواقعی از این کاربرد استفاده می‌شود که تنها نمونه‌های با یک برچسب یکسان، که معمولا وضعیت نرمال را نشان می‌دهد، دردسترس باشند و امکان مالکیت بر داده‌ها با تمامی برچسب‌های موجود به دلایل مختلف وجود نداشته باشد. بنابراین چون فقط نمونه‌های دسته نرمال در اختیار است، الگوریتم برای وضعیت نرمال و با توجه به یک آستانه مشخص مدل می‌سازد و هرگونه تخطی از آن آستانه را به عنوان وضعیت غیر نرمال در نظر می‌گیرد و هشدار می‌دهد. دو نمونه از کاربردهای تشخیص انحراف عبارتند از: کشف کلاه‌برداری‌های کارت‌های اعتباری و تشخیص نفوذ به شبکه‌های کامپیوتری.
2-8-2- روش‌های توصیفیبعضی از اوقات هدف از داده‌کاوی توصیف وضعیتی است که در پایگاه اطلاعاتی وجود دارد، به‌گونه‌ای که سبب افزایش دریافت‌های ما از افراد، محصولات یا پردازش‌هایی شود که داده‌ها را در اولین گام تولید می‌کنند. توصیفی خوب از یک رفتار پیشنهاد‌دهنده توضیحی برای آن می‌باشد و در نهایت توصیف، خود پیشنهاد می‌کند که کجا را برای یک توضیح باید شروع به جستجو نمود.
هر چند که مدل‌های توصیفی پیش‌گو نیستند ولی برعکس آن صادق هستند. یعنی مدل‌های پیش‌گو اغلب توصیفی هستند. در کاربردهای تجاری واقعی، داده‌کاوی معمولا برروی پایگاه‌های داده‌ای خیلی بزرگ اعمال می‌شود، دلیل این امر را می‌توان در دو مورد زیر خلاصه نمود.
درپایگاه‌های داده‌ای کوچک، امکان یافتن الگوهای جالب و روابط با بررسی خیلی ساده نتایج به کمک ابزارهای کمکی همچون صفحه گسترده موجود است.
اکثر فنون داده‌کاوی نیاز به آموزش برروی داده‌ها و مثال‌هایی دارند که از قبل جواب
آن‌ها مشخص می‌باشد، در پایگاه‌های داده‌ای به دلیل کوچک بودن محدوده اطلاعاتی، نمی‌توان الگوهای مناسب و خوبی یافت.
روش‌های توصیفی الگوهای قابل توصیفی را پیدا می‌کنند که روابط حاکم بر داده‌ها را بدون در نظر گرفتن هر گونه برچسب و یا متغیر خروجی تبیین نمایند. در متون علمی مختلف روش‌های توصیفی با نام روش‌های بدون ناظر نیز شناخته می‌شوند. روش‌های خوشه‌بندی، کاوش قوانین انجمنی و کشف الگوهای ترتیبی سه روش یادگیری مدل در داده‌کاوی با ماهیت توصیفی هستند. در ادامه به بررسی هر کدام از این روش‌ها می‌پردازیم.
2-8-2-1- خوشه‌بندیدر مسائل خوشه‌بندی یک مجموعه رکورد داریم که هر کدام یک مجموعه از ویژگی‌ها دارا هستند. یک معیار مشابهت میان آن‌ها تعریف می‌کنیم. این معیار مشابهت در مسائل مختلف متفاوت است. به عنوان مثال اگر ویژگی‌ها پیوسته باشند می‌توان فاصله اقلیدسی را به عنوان معیار مشابهت در نظر گرفت. به این ترتیب هر رکورد را به صورت یک نقطه در فضای چند بعدی در نظر می‌گیریم. هر بعد، نماینده یکی از ویژگی‌های مساله است. در مسائل خوشه‌بندی هیچ‌گونه دسته خاصی وجود ندارد. در واقع ویژگی دسته نداریم و فقط براساس معیار شباهت گروه‌بندی و خوشه‌بندی داده‌ها صورت می‌پذیرد. خوشه‌بندی به این شکل انجام می‌شود که رکوردهایی که بیشترین شباهت را به یکدیگر دارند (با توجه به معیار شباهت تعریف شده) در یک خوشه قرار می‌گیرند. در نتیجه داده‌های موجود در خوشه‌های متفاوت کمترین شباهت را به یکدیگر خواهند داشت. از آنجایی که برای الگوریتم‌های خوشه‌بندی ِویژگی دسته تعریف نمی‌شود و رکوردها برچسب خاصی ندارند، بنابراین جزء الگوریتم‌های بدون ناظر محسوب می‌شوند. خروجی الگوریتم‌های خوشه‌بندی دوباره تحلیل خواهد شد تا در صورت امکان نظمی در خوشه‌ها آشکار شود. نکته مهمی که می‌بایست به آن توجه نمود آن است که خوشه‌بندی همیشه براساس ویژگی‌های ورودی نمونه‌ها انجام می‌شود. به عنوان مثال در صورت خوشه‌بندی رکوردهای مربوط به دانشجویان یک دانشکده هر خوشه ممکن است بیانگر رکوردهایی باشد که از جنبه‌های مختلف به یکدیگر شبیه هستند. مثلا یک وضعیت ممکن است این باشد که دو خوشه به وجود آید که نشان‌گر دانشجویان زرنگ و تنبل باشند. ممکن است این دو خوشه بیانگر دانشجویان پسر و دختر باشند. حالت دیگر دو وضعیتی را نشان می‌دهد که دانشجویان را براساس شهر قبولی آن‌ها به دو خوشه بومی و غیربومی تقسیم نموده است. می‌توان وضعیت‌های دیگری را نیز در نظر گرفت ( حتی تعداد خوشه‌ها نیز می‌تواند بیشتر از دو باشد) این که کدامیک از حالات ذکر شده رخ می‌دهد، کاملاً به ویژگی‌های انتخاب شده (فیلدهای اطلاعاتی دانشجویان) بستگی دارد و به‌صورت مستقیم به الگوریتم خوشه‌بندی مرتبط نیست. هدف در همه الگوریتم‌های خوشه‌بندی کمینه کردن فاصله درون خوشه‌ای و بیشینه نمودن فاصله بین خوشه‌ای می‌باشد. عملکرد خوب یک الگوریتم خوشه‌بندی زمانی محرز می‌شود که تا حد امکان خوشه‌ها را از یکدیگر دورتر کند (یعنی رکوردهای موجود در خوشه‌های مختلف کمترین شباهت را به یکدیگر داشته باشند) و به علاوه رکوردهای موجود در یک خوشه بیشترین شباهت را به یکدیگر دارا باشند.
هدف از خوشه‌بندی یافتن گروه‌هایی است که با یکدیگر بسیار متفاوتند ولی اعضای این گروه‌ها بسیار به هم شبیه‌اند. در خوشه‌بندی، کلاس از پیش تعریف شده‌ای وجود ندارد. رکوردها بر اساس شباهت‌های خودشان گروه‌بندی می‌شوند و افرادی که خبره هستند باید این خوشه‌ها را تفسیر کنند. غالبا خوشه‌بندی پیش‌درآمدی برای دیگر فنون داده‌کاوی یا مدل‌سازی می‌باشد(Wai-Ki Ching&Michael Kwok,2005).
خوشه‌بندی به دو صورت انجام می‌شود:
خوشه‌بندی انحصاری و خوشه‌بندی با هم‌پوشی
در روش خوشه‌بندی انحصاری پس از خوشه‌بندی هر داده دقیقاً به یک خوشه تعلق می‌گیرد مانند روش خوشه‌بندی k-means ولی در خوشه‌بندی با هم‌پوشی پس از خوشه‌بندی به هر داده ‌یک درجه تعلق به ازای هر خوشه نسبت داده می‌شود. به عبارتی یک داده می‌تواند با نسبت‌های متفاوتی به چندین خوشه تعلق داشته باشد. نمونه‌ای از آن خوشه‌بندی فازی است.
خوشه‌بندی سلسله مراتبی و خوشه‌بندی مسطح
در روش خوشه‌بندی سلسله مراتبی، به خوشه‌های نهایی براساس میزان عمومیت آن‌ها ساختاری سلسله مراتبی نسبت داده می‌شود. مانند روش Single Link، ولی در خوشه‌بندی مسطح تمامی خوشه‌های نهایی دارای یک میزان عمومیت هستند مانند k-means. به ساختار سلسله مراتبی حاصل از روش‌های خوشه‌بندی سلسله مراتبی دندوگرام گفته می‌شود(زهرا نوراله،1392).
با توجه به این‌که روش‌های خوشه‌بندی سلسله مراتبی اطلاعات بیش‌تر و دقیق‌تری تولید می‌کنند برای تحلیل داده‌هایی با جزییات بیش‌تر پیشنهاد می‌شوند، ولی از طرفی چون پیچیدگی محاسباتی بالایی دارند برای مجموعه داده‌های بزرگ روش‌های خوشه‌بندی مسطح پیشنهاد می‌گردد.
یکی از روش‌های معروف در این زمینه k-means می‌باشد، که علی‌رغم وابستگی به شرایط اولیه و همگرایی به نقاط بهینه محلی، تعدادN داده را به K خوشه با سرعت بالا، دسته‌بندی می‌نماید.
2-8-2-2- کشف قوانین انجمنیدراین کاربرد به دنبال پیداکردن یک مجموعه از قوانین وابستگی یا انجمنی هستیم که براساس آن قوانین بگوییم وجود کدامیک از مجموعه اشیاء بروجود چه مجموعه اشیاء دیگری اثرگذار است.
2-8-2-3- کشف الگوهای ترتیبیدراینجا به دنبال کشف الگوهای ترتیبی هستیم که وابستگی‌های ترتیبی محکمی را در میان وقایع مختلف نشان می‌دهند.
2-9- فنون داده‌کاویتاریخچه فنون داده‌کاوی به‌طور‌کلی نسبت به دیگر روش‌ها کمی متفاوت و برجسته‌تر می‌باشد. الگوریتم ژنتیک و شبکه‌های عصبی در راستای تلاش برای مدل کردن پردازش‌های زیست‌شناسی بر روی کامپیوتر به‌وجود آمده‌اند. استنتاج براساس حافظه، فنی است که به‌طور مستقیم از حوزه هوش‌مصنوعی آمده است و تحلیل پیوندی از نظریه گراف‌ها و کاربردهای آن در ساختارهای داده‌ها در علم کامپیوتر به‌وجود آمده است.
گونه‌ها و تعداد زیادی الگوریتم داده‌کاوی از حوزه‌های آماری، بازشناسی الگو، یادگیری ماشین و پایگاه‌داده‌ها وجود دارند. اغلب الگوریتم‌های داده‌کاوی بیشتر شامل ترکیبی از سه جزء زیر می‌باشند.
1.مدل
دربرگیرنده 2 عامل می‌باشد. تابع مدل (مثلاً خوشه‌بندی) و شکل بازنمایی مدل (مثلاً: تابع خطی ازچندین متغیر و تابع چگالی احتمال گوسی) مدل شامل پارامترهایی است که براساس داده‌ها تعیین می‌شوند. کلمه مدل، کاربرد بسیار زیادی دارد بنابراین می‌توان تفاسیر مختلفی نیز از آن داشت.
در گذشته رسم بر این بود که به دنبال مدل کردن روابط بودیم. بدون آن‌که توجهی به جنبه تئوری آن داشته باشیم، بنابراین به‌عنوان مثال می‌توانستیم یک مدل برارزشی را برای مرتبط کردن متغیری به چندین متغیر توضیحی و به‌دست آوردن مدل پیش‌گویآن‌های دقیق بدون داشتن هیچ‌گونه باور و اعتقادی به این‌که مدل نمایانگر مکانیزمی غیر رسمی است بسازیم یا اینکه بر این باور هستیم که مدل ساخته شده توضیح‌دهنده واقعیت مورد نظر می‌باشد، تا بدین ترتیب سبب افزایش یک متغیر و در نتیجه دیگر متغیرها بشویم. همچنین می‌توان مدل‌هایی را که برای پیش‌گویی به کار می‌روند از مدل‌هایی که برای کمک به فهم مسئله‌ای به کار می‌روند ازهم جدا نمود.
2.معیار اولویت
پایه‌ای برای اولویت یک مدل یا مجموعه‌ای از پارامترها نسبت به مدل یا پارامترهای دیگر براساس داده‌های موجود می‌باشد.
3.الگوریتم جستجو
مشخصات الگوریتم برای یافتن مدل‌ها و پارامترهای به‌خصوص است. الگوریتم داده‌کاوی معمولاً نمونه‌ای از اجزای مدل اولویت جستجو می‌باشد. (مثلاً طبقه‌بندی برمبنای بازنمایی درخت‌تصمیم‌گیری، اولویت مدل برمبنای احتمال داده‌ها که توسط جستجوی حریصانه با استفاده از مکاشفه‌ای به‌خصوص تعیین می‌شود).
الگوریتم‌ها اغلب برحسب بازنمایی مدل (مثلا خطی و سلسله مراتبی) تفاوت زیادی دارند و درالگوریتم‌های یادگیری، بازنمایی مدل، معیار اولویت یا روش جستجو مورد استفاده به شکل روشنی بیان نمی‌شوند، بلکه آن‌ها در توصیف الگوریتمی به‌خصوص ترکیب می‌شوند.
2-9-1- یافتن خودکارخوشه‌هایافتن خوشه‌ها ساختمان مدل‌هایی است که به دنبال یافتن رکوردهای داده‌ای مشابه باهم هستند و این دسته ازشباهت‌ها تحت عنوان خوشه مطرح می‌شوند. روش‌های متعدد و مختلفی برای یافتن خوشه‌ها وجود دارد که از آن جمله روش‌های هندسی، آماری و شبکه‌های عصبی می‌توان نام برد. خوشه‌های تشکیل شده می‌تواند نقطه شروعی برای شناسایی آنچه که درون داده‌ها هستند و استفاده بهینه از آن‌ها را ارائه می‌نماید.
2-9-1-1-نقاط قدرت این روشاین روش می‌تواند حتی زمانی که دانش قبلی از ساختار پایگاه‌داده‌های ورودی نداریم به کار گرفته شود. باداده‌های متنی، رقمی و بدون قید و شرط به خوبی کار می‌کنند. با انتخاب مسافت‌های اندازه گیری متفاوت، روش خوشه‌بندی خودکار می‌تواند تقریباً روی هر نوع داده‌ای به‌کار گرفته شود، به راحتی قابل اجرا می‌باشد. اکثر فنون یافتن خوردکار خوشه‌ها نیاز به حداقل پیغام‌دهی در رابطه با داده‌های ورودی دارند و هیچ نیازی به شناسایی فیلدهای خاصی به‌عنوان ورودی ندارند.
2-9-1-2-نقاط ضعفبه سختی می‌توان مسافت اندازه‌گیری و وزن‌های صحیح را انتخاب نمود. کارایی الگوریتم‌های این روش وابسته به انتخاب مسافت‌های متریک یا دیگر اندازه‌های مشابه می‌باشد. حساسیت نسبت به پارامترهای اولیه دارد. در روش k-mean انتخاب اولیه مقداری برای k تعیین کننده تعداد خوشه‌هایی است که یافت می‌شوند. اگر این تعداد با ساختار طبیعی داده جفت نشوند، این فرد به نتایج خوبی دست نخواهد یافت.
2-9-1-3- کاربردخوشه‌بندی، ابزار قدرتمندی است برای زمانی‌که مواجح باحجم بسیار زیاد و پیچیده‌ای از مجموعه داده‌ها با متغیرهای بسیار و ساختارهای داخلی فراوان باشیم. درشروع به‌کار یک پروژه داده‌کاوی، خوشه‌بندی می‌تواند غالبا یکی از بهترین فنون برای اجرا باشد. همچنین اگر در روش یافتن خودکار خوشه‌ها نواحی از داده‌ها و رکودهای مشابه وجود داشته باشند کار برای ادامه کار دیگر ابزار های داده‌کاوی راحت‌تر خواهد شد.
2-9-2- درخت‌های تصمیم‌گیری و استقرا قاعده‌ایپوشش درخت‌های تصمیم‌گیر برای داده‌کاوی هدایت شده و رکوردها را به مجموعه‌های یادگیر و جدا از هم که هرکدام نیز از واحد ساده‌ای بر روی یک یا چند فیلد تشکیل شده‌اند پیروی می‌کند.
2-9-2-1-نقاط قوتقادر به تولید قوانین قابل فهم می‌باشند و با استفاده از زبان‌های ساده مانند Sql قابل پیاده‌سازی هستند. توانایی انجام محاسبات را بدون نیاز به انجام محاسبات زیاد دارند. به طور کلی درخت‌های تصمیم به طور خاص انتخابی مناسب در دامنه‌هایی هستند که درآن‌جا قواعدی برای یافت شدن وجود دارد. قادر به بکارگیری متغیرهای دنباله‌ای و بدون شرط هستند و متدهای درخت‌تصمیم‌گیری برای این منظور تعریف شده‌اند و تعریفی مشخص از اینکه چه فیلدهایی برای تصمیم‌گیری و پیش‌گویی مناسب هستند ارائه می‌دهند.

دسته‌بندی نشده

No description. Please update your profile.

LEAVE COMMENT

محمد علی رودسرابی سه‌شنبه 4 مهر 1396 ساعت 15:17

بانک پایان نامه های روانشناسی

بانک پایان نامه های روانشناسی

پژوهش user7-229

سایت دانلود پژوهش ها و منابع علمی

پژوهش user7-229

پژوهش user7-229

پژوهش user7-229

دسته‌بندی نشده

LEAVE COMMENT

بانک پایان نامه های روانشناسی

جدیدترین یادداشت‌ها

بایگانی

جستجو

پژوهش user7-229

سایت دانلود پژوهش ها و منابع علمی

پژوهش user7-229

پژوهش user7-229

پژوهش user7-229

دسته‌بندی نشده

LEAVE COMMENT