سایت دانلود پژوهش ها و منابع علمی دانشگاهی فنی تخصصی همه رشته ها – این سایت صرفا جهت کمک به گردآوری داده ها برای نگارش پژوهش های علمی و صرفه جویی در وقت پژوهشگران راه اندازی شده است
پیشبینی به عنوان یکی از مهمترین شاخههای علمی مطرح شده است و روز به روز توسعه و پیشرفت می نماید و در بخش های مختلف به کار گرفته میشود. پیشرفتهای اخیر در تکنولوژیهای جمعآوری و ذخیرهسازی داده، موجب شده که سازمانها، حجم زیادی از دادههای مربوط به فعالیتهای روزانهی خود را انباشته کنند. دادههایی که توسط سازمانها جمعآوری شده است بسیار ارزشمند است و برای اهداف مختلف میتواند مورد استفاده قرار گیرد. یکی از این اهداف پیشبینیهایی میباشد که جهت بهبود عملکرد و برنامهریزیهایشان از آنها استفاده مینمایند.
مدیران سازمانهای مختلف به دلیل عدم قطعیت و پیچیدگی محیط سعی بر آن دارند تا مکانیزمی را در اختیار داشته باشند که بتوانند آنها را در امر تصمیمگیریشان یاری و مشاوره دهد و به همین دلیل سعی در استفاده از روشهای پیشبینی دارند که به واسطهی آنها تخمینهایشان به واقعیت نزدیک و خطاهایشان بسیارکم باشد. این امر باعث توجه بسیاری به روشهای نوین پیشبینی شده است.
دادهکاوی پل ارتباطی میان علم آمار، علم کامپیوتر، هوشمصنوعی، الگوشناسی، فراگیری ماشین و بازنمایی بصری داده میباشد. دادهکاوی فرایندی پیچیده جهت شناسایی الگوها، مدلهای صحیح و بالقوه مفید در حجم وسیعی از داده است، به طوریکه این الگوها ومدلها برای انسآنها قابل درک باشند(Han et al,2006). دادهکاوی بهصورت یک محصول قابل خریداری نیست، بلکه یک رشته علمی و فرآیندی است که باید بهصورت یک پروژه پیادهسازی شود. در گذشته موسسات آموزشی از مزیت دادهکاوی به خوبی بعضی حوزههای دیگر توجه نداشتهاند اما در سالهای اخیر تحقیقات زیادی در زمینه بکارگیری فرآیند دادهکاوی در امر آموزش صورت میگیرد. این زمینه تحقیقاتی جدید، دادهکاویآموزشی نامیده میشود که به امر توسعه روشهای کشف دانش از دادههای محیطهای آموزشی خصوصاً دانشجویان میپردازد(Romero et al,2007). دادههای جمعآوری شده در مورد دانشجویان میتواند شخصی یا آموزشی باشد که از طریق دفاتر و پایگاه دادههای موجود در مدارس یا دانشکدهها جمعآوری میشوند. این نوع دادهها همچنین از طریق سیستمهای آموزش الکترونیکی قابل دستیابی هستند. با بهکارگیری تکنیکهای شبکهعصبی و درختتصمیم روی دادههای آموزشی می توان اطلاعات و دانش مفیدی را از آنها استخراج کرد که این دانش نیز به نوبه خود میتواند برای درک و فهم رفتار دانشجویان، کمک در امر آموزش و تدریس، ارزیابی و بهبود برنامهآموزشی، افزایش بازدهی و کارایی دانشجویان و اهداف دیگری بکار گرفته شود.
امروزه فضای رقابتی شدیدی در دانشگاههای مختلف حاکم شده است. دانشگاهها برای رسیدن به اهداف خود و سبقت گرفتن از یکدیگر در تلاشند. دانشگاهها نیاز به داشبورد دارند تا اطلاعات جزیی را در یک لحظه داشته باشند و این چیزی فراتر از یک نگاه کلی است. داشبوردها جهت نمایش حجم بزرگی از دادهها در یک نمایش گرافیکی قابل فهم هستند که کاربران با استفاده از آنها قادر به تحلیل اطلاعات از طریق دادهها باشند (LogiXML,2011).
داشبوردهای مدیریتی سیستمهای نرمافزاری نوینی هستند که به سازمانها در جهت غنیسازی اهداف با استفاده از اطلاعات و تجزیه و تحلیل آنها کمک میکند. داشبورد به مدیران این امکان را میدهد تا با تعریف، نظارت و تحلیل شاخصها در ایجاد تراز بین اهداف و فعالیتها و ایجاد یک محیط نمایش مشترک بین اهداف و فعالیتها برای تصمیمگیری درست و کارامد اقدام نمایند. یک نکته که معمولا به اشتباه گرفته میشود این است که داشبورد تنها برای مدیران ارشد به منظور ارائه اطلاعات جامع از عملکرد سازمان به آنها مورد استفاده قرار می گیرد. امروزه تکنولوژی داشبورد سازمانی بهگونهای است که میتواند در سطوح مختلف سازمان استقرار یابد(زرین،1388).
در این تحقیق سعی شده است تا با استفاده از اطلاعات مربوط به دانشجویان از جمله سال و ترم ورود به دانشگاه، نوع تاهل، معدلهای دریافتی در هر ترم، نوع تحصیل، نوع شغل و دیگر اطلاعات دانشجویان دانشگاههای سراسری و آزاد اسلامی استان قم و امکانات موجود در محیط نرمافزارهای Sql server، Matlab ، Qlick view ، Clementine ، Excelو همچنین با خوشهبندی دادهها و بکار بردن تکنیکهای دادهکاوی به پیشبینی پیشرفت تحصیلی دانشجویان بپردازیم و با استفاده از نتایج پیشبینی و نظر خبرگان، شاخصها را تعیین کرده و طراحی و پیادهسازی داشبورد مربوطه را انجام دهیم.
در راستای موضوع ارائه شده ما به دنبال آن هستیم تا به سوالات زیر پاسخ دهیم:
چه تکنیک دادهکاوی برای دادههایمان پیشبینی بهتری دارد؟
متغیرهای تاثیرگذار در تعیین شاخصها کداماند؟
مشخص کردن اینکه کدام روش نتایج بهینه و دقیقتری ارائه میکند و پاسخ به این پرسشها، پیشبینیها به طور مناسب انجام شده و این کار فواید زیادی را برای دانشگاه به همراه خواهد داشت.
1-3-ضرورت انجام تحقیق یکی از چالشهای جدی در مدیریت امور آموزشی دانشگاهها، پیشبینی وضعیت تحصیلی دانشجویان در نیمسالهای آینده به منظور شناسایی دانشجویانی است که دچار پیشرفت یا افت تحصیلی شده و ادامه تحصیل آنها با مشکل روبرو خواهد شد. در این تحقیق با استفاده از تکنیکهای داده کاوی وضعیت تحصیلی آتی دانشجویان پیشبینی شده است. با بکارگیری این تکنیکها و تجزیه و تحلیل و تفسیر دادهها مدیران آموزشی میتوانند مشاورههای لازم را برای پیشگیری از رسیدن دانشجویان به وضعیت بحرانی بکار گیرند و همچنین مدیران به استفاده از ابزارهای کارا و موثر مصورسازی داشبورد مدیریتی نیاز دارند تا با نمودارها و اشکال مختلف تفسیر دادهها را بهتر درک کنند و بتوانند تصمیمگیری صحیحتری داشته باشند بنابراین میتوان این ابزارهای پشتیبان تصمیمگیری در سیستمهای آموزشی را مورد بهرهبرداری قرار داد و نقش مهمی را در ارتقاء سطح علمی دانشگاهها داشت.
1-4-هدفها و کاربردهای مورد انتظار از انجام تحقیق هدف اصلی این تحقیق، بررسی کاربرد روشهای شبکهعصبی و درختتصمیمC5 درجهت شناخت بهتر وضعیت تحصیلی دانشجویان و پیشبینی پیشرفت تحصیلی آنها میباشد. عمده ترین هدفها در موارد زیر به آن اشاره شده است:
خوشهبندی دانشجویان برای انجام پیشبینی بهینه
بهکارگیری روشهای مختلف دادهکاوی جهت پیشبینی
مقایسه روشهای مورد استفاده و انتخاب بهترین روش برای دادههای مورد بحث
طراحی و پیادهسازی داشبورد مربوطه
1-5-جنبه جدید بودن و نوآوری طرحاین تحقیق از حیث هدف جزء تحقیقهای کاربردی است، زیرا فنون و نظریههای تدوین شده در تحقیقهای بنیادی پیشین در مورد دادهکاویآموزشی را به منظور حل مسائل اجرایی و واقعی به کار می برد. این تحقیق روشهای مختلف پیشبینی را بررسی و مقایسه میکند که استفاده از خوشهبندی قبل از بهکارگیری این روشها نوآوری تکنیک خواهد بود. همچنین طراحی داشبوردی برای پیشبینی پیشرفت تحصیلی دانشجویان میتواند به عنوان ابزاری برای نمایش و گزارش گیری استفاده شود.
1-6-قلمرو مکانی و زمانی تحقیق این تحقیق در دانشگاههای سراسری و آزاد اسلامی استان قم انجام شده است. قلمرو زمانی تحقیق سال 1371 تا 1391 میباشد که در مجموع اطلاعات 10668 دانشجوی کارشناسی از دانشگاههای مذکور جمعآوری شد. جزییات بیشتر در فصل چهارم شرح داده خواهد شد.
1-7-روش تجزیه و تحلیل دادههابرای اجرای این تحقیق نیازمند استفاده از تمامی دادههای مربوط به دانشجویان از جمله ویژگیهای فردی و آموزشی آنها میباشد اما فقط بخشی از این دادهها در اختیار این تحقیق قرار گرفت. پس از پالایش و آمادهسازی دادهها، برای آنکه بتوان پیشرفت تحصیلی دانشجویان را بهصورت دقیقتری پیشبینی کرد نیازمند آن هستیم که دانشجویان را در گروههای مجزا از هم قرار دهیم ما برای این کار از الگوریتم خوشهبندی k-means استفاده میکنیم و بعد از انجام خوشهبندی برای پیش بینی از روشهای شبکهعصبی و درختتصمیمC5 که از روشهای دقیق برای پیش بینی میباشند استفاده میکنیم و در انتها با استفاده از نتایج بدست آمده از پیشبینیها و نظر خبرگان، شاخصها را تدوین کرده تا بتوان براساس شاخصها داشبورد ارزیابی و پیشرفت تحصیلی دانشجویان را طراحی و پیادهسازی کنیم.
1-8-ساختار تحقیقدر این پایاننامه در فصل اول پس از تشخیص، توصیف مسائل و کلیات تحقیق در دومین فصل که حاوی مرور ادبیات موضوع میباشد به پیشزمینههای مطالعاتی مرتبط با موضوع تحقیق و مرور دادهکاوی و داشبورد ارائه شده در مقالات، کاربرد و ویژگیهای بررسی شده در آنها پرداخته میشود. در فصل سوم روش تحقیق شرح داده میشود و در فصل چهارم چگونگی آمادهسازی و پیشپردازش دادهها به منظور ارتقا کیفیت داده برای مدلسازی شرح داده میشود و با مدلسازی، گامهایی در خصوص پیشبینی برداشته میشود و در انتهای این فصل با تعیین شاخص مناسب، طراحی و پیادهسازی داشبورد انجام میگیرد. درنهایت در فصل پنجم به بررسی
-168141056419 تفسیر مراحل تحقیق پرداخته و نتایج حاصل را بیان می کنیم. در شکل 1-1 مراحل تحقیق نشان داده شده است.
شکل 1-1-ساختار تحقیق1-9-تعاریف و اصطلاحاتدر این قسمت به تعریف برخی از مهمترین اصطلاحات به کار گرفته شده درتحقیق،
پرداخته شده است:
دادهکاویآموزشی: یک حوزه علمی نوظهور است که به توسعه روشهایی برای کاوش و اکتشاف دانش در محیطهای آموزشی میپردازد(Baker&Yacef,2010).
شبکههایعصبیمصنوعی: به زبان سادهتر شبکههای عصبی، سیستمها و روشهای محاسباتی نوینی هستند برای یادگیری ماشینی، نمایش دانش، و در انتها اعمال دانش بهدست آمده در جهت بیشبینی پاسخهای خروجی از سامانههای پیچیده.
درختتصمیمC5: درختتصمیم یک ابزار برای پشتیبانی از تصمیم است، شیوه منحصر بفردی از ارائه یک سیستم است، که تصمیمگیریهای آتی را تسهیل و سیستم را به نحو مناسبی تعریف می کند. الگوریتم درختتصمیم C5 نسخهی بهبود یافته از C4.5 است .
خوشهبندی: خوشهبندی را میتوان به عنوان مهمترین مسئله در یادگیری بدون نظارت در نظر گرفت. خوشهبندی با یافتن یک ساختار درون یک مجموعه از دادههای بدون برچسب درگیر است. خوشه به مجموعهای از دادهها گفته میشود که به هم شباهت داشته باشند. در خوشهبندی سعی میشود تا دادهها به خوشههایی تقسیم شوند که شباهت بین دادههای درون هر خوشه حداکثر و شباهت بین دادههای درون خوشههای متفاوت حداقل شود.
داشبورد: کاربر میتواند آیتمهای گزارشی مانند گرید اطلاعاتی پویا، نمودار، گیج و گزارش چاپی را در یک صفحه کنار هم قرار دهد و بهصورت داشبوردهای اطلاعاتی مختلف نامگذاری و به کاربران خاص دسترسی نمایش دهد.
شاخص: شاخصها به منزله معیارهایی هستند که بهوسیله آنها میتوان کمیت، کیفیت و یا پیشرفت یک موضوع را اندازهگیری کرد. از آنجایی که بررسی و تجزیه و تحلیل موضوعات نیازمند اطلاعات مناسب است، شاخصها اولین پل ارتباطی کارشناس با موضوع مورد نظر است. وجود معیارها و شاخصهای معین به منظور بررسی عملکرد گذشته و هدفگذاری برای آینده، از جمله مواردی است که ممکن است فرآیند تخصیص بهینه منابع و بازنگری در برنامهها، اهداف و سازوکارهای حصول به آنها را تسهیل کند.
پیشبینی: پیش بینی عبارت است از تجسم یک موقعیت در آینده براساس اطلاعات گذشته در واقع در پیش بینی براساس معیارهای کمی از دادههای به وقوع پیوسته در زمآنهای گذشته برای تخمین آینده استفاده میشود. هر تصمیمی به یک پیشبینی استوار است. تصمیمات دولتی بر پیشبنیهای اقتصادکلان، سیاسی و غیره، تصمیمات مهندسی بر پیشبینی میزان تحمل فشار توسط دستگاه و غیره، تصمیمات سرمایهگذاری بر پیشبینی ریسکها و غیره.
1-10-نتیجهگیری
در فصل حاضر تلاش شد تا به منظور ترسیم فضای کلی دادهکاویآموزشی و ضرورت اجرای این تحقیق و سوالاتی که در تحقیق حاضر در پی پاسخ به آنها هستیم تبیین شود.
18940143178فصل دوم:مرور ادبیات تحقیق
00فصل دوم:مرور ادبیات تحقیق
2-1- مقدمهدر اواسط نیمهی دوم قرن بیستم گروهی از پژوهشگران آمریکایی دست به اقدام جالبی زدند. آنها کلیه اطلاعلاتی را که انسآنها تا قرن دوم میلادی از خورشید، گردش زمین، ماه، شب و روز و ... داشتند بهصورتی قابل پردازش درآوردند و به شکل مجموعهای از دادههای عددی و سیمبلیک جهت کاوش آماده نمودند. با استفاده از روشهای دادهکاوی پس از حدود یک ماه خروجی الگوریتم بهصورت مجموعهای از روابط آماده شد. این روابط پس از تفسیر مجموعه قوانین حیرتانگیزی به شکل ذیل بهدست آورد:
شیءای که زمین نامیده شده گرد است.
شیء زمین به دور شیءای که خورشید نامیده شده میگردد.
شیءای که ماه نامیده شده به دور زمین میگردد.
این اقدام باعث شد که این پژوهشگران به نتیجه مهمی دست یابند: با استفاده از دادهکاوی میتوان به دانشی دست یافت که خود انسان قرنها بعد این دانش را کسب خواهد کرد.
در این فصل با مقدمات علم دادهکاوی آشنا شده و سپس به تعاریف و دستهبندی داشبورد خواهیم پرداخت و در ادامه تحقیقات انجام شده تاکنون در زمینه دادهکاوی آموزشی و داشبورد و چند نمونه از مراحل طراحی داشبورد را مورد بررسی قرار خواهیم داد.
2-2-انگیزههای کاوش دادهبه شکل 2-1 توجه کنید. دراین شکل دو نمودار وجود دارد. نمودار اول (نمودار پایین شکل) نشاندهنده تعداد تحلیلگرها است، با توجه به نمودار مشخص است با گذشت زمان تعداد تحلیلگرها در مقایسه با رشد داده تقریبا ثابت است. نمودار دوم نشاندهندهی رشد داده در طی زمان میباشد، از روی نمودار میتوان مشاهده نمود که حجم داده با گذشت زمان در حال رشد انفجارگونه است. به تفاوت بین این دو نمودار (فضای خالی بین دو نمودار) شکاف دادهای بین دو نمودار گفته میشود. فاصلهای که بین این دو نمودار است نشان میدهد که به مرور زمان تعداد دادهها نسبت به تعداد افرادی که بتوانند این دادهها را تحلیل کنند مرتبا در حال افزایش است، پس نیاز به ابزار مکانیزهای برای تحلیل داده، روزبهروز در حال افزایش است. برای تبیین سرعت رشد دادهها، میتوان به نمونههای ذیل اشاره نمود:
مرکز ستارهشناسی VLBI دارای 16 تلسکوپ بزرگ است که هر یک با سرعت 1 گیگابیت بر ثانیه داده ستارهشناسی را برمبنای مشاهدات یک ماه 25 روز تولید میکنند.
شرکت مخابراتی AT&T با میلیاردها تماس در روز سروکار دارد. چنین دادهی عظیمی را نمیتوان ذخیره نمود – تجزیه و تحلیل آن میبایست بهصورت برخط بر روی جریان داده باشد.
تیم جمعآوری وب کتابخانهی ملی آمریکا در ماه می 2008 اعلام نموده که کتابخانه بیش از82.6 ترابایت داده گردآوری نموده است.
موسسهی Ancestry.com ادعا میکند که در حدود600 ترابایت اطلاعات شجرهنامهای از دادههای سرشماری آمریکا طی سالهای 1790 الی 1930 جمعآوری نموده است.
در سال 1993 تمامی ترافیک اینترنت 100 ترابایت برآورد نموده است (معادل با 5 زتابایت درسال)
با توجه به مطالب مطرح شده، شاید بتوان اولین انگیزه کاوش داده را رشد روزافزون آن
دانست. در واقع رشد داده به حدی است که تنها در صورت وجود ابزار مکانیزه برای بررسی آن میتوان امیدوار به استفاده از آن بود. زیرا در غیر این صورت همزمان با تحلیل حجم کوچکی داده، حجم بسیار زیادی از همان داده در حال تولید شدن است که هرگز فرصتی برای کاوش آن وجود نخواهد داشت. به علاوه مشکلاتی دیگر که در ادامه اشاره شدهاند نیز وجود دارند:
معمولا دانشی که در دادهها وجود دارد خیلی بدیهی، روشن و واضح نیست.
تحلیل گران انسانی ممکن است هفتهها برای کشف اطلاعات باارزش از داده وقت صرف کنند و گاهی اوقات ممکن است با صرف زمان زیادی لزوما موفق هم نشوند.
گاهی اوقات با وجود امکان جمعآوری داده، این کار انجام نمیشود. دلیل عدم جمعآوری داده معمولا عدم وجود دانش برای جمعآوری آن است. اینکه داده سرمایه یک سازمان است خود دانشی مهم و باارزش است که همیشه وجود ندارد.
1524032321500
شکل2-1: قیاس رشد حجم داده با رشد تعداد تحلیلگران داده2-3-نیاز به دادهکاوی روش سنتی تبدیل دادهها به دانش، متکی به تجزیه، تحلیل و تفسیر دستی است. این تجزیه و تحلیلهای دستی مجموعههای دادهای، کند، گران و بسیار موضوعی است. در حقیقت با رشد نمایی حجم دادهها، این نوع تجزیه و تحلیلها در بسیاری از حوزهها غیر عملی است. هنگامی که مقیاس بهکارگیری دادهها و استدلال بر مبنای آنها فراتر از ظرفیتهای انسانی میرود، امید به کمک فناوری کامپیوتر میرود. مساله استخراج دانش از پایگاههای دادهای بزرگ شامل مراحل بسیاری از دستکاری، بازیابی و پیشپردازش دادهها تا استدلالات ریاضی، آماری، جستجو و استنتاج میباشد(Wai-Ki Ching&Michael Kwok,2005).
2-4- چالشهای دادهکاویشاید بتوان مهمترین نقاط ضعف روشهای دادهکاوی را در سه مورد خلاصه نمود: وجود داده، صحت داده و کافی بودن ویژگیها. منظور از وجود دادهاین است که اصولا دادهای برای کاوش وجود داشته باشد و اینگونه نباشد که داده در محیط مورد کاوش استخراج و یا ثبت نشده باشد. متاسفانه این مشکل در بسیاری از محیطهای واقعی وجود دارد. صحت داده مبین آن است که داده جمعآوری شده صحیح بوده و نادرستی در آن وجود نداشته باشد. به عنوان مثال نباید جنسیت شخصی با نام «محسن» زن وارد شده باشد و یا اشتباه های دیگری که دلیل وجودی آنها خطا در ورود داده است، رخ دهد. کافی بودن ویژگیها بدین معنا است که ویژگیهای اخذ شده برای هر رکورد یا شیء برای یادگیری مدل و یا کشف نظم حاکم بر داده موثر، مناسب و کافی باشند. به عنوان مثال اگر هدف ما یادگیری یک مدل در دستهبندی کننده برای تشخیص بیماری دیابت در یک کلینیک است، ثبت ویژگی قندخون بسیار مهم است در حالی که وجود ویژگی میزان تحصیلات اهمیتی ندارد. توجه کنید چنان چه هر کدام از مشکلات سهگانه فوق در داده وجود داشته باشند هیچ یک از الگوریتمهای دادهکاوی، هر قدر هم که توانا باشند، نخواهند توانست نظم حاکم بر داده را تحت هیچ شرایطی بیابند.
در دادهکاوی چالشهای متفاوتی وجود دارد که در اینجا به بررسی آنها می پردازیم.
توجه کنید، منظور از چالش در اینجا مشکلاتی است که فرآیند دادهکاوی و الگوریتمهای مربوط به این فرآیند قادر به مواجهه با آنها میباشند. بنابراین سه مورد اشاره شده، نقاط ضعف و نه چالشهای موجود در دادهکاوی هستند. در دادهکاوی میتوان چالشها را به دو گروه اولیه و ثانویه تقسیم نمود. در ادامه به بررسی هر کدام از این دو دسته میپردازیم.
2-4-1- چالشهای اولیهچالشهای اولیه که انگیزه مهم به کارگیری فرآیند دادهکاوی به جای روشهای سنتی تحلیل دادهها هستند عبارتند از: حجیم بودن دادهها، ابعاد بالای دادهها، طبیعت توزیع شده و ناهمگن دادهها. در ادامه به بررسی هر کدام از این چالشها میپردازیم
حجم بالای داده: الگوریتمهای دادهکاوی با تعداد زیادی از رکوردها کار میکنند و حجم زیادی از دادهها را پردازش میکنند. به طور کلی هر چه تعداد رکوردهای موجود زیادتر باشد باعث میشود روشهای سنتی نتوانند این رکوردها را پردازش کنند. اگر تعداد رکوردها کم باشد فرآیند تحلیل آنها بسیار ساده است و معمولا احتیاج به روشهای دادهکاوی نیست چرا که روشهای سادهتر از دادهکاوی نیز میتوانند جوابگو باشند. هرچه تعداد رکوردها بیشتر باشد باعث میشود علم دادهکاوی بتواند کارکرد درخشانتری داشته باشد. دراین موارد روشهای ساده، سنتی و روشهایی که ممکن است حتی مکانیزه هم نباشند و شاید از کامپیوتر در آنها استفاده نشود، نمیتوانند خیلی کارگشا باشند.
ابعاد بالای دادهها: منظور از بعد همان فیلد یا ویژگی (خصیصه) میباشد. به طور کلی هر چه تعداد ویژگیها بیشتر باشد، باعث خواهد شد که تحلیل دادهها مشکلتر شود. هرچه تعداد ویژگیهای موجود در دادهها بیشتر باشد، نمیتوان با استفاده از روشهای سنتی بین آنها نظمی پیدا کرد. این درحالی است که در اینگونه مواقع الگوریتمهای دادهکاوی میتوانند اثربخشی و توان بالقوهای که دارا هستند را نشان دهند. در غیر این صورت از روشهای سادهتر هم میتوان برای پردازش دادهها استفاده نمود.
طبیعت توزیع شده دادهها: به طور کلی طبیعت توزیع شده دادهها وجود دادهها در منابع پراکنده باعث میشود نتوانیم از روشهای سنتی برای پردازش دادهها استفاده کنیم. دراین مواقع به روشهای دادهکاوی نیاز داریم. این روشها باید قادر باشند دادههایی را که در مکآنهای مختلف ذخیره شدهاند به گونهای مدیریت کند که دانش نهفته را از نهان این دادههای پراکنده و توزیع شده استخراج کنند.
طبیعت ناهمگن دادهها: در انباره دادهای که بهعنوان مخزن فرآیند دادهکاوی عمل میکند، انواع مختلفی از ویژگیها وجود دارند. هر ویژگی محدوده مقادیر مشخص و ویژه ای اختیار میکند. کمینه و بیشینه مقادیر مربوط به بعضی از ویژگیها باهم تفاوت زیادی دارند. بعضی از ویژگیها، حوزه مقداری بسار وسیع بعضی دیگر حوزه محدودی دارند. دراین مواقع میتوان از مباحث نرمالسازی برای برخورد با این مشکل استفاده کرد. اما مسائل دیگری نیز در ارتباط با ویژگیها وجود دارند. بهعنوان مثال بعضی از ویژگیهای عددی (صحیح یا حقیقی) هستند، بعضی دودویی هستند، بعضی دیگر از ویژگیها اسمی هستند (مثل رنگ چشم). بعضی از ویژگیها نیز به گونهای هستند که در مورد آنها تنها میتوان گفت آیا باهم مساوی هستند یا خیر (مثل رنگ چشم)، گونهای دیگر از ویژگیها به این شکل اند که در مورد آنها علاوه بر مساوی یا نامساوی بودن میتوان بزرگتر و کوچکتر بودن را نیز تعیین نمود (مثل سطح تحصیلات)، در مورد برخی دیگر از ویژگیها علاوه برمساوی یا نامساوی بودن و تعیین کوچکتر و یا بزرگتری، میتوان از عملگرهای جمع و تفریق نیز استفاده نمود (مثل تاریخهای تقویم) و در نهایت در مورد گروهی دیگر از ویژگیها علاوه بر مساوی یا نامساوی، کوچکتر و یا بزرگتر بودن، همچنین جمع و تفریق آنها، میتوان عملگرهای ضرب و تقسیم را نیز به کار برد (مثل قد و وزن). درنتیجه به دلیل تنوع بالای ماهیت ویژگیها نمیتوان از روشهای سنتی برای پردازش دادهها استفاده نمود.
2-4-2- چالشهای ثانویهچالشهای ثانویه به آن دسته از چالشهایی گفته میشود که در قیاس با چالشهای اولیه از اهمیت کمتری برخوردارند. البته میبایست توجه نمود، این امر بدان معنا نخواهد بود که اهمیت این چالشها پایین است و یا حل مشکلات مربوط به آنها کار ساده و یا کمتاثیری است. در ادامه به بررسی این چالشها خواهیم پرداخت.
کیفیت داده : مربوط به زمانی است که کیفیت دادهها پایین است. به عنوان نمونه هنگامی که دادههای ما شامل نویز، داده پرت، داده گمشده و داده تکرارشده باشد، شاهد پایین آمدن کیفیت دادهها خواهیم بود.
عدم مالکیت داده: به دلایل گوناگون مانند توزیعشدگی ممکن است نتوانیم کل دادهها را یکجا در مالکیت داشته باشیم و فرآیند کاوش را روی آنها انجام دهیم.
حفظ حریم شخصی دادهها: مربوط به زمانی است که باید با رعایت حریم شخصی، دادهها را کاوش نماییم. فرآیند کاوش میبایست بهگونهای انجام شود که بتوان بدون دسترسی به همه دادهها و با دیدن تنها بخش محدودی از آن فرآیند دادهکاوی را پیشبرد. تفاوت حفظ حریم شخصی دادهها با توزیعشدگی و عدم مالکیت داده دراین است که در توزیعشدگی و عدم مالکیت داده ممکن است برای یادگیری مدل از همه دادهها استفاده شود ولی در اینجا ممکن است به بخشی از دادهها اصلا دسترسی وجود نداشته باشد، یعنی باید بتوانیم مدل خود را با همان دادههای در دسترس بسازیم.
دادههای جریانی: به دادههایی گفته میشود که سرعت تولید آنها بالا است به گونهای که فرصت تحلیل آنها و ساخت مدل وجود ندارد چرا که حین انجام عملیات کاوش مرتبا دادههای جدیدی تولید میشوند. بنابراین سیستم باید به صورت برخط باشد تا بتواند خودش را تصحیح کند و قادر باشد مدل بهروزی را در اختیار قرار دهد.
2-5-معرفی دادهکاوی برای درک کامل معنای دادهکاوی میبایست ابتدا تعریف درستی از معانی کلمات داده،
اطلاعات و دانش داشته باشیم. این تعاریف در ذیل ارائه شده اند.
داده: به هر گونه سیمبل، عدد، رقم، کاراکتر، رشته و یا سیگنال که معنای خاصی را به ذهن القاء نکند داده گفته میشود. داده پایهایترین مفهوم در دادهکاوی است که مبرا از هرگونه پردازشی میباشد.
اطلاعات: چنانچه در کنار عدد، کاراکتر و یا هر عنصر دادهای رشتهای به عنوان توصیفکنندهی معنای آن داده وجود داشته باشد، داده ابتدایی به اطلاعات تبدیل خواهد شد.
دانش: وجود یک رابطه میان دو عنصر اطلاعاتی مبین دانشی در آن زمینه است.
خرد: عالیترین سطح بینش است که توسط علائم و نمادهای قراردادی تبیین میشود.
3697911930152میتوان شکل 2-2 را جهت نشان دادن سلسله مراتب ارزشی برای معانی داده، اطلاعات، دانش و خرد در نظر گرفت. همانگونه که در این شکل دیده میشود همزمان با افزایش ارزش معنایی برای مفاهیم مذکور حجم آنها کاهش مییابد که کاملا طبیعی است. به عبارت دیگر این بسیار بدیهی است که بتوان حجم بالایی داده را با تنها چند قانون توصیف و تبیین نمود. کاری که اصلیترین هدف در فرآیند دادهکاوی است(صنیعیآباده،1391).
شکل 2-2 سلسله مراتب داده تا خردتعارف مختلفی برای دادهکاوی وجود دارد، شاید بتوان تعریف ذیل را به عنوان یک تعریف کامل و جامع برای دادهکاوی ارائه نمود:
استخراج خودکار دانش جدید و مفید از منابع دادهای حجیم موجود طی یک فرآیند غیر بدیهی مشخص دادهکاوی نامیده میشود.
2-5-1-منشاُ علمیعلم دادهکاوی از علوم مختلفی از جمله علم آمار، هوش مصنوعی، یادگیری ماشین، شناسایی الگو و پایگاهداده نشات گرفته است. در واقع این علوم ریشههای علم دادهکاوی هستند. ما میتوانیم از همه تکنیکهایی که در این علوم هستند بهره بگیریم بهگونهای که بتوانیم بفهمیم الگوریتمها و روشهایی که در دادهکاوی هستند چگونه عمل میکنند. الگوریتمهای موجود در هوش مصنوعی و علم آمار کمک شایانی به دادهکاوی میکنند. مباحث موجود در یادگیری ماشین و شناسایی الگو نیز با مباحثی که در دادهکاوی هستند همپوشانی قابل ملاحظهای دارند. به عنوان مثال الگوریتمهایی که یک مدل را یاد میگیرند یا الگویی را شناسایی میکنند، بهخصوص اگر دادههای مورد پردازش عددی یا متنی باشند (سیمبلیک نباشند) معمولا وجه مشترک یادگیری ماشین و شناسایی الگو با دادهکاوی هستند. بهعلاوه، در علم پایگاهداده یک پایگاهداده بزرگ داریم و همین پایگاهداده را در دادهکاوی به عنوان انبار داده میشناسیم. این انبار داده باید حتما وجود داشته باشد تا یک الگوریتم دادهکاوی بتواند روی آن انبار داده کار کند. حال از تکنیکهایی که در پایگاهداده برای جمعآوری دادهها وجود دارد میتوانیم برای ایجاد این انبار داده جهت استفاده در فرآیند دادهکاوی استفاده نماییم.
2-5-2- معماری سیستم دادهکاویدادهکاوی فرایند اکتشاف اطلاعات و روندهای جالب نهفته از درون حجم بسیار زیاد دادههایی است که در قالب پایگاهدادهای، انبارهای دادهای، یا هرنوع انباره اطلاعاتی، ذخیره میشود. براساس این دیدگاه معماری یک سیستم دادهکاوی میتواند بهصورتیکه درشکل 2-3 نمایش داده شده است، درنظرگرفته شود.
510540-18161000شکل 2-3 معماری یک سیستم دادهکاویپایگاه داده، پایگاه داده تحلیلی، یا مخزن اطلاعاتی دیگری
این قسمت شامل یک یا چند پایگاه داده، پایگاه دادهی تحلیلی یا مخازن اطلاعاتی دیگری است که دراینجا فنون یکپارچهسازی وپاکسازی دادهای ممکن است برروی دادهها به کار گرفته شود.
سرویس دهندهی پایگاهداده
این سرویس دهنده مسئولیت واکشی داده را براساس درخواست دادهکاوی کاربر بر عهده دارد.
پایگاه دانش
دامنه دانشی است که برای هدایت جستجوها ویاارزیابی جالب بودن نتایج الگوها به کار میرود. چنین دانشی میتواند دربرگیرنده سلسله مراتب مفهومی، باشد که برای سازماندهی صفات یا مقادیر صفات به سطوح مختلف انتزاع بهکارگرفته میشود (دانشی ازجمله غیرمترقبه بودن آنها)
موتور دادهکاوی
این قسمت برای یک سیستم دادهکاوی بسیار ضروری است و درواقع دربرگیرنده مجموعهای
از پیمانههای کارکردی برای وظایفی همچون طبقهبندی، خوشهبندی، انجمنی، وتحلیلهای تکاملی است.
پیمانه ارزیابی الگو
این قسمت نیز بهطورکلی دربرگیرنده مقیاسهای جالب بودن است و درتعامل با پیمانههای دادهکاوی قرار دارد و تمرکز اصلی آن، جستجو به دنبال الگوهای جالب است. ممکن است از حدود آستانه جالب بودن برای فیلتر کردن الگوهای استخراج شده استفاده نماید. بهصورت متناوب براساس روش بهکار گرفته شده در دادهکاوی میتوان پیمانه ارزیابی الگو را با پیمانه کاوش یکی درنظر گرفت. برای داشتن دادهکاوی کارآمدتر توصیه میشود ارزیابی الگوهای جالب تا حدامکان درفرآیند کاوش قرار گیرد تا دامنه جستجو محدود به الگوهای جالب شود.
واسط گرافیکی کاربر
این پیمانه ارتباط بین کاربر و سیستم دادهکاوی را برقرار میسازد و به کاربر اجازه میدهد تا با سیستم دادهکاوی در تعامل باشد. علاوهبراین، این قسمت برای کاربر قابلیت مرور بر پایگاهداده، انبار داده یا ساختارهای داده، الگوهای کشف شده و بصریسازی این الگوها را به صور مختلف، فراهم میکند.
2-5-3- مراحل عملیات دادهکاویفرآیند دادهکاوی شامل سه مرحله است:
آمادهسازی داده
یادگیری مدل
ارزیابی و تفسیر مدل
در ادامه به توصیف هر کدام از این مراحل خواهیم پرداخت.
2-5-3-1-آمادهسازی دادهاولین و مهمترین مرحله در فرآیند دادهکاوی آمادهسازی داده میباشد. هدف در این
مرحله تامین ورودی مناسب برای مرحله حیاتی یادگیری مدل است. دراین مرحله داده پردازش نشده از کل منابع دادهای موجود (که ممکن است توزیع شده نیز باشد) استخراج شده، سپس در مرحلهای مستقل مورد پردازش اولیه قرار میگیرد. خروجی در مرحله آمادهسازی داده عبارت است از داده پیش پردازش شده که امکان یادگیری مدل از روی آن وجود دارد.
همانگونه که گفته شد اولین گام در مرحله آمادهسازی داده استخراج داده از منابع دادهای موجود است. در این گام میبایست دادهها که در منابع مختلفی پراکنده شدهاند، بهصورت متمرکز در یک محل جمعآوری شده و یک انباره داده مرکزی ایجاد شود. دلیل اصلی این گردآوری آن است که در اغلب موارد داده بهصورت متمرکز در یک مکان وجود ندارد. بهعلاوه دادهها در بخشهای مختلف ممکن است در فرمتهای گوناگونی نیز ذخیره شده باشند. مثلا ممکن است بخشی از دادهها در یک پایگاهداده Oracel و بخش دیگر دادهها در یک پایگاهداده Sql ذخیره شده باشند. حتی ممکن است بخشی از دادهها در چند فایل اکسل یا حتی فایل متنی ذخیره شده باشند. گاهی اوقات دادههایی وجود دارند که روی کاغذ نوشته شدهاند و حتی تایپ هم نشدهاند. حال اگر قرار باشد فرآیند دادهکاوی صورت پذیرد، باید دادههای موجود در منابع مختلف متحد شده و در یک فرمت مشخص در یک انبار داده مرکزی ذخیره شوند. در غیر این صورت فرآیند دادهکاوی هر چقدر هم که هوشمندانه و بی نقص انجام شود، نخواهد توانست دانشی باارزش ودرخور توجه تولید نماید.
دومین گام در مرحله آمادهسازی داده، پیشپردازش دادههای استخراج شده است. مهمترین رسالت این گام زدودن مشکلات مختلفی که احتمالا در داده وجود دارند، خواهد بود. این مشکلات مانع از آن میشوند که مرحلهی یادگیری مدل بتواند نظم واقعی را در داده بیابد. در هر حال پس از پایان مرحلهی آمادهسازی داده، مجموعه دادهای آماده خواهد شد که فاقد مشکلات جدی و کلیدی است و امکان کشف دانش نهفته در آن با استفاده از مرحله یادگیری مدل وجود دارد. این مرحله در ادامه توصیف میشود.
2-5-3-2-یادگیری مدل
دراین مرحله با استفاده از الگوریتمهای متنوع و با توجه به ماهیت داده سعی ما بر این است که نظم های مختلف موجود در داده را شناسایی نموده و در فرمتی مشخص به عنوان دانش نهفته در داده ارائه کنیم. برای یادگیری مدل میبایست روشهای آن را بهدرستی شناخت تا بتوان در جای مناسب، روش درست را انتخاب نمود و بهکار بست. در بخش 2-8 انواع روشهای یادگیری مدل در دادهکاوی مورد بحث و بررسی قرار خواهند گرفت. قبل از آن به توضیح مرحله نهایی در دادهکاوی یعنی ارزیابی و تفسیر مدل میپردازیم.
2-5-3-3-ارزیابی و تفسیر مدلدر این مرحله دانش تولید شده در مرحله قبل ارزیابی شده و مورد تفسیر قرار میگیرد. منظور از ارزیابی دانش آن است که میبایست میزان صحت دانش تولید شده مشخص شود تا بتوان به آن اعتماد نمود و به صورت عملی از آن استفاده کرد. روشهای مختلفی برای ارزیابی دانش تولید شده، وجود دارند که رابطهی تنگاتنگی با روش یادگیری مدل دارند.
تفسیر مدل به معنای آن است که دانش تولید شده را مورد بررسی قرار داده و توجیهی معنایی جهت تبیین منطق آن ارائه نماییم. در صورت قابل تفسیر بودن دانش تولید شده، انجام این کار بسیار ساده است (به عنوان مثال زمانی که دانش بهصورت درخت یا مجموعه قوانین باشد). در مقابل امکان تفسیر دانش برای مواقعی که دانش به صورت غیرقابل تفسیر باشد (مانند دانش تولید شده توسط شبکههای عصبی و یا ماشین بردار پشتیبان) بسیار مشکلتر و شاید غیرممکن خواهد بود.
2-6- محدودیتهای دادهکاویدادهکاوی نیاز شما را به دانستن نجارت دادهها و روشهای تحلیل دادههای شما را حذف نخواهد کرد. درواقع دادهکاوی به تحلیلهای با یافتن الگوها و روابط بین دادهها کمک نخواهد کرد و علاوهبراین الگوهایی که توسط دادهکاوی کشف میشوند باید در دنیای واقعی وارسی شوند.
باید همواره به خاطر داشت که رابطه پیش گویآنهای که بهوسیله دادهکاوی یافته میشود، لزوما سبب انجام رفتاری خاص یا عکسالعمل نمیشود. دادهکاوی هیچگاه جای یک مدیر یا تحلیلگرحرفهای را نمیگیرد بلکه ابزار جدید و قدرتمندی را دراختیارشان قرار میدهد تا به کمک آن بتوانند در کارها و وظایف خود موفقتر و دقیقتر عمل نمایند بنابراین کاری که دادهکاوی میتواند انجام دهد استفاده از تجارب و یافتن الگوهایی دقیق و جدید میباشد که سبب توسعه و رشد آن شرکت خواهد شد(پناهی آذر،1385).
2-7- قابلیتهای دادهکاویاهداف سطح بالای دادهکاوی، پیشبینی و توصیف یا ترکیبی از پیشبینی و توصیف است. هدف پیشبینی متمرکز بر روی دقت در توانایی پیشبینی است و هدف توصیف، متمرکز بر روی درک فرآیند تولید دادههاست. در پیشبینی، تا زمانیکه مدل قدرت پیشبینی دارد، کاربر توجهی به اینکه آیا مدل منعکس کننده واقعیت باشد ندارد. مثلا مدلی که شاخصهای مالی را به شکلی غیرخطی ترکیب میکند تا نرخ تبادل بازار را پیشبینی کند. از سویی دیگر، مدل توصیفی به عنوان انعکاس واقعیت تفسیر میشود (مثلا مدلی که متغیرهای اقتصادی و جمعیتی را به پیشرفتهای آموزشی مرتبط میسازد، به عنوان مبنایی برای توصیههای سیاست اجتماعی منتهی به تغییر استفاده میشود).
2-8- روشهای یادگیری مدل در دادهکاویروشهای مختلف کاوش داده در دو گروه روشهای پیشبینی و روشهای توصیفی طبقهبندی میشوند. در ادامه به شرح هر کدام از این دو گروه میپردازیم.
2-8-1- روشهای پیشبینیاین روشها از مقادیر بعضی از ویژگیها برای پیشبینی کردن مقدار یک ویژگی مشخص استفاده میکنند. در متون علمی مختلف روشهای پیشبینی بانام روشهای باناظر نیز شناخته میشوند. روشهای دستهبندی، رگرسیون و تشخیص انحراف سه روش یادگیری مدل در دادهکاوی با ماهیت پیشبینی هستند.
2-8-1-1- دستهبندیدر الگوریتمهای دستهبندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه دادههای آموزشی و مجموعه دادههای آزمایشی تقسیم میشود، با استفاده از مجموعه دادههای آموزشی مدل ساخته میشود و از مجموعه داده آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده میشود. هر رکورد شامل یک مجموعه از ویژگیها است. یکی از این ویژگیها، ویژگی دسته نامیده میشود. در الگوریتمهای دستهبندی چون ویژگی دسته مربوط به هر رکورد مشخص است بنابراین جزء الگوریتمهای باناظر محسوب میشوند. الگوریتمهای باناظر شامل دو مرحله با عنوان مرحله آموزش و مرحله ارزیابی هستند. در مرحله آموزش، مجموعه دادههای آموزشی به یکی از الگوریتمهای دستهبندی داده میشود تا براساس مقادیر سایر ویژگیها برای مقادیر ویژگی دسته، مدل ساخته شود. شکل مدل ساخته شده به نوع الگوریتم یادگیرنده بستگی دارد. به عنوان مثال اگر الگوریتم یادگیرنده الگوریتم درختتصمیم باشد مدل ساخته شده یک درختتصمیم خواهد بود، اگر الگوریتم یادگیرنده یک دستهبندی مبتنی بر قانون باشد مدل ساخته شده یک مجموعه قانون خواهد بود. در هر صورت با نوجه به الگوریتم یادگیرنده مورد استفاده درمرحلهی آموزش، مدل ساخته میشود. پس از ساخت مدل در مرحله ارزیابی، دقت مدل ساخته شده به کمک مجموعه دادههای آزمایشی که مدل ساخته شده در مرحله آموزش این مجموعه دادهها را ندیده است، ارزیابی خواهد شد. از مجموعه دادههای آزمایشی در مرحله آموزش و ساخت مدل استفاده نمیشود.
2-8-1-2- رگرسیونپیشبینی مقدار یک متغیر پیوسته براساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیرخطی رگرسیون نامیده میشود. رگرسیون در علوم آمار و شبکههای عصبی به صورت وسیع مورد مطالعه و بررسی قرار میگیرد. در واقع یک بردار x بهعنوان ورودی داریم که به یک متغیر خروجیy نگاشت شده است. هدف محاسبه yیا همانF(x) است که از روی تخمین تابع مقدار آن محاسبه میشود. در اینجا میبایست به ازای یک بردارx ، مقدار دقیق y قابل محاسبه باشد. این کاربرد نیز مانند دستهبندی یک کاربرد از نوع پیشبینی یا با ناظر است. دلیل آنهم کاملاً روشن است، چرا که باید مقدار یک متغیر که در اینجا با نشان داده شده، از روی مقادیر متغیرهای دیگر که آن را با بردار x مشخص میکنیم، پیشبینی شود. بنابراین در رگرسیون هم دو مرحله آموزش و ارزیابی وجود خواهد داشت که طی آنها از مجموعه دادههای آموزشی و مجموعه دادههای آزمایشی استفاده میشود. روشهای موجود در رگرسیون بیشتر مبتنی بر ریاضیات آماری هستند. یک نوع خاصی از رگرسیون، پیشبینی سریهای زمانی است. در مسائل پیشبینی سریهای زمانی یکی از متغیرهای اصلی زمان میباشد. در این مسائل یک مجموعه ازx ها و y ها بهصورت یک تابع ریاضی وجود دارند. به عبارت دیگر به ازای هر xفقط و فقط یک y موجود میباشد. (درغیر این صورت زمان به عقب برخواهد گشت). هدف این است که به ازای یک x جدید مقدار y آن را پیشبینی کنیم. بهعنوان مثال تغییرات قیمت سهام ایران خودرو را از سه سال پیش تا به امروز به صورت یک نمودار داریم، حال میخواهیم ادامه این نمودار را برای مدتی مشخص ( مثلاً یک ماه آینده) پیشبینی کنیم. به این مساله پیشبینی سری زمانی گفته میشود که نوع خاصی از رگرسیون است. بدیهی است که رگرسیون لزوماً میتواند سری زمانی نباشد.
2-8-1-3-تشخیص انحرافآخرین کاربرد مهم یادگیری با ناظر در دادهکاوی تشخیص انحراف است. در مواقعی از این کاربرد استفاده میشود که تنها نمونههای با یک برچسب یکسان، که معمولا وضعیت نرمال را نشان میدهد، دردسترس باشند و امکان مالکیت بر دادهها با تمامی برچسبهای موجود به دلایل مختلف وجود نداشته باشد. بنابراین چون فقط نمونههای دسته نرمال در اختیار است، الگوریتم برای وضعیت نرمال و با توجه به یک آستانه مشخص مدل میسازد و هرگونه تخطی از آن آستانه را به عنوان وضعیت غیر نرمال در نظر میگیرد و هشدار میدهد. دو نمونه از کاربردهای تشخیص انحراف عبارتند از: کشف کلاهبرداریهای کارتهای اعتباری و تشخیص نفوذ به شبکههای کامپیوتری.
2-8-2- روشهای توصیفیبعضی از اوقات هدف از دادهکاوی توصیف وضعیتی است که در پایگاه اطلاعاتی وجود دارد، بهگونهای که سبب افزایش دریافتهای ما از افراد، محصولات یا پردازشهایی شود که دادهها را در اولین گام تولید میکنند. توصیفی خوب از یک رفتار پیشنهاددهنده توضیحی برای آن میباشد و در نهایت توصیف، خود پیشنهاد میکند که کجا را برای یک توضیح باید شروع به جستجو نمود.
هر چند که مدلهای توصیفی پیشگو نیستند ولی برعکس آن صادق هستند. یعنی مدلهای پیشگو اغلب توصیفی هستند. در کاربردهای تجاری واقعی، دادهکاوی معمولا برروی پایگاههای دادهای خیلی بزرگ اعمال میشود، دلیل این امر را میتوان در دو مورد زیر خلاصه نمود.
درپایگاههای دادهای کوچک، امکان یافتن الگوهای جالب و روابط با بررسی خیلی ساده نتایج به کمک ابزارهای کمکی همچون صفحه گسترده موجود است.
اکثر فنون دادهکاوی نیاز به آموزش برروی دادهها و مثالهایی دارند که از قبل جواب
آنها مشخص میباشد، در پایگاههای دادهای به دلیل کوچک بودن محدوده اطلاعاتی، نمیتوان الگوهای مناسب و خوبی یافت.
روشهای توصیفی الگوهای قابل توصیفی را پیدا میکنند که روابط حاکم بر دادهها را بدون در نظر گرفتن هر گونه برچسب و یا متغیر خروجی تبیین نمایند. در متون علمی مختلف روشهای توصیفی با نام روشهای بدون ناظر نیز شناخته میشوند. روشهای خوشهبندی، کاوش قوانین انجمنی و کشف الگوهای ترتیبی سه روش یادگیری مدل در دادهکاوی با ماهیت توصیفی هستند. در ادامه به بررسی هر کدام از این روشها میپردازیم.
2-8-2-1- خوشهبندیدر مسائل خوشهبندی یک مجموعه رکورد داریم که هر کدام یک مجموعه از ویژگیها دارا هستند. یک معیار مشابهت میان آنها تعریف میکنیم. این معیار مشابهت در مسائل مختلف متفاوت است. به عنوان مثال اگر ویژگیها پیوسته باشند میتوان فاصله اقلیدسی را به عنوان معیار مشابهت در نظر گرفت. به این ترتیب هر رکورد را به صورت یک نقطه در فضای چند بعدی در نظر میگیریم. هر بعد، نماینده یکی از ویژگیهای مساله است. در مسائل خوشهبندی هیچگونه دسته خاصی وجود ندارد. در واقع ویژگی دسته نداریم و فقط براساس معیار شباهت گروهبندی و خوشهبندی دادهها صورت میپذیرد. خوشهبندی به این شکل انجام میشود که رکوردهایی که بیشترین شباهت را به یکدیگر دارند (با توجه به معیار شباهت تعریف شده) در یک خوشه قرار میگیرند. در نتیجه دادههای موجود در خوشههای متفاوت کمترین شباهت را به یکدیگر خواهند داشت. از آنجایی که برای الگوریتمهای خوشهبندی ِویژگی دسته تعریف نمیشود و رکوردها برچسب خاصی ندارند، بنابراین جزء الگوریتمهای بدون ناظر محسوب میشوند. خروجی الگوریتمهای خوشهبندی دوباره تحلیل خواهد شد تا در صورت امکان نظمی در خوشهها آشکار شود. نکته مهمی که میبایست به آن توجه نمود آن است که خوشهبندی همیشه براساس ویژگیهای ورودی نمونهها انجام میشود. به عنوان مثال در صورت خوشهبندی رکوردهای مربوط به دانشجویان یک دانشکده هر خوشه ممکن است بیانگر رکوردهایی باشد که از جنبههای مختلف به یکدیگر شبیه هستند. مثلا یک وضعیت ممکن است این باشد که دو خوشه به وجود آید که نشانگر دانشجویان زرنگ و تنبل باشند. ممکن است این دو خوشه بیانگر دانشجویان پسر و دختر باشند. حالت دیگر دو وضعیتی را نشان میدهد که دانشجویان را براساس شهر قبولی آنها به دو خوشه بومی و غیربومی تقسیم نموده است. میتوان وضعیتهای دیگری را نیز در نظر گرفت ( حتی تعداد خوشهها نیز میتواند بیشتر از دو باشد) این که کدامیک از حالات ذکر شده رخ میدهد، کاملاً به ویژگیهای انتخاب شده (فیلدهای اطلاعاتی دانشجویان) بستگی دارد و بهصورت مستقیم به الگوریتم خوشهبندی مرتبط نیست. هدف در همه الگوریتمهای خوشهبندی کمینه کردن فاصله درون خوشهای و بیشینه نمودن فاصله بین خوشهای میباشد. عملکرد خوب یک الگوریتم خوشهبندی زمانی محرز میشود که تا حد امکان خوشهها را از یکدیگر دورتر کند (یعنی رکوردهای موجود در خوشههای مختلف کمترین شباهت را به یکدیگر داشته باشند) و به علاوه رکوردهای موجود در یک خوشه بیشترین شباهت را به یکدیگر دارا باشند.
هدف از خوشهبندی یافتن گروههایی است که با یکدیگر بسیار متفاوتند ولی اعضای این گروهها بسیار به هم شبیهاند. در خوشهبندی، کلاس از پیش تعریف شدهای وجود ندارد. رکوردها بر اساس شباهتهای خودشان گروهبندی میشوند و افرادی که خبره هستند باید این خوشهها را تفسیر کنند. غالبا خوشهبندی پیشدرآمدی برای دیگر فنون دادهکاوی یا مدلسازی میباشد(Wai-Ki Ching&Michael Kwok,2005).
خوشهبندی به دو صورت انجام میشود:
خوشهبندی انحصاری و خوشهبندی با همپوشی
در روش خوشهبندی انحصاری پس از خوشهبندی هر داده دقیقاً به یک خوشه تعلق میگیرد مانند روش خوشهبندی k-means ولی در خوشهبندی با همپوشی پس از خوشهبندی به هر داده یک درجه تعلق به ازای هر خوشه نسبت داده میشود. به عبارتی یک داده میتواند با نسبتهای متفاوتی به چندین خوشه تعلق داشته باشد. نمونهای از آن خوشهبندی فازی است.
خوشهبندی سلسله مراتبی و خوشهبندی مسطح
در روش خوشهبندی سلسله مراتبی، به خوشههای نهایی براساس میزان عمومیت آنها ساختاری سلسله مراتبی نسبت داده میشود. مانند روش Single Link، ولی در خوشهبندی مسطح تمامی خوشههای نهایی دارای یک میزان عمومیت هستند مانند k-means. به ساختار سلسله مراتبی حاصل از روشهای خوشهبندی سلسله مراتبی دندوگرام گفته میشود(زهرا نوراله،1392).
با توجه به اینکه روشهای خوشهبندی سلسله مراتبی اطلاعات بیشتر و دقیقتری تولید میکنند برای تحلیل دادههایی با جزییات بیشتر پیشنهاد میشوند، ولی از طرفی چون پیچیدگی محاسباتی بالایی دارند برای مجموعه دادههای بزرگ روشهای خوشهبندی مسطح پیشنهاد میگردد.
یکی از روشهای معروف در این زمینه k-means میباشد، که علیرغم وابستگی به شرایط اولیه و همگرایی به نقاط بهینه محلی، تعدادN داده را به K خوشه با سرعت بالا، دستهبندی مینماید.
2-8-2-2- کشف قوانین انجمنیدراین کاربرد به دنبال پیداکردن یک مجموعه از قوانین وابستگی یا انجمنی هستیم که براساس آن قوانین بگوییم وجود کدامیک از مجموعه اشیاء بروجود چه مجموعه اشیاء دیگری اثرگذار است.
2-8-2-3- کشف الگوهای ترتیبیدراینجا به دنبال کشف الگوهای ترتیبی هستیم که وابستگیهای ترتیبی محکمی را در میان وقایع مختلف نشان میدهند.
2-9- فنون دادهکاویتاریخچه فنون دادهکاوی بهطورکلی نسبت به دیگر روشها کمی متفاوت و برجستهتر میباشد. الگوریتم ژنتیک و شبکههای عصبی در راستای تلاش برای مدل کردن پردازشهای زیستشناسی بر روی کامپیوتر بهوجود آمدهاند. استنتاج براساس حافظه، فنی است که بهطور مستقیم از حوزه هوشمصنوعی آمده است و تحلیل پیوندی از نظریه گرافها و کاربردهای آن در ساختارهای دادهها در علم کامپیوتر بهوجود آمده است.
گونهها و تعداد زیادی الگوریتم دادهکاوی از حوزههای آماری، بازشناسی الگو، یادگیری ماشین و پایگاهدادهها وجود دارند. اغلب الگوریتمهای دادهکاوی بیشتر شامل ترکیبی از سه جزء زیر میباشند.
1.مدل
دربرگیرنده 2 عامل میباشد. تابع مدل (مثلاً خوشهبندی) و شکل بازنمایی مدل (مثلاً: تابع خطی ازچندین متغیر و تابع چگالی احتمال گوسی) مدل شامل پارامترهایی است که براساس دادهها تعیین میشوند. کلمه مدل، کاربرد بسیار زیادی دارد بنابراین میتوان تفاسیر مختلفی نیز از آن داشت.
در گذشته رسم بر این بود که به دنبال مدل کردن روابط بودیم. بدون آنکه توجهی به جنبه تئوری آن داشته باشیم، بنابراین بهعنوان مثال میتوانستیم یک مدل برارزشی را برای مرتبط کردن متغیری به چندین متغیر توضیحی و بهدست آوردن مدل پیشگویآنهای دقیق بدون داشتن هیچگونه باور و اعتقادی به اینکه مدل نمایانگر مکانیزمی غیر رسمی است بسازیم یا اینکه بر این باور هستیم که مدل ساخته شده توضیحدهنده واقعیت مورد نظر میباشد، تا بدین ترتیب سبب افزایش یک متغیر و در نتیجه دیگر متغیرها بشویم. همچنین میتوان مدلهایی را که برای پیشگویی به کار میروند از مدلهایی که برای کمک به فهم مسئلهای به کار میروند ازهم جدا نمود.
2.معیار اولویت
پایهای برای اولویت یک مدل یا مجموعهای از پارامترها نسبت به مدل یا پارامترهای دیگر براساس دادههای موجود میباشد.
3.الگوریتم جستجو
مشخصات الگوریتم برای یافتن مدلها و پارامترهای بهخصوص است. الگوریتم دادهکاوی معمولاً نمونهای از اجزای مدل اولویت جستجو میباشد. (مثلاً طبقهبندی برمبنای بازنمایی درختتصمیمگیری، اولویت مدل برمبنای احتمال دادهها که توسط جستجوی حریصانه با استفاده از مکاشفهای بهخصوص تعیین میشود).
الگوریتمها اغلب برحسب بازنمایی مدل (مثلا خطی و سلسله مراتبی) تفاوت زیادی دارند و درالگوریتمهای یادگیری، بازنمایی مدل، معیار اولویت یا روش جستجو مورد استفاده به شکل روشنی بیان نمیشوند، بلکه آنها در توصیف الگوریتمی بهخصوص ترکیب میشوند.
2-9-1- یافتن خودکارخوشههایافتن خوشهها ساختمان مدلهایی است که به دنبال یافتن رکوردهای دادهای مشابه باهم هستند و این دسته ازشباهتها تحت عنوان خوشه مطرح میشوند. روشهای متعدد و مختلفی برای یافتن خوشهها وجود دارد که از آن جمله روشهای هندسی، آماری و شبکههای عصبی میتوان نام برد. خوشههای تشکیل شده میتواند نقطه شروعی برای شناسایی آنچه که درون دادهها هستند و استفاده بهینه از آنها را ارائه مینماید.
2-9-1-1-نقاط قدرت این روشاین روش میتواند حتی زمانی که دانش قبلی از ساختار پایگاهدادههای ورودی نداریم به کار گرفته شود. بادادههای متنی، رقمی و بدون قید و شرط به خوبی کار میکنند. با انتخاب مسافتهای اندازه گیری متفاوت، روش خوشهبندی خودکار میتواند تقریباً روی هر نوع دادهای بهکار گرفته شود، به راحتی قابل اجرا میباشد. اکثر فنون یافتن خوردکار خوشهها نیاز به حداقل پیغامدهی در رابطه با دادههای ورودی دارند و هیچ نیازی به شناسایی فیلدهای خاصی بهعنوان ورودی ندارند.
2-9-1-2-نقاط ضعفبه سختی میتوان مسافت اندازهگیری و وزنهای صحیح را انتخاب نمود. کارایی الگوریتمهای این روش وابسته به انتخاب مسافتهای متریک یا دیگر اندازههای مشابه میباشد. حساسیت نسبت به پارامترهای اولیه دارد. در روش k-mean انتخاب اولیه مقداری برای k تعیین کننده تعداد خوشههایی است که یافت میشوند. اگر این تعداد با ساختار طبیعی داده جفت نشوند، این فرد به نتایج خوبی دست نخواهد یافت.
2-9-1-3- کاربردخوشهبندی، ابزار قدرتمندی است برای زمانیکه مواجح باحجم بسیار زیاد و پیچیدهای از مجموعه دادهها با متغیرهای بسیار و ساختارهای داخلی فراوان باشیم. درشروع بهکار یک پروژه دادهکاوی، خوشهبندی میتواند غالبا یکی از بهترین فنون برای اجرا باشد. همچنین اگر در روش یافتن خودکار خوشهها نواحی از دادهها و رکودهای مشابه وجود داشته باشند کار برای ادامه کار دیگر ابزار های دادهکاوی راحتتر خواهد شد.
2-9-2- درختهای تصمیمگیری و استقرا قاعدهایپوشش درختهای تصمیمگیر برای دادهکاوی هدایت شده و رکوردها را به مجموعههای یادگیر و جدا از هم که هرکدام نیز از واحد سادهای بر روی یک یا چند فیلد تشکیل شدهاند پیروی میکند.
2-9-2-1-نقاط قوتقادر به تولید قوانین قابل فهم میباشند و با استفاده از زبانهای ساده مانند Sql قابل پیادهسازی هستند. توانایی انجام محاسبات را بدون نیاز به انجام محاسبات زیاد دارند. به طور کلی درختهای تصمیم به طور خاص انتخابی مناسب در دامنههایی هستند که درآنجا قواعدی برای یافت شدن وجود دارد. قادر به بکارگیری متغیرهای دنبالهای و بدون شرط هستند و متدهای درختتصمیمگیری برای این منظور تعریف شدهاند و تعریفی مشخص از اینکه چه فیلدهایی برای تصمیمگیری و پیشگویی مناسب هستند ارائه میدهند.
No description. Please update your profile.