پژوهش user7-234

ارائه روشی برای بهبود سیستم پیشنهاد دهنده موجود موسیقی پیاده سازی برنامه کاربردی سیستم پیشنهاد دهنده موسیقیدستاوردهایی که در این زمینه بدست میآید شامل موارد زیر است:تولید یک مجموعه داده موسیقی بر اساسویژگی‌های محتوایی سیگنال صوتی با فرا داده‌های سبک، […]

سایت دانلود پژوهش ها و منابع علمی

سایت دانلود پژوهش ها و منابع علمی دانشگاهی فنی تخصصی همه رشته ها – این سایت صرفا جهت کمک به گردآوری داده ها برای نگارش پژوهش های علمی و صرفه جویی در وقت پژوهشگران راه اندازی شده است

پژوهش user7-234

پژوهش user7-234

اهداف اصلی این تحقیق از قرار زیر هستند:
ارائه روشی برای بهبود رده‌بندی سبک موسیقی
ارائه روشی برای بهبود سیستم پیشنهاد دهنده موجود موسیقی
پیاده سازی برنامه کاربردی سیستم پیشنهاد دهنده موسیقی
دستاوردهایی که در این زمینه بدست میآید شامل موارد زیر است:
تولید یک مجموعه داده موسیقی بر اساسویژگی‌های محتوایی سیگنال صوتی با فرا داده‌های سبک، خواننده و حالت موسیقی
معرفی یک ویژگی جدید در رده‌بندی موسیقی با کارایی بسیار بالا
ارائه یک مدل پیشنهاد دهنده بر اساس میزان شباهت موسیقی‌ها با استفاده از ویژگی معرفی شده
ارائه یک معیار جدید شباهت پروفایل‌های مشتری
ارائه یک روش جدید برای انتخاب موسیقی از پروفایل‌های مشابه
پیاده سازی برنامه کاربردی پیشنهاد موسیقی
ساختار پایان نامه
در ابتدای فصل دوم این نوشتار به معرفی مفاهیم اصلی مربوط به موسیقی پرداخته و در بخش دوم آن به معرفی ویژگی‌های محتوایی سیگنال صوتی می‌پردازیم در بخش سوم مجموعه داده‌های موجود و مورد استفاده در جامعه علمی مورد بررسی قرار می‌گیرد. در بخش چهارم این فصل به بحث رده‌بندی موسیقی پرداختهمی‌شود و در پایان این فصل سیستم پیشنهاددهنده موسیقی مورد کنکاش قرار می‌گیرد. در ابتدای فصل سوم به توضیح چگونگی تولید مجموعه داده‌های موسیقی ایرانی پرداخته و مراحل مختلف آن را بررسی میکنیم و بعد از به معرفی ویژگی Area method of moments of MFCC که کارایی بالایی در رده‌بندی موسیقی دارد ولی تا به حال مورد استفاده قرار نگرفته است، خواهیم پرداخت. در ادامه فصل سوم معیار شباهت پروفایل جدید خود را معرفی خواهیم کرد. و در پایان این فصل برنامه کاربردی توسعه یافته به منظور پیشنهاد دهی موسیقی معرفی خواهد شد. در فصل چهارم به تحلیل نتایج به دست آمده پرداخته و در نهایت در فصل پنجم به جمعبندی، نتیجهگیری و ارایه چشماندازی برای کارهای آینده میپردازیم.
فصل دوم
مروری بر متون گذشته
2-1 مقدمه:
در این فصل به معرفی موسیقی و ویژگی‌های آن می‌پردازیم. در ادامه موسیقی را به دید سیگنال صوتی دیده و ویژگی‌های قابل استخراج از این سیگنال صوتی که مفید و قابل استفاده است معرفی می‌شود. سپس توضیحی در باره سیستم‌هایرده‌بندی از جمله درخت تصمیم داده می‌شود و در انتها به معرفی انواع سیستم‌های پیشنهاد دهنده و به طور خاص سیستم‌های پیشنهاد دهنده موسیقی می‌پردازیم. به زبانی دیگر مروری کلی بر آنچه تا به حال در زمینه بازیابی اطلاعات و پیشنهاد دهی موسیقی انجام شده است،ارائه خواهد شد.
2-2موسیقی و ویژگی‌های آن:
2-2-1 موسیقی چیست:
موسیقى تراوش احساسات و اندیشه‌هاى آدمى و مبین حالات درونى وى مى‌باشد. شنیدن یک آهنگ آرام‌بخش و جذاب مى‌تواند پایان‌پذیر خستگى‌ روزانه آدمی باشد. موسیقى به معنى پیوند آهنگ‌هاست. تعریف ساده‌ی موسیقى یا صداهاى موسیقایی، صداهاى خوشایندى مى‌شود که انسان از شنیدن آن‌ها احساس لذت مى‌کند.
صداهاى خوشایند، صداهایى هستند که از نظمى خاص پیروى مى‌کنند و بین آن‌ها نسبت‌هاى معینى وجود دارد. براى همین عدد در موسیقى داراى اهمیت بسیارى است. تا جایی که فیثاغورث معتقد است که عدد اصل وجود در آفرینش است. پیروان او اجسام را هر یک عدد مى‌داشتند و معتقد بودند که چون کرات آسمانى و افلاک از یکدیگر فاصله‌هاى معینى دارند، از نسبت آن‌ها نغمه‌ها ساخته مى‌شود و آوازها در اصل ناشى از حرکت افلاک هستند.
موسیقى سنتى ایران شامل قطعاتى است که در مجموع به عنوان ردیف موسیقى ایرانى گفته مى‌شود. امتیاز موسیقى ایرانى در امکانات وسیع مقامى و ملودى‌هاى غنى آن است. این موسیقى هنرى است بسیار ظریف و عمیق.
موسیقی فقط غذای روح و زبان احساسات نیست، بلکه درمانی برای جسم نیز هست. تحقیقات نشان داده است موسیقی که ترکیبی از صداهای گوناگون است، بر روی عملکرد و متابولیسم بدن تأثیر می‌گذارد و اثری مستقیم بر روی بخش‌های اصلی بدن از جمله غدد گوناگون، قلب، دستگاه تنفسی، مغز و … دارد و موسیقی به عنوان ترکیبی منظم و زیبا از اصوات، تأثیری مثبت بر روی جسم نیز می‌گذارد.ولی شناخت تأثیرات مستقیم آن بر روی بدن نیاز به ورود به دنیای علم موسیقی درمانی دارد. البته ارتباط روح و جسم انسان باز هم به ما می‌گوید که در هر لحظه، لذت بردن روح از یک موسیقی مترادف است با تأثیر مثبت آن بر روی جسم انسان. روح انسان است که زیبایی موسیقی را می‌فهمد و این روح است که مانند یک استاد خبره‌ی زیباشناسی در مورد موسیقی قضاوت می‌کند.
زیبایی‌شناسی در موسیقی دارای دو جنبه‌ی تحلیلی و ترکیبی است. زیبایی‌شناسی تحلیلی مربوط به زیبایی اصوات و نوای سازهاست و موج برخاسته از پیانو و ناله و فغان ویولن و کمانچه و … همه واژه‌های زیبایی هستند برای گفتن سخنی زیبا.در مقابل بعد ترکیبی موسیقی برمی‌گردد به نظم و آهنگی که هنرمند با کنار هم چیدن نت‌ها و آواها می‌آفریند.در جنبه‌ی ترکیبی است که هنرمند معنا پیدا می‌کند و موسیقی سخن می‌گوید و جمله‌ای زیبا می‌شود از واژه‌های زیبا.
2-2-2 ویژگی‌های صوتی موسیقی
نواک: نواک که به زیرایی نیز معروف است تحت عنوان زیری و بمی صدا تعریف می‌شود. روشن است که صداهای موسیقایی می‌توانند در سطوح مختلف زیر و بمی حاصل شوند، مثلا می‌دانیم صدای اصلی مردان از صدای زنان یا کودکان کلفت‌تر و بم‌تر است و صدای کودان نسبت به مردان نازک‌تر و زیرتر است.در سازهای سیمی سیم‌هایکوتاه‌تر (و سبک‌تر) زیرتر و سیم‌های بلندتر بم‌تر صدا می‌دهند.در ساز‌های بادی (لوله‌های صوتی) هر قدر لوله درازتر باشد صوت حاصل از آن بم‌تر است و بالعکس.
دیرند:دیرند به کشش و امتداد نیز معروف است وبه مدت زمانی که یک صدا طول می‌کشد گویند.دیرند یعنی “زمانی” که هر صدای موسیقایی ادامه می‌یابد.روشن است که یک آهنگ موسیقایی از صداهایی تشکیل شده که اکثرا ارزش‌های متفاوت زمانی دارند.
شدت:شدت یا دینامیک،میزان قوی (بلند) و یا ضعیف (کم) بودن صدا است. صداهای موسیقی ممکن است نسبت به یکدیگر ضعیف‌تر و یا قوی‌تر باشند.
رنگ:رنگ یا طنین یا شیوشتفاوت صدای ایجاد شده توسط پیانو و ویولون و یا دو انسان که دارای نواک و دیرند و شدت یکسان باشد، می‌باشد.صداها از نظر طنین و رنگ (شخصیت صوتی) هم می‌توانند با یکدیگر متفاوت باشند.در واقع به علت رنگ صدای هر ساز است که ما صدای ساز‌های مختلف را از هم تمیز می‌دهیم.
2-2-3 تولید موسیقی
تن پایه‌ای‌ترین عنصر در صدای موسیقی است. دو نوع ساختار تن وجود دارد: یک تن ساده فرم گرفته از شکل موج سینوسی واحد و یک تن پیچیده شکل یافته از بیش از یک هارمونیک]2[ است. کیفیت تن به عناصر فرکانسی غیرهارمونیک بستگی دارد. همه تن‌های موزیکال کلاسیک از یک فرکانس رزونانساز بخش‌های مالشی یا در حال حرکت ابزار آلات موسیقی ایجاد می‌شوند و برخی از تن‌ها از رزونانس‌های لوله می‌آیند. به جز موزیک الکترونیک که تن اش را بسته به نیروی الکترومغناطیسی تولید می‌کند. تولید موسیقی عمیقا به نوع ابزار موسیقی بستگی دارد. انواع متداول ابزار موسیقی به صورت زیر خلاصه می‌شوند]2[:
آلات رشته‌ای:تن‌هایش از لرزش ریسمان‌ها ایجاد می‌شود. این لرزش از طریق نوسان مستقیم ایجاد می‌شود مثل گیتار و یا از طریق کشیدن بین تارها، مثل ویولون، هر تار یک فرکانس پایه‌ای معین دارد به طوری که یک ابزار موسیقی به تنهایی همه باندهای صوتی را پوشش می‌دهد. این نوع تن‌های پیچیده را تولید می‌کند.
آلات دمیدنی: اساسا این ابزار شامل یک لوله استوانه ای باز در دو انتها مثل فلوت می‌باشد. دریچه‌ها در جدار این ابزار طول موج رزونانس ایستا را تعریف می‌کند و باعث منعکس شدن صدا می‌شود. برخی از ابزار دمیدنی از یک قطعه مسsmall-vibrated برای تولید تن‌های موسیقی مثل آکوردئون استفاده می‌کنند. این نوع ابزار تن‌های هارمونیک تولید می‌کند.
آلات Brass: این نوع مثل woodwind وابسته به دمیدن می‌باشد اما دو تفاوت اساسی آن‌ها را از هم تمیز می‌دهد. تفاوت اول این است که نوع brass یک شکلی از بوق مثل شیپور دارد. تفاوت دوم این است که نوع woodwind وابسته به فشار هوا برای تولید تن‌های مختلف است. در حالی که نوع brass وابسته به سرپوش دستی برای کنترل اندازه حفره می‌باشد مثل ترومپت. نوع brass یک تعداد زیادی از موجودیت‌هایغیر هارمونیک در طیفش دارد.
آلات خانواده پیانو: این نوع از رشته‌های لرزنده به عنوان منبع تن استفاده می‌کند ( از طریق ضربه زدن به آن که به وسیله صفحه کلید کنترل می‌شود) هر دکمه از صفحه کلید برای تولید یک تن واحد طراحی شده است. دامنه تن وابسته به فشار ضربه از طریق انگشتان پیانیست است. برخی تولیدکننده‌ها میله‌های لرزاننده مسی را به جای رشته‌ها قرار می‌دهند. هارمونیک‌های خالص اکثریت توان تن تولیدشده را دارند.
آلات ضربی مثل طبل: مثل طبل، طبل هندی، میله‌های لرزان یا سنتور زنگی که از طریق ضرباتی از طریق baton انجام می‌شود. Baton یک چوب یا پلاستیک مخصوص می‌باشد. خصوصیات تن‌های تولید شده به ابعاد فیزیکی و مقاومت و موقعیت ضربه baton بستگی دارد. بیشتر توان تن اجزای غیر هارمونیک را تولید می‌کند.
تولید الکترونیک موسیقی:ارگ از این دسته است. یک ابزار موسیقی دقیق و قوی که دکمه‌های زیادی را در یک صفحه کلید بزرگ دارد. هم چنین حافظه ای دارد که می‌تواند هر نت را ذخیره کند و از آن بارها به عنوان یک آهنگ یا تن پایه استفاده کند و نیز می‌تواند دائما یک ملودی را در پس زمینه اجرا کند که به نوازنده اجازه می‌دهد که فقط برخی از touch‌های موزیکال را برای کامل شدن ملودی اصلی اضافه کند. راک و پاپ و دیسکو و جاز بدون کمک ارگ نمی‌توانند اجرا شوند. اگرچه همه آهنگ‌های مخصوص ارگ بعد از محاسبات دقیق با استفاده از کامپیوترها ساخته شده‌اند، هر صدا از هر جا می‌تواند ضبط و سپس به عنوان یک آهنگ پایه مورد استفاده قرار گیرد. اگرچه ارگ بزرگ‌ترین و گران‌ترین ابزار موسیقی است تنها تولیدکننده موزیک الکترونیک نیست. ابزار زیادی از این نوع با نام‌هاو سایزهای مختلف وجود دارند بنابراین هر شخص به تنهایی می‌تواند مارک دلخواه خود را بخرد و موزیک الکترونیک اجرا کند. نهایتا توجه به این نکته مهم است که اگر ابزار موسیقی الکترونیک برای تولید موسیقی مورد استفاده هستند، نیازی به فکر کردن در مورد هارمونیک‌ها یا فرکانس پایه برای اندازه گیری کیفیت تن نیست.
2-3استخراج ویژگی‌های محتوایی از فایل صوتی2-3-1انواع ویژگی‌هادر این بخش ویژگی‌های صوتی مورد استفاده در کاربردهای رده‌بندی صوت با جزئیات توضیح داده می‌شود.ویژگی‌ها مطابق با جدول 2-1 به شش دسته، ریتم، تمپو، تون، نواک، رنگ و ویژگی‌های آماریسیگنال صوتی شده است. و ویژگی‌های صوتی مربوط به هر دسته در جدول دسته بندی شده است.دسته بندی انجام شده بر اساس مستندات نرم افزار استخراج ویژگی مورد استفاده،jaudio میباشد.تعاریف هر دسته عبارتند از:
ریتم: ریتم تناسب زمانی است که با نظم ترتیب و تکرار و توالی همراه است.ریتم میواند با استخراج تغییرات تکرار شونده در هیستگرام ضرب به دست آید.
تمپو:به معنای تعداد ضرب در دقیقه است و نمایانگر تندی و کندی آهنگ است. هر چه تمپوی یک آهنگ بالاتر باشد یعنی تعداد ضرب هایش در دقیقه بیشتر استو در نتیجه آهنگ تند تر است.
نواک:همانطور که در بخش 2-2-2 نیز بیان شده نواک نمایانگر زیری و بمی صدا است.
رنگ:همانطور که در بخش 2-2-2 نیز بیان شده عامل تمایز صدای دو ساز مختلف است وقتی یک ملودی با دینامیکی یکسان توسط دو یاز اجرا میشود.
آماری: ویژگی هایی که نمایانگر هیچ کدام از ویژگی های صوتی موسیقی نیستند اما در میتوانند بحث رده بندی موثر افتد. این ویژگی ها شامل مجموعه ای از صفات آماری سیگنال صوتی است.
جدول2-1 - طبقه بندی ویژگی‌ها
دسته ویژگی نماینده زیر ویژگی ها
ریتم Beat Histogram
Strength of Strongest Beat
Compactness
Strongest Beat Derivative
Running mean
Standard deviation
Derivative of running mean
Derivative of Standard deviation
تمپو Beat Sum نواک Zero Crossings رنگ[3] MFCC
Spectral Rolloff Point
Spectral Flux
Spectral Centroid آماری Fraction of Low Energy frames
LPC
Area Method of Moments در ادامه به تشریح ویژگی های معرفی شده در جدول 2-1 و چگونگی استخراج آنها و روابط ریاضی مربوط به هر ویژگی میپردازیم:
هیستوگرام ضرب:
مجموعه ویژگی‌ای برای نمایش ساختار ریتم بر مبنای تشخیص برجسته‌ترین دوره تناوب سیگنال است. شکل2-1نمودارجریانالگوریتمتجزیهوتحلیلضرب را نشان می‌دهد]3[ . سیگنال ابتدابا استفاده ازDWTبهتعدادی باند فرکانسهشتگانهتجزیهشده است. پسازاینتجزیه،بستهدامنهزمانیهر گروه(باند)به صورت جداگانه با استفاده از همسو سازیکل موج، فیلتر پایین گذر و downsampling به هر یک از فرکانس نت‌های هشتگانه،به دست می‌آید. پس از حذف میانگین، بستهی هر یک از گروهها با هم جمع شده و سپس خودهمبستگیبسته مجموع، محاسبه می‌شود.قلههای غالب، تابع همبستگی متناظر با دوره تناوب‌های مختلف بسته سیگنال است.بلوک‌هایساختمان‌های زیر برای استخراج ویژگی تجزیه و تحلیل ضرب استفاده می‌شوند:
یکسو سازی تمام موج:
به منظوراستخراجپوششزمانیسیگنال به جای خودحوزه زمانی سیگنالاعمال می‌شود
Y[n] = |x[n]|
.فیلتر پایینگذر:
به عنوان مثال، یک فیلتریک قطب با ارزش آلفای 0.99 که برای صاف کردن بسته استفاده می‌شود. اصلاح موج کامل به دنبال فیلتر پایین گذر روش استاندارد استخراج بسته است.
Y[n] = (1- ????)x[n] + ????y[n-1]
Downsampling:
. به خاطر دوره تناوب‌هایزیاد تجزیه و تحلیل ضرب، downsamplingسیگنالزمانمحاسباتبرایمحاسبههمبستگی را بدونتأثیر بر عملکردالگوریتم کاهش میدهد.
Y[n] = x[kn]
حذف میانگین:
منظور ایجاد تمرکز سیگنالبهصفربرای مرحله همبستگی اعمال می‌شود
Y[n] = x[n] – E[x[n]]
همبستگی پیشرفته:
قلههای تابع خود همبستگی مربوط به تأخیرهای زمانی هستند؛جایی که در آن سیگنال بیشتر شبیه به خود است. تأخیرهای زمانی قلهها در محدودهی زمانی مناسب برای تجزیه و تحلیل ریتم مربوط به دوره تناوب ضرب است. تابع خود همبستگی اصلی خلاصهی پاکتها، به ارزش‌های مثبت و پس از آن به مقیاس زمان با ضریب دو کوتاه شده و از تابع اصلی کوتاه شده، کم شده است. همین روند با عوامل دیگر از جمله قله‌های تکراری که در آن مضارب عدد صحیح حذف می‌شوند، تکرار می‌شود.
Y[k] = 1Nnxnx[n-k]تشخیص قلهومحاسبههیستوگرام:
سهقلهاولتابعخودهمبستگیافزایش یافته که درمحدودهمناسببرای تشخیصضربهستندانتخاب می‌شوندوبههیستوگرام ضرب‌اضافه میشوند.Binهای هیستوگراممربوط بهضرباندر هردقیقه(BPM) از40 تا200ضربه در دقیقهاست.برای هر قله تابعخودهمبستگیافزایش یافته، دامنهقلهبههیستوگراماضافه شده است.این قلهکه دارایدامنهبالابهشدتنسبتبهقله‌های ضعیف‌تردر محاسبههیستوگراموزن دار شده‌اند.

شکل2-SEQ شکل \* ARABIC1-فلوچارت محاسبه هیستوگرام ضرب]3[
شکل2-2یک هیستوگرامضرببرای 30ثانیه از این آهنگ "Come Together" بیتلز را نشان می‌دهد.دو قله اصلیBH مربوط به ضرب اصلی در حدود 80 ضرب در دقیقه و هارمونی اول آن (دو برابر سرعت) در 160 ضرب در دقیقه است.

شکلSEQ شکل \* ARABIC2-2 نمونه هیستوگرام ضربقدرت قوی‌ترین ضرب:
معیاری است از این که چقدر قوی‌ترین ضرب در مقابل سایر ضرب‌های ممکن قوی است. این معیار با یافتن انرژی متناظر قوی‌ترینضرب در هیستوگرام ضرب و تقسیم ان به مجموع کل انرژی در هیستوگرام ضرب محاسبه می‌شود.
قوی‌ترین ضرب:
ویژگی است که قوی‌ترینضرب در سیگنال را استخراج می‌کند. که از طریق پیدا کردن بلندترین bin در هیستوگرام ضرب تولید می‌شود.
مجموع ضرب‌ها:
ویژگی خوبی که نشان می‌دهد چقدر یک ضرب معمولی در ین قطعه موسیقی نقش مهمی را بازی می‌کند. و از حاصل جمع تمام مقادیر درهیستوگرام ضرب به دست می‌آید.
نرخ گذار از صفر:
نرخ گذار از صفر شکل موج حوزه زمان یکی از قوی‌ترین معیارها برای تشخیص گفتار است و به طور گسترده ای به عنوان معیاری قوی برای تشخیص گفتار صدادار از سایشی استفاده می‌شود. نرخ گذار از صفر به طور ساده تعداد نقاط تلاقی با صفر در یک پنجره سایز ثابت است. یعنی تعداد دفعاتی که شکل موج صوتی علامتش در طول فریم تغییر می‌کند. نرخ گذار از صفر زمانی اتفاق می‌افتد که نمونه‌های متوالی علامت‌های جبری مختلفی داشته باشند. معادله زیر نرخ گذار از صفر را نشان می‌دهد:
ZCR=12n=1N-1sgnxn-sgnxn-1اگر xn>0 باشد sgnx=1 و اگر xn<0، sgnx=-1 و N تعداد نمونه‌ها در یک پنجره می‌باشد.
نرخ گذار از صفر مربوط به صامت‌های انرژی پایین، نسبت به نرخ گذار از صفر مربوط به مصوت‌های انرژی بالا کمتر است. بدیهی است که نرخ گذار از صفر یک الگوریتم حوزه زمان است و به مقدار زیادی به فرکانس سیگنال ورودی x(n) وابستگی دارد. به علاوه نرخ نمونه برداری باید به اندازه کافی بالا باشد تا هر عبور از صفری را نشان دهد. به علاوه چیز مهمی که باید قبل از شروع به شمارش گذرها مورد توجه قرار گیرد نرمال سازی سیگنال است. چون متوسط دامنه در سرتاسر پنجره باید برابر با صفر باشد و این کار با استفاده از شیفت ثابت به هر نمونه در محور دامنه انجام میشود. این ثابت باید معادل با میانگین دامنه واقعی باشد. این به معنی دوباره تنظیم کردن بالانس نرخ گذار از صفر است. این مسئله تضمین می‌کند که هر پنجره فقط یک نرخ گذار از صفر خاص دارد. از معادله مشخص می‌شود کهنرخ گذار از صفر با فرکانس dominant،x(n) متناسب است
در اینجا مفهوم نسبت نرخ گذار از صفر بالا(HZCRR) نیز مطرح می‌شود]4[. کاملا مشخص است که نرخ گذار از صفر برای مشخص کردن سیگنال‌های صوتی مختلف بسیار مفید است و در بسیاری از الگوریتم‌های کلاس بندی گفتار/موسیقی مورد استفاده بود. از طریق آزمایش فهمیده شد که نوسان(تغییرات) نرخ گذار از صفر نسبت به مقدار دقیق نرخ گذار از صفر متمایز کننده تر است. بنابراین HZCRR را می‌توان به عنوان یک ویژگی در نظر گرفت.
HZCRR به صورت نسبت تعداد فریم‌هایی که ZCR شان بالاتر از نرخ گذار از صفر متوسط یک بخش در پنجره یک ثانیه ای است تعریف می‌شود و به صورت زیر بیان می‌شود:
HZCRR=12Nn=0N-1[sgn(ZCRn-ZCRav)+1] ZCRav=n=0N-1ZCRnn ایندکس فریم و N تعداد کل فریم‌ها در یک پنجره یک ثانیه ای است و sgn[.] یک تابع علامت و ZCR(n)نرخ گذار از صفر در فریم n ام است.
در]5،6،7،8،9،10،11،12،13،14،15،16[ از این دسته ویژگی‌ها استفاده شده است.
انرژی زمان کوتاه:
دامنه سیگنال به گونه ای محسوس با زمان تغییر می‌کند. دامنه قطعات بی صدا عموما خیلی پایین‌تر از قطعات صدادار است. انرژی زمان کوتاه سیگنال صوت یک نمایش مناسبی را ارائه می‌دهد که این واریانس‌های دامنه را منعکس می‌کند. از آنجاییکه سیگنال موسیقی شامل قطعات بی صدا نیست STE آن معمولا بزرگ‌تر از گفتار است.
انرژی زمان کوتاه یک فریم به صورت مجموع مربعات نمونه‌های سیگنال به صورت زیر تعریف می‌شود:
E=10log(1Nn=0N-1x2[n]) در اینجا مفهوم دیگری به نام انرژی زمان کوتاه پایین ( LSTER) نیز مطرح می‌شود که با استفاده از این ویژگی به جای مقدار دقیق انرژی زمان کوتاه واریانس و تغییرات را به عنوان یک جز از بردار ویژگی‌مان انتخاب می‌کنیم. در اینجا ما از LSTER برای نمایش تغییرات STE استفاده می‌کنیم. LSTER به صورت نسبت تعداد فریم‌هایی که در آن‌هاSTE کمتر از 0.5برابر STE میانگین در یک پنجره یک ثانیه ای است تعریفمی‌شود. به صورت زیر:
LSTER=12Nn=0N-1[sgn(0.5 STEav-STEn+1] STEav=n=0N-1STEnکه N تعداد کل فریم‌ها و STE(n) مقدار STE در n امین فریم و STEav،STE میانگین در یک پنجره یک ثانیه ای است. در]5،6،7،8،9،10،11،12،13،14،16،17،18[ از این دسته ویژگی‌ها استفاده شده است.
ضرایب کپسترال فرکانسی مل (MFCC):
هدف اصلی MFCC تقلید رفتار گوش انسان است. تحقیقات فیزیولوژیکی نشان می‌دهند که ادراک بشر از محتوای فرکانسی صداها برای سیگنال‌هایصوتی از یک مقیاس خطی پیروی نمی‌کند بنابراین برای هر تن با فرکانس واقعی f یک pitch روی مقیاس مل محاسبه می‌شود. مقیاس فرکانسی مل در فضای زیر 1kHz به صورت خطی و در بالای 1kHz به صورت لگاریتمی می‌باشد. بنابراین فیلترها در فرکانس‌های پایین به صورت خطی و در فرکانس‌های بالا به صورت لگاریتمی برای پیگیری ویژگی‌های مهم آواشناسی (صدادار و بدون صدا) استفاده می‌شوند. فرمولی که معمولا برای انعکاس ارتباط بین فرکانس مل و فرکانس فیزیکی استفاده می‌شود به صورت زیر است:
Mf=1125*log(1+f700)محاسبه ضرایب فرکانسی کپسترال مل با گرفتن DFT از فریم X(k) شروع می‌شود و سپس ضرب آن با یک سری از فیلترهای بالاگذر ایده‌ال مثلثیvi(k) که فرکانس مرکزی و پهنای فیلتر بر اساس مقیاس مل تنظیم شده‌اند. سپس انرژی طیفی کل در هر فیلتر به صورت زیر محاسبه می‌شود:
Ei=1sik=LiUiXk.vik2LiوUiباند‌های بالا و پایین فیلتر و siیک ضریب نرمال سازی و i شماره فیلتر بانک است.( برای جبران پهنای باندهای مختلف فیلترها)
Si=k=LiUi(vik)2نهایتا دنباله MFCC با محاسبه تبدیل کسینوسی گسسته(DCT) از لگاریتم دنباله انرژی E(i) محاسبه می‌شود:
MFCCl=1Ni=0N-1logEi.cos(2πNi+12.l)L شماره ویژگی MFCC و N تعداد نمونه‌ها در یک فریم است. معمولا 12 ضریب به عنوان ویژگی برای نمایش گفتار محاسبه می‌شود. هم چنین می‌توان بردار تفاضل MFCC را بین فریم‌های مختلف محاسبه کرد و نرم اقلیدسی آن بردار به عنوان یک ویژگی اضافی در نظر گرفت.
∆MFCCi,i-1=i=110MFCCil-MFCCi-1l2i ایندکس فریم است. در ]6،7،11،12،13،14،15،16،19،20،21،22[از این دسته ویژگی‌ها استفاده شده است.
:Roll-off point
این ویژگی مقداری را در فرکانس نشان می‌دهد که 95% انرژی سیگنال در زیر آن قرار می‌گیرد. همان طور که قبلا ذکر شد انرژی(توان) درموسیقی در فرکانس‌های بالاتر متمرکز شده است. هرچند گفتار یک رنجی از توان فرکانسی پایین را دارد.گفتار صدادار نسبت بالایی از انرژی را در رنج فرکانسی پایین طیف دارد در حالیکه بیشتر انرژی در گفتار بی صدا و موسیقی در باندهای بالاتر است. در نتیجه نقطه roll-off طیفی برای گفتار بی صدا و موسیقی مقدار بالاتری دارد و برای گفتار صدادار مقدار پایین‌تری دارد. عبارت ریاضی برای پیدا کردن این مقدار از فرکانس به صورت زیر است:
f<KXf=0.95fX[f]در ]6،7،12،13،14،15،19[از این دسته ویژگی‌ها استفاده شده است.
مرکزیت طیف:
این ویژگی نقطه تعادل توزیع توان طیفی را در یک فریم ارائه می‌دهد.این ویژگی مرکز فرکانسی را توصیف می‌کند. سیگنال‌هایموسیقی نویز فرکانس بالا و صداهای تصادمی(زدنی) دارند که یک میانگین طیفی بالا را نتیجه می‌دهد.به عبارت دیگر در سیگنال‌هایگفتار،pitch سیگنال صوتی در یک رنج بسیار باریک از مقادیر پایین می‌ماند.به عنوان نتیجه موسیقی مرکزیت طیف بالاتری نسبت به گفتار دارد. مرکزیت طیف برای یک فریم که در زمان t رخ می‌دهد به صورت زیر محاسبه می‌شود:
SpectralCentroid=SC=k=1N-1kXkk=1N-1XkK ایندکسی متناظر با فرکانس، X(k) توان سیگنال در باند فرکانسی متناظراست.
در ]6،7،10،11،12،13،14،15،18،23،24[از این دسته ویژگی‌ها استفاده شده است.
Spectral Flux:
این ویژگی اختلاف طیف را فریم به فریم اندازه گیری می‌کند بنابراین تغییر در شکل طیف را مشخص می‌کند. گفتار مقدار رنج بالاتری دارد و تغییرات فریم به فریم شدیدتری نسبت به موسیقی دارد. باید به این نکته توجه کرد که گفتار مرتبا بین پریودهایی از گذار( مرزهای مصوت-صامت) و پریودهایی از حالت سکون نسبی(مصوت‌ها ) جابجا می‌شود در حالیکهموسیقی معمولا یک نرخ ثابت‌تری از تغییر را داراست. به عنوان نتیجه مقدار شار طیف(spectral flux) برای گفتار بالاتر است مخصوصا سیگنال‌های بدون صدا. اما مقدار spectral flux برای سیگنال گفتار نسبت به مقدار spectral fluxسیگنال‌های محیطی خیلی کوچک‌تر است زیرا در سیگنال‌های محیطی که تغییرات فریم به فریم نسبت به سیگنال‌هایگفتار بیشتر است.spectral flux به صورت زیر تعریف می‌شود"دومین نرم بردار تفاضل دامنه طیف فریم به فریم" یعنی مجموع مربعات اختلاف‌های فریم به فریم از اندازه DFT. که m وm-1 ایندکس فریم هستند.
Spectralflux=|| Xi-Xi+1 ||=k=0K-1Xmk-Xm-1k2شکل2-3 نشان می‌دهد که معیار spectral flux برای speech تقریبا بالا تر از این مقدار برای موسیقی است]24[.

شکل2-SEQ شکل \* ARABIC3- معیار spectral flux برای گفتار تقریبا بالاتر از این مقدار برای موسیقی استدر ]10،11،13،14،15،21،25،26،27،28،29،30،31[از این دسته ویژگی‌ها استفاده شده است.
درصد فریم‌هایlow energy :
این مقدار نسبت فریم‌هایی با توان RMS کمتر از 50% توان RMS میانگین در یک پریود معین از زمان را اندازه گیری می‌کند. توزیع انرژی برای گفتار نسبت به موسیقی چولگی چپ بیشتری دارد. دلیل این مسئله آن است که فریم‌های سکوت بیشتری در گفتار وجود دارد بنابراین انرژی فریم‌هایی که شامل سکوت هستند نسبت به فریم‌هایی که سکوت ندارند بیشتر است.شکل2-4 نشان می‌دهد که این معیار برای گفتار بالا تر از این مقدار برای موسیقی است]24[.
در]6،7،12،13،14،15،18،24،31[ از این ویژگی استفاده شده است.

شکل2-SEQ شکل \* ARABIC4- درصد فریم‌های با انرژی پایینضرایب پیشگویی خطی(LPC):
ایده پشت پیشگویی خطی این است که نمونه بعدی سیگنال از مجموع وزن دار p نمونه قبلی پیشگویی می‌شود.
s'n=i=1paisn-iaiضرایب پیشگویی هستند و p مرتبه پیشگو است. و s(n-i) یک نمونه در زمان n-i است. به عبارت دیگر هر نمونه از یک سیگنال به صورت یک ترکیب خطی از نمونه‌های قبلی مدل می‌شود. ضرایب پیشگویی به وسیله مینیمم کردن خطای بین نمونه‌های واقعی و پیشگویی شده تعیین می‌شوند. خطای پیشگویی به صورت زیر محاسبه می‌شود:
en=sn-s'n=sn-i=1paisn-iدر]10،13،30،32،33[از این ویژگی استفاده شده است.
2-3-2 تقسیم بندی ویژگی‌ها از نظر طول فریم استخراجی
ویژگی‌های صوتی را می‌توان بر اساس طول فریم استخراجی به سه دسته کوتاه متوسط و بلند تقسیم کرد. مجموعه ویژگی‌هایکه از فریم‌هایی با طول 30 میلی ثانیه-ویژگی‌هایی نظیر مجموع ضرب‌ها یا MFCC یا گذر از صفر- را استخراج می‌کنند تحت عنوان ویژگی‌های با طول فریم کوتاه معرفی می‌شود. ویژگی‌های با طول فریم متوسط از تجمیع چندین پنجره متوالی کوتاه فریم حاصل می‌شود همان طور که در جدول 2-2 نمایان است عملگرهایی چون انحراف از معیار و میانگین و مشتق برای تجمیع در فاز فریم‌های متوسط مورد استفاده قرار می‌گیرد. طبقه بعدی ویژگی‌ها،ویژگی‌های با طول فریم طولانی است. که از تجمیع ویژگی‌های با طول فریم‌های متوسط ایجاد می‌شود. ویژگی‌ها با طول فریم متوسط از فریمی به طول 1 ثانیه و ویژگی‌ها با طول فریم طولانی ازفریم‌هایی با طول 10 ثانیه بهره می‌برند.]34[
جدول 2-2- تقسیم بندی ویژگی‌ها از نظر طول فریم استخراجی
ویژگی‌های
با
طول فریم کوتاه Strength of Strongest Beat – Compactness - Strongest Beat- Strength of Strongest Beat - Beat sum
Spectral Rolloff Point -Spectral Flux -Spectral Centroid
Fraction of Low Energy frames -Area Method of Moments Feature - Magnitude Spectrum-Power Spectrum
LPC - MFCC
Zero Crossing
ویژگی
با طول فریم متوسط Derivative Running mean Standard deviation
ویژگی
با طول فریم بلند Derivative of Standard deviation
Derivative of Running mean Beat Histogram
2-4 مجموعه داده‌هاتعداد مجموعه داده‌های معروفی که برای بازیابی اطلاعات موسیقی ایجادشده‌اندانگشت‌شمار است. در اکثر تحقیقات از مجموعه داده‌های ساختگی خود استفاده کرده‌اند. دو مجموعه داده معروف USPOP2002 و ISMIR 2004به منظور بازیابی اطلاعات موسیقی وجود دارد. بزرگ‌ترین ضعف این دو مجموعه داده عدم ارائه ویژگی‌های کافی برای بازیابی اطلاعات می‌باشد. این دو مجموعه داده تنها ضرایبMFCC را اختیار می‌گذارد. هیچ مجموعه داده مناسبی که بر اساس موسیقی ایرانی تهیه شده باشد وجود ندارد.
2-5 رده‌بندی موسیقی2-5-1 رده‌بندی
در متون گذشته روشهای مختلفی برای رده‌بندی موسیقی ارائه شده است. ردهبندی کردن دادهها یکی از مهم‌ترین موضوعات در زمینه دادهکاوی محسوب میشود. هدف روشهای ردهبندی، دستهبندی نمونهها در کلاسهای از پیشتعیین شده هستند. آن‌ها نمونههای موجود در دادههای آموزش را برای پیشبینی برچسب نمونههای داخل مجموعه آزمون استفاده میکنند.
مجموعه دادههای D را در نظر بگیریم که نمونههای زیادی در آن وجود دارد و هر نمونه از دنبالهای از مقادیر مشخصهها تشکیل شده است. مضاف بر این، هر نمونه به یک کلاس با برچسب خاص تعلق دارد. بهصورت علمیتر مجموعه داده D شامل نمونههای Ij است که به شکل <vj1,vj2 , …, vjn>Ij بوده و vji مقدار مشخصه Fi و مربوط به دامنۀ این مشخصه است. مجموعه داده D به دو بخش آموزش و آزمون تقسیمبندی میشود. هدف اصلی در رده‌بندی، ایجاد روشی برای رده‌بندی است که بر اساس دادههای آموزش بتواند برچسبهای نمونههای موجود در مجموعه آزمون را به درستی پیشبین نماید.
در متون گذشته روشهای زیادی برای ردهبندی ارایه شده است. از جمله روشهای ردهبندی معروف میتوان به بیز سادهADDIN EN.CITE <EndNote><Cite><RecNum>222</RecNum><record><rec-number>222</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">222</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title>G.H. John, P. Langley, “Estimating continuous distributions in Bayesian classiﬁers,” In Proceedings of the Eleventh Conference on Uncertainty in Artiﬁcial Intelligence, San Mateo, CA,1995, pp. 338–345.</title></titles><dates></dates><urls></urls></record></Cite></EndNote>[35]، شبکه عصبی ADDIN EN.CITE <EndNote><Cite><RecNum>223</RecNum><record><rec-number>223</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">223</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title>D. Rumelhart, G. Hinton, R. Williams, “Learning internal representations by error propagation,” In Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Vol. 1: Foundations, D. E. Rumelhart and J. L. McClelland, Eds. Mit Press Computational Models Of Cognition And Perception Series. MIT Press, Cambridge, MA, 1985 318-362. </title></titles><dates></dates><urls></urls></record></Cite></EndNote>[36]، درختهای تصمیمگیری ADDIN EN.CITE <EndNote><Cite><Author>Quinlan</Author><Year>1993</Year><RecNum>70</RecNum><record><rec-number>70</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">70</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Quinlan, JR</author></authors></contributors><titles><title>C4. 5: programs for machine learning</title></titles><dates><year>1993</year></dates><publisher>Morgan Kaufmann</publisher><urls></urls></record></Cite></EndNote>[37] و الگوریتم ژنتیک ADDIN EN.CITE <EndNote><Cite><Author>Freitas</Author><Year>2002</Year><RecNum>102</RecNum><record><rec-number>102</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">102</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Freitas, AA</author></authors></contributors><titles><title>A survey of evolutionary algorithms for data mining and knowledge discovery</title><secondary-title>Advances in Evolutionary Computation</secondary-title></titles><periodical><full-title>Advances in Evolutionary Computation</full-title></periodical><pages>819-845</pages><dates><year>2002</year></dates><urls></urls></record></Cite></EndNote>[38] اشاره کرد. روشهای ردهبندی برای طبقهبندی نمونهها راهبردهای مختلفی را دنبال میکنند. یکی از مهم‌ترین راهبردها، استخراج قوانین در مرحله آموزش و به‌کارگیری این قوانین روی مجموعه آزمون است. برای استخراج قانون دو استراتژی کلی وجود دارد ADDIN EN.CITE <EndNote><Cite><RecNum>186</RecNum><record><rec-number>186</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">186</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title><style face="normal" font="Times New Roman" size="10">Frank, E. and Witten, I. H. Generating Accurate Rule Sets Without Global Optimization. In Proceedings of the Fifteenth international Conference on Machine Learning (July 24 - 27, 1998). J. W. Shavlik, Ed. Morgan Kaufmann Publishers, San Francisco, CA, 144-151.</style></title></titles><dates></dates><urls></urls></record></Cite></EndNote>[39]. در استراتژی اول یک درخت تصمیمگیری ایجاد شده و سپس به یک مجموعه قانون تبدیل میشود. در این استراتژی میتوان با دنبال کردن یک مسیر از ریشه درخت به سمت یک برگ یک قانون را استخراج کرد. به عنوان مثال اگر درخت موجود در شکل 2-5 یک درخت ساخته شده توسط یک روش ردهبندی درخت تصمیمگیری باشد، میتوان قوانینی را به شرح زیر از آن استخراج کرد:
سندانشجو؟جنسیتجوانمسنمیان سالبلهبلهخیربلهخیرمردزنبلهخیر
شکل2-5- یک نمونه درخت تصمیم‌گیریاگر سن شخص جوان و فرد دانشجو باشد آنگاه برچسب وی بله است.
اگر سن شخص جوان و فرد دانشجو نباشد آنگاه برچسب وی خیر است.
اگر سن شخص مسن باشد آنگاه برچسب وی بله است.
اگر سن شخص میان سال بوده و جنسیت وی مرد باشد آنگاه برچسب وی بله است.
اگر سن شخص میان سال بوده و جنسیت وی زن باشد آنگاه برچسب وی خیر است.
روشهای ردهبندی زیادی وجود دارند که درخت تصمیمگیری ایجاد میکنند، ازجمله ID3ADDIN EN.CITE <EndNote><Cite><Author>Quinlan</Author><Year>1986</Year><RecNum>69</RecNum><record><rec-number>69</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">69</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Quinlan, JR</author></authors></contributors><titles><title>Induction of decision trees</title><secondary-title>Machine learning</secondary-title></titles><periodical><full-title>Machine learning</full-title></periodical><pages>81-106</pages><volume>1</volume><number>1</number><dates><year>1986</year></dates><urls></urls></record></Cite></EndNote>[40]، C4.5ADDIN EN.CITE <EndNote><Cite><Author>Quinlan</Author><Year>1993</Year><RecNum>70</RecNum><record><rec-number>70</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">70</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Quinlan, JR</author></authors></contributors><titles><title>C4. 5: programs for machine learning</title></titles><dates><year>1993</year></dates><publisher>Morgan Kaufmann</publisher><urls></urls></record></Cite></EndNote>[37] و C5.0ADDIN EN.CITE <EndNote><Cite><RecNum>224</RecNum><record><rec-number>224</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">224</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title>R. Quinlan, Data Mining Tools, 2005. <http://www.rulequest.com/see5-info.html>. </title></titles><dates></dates><urls></urls></record></Cite></EndNote>[41]. از آنجایی که در روشهای درخت تصمیمگیری یک مشخصه در هر مرحله در نظر گرفته میشود، برخی محدودیتها برای رسیدن به دقت بالا در آن‌ها وجود دارد. به عنوان مثال آن‌ها ممکن است ساختاری که در آن همه ویژگیها با همدیگر برچسب را تعیین میکنند را از دست بدهند ADDIN EN.CITE <EndNote><Cite><RecNum>225</RecNum><record><rec-number>225</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">225</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title>K. Wang, S. Zhou, and Y. He, “Growing decision trees on support-less association rules,” In Proceedings of the Sixth ACM SIGKDD international Conference on Knowledge Discovery and Data Mining (Boston, Massachusetts, United States, August 20 - 23, 2000). KDD '00. ACM, New York, NY, 265-269.</title></titles><dates></dates><urls></urls></record></Cite></EndNote>[42].
در استراتژی دوم میتوانیم از روشهای بر مبنای قانون استفاده نماییم که یک قانون را در هر مرحله استخراج میکنند. در این استراتژی بعد از استخراج یک قانون، تمام نمونههای موجود در مجموعه آموزش که توسط آن پوشش داده میشوند حذف شده و به دنبال استخراج قوانین بعدی برای نمونههای باقیمانده خواهیم بود. الگوریتمهای ردهبندی بر مبنای قانون زیادی در متون گذشته ارایه شدهاند که در هر مرحله فقط یک مشخصه را در نظر میگیرند، مثل CN2ADDIN EN.CITE <EndNote><Cite><Author>Clark</Author><Year>1989</Year><RecNum>71</RecNum><record><rec-number>71</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">71</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Clark, P</author><author>Niblett, T</author></authors></contributors><titles><title>The CN2 induction algorithm</title><secondary-title>Machine learning</secondary-title></titles><periodical><full-title>Machine learning</full-title></periodical><pages>261-283</pages><volume>3</volume><number>4</number><dates><year>1989</year></dates><urls></urls></record></Cite></EndNote>[43]، PARTADDIN EN.CITE <EndNote><Cite><RecNum>186</RecNum><record><rec-number>186</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">186</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title><style face="normal" font="Times New Roman" size="10">Frank, E. and Witten, I. H. Generating Accurate Rule Sets Without Global Optimization. In Proceedings of the Fifteenth international Conference on Machine Learning (July 24 - 27, 1998). J. W. Shavlik, Ed. Morgan Kaufmann Publishers, San Francisco, CA, 144-151.</style></title></titles><dates></dates><urls></urls></record></Cite></EndNote>[39] و RIPPERADDIN EN.CITE <EndNote><Cite><RecNum>195</RecNum><record><rec-number>195</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">195</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title><style face="normal" font="Times New Roman" size="10">W. W. Cohen. Fast effective rule induction. In Machine Learning: the 12th International Conference, Lake Taho, CA, 1995. (pp. 115-123) Morgan Kaufmann.</style></title></titles><dates></dates><urls></urls></record></Cite></EndNote>[44]. روشهای ردهبندی وابستگی-پی یکی از انواع خاص ردهبندی بر مبنای قانون هستند که یک دید جامع روی مشخصهها دارند. غنای قوانین در این راهبرد میتواند منجر به یافتن ساختار مناسب برای ردهبندی شود ADDIN EN.CITE <EndNote><Cite><RecNum>225</RecNum><record><rec-number>225</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">225</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title>K. Wang, S. Zhou, and Y. He, “Growing decision trees on support-less association rules,” In Proceedings of the Sixth ACM SIGKDD international Conference on Knowledge Discovery and Data Mining (Boston, Massachusetts, United States, August 20 - 23, 2000). KDD '00. ACM, New York, NY, 265-269.</title></titles><dates></dates><urls></urls></record></Cite></EndNote>[42].
درخت تصمیمگیری:
ایجاد درخت تصمیمگیری شامل دو مرحله میباشد. در مرحله اول درخت ساخته شده و در مرحله بعداین درخت هرس میگردد. درمرحلههرس، آندسته از شاخههاییکه بیشترین نرخ خطا را داشتهاند، حذف میشوندADDIN EN.CITE <EndNote><Cite><Author>Hadden</Author><Year>2007</Year><RecNum>30</RecNum><record><rec-number>30</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">30</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Hadden, J</author><author>Tiwari, A</author><author>Roy, R</author><author>Ruta, D</author></authors></contributors><titles><title>Computer assisted customer churn management: State-of-the-art and future trends</title><secondary-title>Computers and Operations Research</secondary-title></titles><periodical><full-title>Computers and Operations Research</full-title></periodical><pages>2902-2917</pages><volume>34</volume><number>10</number><dates><year>2007</year></dates><urls></urls></record></Cite></EndNote>[45]. یکی از انواع مهم درختان تصمیم، درخت تصمیمگیری C5.0 است که تحقیقات بسیاری در رده‌بندی موسیقی از آن استفاده کردهاند ADDIN EN.CITE <EndNote><Cite><Author>Ghorbani</Author><Year>2009</Year><RecNum>93</RecNum><record><rec-number>93</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">93</key></foreign-keys><ref-type name="Conference Proceedings">10</ref-type><contributors><authors><author>Ghorbani, A</author><author>Taghiyareh, F</author></authors></contributors><titles><title>CMF: A framework to improve the management of customer churn</title><secondary-title>IEEE Asia-Paciﬁc Services Computing Conference</secondary-title></titles><pages>457-462</pages><dates><year>2009</year></dates><urls></urls></record></Cite><Cite><Author>Chu</Author><Year>2007</Year><RecNum>53</RecNum><record><rec-number>53</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">53</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Chu, BH</author><author>Tsai, MS</author><author>Ho, CS</author></authors></contributors><titles><title>Toward ahybrid data mining model for customer retention</title><secondary-title>Knowledge-Based Sys--s</secondary-title></titles><periodical><full-title>Knowledge-Based Sys--s</full-title></periodical><pages>703-718</pages><volume>20</volume><number>8</number><dates><year>2007</year></dates><urls></urls></record></Cite><Cite><Author>Ghorbani</Author><Year>2009</Year><RecNum>144</RecNum><record><rec-number>144</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">144</key></foreign-keys><ref-type name="Conference Proceedings">10</ref-type><contributors><authors><author>Ghorbani, A</author><author>Taghiyareh, F</author><author>Lucas, C</author></authors></contributors><titles><title>The Application of the Locally Linear Model Tree on Customer Churn Prediction</title><secondary-title>International Conference of Soft Computing and Pattern Recognition</secondary-title></titles><pages>472-477</pages><dates><year>2009</year></dates><publisher>IEEE</publisher><urls></urls></record></Cite></EndNote>[34, 46, 47]. در ادامه به شرح این نوع درخت میپردازیم:
الگوریتم C5.0 توسعه یافته الگوریتم ID3ADDIN EN.CITE <EndNote><Cite><Author>Quinlan</Author><Year>1993</Year><RecNum>25</RecNum><record><rec-number>25</rec-number><foreign-keys><key app="EN" db-id="ep95aeps0eaex9etf93pt5xbx52dvxxtz5x0">25</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Quinlan, JR</author></authors></contributors><titles><title>C4. 5: programs for machine learning</title></titles><dates><year>1993</year></dates><publisher>Morgan Kaufmann</publisher><urls></urls></record></Cite></EndNote>[37] است که درخت تصمیمگیری را بر اساس تئوری اطلاعات میسازد. در هر گره از درخت، مشخصهای که بالاترین مقدار بهره اطلاعاتی را داشتهباشد به عنوان تصمیمگیرنده انتخاب میشود. هنگامیکه تمام نمونههای موجود در یک گره از یک کلاس باشند آن گره تشکیل یک برگ را میدهد و الگوریتم در برگها متوقف میشود.
2-5-2 رده‌بندی در کارهای انجام شده
همانطور که قبلا اشاره شد، رده‌بندی یکی از تکنیک‌های جذاب در بازیابی اطلاعات موسیقی می‌باشد. در این بخش مروری کوتاه بر چند تحقیق گذشته خواهیم داشت. این مرور در ساختار جدول سازمان‌دهی شده است. برای هر تحقیق اطلاعاتی نظیر نوع رده‌بندی- حالت، سبک، خواننده و...- نوع الگوریتم رده‌بندی- درخت تصمیم، شبکه‌های عصبی، قواعدتصمیم‌گیری و....- ویژگی‌های مورد استفاده در تحقیق، مجموعه داده‌های مورد استفاده و سال انتشار تحقیق آورده شده است.
جدول2-3 مرور متون گذشته در ارتباط با رده‌بندی موسیقی
سال انتشار مجموعه داده‌ها ویژگی‌ها الگوریتم رده‌بندی نوع رده‌بندی مقاله
2009 مجموعه از ترکیب احساسات و ژانر با استفاده از متا داده‌ها بر گرفته از وب سایت All Music Guide فراداده ماشین بردار پشتیبان رده‌بندی حالت
متن کاوی ]46[
2009 150 قطعه موسیقی از پنج ژانر مختلف را آنالیز کرده است.
این ژانرهاعبارتند از:
کلاسیک
راک
جاز
هیپ هاپ
جهانی ویژگی‌های مربوط به گفتار:
Relative amplitude of the first peak, Relative amplitude of the second peak,
The ratio between the amplitudes of the second and the first peak,
The period of the first two peaks in bpm,
The total sum over the whole histogram
رنگ
ریتم Kمین نزدیک‌ترین همسایه رده‌بندی سبک ]47[
2008 50 قطعه موسیقی پاپ غربی که از سایت AllMusic به دست آمده و سپس گروه بندی و حالت دهی شده است. شدت
ریتم
گام
هارمونی Kمین نزدیک‌ترین همسایه فازی
نزدیک‌ترینمیانگین فازی رده‌بندی حالت ]48[
2008 1.0 قطعه موسیقی از هفت ژانر مختلف را آنالیز کرده است.
این ژانرهاعبارتند از:
کلاسیک
راک
جاز
هیپ هاپ
راجایی
پاپ
تکنو ریتم
رنگ:
MFCC
تبدیل فوریه کوتاه مدت: Spectral Centroid
Spectral rolloff, Spectral ﬂux binary relevance
label powerset
random k-labelsets
multilabel k-nearest neighbor رده‌بندی حالت ]49[
2008 100 آهنگ را در چهار گروه از حالت دسته بندی کرده است.این گروه‌ها عبارتند از:
غیر شاد
غیر غمگین
غیر انرژی بخش
غیر آرامش بخش رنگ:
MFCC
spectral centroid
ریتم:
Tempo
onset rate
تن:
Harmonic Pitch
متن آهنگ KNN
SVM
Logistic RandForest رده‌بندی حالت ]50[
2008 1700 نظر در باره 500 موسیقی غربی جمع‌آوری شده است صوتی
متنی Gaussian mixture model بازیابی اطلاعات موسیقی ]51[
2008 379 متن آهنگ متنی Naıve Bayes
k-NN
SVM
درخت تصمیم رده‌بندی سبک ]52[
2007 9758 آهنگ از 41 ژانر مختلف صوتی
متنی نامشخص رده‌بندی سبک ]53[
2007 مجموعه داده‌های موسیقی آمریکای لاتین رنگ
ضرب
نواک J48
3NN
MLP
Naıve Bayes SVM رده‌بندی سبک ]54[
2005 مجموعه ای ویژگی‌ها در دوازده ژانر رنگ
ضرب
نواک روش جدید سلسله مراتبی معرفی شده است. رده‌بندی سبک ]55[
2005 100 آهنگ ویژگی‌های کوتاه مدت
MFCC
ویژگی‌های میان مدت
Mean
variance,Filterbank Coefficient Autoregressive,
High Zero-Crossing Rate Ratio,
Low Short-Time energy ratio
ویژگی‌های بلند مدت
Beat spectrum
Beat histogram of MFCC Gaussian Classifier
شبکه عصبی خطی رده‌بندی سبک ]56[
2004 45 تا 50 آهنگ برای هر یک از سه دسته زیر:
Tangle
Waltz
Bossa Nova ریتم روش جدید معرفی شده رده‌بندی سبک ]57[
2003 root-mean-square (RMS) level,
spectralcancroids bandwidth
zero-crossingrate, spectral roll-off frequency,
band energy ratio, delta spectrum
magnitude,
pitch
strength
MFCC نامشخص رده‌بندی حالت ]58[
2002 100 فایل از 10 ژانر زیر:
کلاسیک-کشورها-دیسکو
جاز- هیپ هاپ-راک- بلوز-راجایی- پاپ- متال
standard statistical
pattern recognition
KNN
Gaussian Classifier
رده‌بندی سبک ]59[
2-6سیستم‌های پیشنهاد دهندهمزیت اصلی راهبرد پیشنهاددهی به مشتریان در ترغیب مشتری برای حفظ وی است. نکته مهم در این زمینه این است که این مزیت زمانی برقرار میشود که مدل پیشبینی از دقت بالایی برخوردار باشد. در غیر اینصورت سیستم پیشنهاددهی حاصلی جز ضرر ندارد. زیرا سازمان هزینهای که برای پیشنهاددهی به مشتریان میکند را تلف کرده و به اشتباه صرف کرده است. از این رو بسیار حائز اهمیت است که مدل پیشبینی تا جایی که ممکن است دقیق عمل نماید.
2-6-1انواع سیستم‌های پیشنهاددهندهCollaborative Filtering:
این روش شباهت امتیازدهی‌های قبلی کاربر جاری و کاربران دیگر را مبنای تشخیص برچسب کلاس برای رکورد قرار می‌دهد. در این استراتژی فاصله Di,j بین دو مشتریui , uj که مشترکاً به کالاهای g1, g2, …., gmنظردهی کرده باشند بر اساس فرمول زیر بدست می‌آید:
Di,j = pi1-pj12+pi2-pj22+ ….. + pim-pjm2mکه در آن pikامتیازی است که مشتری i به کالای kام داده است. و m برابر تعداد کالاهای مشترک بین دو مشتری است.
ContentBased Filtering:
در استراتژی CBF از شباهت کالای فعلی و کالاهای قبلی فرد جاری برای حل مساله استفاده می‌کند. به این معنا که کالایی به کاربر پیشنهاد می‌شود که به کالاهایی که در انتخاب‌های قبلی کاربر وجود دارد از نظر محتوایی شباهت داشته باشند.
Collaborative & Demographic Based Filtering:
این استراتژی مشابه استراتژی اول است با این تفاوت که در این روش نه تنها اظهار نظرهای قبلی افراد دیگر با فرد جاری مقایسه می‌شود بلکه اطلاعات مربوط دموگرافیک فرد نیز ملاک ارزیابی تشابه قرار میگیرد در واقع اگر کاربر ui , uj مشترکاً به کالاهای g1, g2, …., gmنظردهی کرده باشند و خصوصیات دموگرافیک مشتری ui به صورت a1,a2, ….,an بوده و خصوصیات دموگرافیک مشتری uj به صورت b1,b2, ….,bnباشد آنگاه فاصله بین این دو کاربر یعنی Di,j بر اساس فرمول زیر بدست می‌آید:
Di,j = pi1-pj12+pi2-pj22+ ….. + pim-pjm2m+ (a1-b1)2+ (a2-b2)2 +…(an-bn)2قسمت اول این فرمول مربوط به فاصله بین دو مشتری بر اساس امتیازدهی به کالاهای مشترک و قسمت دوم مربوط به فاصله بر اساس خصوصیات دموگرافیک افراد می‌باشد. در ضمن pikامتیازی است که مشتری i به کالای kام داده است.
Demographic Based Filtering:
در این استراتژی از روش demographic based filtering استفاده شده است و بر اساس خصوصیات دموگرافیک افراد تشابه آن‌ها را مقایسه می‌کنیم.
Collaborative & Content Based Filtering:
در این روش استراتژی اول و دوم را با هم ترکیب می‌کنیم و به نوعی از روش Hybrid Approach استفاده شده است. اگر خروجی CF برابر outp_cf و خروجی CBF برابر outp_cbf باشد آنگاه خروجی این استراتژی یعنی outp_st5 برابر مقدار زیر است:
outp_st5 = (outp_cbf + outp_cf ) / 2
لازم به ذکر است که در تمامی 5 استراتژی بالا معیار معروف مورد استفاده فاصله اقلیدسی برای تعیین مشتریان مشابه یا کالاهایمشابه می‌باشد
2-6-2سیستم‌های پیشنهاد دهنده موسیقیدر این بخش تعدادی از سیستم‌های پیشنهاد دهنده که تا به حال توسعه یافته‌اند معرفی می‌شود. از ساختار جدول برای سازمان دهی استفاده شده است. و اطلاعاتی نظیر نوع استراتژی مورد استفاده در سیستم، توضیحات تکمیلی و سال انتشار ارائه شده است. چند نمونه کار از سال 2005 تا 2010 آورده شده تا بتوان تا حدی سیر تکاملی سیتم های پیشنهاد دهده را در طی این سال خا به نمایش گذاشت.
جدول2-4-مروری بر کارهای انجام شده در سیستم‌های پیشنهاد دهنده موسیقی
مقاله استراتژی به کار رفته توضیحات سال انتشار
]60[ Collaborative filtering سیستم پیشنهاد دهنده برای ابزار موبایل 2010
]61[ محتوا محور برای هر کاربر با استفاده از ویژگی‌های صوتی لیست پخش تولید می‌کند 2009
]62[ Collaborative filtering از مفهوم شباهت کاربران محلی و شباهت کاربران جهانی استفاده کرده است 2008
]63[ context-awareness اهمیت محیط را برای پیشنهاددهی نشان می‌دهد 2006
]64[ Collaborative filtering برای هر آیتم که امتیاز دهی نشده است با استفاده از یکی از سه روش زیر امتیاز پیش‌بینی می‌کند:
امتیاز دهی به آن ایتم توسط کاربر دیگر
آیتم‌های مختلفی که توسط یک کاربر امتیاز دهی شده
امتیاز دهی کاربر مشابه به آیتم مشابه 2006
]65[ محتوا محور
Collaborative filtering هم کاربر و هم موسیقی گروه بندی می‌شود.
پیشنهاددهی از گروه مورد نظر انجام می‌شود. 2005
2-7نتیجه
در این فصل اطلاعاتی جامع در مورد بازیابی اطلاعات و پیشنهاددهی موسیقی ارائه شده است. و مروری بر متون گذشته انجام شده است. در ادامه و در فصل آینده به معرفی روش پیشنهادی خود در زمینه رده‌بندی و پیشنهاددهی موسیقی می‌پردازیم.

فصل سوم
روش پیشنهادی3-1 مقدمههمانطور که قبلاً اشاره شده بود، مهم‌ترین هدف این تحقیق بهبود دقت در سیستمهای پیشنهاد دهی موسیقی است. برای این منظور به طور کلی چهار کار اصلی در این تحقیق صورت گرفته است:
تولید یک مجموعه داده جامع مناسب برای رده‌بندی و پیشنهاددهی موسیقی
معرفی یک ویژگی محتوا محور جدید که تا به امروز مورد استفاده قرار نگرفته
ارائه یک معیار جدید به منظور تعیین میزان شباهت پروفایل کاربران
توسعه یک برنامه کاربردی برای پیشنهاد دهی موسیقی به مشتری.
به دلیل نبود مجموعه داده مناسب از موسیقی ایرانی، در ابتدا مجموعه داده مناسب تولید شده است که در ادامه به طور کامل به مراحل ساخت ویژگی‌های این مجموعه داده می‌پردازیمدر ادامه ویژگی محتوا محوری که تا به امروز در بحث رده‌بندی موسیقی مورد استفاده قرار نگرفته است اما نتایج بسیار خوبی ارائه می‌دهد، معرفی می‌شود. سپس معیار جدید ارائه شده برای تعیین شباهت پروفایل مشتریان توضیح داده خواهد شد.در پایان به معرفی امکانات برنامه کاربردی توسعه داده شده برای پیشنهاد دهی موسیقی به مشتریان خواهیم پرداخت.
3-2 تولید مجموعه داده از موسیقی ایرانی
یکی از مهم‌ترین دستاورد‌های این تحقیق تولید مجموعه داده ای جامع است. به دلیل این که تا به امروز هیچ تجربه رده‌بندی و پیشنهاد دهی بر روی موسیقی ایرانی وجود نداشت، در نتیجه مجموعه داده ای که بتوان آن را در تحقیق مورد استفاده قرار داد نیز وجود نداشت. بنابراین پیش از هر کاری تولید یک مجموعه داده مناسب ضروری می‌نمود. مجموعه داده تولید شده بسیار جامع بوده و می‌توان در زمینه‌های رده‌بندی سبک خواننده و حالت موسیقی و همچنین در سیستم‌های پیشنهاد دهنده و تشخیص شباهت موسیقی و حتی گروه‌بندی مورد استفاده قرار گیرد.
3-2-1 جمع آوری داده‌ها و فرا داده‌ها و پیش پردازش
به منظور ایجاد مجموعه داده قبل از هر کاری باید فایل‌های صوتی موسیقی به تعداد کافی در سبک‌های مختلف موسیقی که توسط خوانندگان مختلف خوانده شده‌اندجمع‌آوری شود تعداد 745 فایل موسیقی در فرمت پرکاربردMP3 در نه سبک مختلف جمع آوری شد. به منظور مناسب شدن مجموعه داده برای رده‌بندی خواننده و همچنین به کارگیری در سیستم‌های پیشنهاددهنده، برای بالا بردن جمعیت خوانندگان از سبک پرطرفدار و مشهور پاپ استفاده شده است.از هر خواننده حداقل 10 آهنگ در مجموعه داده موجود است. تعداد 23 خواننده از هر دو جنس زن و مرد با جمعیت بیش از 10 آهنگ به منظور به کارگیری مجموعه داده در رده‌بندی خواننده، وجود دارد. همچنین به منظور اضافه کردن تگ حالت به هر آهنگ از هفت فرد مختلف خواسته شد بدون در نظر گرفتن خاطرات خود نسبت به هر موسیقی خاص تگ حالتی را برای هر فایل موسیقی ارائه دهند. در نهایت با رای‌گیری از تگ‌های ارائه شده یک تگ به عنوان تگ حالت آن فایل موسیقی پذیرفته شد.
از آن جایی که ابزار مور استفاده برای استخراج ویژگی تنها فایل‌هایی با فرمت WAV را به عنوان ورودی می‌پذیردتمامی این فایل‌ها به فرمت WAV وبا ویژگی‌های یکسان نرخ نمونه 8.0KHZ، عمق بیت 8 Bits، تک کانال و با استفاده از رمزنگاری PCM تبدیل شده است. وسپس 40ثانیه میانی ( از ثانیه 40 تا 80) هر فایل به دلیل وابستگی ویژگی‌ها به طول سیگنال صوتی جدا شده است و علاوه بر آنآهنگ‌ها در این مدت اطلاعات کافی در اختیار می‌گذارند. چنانچه قبلا اشاره شد، ویژگی‌هایlong term نیز حداقل به 10 ثانیه از صوت نیازمند هستند.
3-2-2 استخراج ویژگی‌ها
همان طور که در فصل قبل بیان شده است دو مجموعه داده معروف از موسیقی غربی که مورد استفاده قرار می‌گیرد، تنها به ارائه چند ضریب MFCC به عنوان ویژگی محتوایی آهنگ‌ها پرداختند. که به هیچ وجه نمی‌تواند نماینده مناسبی از آهنگ باشد، چرا که ضرایب MFCC در اصل برای تشخیص صدا ارائه شده نه موسیقی.
طبق دسته بندی انجام شده در جدول 2-1ما به استخراج ویژگی‌هایی که بتوانند نماینده، ریتم، تمپو، تون، نواک، رنگ و ویژگی‌های آماری سیگنال صوتی باشد می‌پردازیم. ویژگی‌های استخراج شده مجموعه داده مطابق با ویژگی‌های ارائه شده در جدول 2-1 است.
به منظور استخراج ویژگی‌ها از ابزار JAudio استفاده شده است. این ابزار توسط گروه موسیقی دانشگاه Mcgill ارائه شده است.این ابزار امکان استخراج بیش از 700 ویژگی مربوط به سیگنال صوتی را در اختیار می‌گذارد. بعضی از این ویژگی‌ها دارای چندین بعدیمی‌باشند که این ابزار تمامی ویژگی‌های چند بعدی را مسطح می‌نماید به این صورت که هر یک ازبعدها را به عنوان یک ویژگی در نظر می‌گیرد.
در میان ویژگی‌های مد نظر برای تولید مجموعه داده، ویژگی‌هایMFCC، LPC و Area method of moment MFCC چند بعدی هستند.
3-2-3 ویژگی‌های مجموعه داده
در این بخش ویژگی‌های آماری مجموعه داده از نظر پراکندگی ویژگی‌ها، سبک‌ها، خواننده‌ها و مجموعه داده آورده شده است.
جدول3-1 اطلاعات کلی از مجموعه داده
دسته ویژگی تعداد ویژگی حالت تعداد خواننده تعداد ریتم
تمپو
نواک
رنگ
آماری 504 شاد –
پر انرژی 10 71 رقص
شاد- غمگین – پر انرژی- آرامش‌بخش 23 327 پاپ
پر انرژی 4 89 رپ
پر انرژی- آرامش‌بخش 3 81 راک
آرامش بخش 11 14 لالایی
شاد- غمگین – پر انرژی- آرامش‌بخش 2 107 سنتی
پر انرژی 1 11 تکنو
پر انرژی 2 55 متال
آرامش‌بخش 2 30 فولک
پراکندگی ویژگی‌ها:
تعداد 504 ویژگی مجزا از صفت‌های مختلف موسیقی (ریتم، تمپو، تون، نواک، رنگ و ویژگی‌های آماری سیگنال صوتی) استخراج شده است که در این میان 36 ویژگی مربوط به ویژگی‌های ریتمیک، 36 ویژگی از تون، 276 ویژگی از رنگ، 132 ویژگی آماری، 12 ویژگی از تمپو و 12 ویژگی از نواک می‌باشد(جدول 3-2). شکل3-1پراکندگی تعداد ویژگی‌ها را در نمودار ستونی به نمایش گذاشته است.
جدول 3-2- پراکندگی تعداد ویژگی‌ها در دسته‌های مختلف
آماری رنگ نواک تمپو ریتم دسته
270 174 12 12 36 تعداد

شکل3-1- پراکندگی تعداد ویژگی‌ها در دسته‌های مختلفپراکندگی سبک‌ها
در این مجموعه داده،فایل‌های موسیقی از 9 سبک مختلف می‌باشد. که سبک‌های کلی و معروف در دنیای موسیقی می‌باشد هر یک از این سبک‌هامی‌توانند چند زیر سبک داشته باشند. اما در مجموعه داده‌ها زیر سبک‌ها در نظر گرفته نشده است. این 9 سبک عبارتند از رقص (71 آهنگ)، پاپ(327 آهنگ)، متال (55 آهنگ)، لالایی (14 آهنگ)، رپ(89 آهنگ)، فولک (30 آهنگ)، سنتی(107 آهنگ) و راک (81 آهنگ). شکل3-2 پراکندگی تعداد آهنگ‌ها را به نمایش گذاشته است.
سبک موسیقی سنتی ایرانی از دستگاه‌های مختلفی تشکیل شده است. به دلیل توجه ویژه این تحقیق به موسیقی ناب ایرانی دستگاه‌های مختلف موسیقی آهنگ‌های مربوط به سبک سنتی مشخص شده است. این دستگاه‌ها عبارتند از:ماهور(18آهنگ)، نوا (9 آهنگ)، چهارگاه (6 آهنگ)، سه گاه (7آهنگ)، اصفهان (31 آهنگ) و شور(35 آهنگ). شکل 3-3پراکندگی تعداد دستگاه‌ها را به نمایش گذاشته است.

شکل 3-2- پراکندگی تعداد آهنگ‌ها برای سبک‌های مختلف
شکل3-3- پراکندگی تعداد آهنگ‌ها برای دستگاه‌های مختلفپراکندگی خواننده‌ها:
به منظور ایجاد مجموعه داده‌ای که برای رده‌بندی خواننده مناسب باشد 15 خواننده که بیش از 10 آهنگ در مجموعه داده دارند، به مجموعه داده اضافه شده است تمامی این خواننده‌ها از ژانر پاپ و از هر دو جنسیت زن(11 نفر) و مرد(17 نفر)می‌باشند. در نهایت 28 خواننده که می‌توانند در رده‌بندی موثر باشند وجود دارد که تعداد320 آهنگ را پوشش می‌دهند.
پراکندگیحالت‌ها:
تعداد کل حالت‌های به کار رفته عبارتند از: رقص(62 آهنگ)، انرژی دهنده (278آهنگ)، شاد (109 آهنگ)، غمگین ( 134آهنگ) و آرامش بخش ( 162آهنگ)است.
در بخش 4-2 با ارائه یک آزمایش کوچک برتری مجموعه داده تولید شده را نسبت به مجموعه داده‌های معروف غربی به اثبات می‌رسانیم.
3-3 ویژگی Area Method of Moments of MFCC
3-3-1 عملگر Area Method of Moments
تکنیک Moments یک تکنیک ساده ریاضی است. این تکنیک برای تجزیهشکل‌های نامنظم به مجموعه ویژگی‌های توصیفی محدود است. در کل،Momentsکمیت‌های عددی در چند فاصله از یک نقطه مرجع یا محور را توصیف می‌کند.
Moments به صورت کلی در آمار برای مشخص کردن توزیع متغیر‌های تصادفی به کار می‌رود.
تئوری Moments
مجموعه متناهی از moment{ mpq , p,q=0,1,…}‌ها که به صورت منحصر به فرد F(x,y) را مشخص می‌کند و بر عکس.
به این معنا که هر مجموعه عدد را می‌توان به صورت کامل با یک سری مجموعه متن‌های عدد تعریف شود.
Moments دو بعدی برای ماتریس عددی گسسته (m×n) به صورت زیر تعریف می‌شود:
Mpq= x=0m-1y=0m-1xpyqg(x,y)
یک مجموعه moment از درجه n شامل تمام moment،Mpq، که در آنn p+q≤ و شامل (n+1)(n+2)12 عضو است.
Zeroth order moments: Area
تعریف zeroth order moments،m00،از ماتریس g(x,y) عبارتند از:
M00=x=0m-1y=0m-1g(x,y)روش محاسبه Moments:

جزئیات محاسبه Area method of moments
اگر ماتریسعددی X از مرتبهm n× را داشته باشیم.آنگاه AreaMomentsX0 به صورت زیر محاسبه می‌شود
F(x) =i=0nj=0mXijC1=i=0nj=0mfx*iC2=i=0nj=0mfx*jC3=i=0nj=0mfx*i2C4=i=0nj=0mfx*j2C5=i=0nj=0mfx*j*iC6=i=0nj=0mfx*j3C7=i=0nj=0mfx*i3C8=i=0nj=0mfx*j*i2C9=i=0nj=0mfx*i*j2AreaMomentsX0=f(X)
AreaMomentsX1=C1
AreaMomentsX2=C2
AreaMomentsX3=C3- C12AreaMomentsX4=C5- (C1* C2)
AreaMomentsX5=C2-C22AreaMomentsX6=2*C13-3* C1* C7+ C7
AreaMomentsX7=2*C1* C5
AreaMomentsX8=2*C2* C5
AreaMomentsX9=2*C23-3* C2* C6+ C6
3-3-2 روش محاسبه ویژگی Area method of moments of MFCC
برای محاسبه ضرایب ویژگی Area method of moments of MFCC سه مرحله زیر انجام می‌شود:
ابتدا سیگنال صوتی به n پنجره تقسیم می‌شود. تعداد این پنجره‌ها در ضرایب استخراج شده نهایی موثر است. این تعداد می‌تواندمتغیر باشد.
در مرحله بعد از هر پنجره ضرایب MFCC استخراج می‌شود.ضرایب MFCC دارای m بعد می‌باشد. در نهایت ماتریسی از درجه n×m خواهیم داشت.
در آخر با استفاده از عملگر Area method of moments به تجمیع MFCC‌های استخراج شده می‌پردازد.

بانک پایان نامه های روانشناسی

بانک پایان نامه های روانشناسی

پژوهش user7-234

سایت دانلود پژوهش ها و منابع علمی

پژوهش user7-234

پژوهش user7-234

پژوهش user7-234

پژوهش

دسته‌بندی نشده

LEAVE COMMENT

بانک پایان نامه های روانشناسی

جدیدترین یادداشت‌ها

بایگانی

جستجو

پژوهش user7-234

سایت دانلود پژوهش ها و منابع علمی

پژوهش user7-234

پژوهش user7-234

پژوهش user7-234

پژوهش

دسته‌بندی نشده

LEAVE COMMENT