سایت دانلود پژوهش ها و منابع علمی دانشگاهی فنی تخصصی همه رشته ها – این سایت صرفا جهت کمک به گردآوری داده ها برای نگارش پژوهش های علمی و صرفه جویی در وقت پژوهشگران راه اندازی شده است
اهداف اصلی این تحقیق از قرار زیر هستند:
ارائه روشی برای بهبود ردهبندی سبک موسیقی
ارائه روشی برای بهبود سیستم پیشنهاد دهنده موجود موسیقی
پیاده سازی برنامه کاربردی سیستم پیشنهاد دهنده موسیقی
دستاوردهایی که در این زمینه بدست میآید شامل موارد زیر است:
تولید یک مجموعه داده موسیقی بر اساسویژگیهای محتوایی سیگنال صوتی با فرا دادههای سبک، خواننده و حالت موسیقی
معرفی یک ویژگی جدید در ردهبندی موسیقی با کارایی بسیار بالا
ارائه یک مدل پیشنهاد دهنده بر اساس میزان شباهت موسیقیها با استفاده از ویژگی معرفی شده
ارائه یک معیار جدید شباهت پروفایلهای مشتری
ارائه یک روش جدید برای انتخاب موسیقی از پروفایلهای مشابه
پیاده سازی برنامه کاربردی پیشنهاد موسیقی
ساختار پایان نامه
در ابتدای فصل دوم این نوشتار به معرفی مفاهیم اصلی مربوط به موسیقی پرداخته و در بخش دوم آن به معرفی ویژگیهای محتوایی سیگنال صوتی میپردازیم در بخش سوم مجموعه دادههای موجود و مورد استفاده در جامعه علمی مورد بررسی قرار میگیرد. در بخش چهارم این فصل به بحث ردهبندی موسیقی پرداختهمیشود و در پایان این فصل سیستم پیشنهاددهنده موسیقی مورد کنکاش قرار میگیرد. در ابتدای فصل سوم به توضیح چگونگی تولید مجموعه دادههای موسیقی ایرانی پرداخته و مراحل مختلف آن را بررسی میکنیم و بعد از به معرفی ویژگی Area method of moments of MFCC که کارایی بالایی در ردهبندی موسیقی دارد ولی تا به حال مورد استفاده قرار نگرفته است، خواهیم پرداخت. در ادامه فصل سوم معیار شباهت پروفایل جدید خود را معرفی خواهیم کرد. و در پایان این فصل برنامه کاربردی توسعه یافته به منظور پیشنهاد دهی موسیقی معرفی خواهد شد. در فصل چهارم به تحلیل نتایج به دست آمده پرداخته و در نهایت در فصل پنجم به جمعبندی، نتیجهگیری و ارایه چشماندازی برای کارهای آینده میپردازیم.
فصل دوم
مروری بر متون گذشته
2-1 مقدمه:
در این فصل به معرفی موسیقی و ویژگیهای آن میپردازیم. در ادامه موسیقی را به دید سیگنال صوتی دیده و ویژگیهای قابل استخراج از این سیگنال صوتی که مفید و قابل استفاده است معرفی میشود. سپس توضیحی در باره سیستمهایردهبندی از جمله درخت تصمیم داده میشود و در انتها به معرفی انواع سیستمهای پیشنهاد دهنده و به طور خاص سیستمهای پیشنهاد دهنده موسیقی میپردازیم. به زبانی دیگر مروری کلی بر آنچه تا به حال در زمینه بازیابی اطلاعات و پیشنهاد دهی موسیقی انجام شده است،ارائه خواهد شد.
2-2موسیقی و ویژگیهای آن:
2-2-1 موسیقی چیست:
موسیقى تراوش احساسات و اندیشههاى آدمى و مبین حالات درونى وى مىباشد. شنیدن یک آهنگ آرامبخش و جذاب مىتواند پایانپذیر خستگى روزانه آدمی باشد. موسیقى به معنى پیوند آهنگهاست. تعریف سادهی موسیقى یا صداهاى موسیقایی، صداهاى خوشایندى مىشود که انسان از شنیدن آنها احساس لذت مىکند.
صداهاى خوشایند، صداهایى هستند که از نظمى خاص پیروى مىکنند و بین آنها نسبتهاى معینى وجود دارد. براى همین عدد در موسیقى داراى اهمیت بسیارى است. تا جایی که فیثاغورث معتقد است که عدد اصل وجود در آفرینش است. پیروان او اجسام را هر یک عدد مىداشتند و معتقد بودند که چون کرات آسمانى و افلاک از یکدیگر فاصلههاى معینى دارند، از نسبت آنها نغمهها ساخته مىشود و آوازها در اصل ناشى از حرکت افلاک هستند.
موسیقى سنتى ایران شامل قطعاتى است که در مجموع به عنوان ردیف موسیقى ایرانى گفته مىشود. امتیاز موسیقى ایرانى در امکانات وسیع مقامى و ملودىهاى غنى آن است. این موسیقى هنرى است بسیار ظریف و عمیق.
موسیقی فقط غذای روح و زبان احساسات نیست، بلکه درمانی برای جسم نیز هست. تحقیقات نشان داده است موسیقی که ترکیبی از صداهای گوناگون است، بر روی عملکرد و متابولیسم بدن تأثیر میگذارد و اثری مستقیم بر روی بخشهای اصلی بدن از جمله غدد گوناگون، قلب، دستگاه تنفسی، مغز و … دارد و موسیقی به عنوان ترکیبی منظم و زیبا از اصوات، تأثیری مثبت بر روی جسم نیز میگذارد.ولی شناخت تأثیرات مستقیم آن بر روی بدن نیاز به ورود به دنیای علم موسیقی درمانی دارد. البته ارتباط روح و جسم انسان باز هم به ما میگوید که در هر لحظه، لذت بردن روح از یک موسیقی مترادف است با تأثیر مثبت آن بر روی جسم انسان. روح انسان است که زیبایی موسیقی را میفهمد و این روح است که مانند یک استاد خبرهی زیباشناسی در مورد موسیقی قضاوت میکند.
زیباییشناسی در موسیقی دارای دو جنبهی تحلیلی و ترکیبی است. زیباییشناسی تحلیلی مربوط به زیبایی اصوات و نوای سازهاست و موج برخاسته از پیانو و ناله و فغان ویولن و کمانچه و … همه واژههای زیبایی هستند برای گفتن سخنی زیبا.در مقابل بعد ترکیبی موسیقی برمیگردد به نظم و آهنگی که هنرمند با کنار هم چیدن نتها و آواها میآفریند.در جنبهی ترکیبی است که هنرمند معنا پیدا میکند و موسیقی سخن میگوید و جملهای زیبا میشود از واژههای زیبا.
2-2-2 ویژگیهای صوتی موسیقی
نواک: نواک که به زیرایی نیز معروف است تحت عنوان زیری و بمی صدا تعریف میشود. روشن است که صداهای موسیقایی میتوانند در سطوح مختلف زیر و بمی حاصل شوند، مثلا میدانیم صدای اصلی مردان از صدای زنان یا کودکان کلفتتر و بمتر است و صدای کودان نسبت به مردان نازکتر و زیرتر است.در سازهای سیمی سیمهایکوتاهتر (و سبکتر) زیرتر و سیمهای بلندتر بمتر صدا میدهند.در سازهای بادی (لولههای صوتی) هر قدر لوله درازتر باشد صوت حاصل از آن بمتر است و بالعکس.
دیرند:دیرند به کشش و امتداد نیز معروف است وبه مدت زمانی که یک صدا طول میکشد گویند.دیرند یعنی “زمانی” که هر صدای موسیقایی ادامه مییابد.روشن است که یک آهنگ موسیقایی از صداهایی تشکیل شده که اکثرا ارزشهای متفاوت زمانی دارند.
شدت:شدت یا دینامیک،میزان قوی (بلند) و یا ضعیف (کم) بودن صدا است. صداهای موسیقی ممکن است نسبت به یکدیگر ضعیفتر و یا قویتر باشند.
رنگ:رنگ یا طنین یا شیوشتفاوت صدای ایجاد شده توسط پیانو و ویولون و یا دو انسان که دارای نواک و دیرند و شدت یکسان باشد، میباشد.صداها از نظر طنین و رنگ (شخصیت صوتی) هم میتوانند با یکدیگر متفاوت باشند.در واقع به علت رنگ صدای هر ساز است که ما صدای سازهای مختلف را از هم تمیز میدهیم.
2-2-3 تولید موسیقی
تن پایهایترین عنصر در صدای موسیقی است. دو نوع ساختار تن وجود دارد: یک تن ساده فرم گرفته از شکل موج سینوسی واحد و یک تن پیچیده شکل یافته از بیش از یک هارمونیک]2[ است. کیفیت تن به عناصر فرکانسی غیرهارمونیک بستگی دارد. همه تنهای موزیکال کلاسیک از یک فرکانس رزونانساز بخشهای مالشی یا در حال حرکت ابزار آلات موسیقی ایجاد میشوند و برخی از تنها از رزونانسهای لوله میآیند. به جز موزیک الکترونیک که تن اش را بسته به نیروی الکترومغناطیسی تولید میکند. تولید موسیقی عمیقا به نوع ابزار موسیقی بستگی دارد. انواع متداول ابزار موسیقی به صورت زیر خلاصه میشوند]2[:
آلات رشتهای:تنهایش از لرزش ریسمانها ایجاد میشود. این لرزش از طریق نوسان مستقیم ایجاد میشود مثل گیتار و یا از طریق کشیدن بین تارها، مثل ویولون، هر تار یک فرکانس پایهای معین دارد به طوری که یک ابزار موسیقی به تنهایی همه باندهای صوتی را پوشش میدهد. این نوع تنهای پیچیده را تولید میکند.
آلات دمیدنی: اساسا این ابزار شامل یک لوله استوانه ای باز در دو انتها مثل فلوت میباشد. دریچهها در جدار این ابزار طول موج رزونانس ایستا را تعریف میکند و باعث منعکس شدن صدا میشود. برخی از ابزار دمیدنی از یک قطعه مسsmall-vibrated برای تولید تنهای موسیقی مثل آکوردئون استفاده میکنند. این نوع ابزار تنهای هارمونیک تولید میکند.
آلات Brass: این نوع مثل woodwind وابسته به دمیدن میباشد اما دو تفاوت اساسی آنها را از هم تمیز میدهد. تفاوت اول این است که نوع brass یک شکلی از بوق مثل شیپور دارد. تفاوت دوم این است که نوع woodwind وابسته به فشار هوا برای تولید تنهای مختلف است. در حالی که نوع brass وابسته به سرپوش دستی برای کنترل اندازه حفره میباشد مثل ترومپت. نوع brass یک تعداد زیادی از موجودیتهایغیر هارمونیک در طیفش دارد.
آلات خانواده پیانو: این نوع از رشتههای لرزنده به عنوان منبع تن استفاده میکند ( از طریق ضربه زدن به آن که به وسیله صفحه کلید کنترل میشود) هر دکمه از صفحه کلید برای تولید یک تن واحد طراحی شده است. دامنه تن وابسته به فشار ضربه از طریق انگشتان پیانیست است. برخی تولیدکنندهها میلههای لرزاننده مسی را به جای رشتهها قرار میدهند. هارمونیکهای خالص اکثریت توان تن تولیدشده را دارند.
آلات ضربی مثل طبل: مثل طبل، طبل هندی، میلههای لرزان یا سنتور زنگی که از طریق ضرباتی از طریق baton انجام میشود. Baton یک چوب یا پلاستیک مخصوص میباشد. خصوصیات تنهای تولید شده به ابعاد فیزیکی و مقاومت و موقعیت ضربه baton بستگی دارد. بیشتر توان تن اجزای غیر هارمونیک را تولید میکند.
تولید الکترونیک موسیقی:ارگ از این دسته است. یک ابزار موسیقی دقیق و قوی که دکمههای زیادی را در یک صفحه کلید بزرگ دارد. هم چنین حافظه ای دارد که میتواند هر نت را ذخیره کند و از آن بارها به عنوان یک آهنگ یا تن پایه استفاده کند و نیز میتواند دائما یک ملودی را در پس زمینه اجرا کند که به نوازنده اجازه میدهد که فقط برخی از touchهای موزیکال را برای کامل شدن ملودی اصلی اضافه کند. راک و پاپ و دیسکو و جاز بدون کمک ارگ نمیتوانند اجرا شوند. اگرچه همه آهنگهای مخصوص ارگ بعد از محاسبات دقیق با استفاده از کامپیوترها ساخته شدهاند، هر صدا از هر جا میتواند ضبط و سپس به عنوان یک آهنگ پایه مورد استفاده قرار گیرد. اگرچه ارگ بزرگترین و گرانترین ابزار موسیقی است تنها تولیدکننده موزیک الکترونیک نیست. ابزار زیادی از این نوع با نامهاو سایزهای مختلف وجود دارند بنابراین هر شخص به تنهایی میتواند مارک دلخواه خود را بخرد و موزیک الکترونیک اجرا کند. نهایتا توجه به این نکته مهم است که اگر ابزار موسیقی الکترونیک برای تولید موسیقی مورد استفاده هستند، نیازی به فکر کردن در مورد هارمونیکها یا فرکانس پایه برای اندازه گیری کیفیت تن نیست.
2-3استخراج ویژگیهای محتوایی از فایل صوتی2-3-1انواع ویژگیهادر این بخش ویژگیهای صوتی مورد استفاده در کاربردهای ردهبندی صوت با جزئیات توضیح داده میشود.ویژگیها مطابق با جدول 2-1 به شش دسته، ریتم، تمپو، تون، نواک، رنگ و ویژگیهای آماریسیگنال صوتی شده است. و ویژگیهای صوتی مربوط به هر دسته در جدول دسته بندی شده است.دسته بندی انجام شده بر اساس مستندات نرم افزار استخراج ویژگی مورد استفاده،jaudio میباشد.تعاریف هر دسته عبارتند از:
ریتم: ریتم تناسب زمانی است که با نظم ترتیب و تکرار و توالی همراه است.ریتم میواند با استخراج تغییرات تکرار شونده در هیستگرام ضرب به دست آید.
تمپو:به معنای تعداد ضرب در دقیقه است و نمایانگر تندی و کندی آهنگ است. هر چه تمپوی یک آهنگ بالاتر باشد یعنی تعداد ضرب هایش در دقیقه بیشتر استو در نتیجه آهنگ تند تر است.
نواک:همانطور که در بخش 2-2-2 نیز بیان شده نواک نمایانگر زیری و بمی صدا است.
رنگ:همانطور که در بخش 2-2-2 نیز بیان شده عامل تمایز صدای دو ساز مختلف است وقتی یک ملودی با دینامیکی یکسان توسط دو یاز اجرا میشود.
آماری: ویژگی هایی که نمایانگر هیچ کدام از ویژگی های صوتی موسیقی نیستند اما در میتوانند بحث رده بندی موثر افتد. این ویژگی ها شامل مجموعه ای از صفات آماری سیگنال صوتی است.
جدول2-1 - طبقه بندی ویژگیها
دسته ویژگی نماینده زیر ویژگی ها
ریتم Beat Histogram
Strength of Strongest Beat
Compactness
Strongest Beat Derivative
Running mean
Standard deviation
Derivative of running mean
Derivative of Standard deviation
تمپو Beat Sum نواک Zero Crossings رنگ[3] MFCC
Spectral Rolloff Point
Spectral Flux
Spectral Centroid آماری Fraction of Low Energy frames
LPC
Area Method of Moments در ادامه به تشریح ویژگی های معرفی شده در جدول 2-1 و چگونگی استخراج آنها و روابط ریاضی مربوط به هر ویژگی میپردازیم:
هیستوگرام ضرب:
مجموعه ویژگیای برای نمایش ساختار ریتم بر مبنای تشخیص برجستهترین دوره تناوب سیگنال است. شکل2-1نمودارجریانالگوریتمتجزیهوتحلیلضرب را نشان میدهد]3[ . سیگنال ابتدابا استفاده ازDWTبهتعدادی باند فرکانسهشتگانهتجزیهشده است. پسازاینتجزیه،بستهدامنهزمانیهر گروه(باند)به صورت جداگانه با استفاده از همسو سازیکل موج، فیلتر پایین گذر و downsampling به هر یک از فرکانس نتهای هشتگانه،به دست میآید. پس از حذف میانگین، بستهی هر یک از گروهها با هم جمع شده و سپس خودهمبستگیبسته مجموع، محاسبه میشود.قلههای غالب، تابع همبستگی متناظر با دوره تناوبهای مختلف بسته سیگنال است.بلوکهایساختمانهای زیر برای استخراج ویژگی تجزیه و تحلیل ضرب استفاده میشوند:
یکسو سازی تمام موج:
به منظوراستخراجپوششزمانیسیگنال به جای خودحوزه زمانی سیگنالاعمال میشود
Y[n] = |x[n]|
.فیلتر پایینگذر:
به عنوان مثال، یک فیلتریک قطب با ارزش آلفای 0.99 که برای صاف کردن بسته استفاده میشود. اصلاح موج کامل به دنبال فیلتر پایین گذر روش استاندارد استخراج بسته است.
Y[n] = (1- ????)x[n] + ????y[n-1]
Downsampling:
. به خاطر دوره تناوبهایزیاد تجزیه و تحلیل ضرب، downsamplingسیگنالزمانمحاسباتبرایمحاسبههمبستگی را بدونتأثیر بر عملکردالگوریتم کاهش میدهد.
Y[n] = x[kn]
حذف میانگین:
منظور ایجاد تمرکز سیگنالبهصفربرای مرحله همبستگی اعمال میشود
Y[n] = x[n] – E[x[n]]
همبستگی پیشرفته:
قلههای تابع خود همبستگی مربوط به تأخیرهای زمانی هستند؛جایی که در آن سیگنال بیشتر شبیه به خود است. تأخیرهای زمانی قلهها در محدودهی زمانی مناسب برای تجزیه و تحلیل ریتم مربوط به دوره تناوب ضرب است. تابع خود همبستگی اصلی خلاصهی پاکتها، به ارزشهای مثبت و پس از آن به مقیاس زمان با ضریب دو کوتاه شده و از تابع اصلی کوتاه شده، کم شده است. همین روند با عوامل دیگر از جمله قلههای تکراری که در آن مضارب عدد صحیح حذف میشوند، تکرار میشود.
Y[k] = 1Nnxnx[n-k]تشخیص قلهومحاسبههیستوگرام:
سهقلهاولتابعخودهمبستگیافزایش یافته که درمحدودهمناسببرای تشخیصضربهستندانتخاب میشوندوبههیستوگرام ضرباضافه میشوند.Binهای هیستوگراممربوط بهضرباندر هردقیقه(BPM) از40 تا200ضربه در دقیقهاست.برای هر قله تابعخودهمبستگیافزایش یافته، دامنهقلهبههیستوگراماضافه شده است.این قلهکه دارایدامنهبالابهشدتنسبتبهقلههای ضعیفتردر محاسبههیستوگراموزن دار شدهاند.
شکل2-SEQ شکل \* ARABIC1-فلوچارت محاسبه هیستوگرام ضرب]3[
شکل2-2یک هیستوگرامضرببرای 30ثانیه از این آهنگ "Come Together" بیتلز را نشان میدهد.دو قله اصلیBH مربوط به ضرب اصلی در حدود 80 ضرب در دقیقه و هارمونی اول آن (دو برابر سرعت) در 160 ضرب در دقیقه است.
شکلSEQ شکل \* ARABIC2-2 نمونه هیستوگرام ضربقدرت قویترین ضرب:
معیاری است از این که چقدر قویترین ضرب در مقابل سایر ضربهای ممکن قوی است. این معیار با یافتن انرژی متناظر قویترینضرب در هیستوگرام ضرب و تقسیم ان به مجموع کل انرژی در هیستوگرام ضرب محاسبه میشود.
قویترین ضرب:
ویژگی است که قویترینضرب در سیگنال را استخراج میکند. که از طریق پیدا کردن بلندترین bin در هیستوگرام ضرب تولید میشود.
مجموع ضربها:
ویژگی خوبی که نشان میدهد چقدر یک ضرب معمولی در ین قطعه موسیقی نقش مهمی را بازی میکند. و از حاصل جمع تمام مقادیر درهیستوگرام ضرب به دست میآید.
نرخ گذار از صفر:
نرخ گذار از صفر شکل موج حوزه زمان یکی از قویترین معیارها برای تشخیص گفتار است و به طور گسترده ای به عنوان معیاری قوی برای تشخیص گفتار صدادار از سایشی استفاده میشود. نرخ گذار از صفر به طور ساده تعداد نقاط تلاقی با صفر در یک پنجره سایز ثابت است. یعنی تعداد دفعاتی که شکل موج صوتی علامتش در طول فریم تغییر میکند. نرخ گذار از صفر زمانی اتفاق میافتد که نمونههای متوالی علامتهای جبری مختلفی داشته باشند. معادله زیر نرخ گذار از صفر را نشان میدهد:
ZCR=12n=1N-1sgnxn-sgnxn-1اگر xn>0 باشد sgnx=1 و اگر xn<0، sgnx=-1 و N تعداد نمونهها در یک پنجره میباشد.
نرخ گذار از صفر مربوط به صامتهای انرژی پایین، نسبت به نرخ گذار از صفر مربوط به مصوتهای انرژی بالا کمتر است. بدیهی است که نرخ گذار از صفر یک الگوریتم حوزه زمان است و به مقدار زیادی به فرکانس سیگنال ورودی x(n) وابستگی دارد. به علاوه نرخ نمونه برداری باید به اندازه کافی بالا باشد تا هر عبور از صفری را نشان دهد. به علاوه چیز مهمی که باید قبل از شروع به شمارش گذرها مورد توجه قرار گیرد نرمال سازی سیگنال است. چون متوسط دامنه در سرتاسر پنجره باید برابر با صفر باشد و این کار با استفاده از شیفت ثابت به هر نمونه در محور دامنه انجام میشود. این ثابت باید معادل با میانگین دامنه واقعی باشد. این به معنی دوباره تنظیم کردن بالانس نرخ گذار از صفر است. این مسئله تضمین میکند که هر پنجره فقط یک نرخ گذار از صفر خاص دارد. از معادله مشخص میشود کهنرخ گذار از صفر با فرکانس dominant،x(n) متناسب است
در اینجا مفهوم نسبت نرخ گذار از صفر بالا(HZCRR) نیز مطرح میشود]4[. کاملا مشخص است که نرخ گذار از صفر برای مشخص کردن سیگنالهای صوتی مختلف بسیار مفید است و در بسیاری از الگوریتمهای کلاس بندی گفتار/موسیقی مورد استفاده بود. از طریق آزمایش فهمیده شد که نوسان(تغییرات) نرخ گذار از صفر نسبت به مقدار دقیق نرخ گذار از صفر متمایز کننده تر است. بنابراین HZCRR را میتوان به عنوان یک ویژگی در نظر گرفت.
HZCRR به صورت نسبت تعداد فریمهایی که ZCR شان بالاتر از نرخ گذار از صفر متوسط یک بخش در پنجره یک ثانیه ای است تعریف میشود و به صورت زیر بیان میشود:
HZCRR=12Nn=0N-1[sgn(ZCRn-ZCRav)+1] ZCRav=n=0N-1ZCRnn ایندکس فریم و N تعداد کل فریمها در یک پنجره یک ثانیه ای است و sgn[.] یک تابع علامت و ZCR(n)نرخ گذار از صفر در فریم n ام است.
در]5،6،7،8،9،10،11،12،13،14،15،16[ از این دسته ویژگیها استفاده شده است.
انرژی زمان کوتاه:
دامنه سیگنال به گونه ای محسوس با زمان تغییر میکند. دامنه قطعات بی صدا عموما خیلی پایینتر از قطعات صدادار است. انرژی زمان کوتاه سیگنال صوت یک نمایش مناسبی را ارائه میدهد که این واریانسهای دامنه را منعکس میکند. از آنجاییکه سیگنال موسیقی شامل قطعات بی صدا نیست STE آن معمولا بزرگتر از گفتار است.
انرژی زمان کوتاه یک فریم به صورت مجموع مربعات نمونههای سیگنال به صورت زیر تعریف میشود:
E=10log(1Nn=0N-1x2[n]) در اینجا مفهوم دیگری به نام انرژی زمان کوتاه پایین ( LSTER) نیز مطرح میشود که با استفاده از این ویژگی به جای مقدار دقیق انرژی زمان کوتاه واریانس و تغییرات را به عنوان یک جز از بردار ویژگیمان انتخاب میکنیم. در اینجا ما از LSTER برای نمایش تغییرات STE استفاده میکنیم. LSTER به صورت نسبت تعداد فریمهایی که در آنهاSTE کمتر از 0.5برابر STE میانگین در یک پنجره یک ثانیه ای است تعریفمیشود. به صورت زیر:
LSTER=12Nn=0N-1[sgn(0.5 STEav-STEn+1] STEav=n=0N-1STEnکه N تعداد کل فریمها و STE(n) مقدار STE در n امین فریم و STEav،STE میانگین در یک پنجره یک ثانیه ای است. در]5،6،7،8،9،10،11،12،13،14،16،17،18[ از این دسته ویژگیها استفاده شده است.
ضرایب کپسترال فرکانسی مل (MFCC):
هدف اصلی MFCC تقلید رفتار گوش انسان است. تحقیقات فیزیولوژیکی نشان میدهند که ادراک بشر از محتوای فرکانسی صداها برای سیگنالهایصوتی از یک مقیاس خطی پیروی نمیکند بنابراین برای هر تن با فرکانس واقعی f یک pitch روی مقیاس مل محاسبه میشود. مقیاس فرکانسی مل در فضای زیر 1kHz به صورت خطی و در بالای 1kHz به صورت لگاریتمی میباشد. بنابراین فیلترها در فرکانسهای پایین به صورت خطی و در فرکانسهای بالا به صورت لگاریتمی برای پیگیری ویژگیهای مهم آواشناسی (صدادار و بدون صدا) استفاده میشوند. فرمولی که معمولا برای انعکاس ارتباط بین فرکانس مل و فرکانس فیزیکی استفاده میشود به صورت زیر است:
Mf=1125*log(1+f700)محاسبه ضرایب فرکانسی کپسترال مل با گرفتن DFT از فریم X(k) شروع میشود و سپس ضرب آن با یک سری از فیلترهای بالاگذر ایدهال مثلثیvi(k) که فرکانس مرکزی و پهنای فیلتر بر اساس مقیاس مل تنظیم شدهاند. سپس انرژی طیفی کل در هر فیلتر به صورت زیر محاسبه میشود:
Ei=1sik=LiUiXk.vik2LiوUiباندهای بالا و پایین فیلتر و siیک ضریب نرمال سازی و i شماره فیلتر بانک است.( برای جبران پهنای باندهای مختلف فیلترها)
Si=k=LiUi(vik)2نهایتا دنباله MFCC با محاسبه تبدیل کسینوسی گسسته(DCT) از لگاریتم دنباله انرژی E(i) محاسبه میشود:
MFCCl=1Ni=0N-1logEi.cos(2πNi+12.l)L شماره ویژگی MFCC و N تعداد نمونهها در یک فریم است. معمولا 12 ضریب به عنوان ویژگی برای نمایش گفتار محاسبه میشود. هم چنین میتوان بردار تفاضل MFCC را بین فریمهای مختلف محاسبه کرد و نرم اقلیدسی آن بردار به عنوان یک ویژگی اضافی در نظر گرفت.
∆MFCCi,i-1=i=110MFCCil-MFCCi-1l2i ایندکس فریم است. در ]6،7،11،12،13،14،15،16،19،20،21،22[از این دسته ویژگیها استفاده شده است.
:Roll-off point
این ویژگی مقداری را در فرکانس نشان میدهد که 95% انرژی سیگنال در زیر آن قرار میگیرد. همان طور که قبلا ذکر شد انرژی(توان) درموسیقی در فرکانسهای بالاتر متمرکز شده است. هرچند گفتار یک رنجی از توان فرکانسی پایین را دارد.گفتار صدادار نسبت بالایی از انرژی را در رنج فرکانسی پایین طیف دارد در حالیکه بیشتر انرژی در گفتار بی صدا و موسیقی در باندهای بالاتر است. در نتیجه نقطه roll-off طیفی برای گفتار بی صدا و موسیقی مقدار بالاتری دارد و برای گفتار صدادار مقدار پایینتری دارد. عبارت ریاضی برای پیدا کردن این مقدار از فرکانس به صورت زیر است:
f<KXf=0.95fX[f]در ]6،7،12،13،14،15،19[از این دسته ویژگیها استفاده شده است.
مرکزیت طیف:
این ویژگی نقطه تعادل توزیع توان طیفی را در یک فریم ارائه میدهد.این ویژگی مرکز فرکانسی را توصیف میکند. سیگنالهایموسیقی نویز فرکانس بالا و صداهای تصادمی(زدنی) دارند که یک میانگین طیفی بالا را نتیجه میدهد.به عبارت دیگر در سیگنالهایگفتار،pitch سیگنال صوتی در یک رنج بسیار باریک از مقادیر پایین میماند.به عنوان نتیجه موسیقی مرکزیت طیف بالاتری نسبت به گفتار دارد. مرکزیت طیف برای یک فریم که در زمان t رخ میدهد به صورت زیر محاسبه میشود:
SpectralCentroid=SC=k=1N-1kXkk=1N-1XkK ایندکسی متناظر با فرکانس، X(k) توان سیگنال در باند فرکانسی متناظراست.
در ]6،7،10،11،12،13،14،15،18،23،24[از این دسته ویژگیها استفاده شده است.
Spectral Flux:
این ویژگی اختلاف طیف را فریم به فریم اندازه گیری میکند بنابراین تغییر در شکل طیف را مشخص میکند. گفتار مقدار رنج بالاتری دارد و تغییرات فریم به فریم شدیدتری نسبت به موسیقی دارد. باید به این نکته توجه کرد که گفتار مرتبا بین پریودهایی از گذار( مرزهای مصوت-صامت) و پریودهایی از حالت سکون نسبی(مصوتها ) جابجا میشود در حالیکهموسیقی معمولا یک نرخ ثابتتری از تغییر را داراست. به عنوان نتیجه مقدار شار طیف(spectral flux) برای گفتار بالاتر است مخصوصا سیگنالهای بدون صدا. اما مقدار spectral flux برای سیگنال گفتار نسبت به مقدار spectral fluxسیگنالهای محیطی خیلی کوچکتر است زیرا در سیگنالهای محیطی که تغییرات فریم به فریم نسبت به سیگنالهایگفتار بیشتر است.spectral flux به صورت زیر تعریف میشود"دومین نرم بردار تفاضل دامنه طیف فریم به فریم" یعنی مجموع مربعات اختلافهای فریم به فریم از اندازه DFT. که m وm-1 ایندکس فریم هستند.
Spectralflux=|| Xi-Xi+1 ||=k=0K-1Xmk-Xm-1k2شکل2-3 نشان میدهد که معیار spectral flux برای speech تقریبا بالا تر از این مقدار برای موسیقی است]24[.
شکل2-SEQ شکل \* ARABIC3- معیار spectral flux برای گفتار تقریبا بالاتر از این مقدار برای موسیقی استدر ]10،11،13،14،15،21،25،26،27،28،29،30،31[از این دسته ویژگیها استفاده شده است.
درصد فریمهایlow energy :
این مقدار نسبت فریمهایی با توان RMS کمتر از 50% توان RMS میانگین در یک پریود معین از زمان را اندازه گیری میکند. توزیع انرژی برای گفتار نسبت به موسیقی چولگی چپ بیشتری دارد. دلیل این مسئله آن است که فریمهای سکوت بیشتری در گفتار وجود دارد بنابراین انرژی فریمهایی که شامل سکوت هستند نسبت به فریمهایی که سکوت ندارند بیشتر است.شکل2-4 نشان میدهد که این معیار برای گفتار بالا تر از این مقدار برای موسیقی است]24[.
در]6،7،12،13،14،15،18،24،31[ از این ویژگی استفاده شده است.
شکل2-SEQ شکل \* ARABIC4- درصد فریمهای با انرژی پایینضرایب پیشگویی خطی(LPC):
ایده پشت پیشگویی خطی این است که نمونه بعدی سیگنال از مجموع وزن دار p نمونه قبلی پیشگویی میشود.
s'n=i=1paisn-iaiضرایب پیشگویی هستند و p مرتبه پیشگو است. و s(n-i) یک نمونه در زمان n-i است. به عبارت دیگر هر نمونه از یک سیگنال به صورت یک ترکیب خطی از نمونههای قبلی مدل میشود. ضرایب پیشگویی به وسیله مینیمم کردن خطای بین نمونههای واقعی و پیشگویی شده تعیین میشوند. خطای پیشگویی به صورت زیر محاسبه میشود:
en=sn-s'n=sn-i=1paisn-iدر]10،13،30،32،33[از این ویژگی استفاده شده است.
2-3-2 تقسیم بندی ویژگیها از نظر طول فریم استخراجی
ویژگیهای صوتی را میتوان بر اساس طول فریم استخراجی به سه دسته کوتاه متوسط و بلند تقسیم کرد. مجموعه ویژگیهایکه از فریمهایی با طول 30 میلی ثانیه-ویژگیهایی نظیر مجموع ضربها یا MFCC یا گذر از صفر- را استخراج میکنند تحت عنوان ویژگیهای با طول فریم کوتاه معرفی میشود. ویژگیهای با طول فریم متوسط از تجمیع چندین پنجره متوالی کوتاه فریم حاصل میشود همان طور که در جدول 2-2 نمایان است عملگرهایی چون انحراف از معیار و میانگین و مشتق برای تجمیع در فاز فریمهای متوسط مورد استفاده قرار میگیرد. طبقه بعدی ویژگیها،ویژگیهای با طول فریم طولانی است. که از تجمیع ویژگیهای با طول فریمهای متوسط ایجاد میشود. ویژگیها با طول فریم متوسط از فریمی به طول 1 ثانیه و ویژگیها با طول فریم طولانی ازفریمهایی با طول 10 ثانیه بهره میبرند.]34[
جدول 2-2- تقسیم بندی ویژگیها از نظر طول فریم استخراجی
ویژگیهای
با
طول فریم کوتاه Strength of Strongest Beat – Compactness - Strongest Beat- Strength of Strongest Beat - Beat sum
Spectral Rolloff Point -Spectral Flux -Spectral Centroid
Fraction of Low Energy frames -Area Method of Moments Feature - Magnitude Spectrum-Power Spectrum
LPC - MFCC
Zero Crossing
ویژگی
با طول فریم متوسط Derivative Running mean Standard deviation
ویژگی
با طول فریم بلند Derivative of Standard deviation
Derivative of Running mean Beat Histogram
2-4 مجموعه دادههاتعداد مجموعه دادههای معروفی که برای بازیابی اطلاعات موسیقی ایجادشدهاندانگشتشمار است. در اکثر تحقیقات از مجموعه دادههای ساختگی خود استفاده کردهاند. دو مجموعه داده معروف USPOP2002 و ISMIR 2004به منظور بازیابی اطلاعات موسیقی وجود دارد. بزرگترین ضعف این دو مجموعه داده عدم ارائه ویژگیهای کافی برای بازیابی اطلاعات میباشد. این دو مجموعه داده تنها ضرایبMFCC را اختیار میگذارد. هیچ مجموعه داده مناسبی که بر اساس موسیقی ایرانی تهیه شده باشد وجود ندارد.
2-5 ردهبندی موسیقی2-5-1 ردهبندی
در متون گذشته روشهای مختلفی برای ردهبندی موسیقی ارائه شده است. ردهبندی کردن دادهها یکی از مهمترین موضوعات در زمینه دادهکاوی محسوب میشود. هدف روشهای ردهبندی، دستهبندی نمونهها در کلاسهای از پیشتعیین شده هستند. آنها نمونههای موجود در دادههای آموزش را برای پیشبینی برچسب نمونههای داخل مجموعه آزمون استفاده میکنند.
مجموعه دادههای D را در نظر بگیریم که نمونههای زیادی در آن وجود دارد و هر نمونه از دنبالهای از مقادیر مشخصهها تشکیل شده است. مضاف بر این، هر نمونه به یک کلاس با برچسب خاص تعلق دارد. بهصورت علمیتر مجموعه داده D شامل نمونههای Ij است که به شکل <vj1,vj2 , …, vjn>Ij بوده و vji مقدار مشخصه Fi و مربوط به دامنۀ این مشخصه است. مجموعه داده D به دو بخش آموزش و آزمون تقسیمبندی میشود. هدف اصلی در ردهبندی، ایجاد روشی برای ردهبندی است که بر اساس دادههای آموزش بتواند برچسبهای نمونههای موجود در مجموعه آزمون را به درستی پیشبین نماید.
در متون گذشته روشهای زیادی برای ردهبندی ارایه شده است. از جمله روشهای ردهبندی معروف میتوان به بیز سادهADDIN EN.CITE <EndNote><Cite><RecNum>222</RecNum><record><rec-number>222</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">222</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title>G.H. John, P. Langley, “Estimating continuous distributions in Bayesian classifiers,” In Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, San Mateo, CA,1995, pp. 338–345.</title></titles><dates></dates><urls></urls></record></Cite></EndNote>[35]، شبکه عصبی ADDIN EN.CITE <EndNote><Cite><RecNum>223</RecNum><record><rec-number>223</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">223</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title>D. Rumelhart, G. Hinton, R. Williams, “Learning internal representations by error propagation,” In Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Vol. 1: Foundations, D. E. Rumelhart and J. L. McClelland, Eds. Mit Press Computational Models Of Cognition And Perception Series. MIT Press, Cambridge, MA, 1985 318-362. </title></titles><dates></dates><urls></urls></record></Cite></EndNote>[36]، درختهای تصمیمگیری ADDIN EN.CITE <EndNote><Cite><Author>Quinlan</Author><Year>1993</Year><RecNum>70</RecNum><record><rec-number>70</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">70</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Quinlan, JR</author></authors></contributors><titles><title>C4. 5: programs for machine learning</title></titles><dates><year>1993</year></dates><publisher>Morgan Kaufmann</publisher><urls></urls></record></Cite></EndNote>[37] و الگوریتم ژنتیک ADDIN EN.CITE <EndNote><Cite><Author>Freitas</Author><Year>2002</Year><RecNum>102</RecNum><record><rec-number>102</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">102</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Freitas, AA</author></authors></contributors><titles><title>A survey of evolutionary algorithms for data mining and knowledge discovery</title><secondary-title>Advances in Evolutionary Computation</secondary-title></titles><periodical><full-title>Advances in Evolutionary Computation</full-title></periodical><pages>819-845</pages><dates><year>2002</year></dates><urls></urls></record></Cite></EndNote>[38] اشاره کرد. روشهای ردهبندی برای طبقهبندی نمونهها راهبردهای مختلفی را دنبال میکنند. یکی از مهمترین راهبردها، استخراج قوانین در مرحله آموزش و بهکارگیری این قوانین روی مجموعه آزمون است. برای استخراج قانون دو استراتژی کلی وجود دارد ADDIN EN.CITE <EndNote><Cite><RecNum>186</RecNum><record><rec-number>186</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">186</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title><style face="normal" font="Times New Roman" size="10">Frank, E. and Witten, I. H. Generating Accurate Rule Sets Without Global Optimization. In Proceedings of the Fifteenth international Conference on Machine Learning (July 24 - 27, 1998). J. W. Shavlik, Ed. Morgan Kaufmann Publishers, San Francisco, CA, 144-151.</style></title></titles><dates></dates><urls></urls></record></Cite></EndNote>[39]. در استراتژی اول یک درخت تصمیمگیری ایجاد شده و سپس به یک مجموعه قانون تبدیل میشود. در این استراتژی میتوان با دنبال کردن یک مسیر از ریشه درخت به سمت یک برگ یک قانون را استخراج کرد. به عنوان مثال اگر درخت موجود در شکل 2-5 یک درخت ساخته شده توسط یک روش ردهبندی درخت تصمیمگیری باشد، میتوان قوانینی را به شرح زیر از آن استخراج کرد:
سندانشجو؟جنسیتجوانمسنمیان سالبلهبلهخیربلهخیرمردزنبلهخیر
شکل2-5- یک نمونه درخت تصمیمگیریاگر سن شخص جوان و فرد دانشجو باشد آنگاه برچسب وی بله است.
اگر سن شخص جوان و فرد دانشجو نباشد آنگاه برچسب وی خیر است.
اگر سن شخص مسن باشد آنگاه برچسب وی بله است.
اگر سن شخص میان سال بوده و جنسیت وی مرد باشد آنگاه برچسب وی بله است.
اگر سن شخص میان سال بوده و جنسیت وی زن باشد آنگاه برچسب وی خیر است.
روشهای ردهبندی زیادی وجود دارند که درخت تصمیمگیری ایجاد میکنند، ازجمله ID3ADDIN EN.CITE <EndNote><Cite><Author>Quinlan</Author><Year>1986</Year><RecNum>69</RecNum><record><rec-number>69</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">69</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Quinlan, JR</author></authors></contributors><titles><title>Induction of decision trees</title><secondary-title>Machine learning</secondary-title></titles><periodical><full-title>Machine learning</full-title></periodical><pages>81-106</pages><volume>1</volume><number>1</number><dates><year>1986</year></dates><urls></urls></record></Cite></EndNote>[40]، C4.5ADDIN EN.CITE <EndNote><Cite><Author>Quinlan</Author><Year>1993</Year><RecNum>70</RecNum><record><rec-number>70</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">70</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Quinlan, JR</author></authors></contributors><titles><title>C4. 5: programs for machine learning</title></titles><dates><year>1993</year></dates><publisher>Morgan Kaufmann</publisher><urls></urls></record></Cite></EndNote>[37] و C5.0ADDIN EN.CITE <EndNote><Cite><RecNum>224</RecNum><record><rec-number>224</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">224</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title>R. Quinlan, Data Mining Tools, 2005. <http://www.rulequest.com/see5-info.html>. </title></titles><dates></dates><urls></urls></record></Cite></EndNote>[41]. از آنجایی که در روشهای درخت تصمیمگیری یک مشخصه در هر مرحله در نظر گرفته میشود، برخی محدودیتها برای رسیدن به دقت بالا در آنها وجود دارد. به عنوان مثال آنها ممکن است ساختاری که در آن همه ویژگیها با همدیگر برچسب را تعیین میکنند را از دست بدهند ADDIN EN.CITE <EndNote><Cite><RecNum>225</RecNum><record><rec-number>225</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">225</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title>K. Wang, S. Zhou, and Y. He, “Growing decision trees on support-less association rules,” In Proceedings of the Sixth ACM SIGKDD international Conference on Knowledge Discovery and Data Mining (Boston, Massachusetts, United States, August 20 - 23, 2000). KDD '00. ACM, New York, NY, 265-269.</title></titles><dates></dates><urls></urls></record></Cite></EndNote>[42].
در استراتژی دوم میتوانیم از روشهای بر مبنای قانون استفاده نماییم که یک قانون را در هر مرحله استخراج میکنند. در این استراتژی بعد از استخراج یک قانون، تمام نمونههای موجود در مجموعه آموزش که توسط آن پوشش داده میشوند حذف شده و به دنبال استخراج قوانین بعدی برای نمونههای باقیمانده خواهیم بود. الگوریتمهای ردهبندی بر مبنای قانون زیادی در متون گذشته ارایه شدهاند که در هر مرحله فقط یک مشخصه را در نظر میگیرند، مثل CN2ADDIN EN.CITE <EndNote><Cite><Author>Clark</Author><Year>1989</Year><RecNum>71</RecNum><record><rec-number>71</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">71</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Clark, P</author><author>Niblett, T</author></authors></contributors><titles><title>The CN2 induction algorithm</title><secondary-title>Machine learning</secondary-title></titles><periodical><full-title>Machine learning</full-title></periodical><pages>261-283</pages><volume>3</volume><number>4</number><dates><year>1989</year></dates><urls></urls></record></Cite></EndNote>[43]، PARTADDIN EN.CITE <EndNote><Cite><RecNum>186</RecNum><record><rec-number>186</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">186</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title><style face="normal" font="Times New Roman" size="10">Frank, E. and Witten, I. H. Generating Accurate Rule Sets Without Global Optimization. In Proceedings of the Fifteenth international Conference on Machine Learning (July 24 - 27, 1998). J. W. Shavlik, Ed. Morgan Kaufmann Publishers, San Francisco, CA, 144-151.</style></title></titles><dates></dates><urls></urls></record></Cite></EndNote>[39] و RIPPERADDIN EN.CITE <EndNote><Cite><RecNum>195</RecNum><record><rec-number>195</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">195</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title><style face="normal" font="Times New Roman" size="10">W. W. Cohen. Fast effective rule induction. In Machine Learning: the 12th International Conference, Lake Taho, CA, 1995. (pp. 115-123) Morgan Kaufmann.</style></title></titles><dates></dates><urls></urls></record></Cite></EndNote>[44]. روشهای ردهبندی وابستگی-پی یکی از انواع خاص ردهبندی بر مبنای قانون هستند که یک دید جامع روی مشخصهها دارند. غنای قوانین در این راهبرد میتواند منجر به یافتن ساختار مناسب برای ردهبندی شود ADDIN EN.CITE <EndNote><Cite><RecNum>225</RecNum><record><rec-number>225</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">225</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors></contributors><titles><title>K. Wang, S. Zhou, and Y. He, “Growing decision trees on support-less association rules,” In Proceedings of the Sixth ACM SIGKDD international Conference on Knowledge Discovery and Data Mining (Boston, Massachusetts, United States, August 20 - 23, 2000). KDD '00. ACM, New York, NY, 265-269.</title></titles><dates></dates><urls></urls></record></Cite></EndNote>[42].
درخت تصمیمگیری:
ایجاد درخت تصمیمگیری شامل دو مرحله میباشد. در مرحله اول درخت ساخته شده و در مرحله بعداین درخت هرس میگردد. درمرحلههرس، آندسته از شاخههاییکه بیشترین نرخ خطا را داشتهاند، حذف میشوندADDIN EN.CITE <EndNote><Cite><Author>Hadden</Author><Year>2007</Year><RecNum>30</RecNum><record><rec-number>30</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">30</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Hadden, J</author><author>Tiwari, A</author><author>Roy, R</author><author>Ruta, D</author></authors></contributors><titles><title>Computer assisted customer churn management: State-of-the-art and future trends</title><secondary-title>Computers and Operations Research</secondary-title></titles><periodical><full-title>Computers and Operations Research</full-title></periodical><pages>2902-2917</pages><volume>34</volume><number>10</number><dates><year>2007</year></dates><urls></urls></record></Cite></EndNote>[45]. یکی از انواع مهم درختان تصمیم، درخت تصمیمگیری C5.0 است که تحقیقات بسیاری در ردهبندی موسیقی از آن استفاده کردهاند ADDIN EN.CITE <EndNote><Cite><Author>Ghorbani</Author><Year>2009</Year><RecNum>93</RecNum><record><rec-number>93</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">93</key></foreign-keys><ref-type name="Conference Proceedings">10</ref-type><contributors><authors><author>Ghorbani, A</author><author>Taghiyareh, F</author></authors></contributors><titles><title>CMF: A framework to improve the management of customer churn</title><secondary-title>IEEE Asia-Pacific Services Computing Conference</secondary-title></titles><pages>457-462</pages><dates><year>2009</year></dates><urls></urls></record></Cite><Cite><Author>Chu</Author><Year>2007</Year><RecNum>53</RecNum><record><rec-number>53</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">53</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Chu, BH</author><author>Tsai, MS</author><author>Ho, CS</author></authors></contributors><titles><title>Toward ahybrid data mining model for customer retention</title><secondary-title>Knowledge-Based Sys--s</secondary-title></titles><periodical><full-title>Knowledge-Based Sys--s</full-title></periodical><pages>703-718</pages><volume>20</volume><number>8</number><dates><year>2007</year></dates><urls></urls></record></Cite><Cite><Author>Ghorbani</Author><Year>2009</Year><RecNum>144</RecNum><record><rec-number>144</rec-number><foreign-keys><key app="EN" db-id="e2wf995wz9fta6etswrx5st8d9rr0trxdxa9">144</key></foreign-keys><ref-type name="Conference Proceedings">10</ref-type><contributors><authors><author>Ghorbani, A</author><author>Taghiyareh, F</author><author>Lucas, C</author></authors></contributors><titles><title>The Application of the Locally Linear Model Tree on Customer Churn Prediction</title><secondary-title>International Conference of Soft Computing and Pattern Recognition</secondary-title></titles><pages>472-477</pages><dates><year>2009</year></dates><publisher>IEEE</publisher><urls></urls></record></Cite></EndNote>[34, 46, 47]. در ادامه به شرح این نوع درخت میپردازیم:
الگوریتم C5.0 توسعه یافته الگوریتم ID3ADDIN EN.CITE <EndNote><Cite><Author>Quinlan</Author><Year>1993</Year><RecNum>25</RecNum><record><rec-number>25</rec-number><foreign-keys><key app="EN" db-id="ep95aeps0eaex9etf93pt5xbx52dvxxtz5x0">25</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Quinlan, JR</author></authors></contributors><titles><title>C4. 5: programs for machine learning</title></titles><dates><year>1993</year></dates><publisher>Morgan Kaufmann</publisher><urls></urls></record></Cite></EndNote>[37] است که درخت تصمیمگیری را بر اساس تئوری اطلاعات میسازد. در هر گره از درخت، مشخصهای که بالاترین مقدار بهره اطلاعاتی را داشتهباشد به عنوان تصمیمگیرنده انتخاب میشود. هنگامیکه تمام نمونههای موجود در یک گره از یک کلاس باشند آن گره تشکیل یک برگ را میدهد و الگوریتم در برگها متوقف میشود.
2-5-2 ردهبندی در کارهای انجام شده
همانطور که قبلا اشاره شد، ردهبندی یکی از تکنیکهای جذاب در بازیابی اطلاعات موسیقی میباشد. در این بخش مروری کوتاه بر چند تحقیق گذشته خواهیم داشت. این مرور در ساختار جدول سازماندهی شده است. برای هر تحقیق اطلاعاتی نظیر نوع ردهبندی- حالت، سبک، خواننده و...- نوع الگوریتم ردهبندی- درخت تصمیم، شبکههای عصبی، قواعدتصمیمگیری و....- ویژگیهای مورد استفاده در تحقیق، مجموعه دادههای مورد استفاده و سال انتشار تحقیق آورده شده است.
جدول2-3 مرور متون گذشته در ارتباط با ردهبندی موسیقی
سال انتشار مجموعه دادهها ویژگیها الگوریتم ردهبندی نوع ردهبندی مقاله
2009 مجموعه از ترکیب احساسات و ژانر با استفاده از متا دادهها بر گرفته از وب سایت All Music Guide فراداده ماشین بردار پشتیبان ردهبندی حالت
متن کاوی ]46[
2009 150 قطعه موسیقی از پنج ژانر مختلف را آنالیز کرده است.
این ژانرهاعبارتند از:
کلاسیک
راک
جاز
هیپ هاپ
جهانی ویژگیهای مربوط به گفتار:
Relative amplitude of the first peak, Relative amplitude of the second peak,
The ratio between the amplitudes of the second and the first peak,
The period of the first two peaks in bpm,
The total sum over the whole histogram
رنگ
ریتم Kمین نزدیکترین همسایه ردهبندی سبک ]47[
2008 50 قطعه موسیقی پاپ غربی که از سایت AllMusic به دست آمده و سپس گروه بندی و حالت دهی شده است. شدت
ریتم
گام
هارمونی Kمین نزدیکترین همسایه فازی
نزدیکترینمیانگین فازی ردهبندی حالت ]48[
2008 1.0 قطعه موسیقی از هفت ژانر مختلف را آنالیز کرده است.
این ژانرهاعبارتند از:
کلاسیک
راک
جاز
هیپ هاپ
راجایی
پاپ
تکنو ریتم
رنگ:
MFCC
تبدیل فوریه کوتاه مدت: Spectral Centroid
Spectral rolloff, Spectral flux binary relevance
label powerset
random k-labelsets
multilabel k-nearest neighbor ردهبندی حالت ]49[
2008 100 آهنگ را در چهار گروه از حالت دسته بندی کرده است.این گروهها عبارتند از:
غیر شاد
غیر غمگین
غیر انرژی بخش
غیر آرامش بخش رنگ:
MFCC
spectral centroid
ریتم:
Tempo
onset rate
تن:
Harmonic Pitch
متن آهنگ KNN
SVM
Logistic RandForest ردهبندی حالت ]50[
2008 1700 نظر در باره 500 موسیقی غربی جمعآوری شده است صوتی
متنی Gaussian mixture model بازیابی اطلاعات موسیقی ]51[
2008 379 متن آهنگ متنی Naıve Bayes
k-NN
SVM
درخت تصمیم ردهبندی سبک ]52[
2007 9758 آهنگ از 41 ژانر مختلف صوتی
متنی نامشخص ردهبندی سبک ]53[
2007 مجموعه دادههای موسیقی آمریکای لاتین رنگ
ضرب
نواک J48
3NN
MLP
Naıve Bayes SVM ردهبندی سبک ]54[
2005 مجموعه ای ویژگیها در دوازده ژانر رنگ
ضرب
نواک روش جدید سلسله مراتبی معرفی شده است. ردهبندی سبک ]55[
2005 100 آهنگ ویژگیهای کوتاه مدت
MFCC
ویژگیهای میان مدت
Mean
variance,Filterbank Coefficient Autoregressive,
High Zero-Crossing Rate Ratio,
Low Short-Time energy ratio
ویژگیهای بلند مدت
Beat spectrum
Beat histogram of MFCC Gaussian Classifier
شبکه عصبی خطی ردهبندی سبک ]56[
2004 45 تا 50 آهنگ برای هر یک از سه دسته زیر:
Tangle
Waltz
Bossa Nova ریتم روش جدید معرفی شده ردهبندی سبک ]57[
2003 root-mean-square (RMS) level,
spectralcancroids bandwidth
zero-crossingrate, spectral roll-off frequency,
band energy ratio, delta spectrum
magnitude,
pitch
strength
MFCC نامشخص ردهبندی حالت ]58[
2002 100 فایل از 10 ژانر زیر:
کلاسیک-کشورها-دیسکو
جاز- هیپ هاپ-راک- بلوز-راجایی- پاپ- متال
standard statistical
pattern recognition
KNN
Gaussian Classifier
ردهبندی سبک ]59[
2-6سیستمهای پیشنهاد دهندهمزیت اصلی راهبرد پیشنهاددهی به مشتریان در ترغیب مشتری برای حفظ وی است. نکته مهم در این زمینه این است که این مزیت زمانی برقرار میشود که مدل پیشبینی از دقت بالایی برخوردار باشد. در غیر اینصورت سیستم پیشنهاددهی حاصلی جز ضرر ندارد. زیرا سازمان هزینهای که برای پیشنهاددهی به مشتریان میکند را تلف کرده و به اشتباه صرف کرده است. از این رو بسیار حائز اهمیت است که مدل پیشبینی تا جایی که ممکن است دقیق عمل نماید.
2-6-1انواع سیستمهای پیشنهاددهندهCollaborative Filtering:
این روش شباهت امتیازدهیهای قبلی کاربر جاری و کاربران دیگر را مبنای تشخیص برچسب کلاس برای رکورد قرار میدهد. در این استراتژی فاصله Di,j بین دو مشتریui , uj که مشترکاً به کالاهای g1, g2, …., gmنظردهی کرده باشند بر اساس فرمول زیر بدست میآید:
Di,j = pi1-pj12+pi2-pj22+ ….. + pim-pjm2mکه در آن pikامتیازی است که مشتری i به کالای kام داده است. و m برابر تعداد کالاهای مشترک بین دو مشتری است.
ContentBased Filtering:
در استراتژی CBF از شباهت کالای فعلی و کالاهای قبلی فرد جاری برای حل مساله استفاده میکند. به این معنا که کالایی به کاربر پیشنهاد میشود که به کالاهایی که در انتخابهای قبلی کاربر وجود دارد از نظر محتوایی شباهت داشته باشند.
Collaborative & Demographic Based Filtering:
این استراتژی مشابه استراتژی اول است با این تفاوت که در این روش نه تنها اظهار نظرهای قبلی افراد دیگر با فرد جاری مقایسه میشود بلکه اطلاعات مربوط دموگرافیک فرد نیز ملاک ارزیابی تشابه قرار میگیرد در واقع اگر کاربر ui , uj مشترکاً به کالاهای g1, g2, …., gmنظردهی کرده باشند و خصوصیات دموگرافیک مشتری ui به صورت a1,a2, ….,an بوده و خصوصیات دموگرافیک مشتری uj به صورت b1,b2, ….,bnباشد آنگاه فاصله بین این دو کاربر یعنی Di,j بر اساس فرمول زیر بدست میآید:
Di,j = pi1-pj12+pi2-pj22+ ….. + pim-pjm2m+ (a1-b1)2+ (a2-b2)2 +…(an-bn)2قسمت اول این فرمول مربوط به فاصله بین دو مشتری بر اساس امتیازدهی به کالاهای مشترک و قسمت دوم مربوط به فاصله بر اساس خصوصیات دموگرافیک افراد میباشد. در ضمن pikامتیازی است که مشتری i به کالای kام داده است.
Demographic Based Filtering:
در این استراتژی از روش demographic based filtering استفاده شده است و بر اساس خصوصیات دموگرافیک افراد تشابه آنها را مقایسه میکنیم.
Collaborative & Content Based Filtering:
در این روش استراتژی اول و دوم را با هم ترکیب میکنیم و به نوعی از روش Hybrid Approach استفاده شده است. اگر خروجی CF برابر outp_cf و خروجی CBF برابر outp_cbf باشد آنگاه خروجی این استراتژی یعنی outp_st5 برابر مقدار زیر است:
outp_st5 = (outp_cbf + outp_cf ) / 2
لازم به ذکر است که در تمامی 5 استراتژی بالا معیار معروف مورد استفاده فاصله اقلیدسی برای تعیین مشتریان مشابه یا کالاهایمشابه میباشد
2-6-2سیستمهای پیشنهاد دهنده موسیقیدر این بخش تعدادی از سیستمهای پیشنهاد دهنده که تا به حال توسعه یافتهاند معرفی میشود. از ساختار جدول برای سازمان دهی استفاده شده است. و اطلاعاتی نظیر نوع استراتژی مورد استفاده در سیستم، توضیحات تکمیلی و سال انتشار ارائه شده است. چند نمونه کار از سال 2005 تا 2010 آورده شده تا بتوان تا حدی سیر تکاملی سیتم های پیشنهاد دهده را در طی این سال خا به نمایش گذاشت.
جدول2-4-مروری بر کارهای انجام شده در سیستمهای پیشنهاد دهنده موسیقی
مقاله استراتژی به کار رفته توضیحات سال انتشار
]60[ Collaborative filtering سیستم پیشنهاد دهنده برای ابزار موبایل 2010
]61[ محتوا محور برای هر کاربر با استفاده از ویژگیهای صوتی لیست پخش تولید میکند 2009
]62[ Collaborative filtering از مفهوم شباهت کاربران محلی و شباهت کاربران جهانی استفاده کرده است 2008
]63[ context-awareness اهمیت محیط را برای پیشنهاددهی نشان میدهد 2006
]64[ Collaborative filtering برای هر آیتم که امتیاز دهی نشده است با استفاده از یکی از سه روش زیر امتیاز پیشبینی میکند:
امتیاز دهی به آن ایتم توسط کاربر دیگر
آیتمهای مختلفی که توسط یک کاربر امتیاز دهی شده
امتیاز دهی کاربر مشابه به آیتم مشابه 2006
]65[ محتوا محور
Collaborative filtering هم کاربر و هم موسیقی گروه بندی میشود.
پیشنهاددهی از گروه مورد نظر انجام میشود. 2005
2-7نتیجه
در این فصل اطلاعاتی جامع در مورد بازیابی اطلاعات و پیشنهاددهی موسیقی ارائه شده است. و مروری بر متون گذشته انجام شده است. در ادامه و در فصل آینده به معرفی روش پیشنهادی خود در زمینه ردهبندی و پیشنهاددهی موسیقی میپردازیم.
فصل سوم
روش پیشنهادی3-1 مقدمههمانطور که قبلاً اشاره شده بود، مهمترین هدف این تحقیق بهبود دقت در سیستمهای پیشنهاد دهی موسیقی است. برای این منظور به طور کلی چهار کار اصلی در این تحقیق صورت گرفته است:
تولید یک مجموعه داده جامع مناسب برای ردهبندی و پیشنهاددهی موسیقی
معرفی یک ویژگی محتوا محور جدید که تا به امروز مورد استفاده قرار نگرفته
ارائه یک معیار جدید به منظور تعیین میزان شباهت پروفایل کاربران
توسعه یک برنامه کاربردی برای پیشنهاد دهی موسیقی به مشتری.
به دلیل نبود مجموعه داده مناسب از موسیقی ایرانی، در ابتدا مجموعه داده مناسب تولید شده است که در ادامه به طور کامل به مراحل ساخت ویژگیهای این مجموعه داده میپردازیمدر ادامه ویژگی محتوا محوری که تا به امروز در بحث ردهبندی موسیقی مورد استفاده قرار نگرفته است اما نتایج بسیار خوبی ارائه میدهد، معرفی میشود. سپس معیار جدید ارائه شده برای تعیین شباهت پروفایل مشتریان توضیح داده خواهد شد.در پایان به معرفی امکانات برنامه کاربردی توسعه داده شده برای پیشنهاد دهی موسیقی به مشتریان خواهیم پرداخت.
3-2 تولید مجموعه داده از موسیقی ایرانی
یکی از مهمترین دستاوردهای این تحقیق تولید مجموعه داده ای جامع است. به دلیل این که تا به امروز هیچ تجربه ردهبندی و پیشنهاد دهی بر روی موسیقی ایرانی وجود نداشت، در نتیجه مجموعه داده ای که بتوان آن را در تحقیق مورد استفاده قرار داد نیز وجود نداشت. بنابراین پیش از هر کاری تولید یک مجموعه داده مناسب ضروری مینمود. مجموعه داده تولید شده بسیار جامع بوده و میتوان در زمینههای ردهبندی سبک خواننده و حالت موسیقی و همچنین در سیستمهای پیشنهاد دهنده و تشخیص شباهت موسیقی و حتی گروهبندی مورد استفاده قرار گیرد.
3-2-1 جمع آوری دادهها و فرا دادهها و پیش پردازش
به منظور ایجاد مجموعه داده قبل از هر کاری باید فایلهای صوتی موسیقی به تعداد کافی در سبکهای مختلف موسیقی که توسط خوانندگان مختلف خوانده شدهاندجمعآوری شود تعداد 745 فایل موسیقی در فرمت پرکاربردMP3 در نه سبک مختلف جمع آوری شد. به منظور مناسب شدن مجموعه داده برای ردهبندی خواننده و همچنین به کارگیری در سیستمهای پیشنهاددهنده، برای بالا بردن جمعیت خوانندگان از سبک پرطرفدار و مشهور پاپ استفاده شده است.از هر خواننده حداقل 10 آهنگ در مجموعه داده موجود است. تعداد 23 خواننده از هر دو جنس زن و مرد با جمعیت بیش از 10 آهنگ به منظور به کارگیری مجموعه داده در ردهبندی خواننده، وجود دارد. همچنین به منظور اضافه کردن تگ حالت به هر آهنگ از هفت فرد مختلف خواسته شد بدون در نظر گرفتن خاطرات خود نسبت به هر موسیقی خاص تگ حالتی را برای هر فایل موسیقی ارائه دهند. در نهایت با رایگیری از تگهای ارائه شده یک تگ به عنوان تگ حالت آن فایل موسیقی پذیرفته شد.
از آن جایی که ابزار مور استفاده برای استخراج ویژگی تنها فایلهایی با فرمت WAV را به عنوان ورودی میپذیردتمامی این فایلها به فرمت WAV وبا ویژگیهای یکسان نرخ نمونه 8.0KHZ، عمق بیت 8 Bits، تک کانال و با استفاده از رمزنگاری PCM تبدیل شده است. وسپس 40ثانیه میانی ( از ثانیه 40 تا 80) هر فایل به دلیل وابستگی ویژگیها به طول سیگنال صوتی جدا شده است و علاوه بر آنآهنگها در این مدت اطلاعات کافی در اختیار میگذارند. چنانچه قبلا اشاره شد، ویژگیهایlong term نیز حداقل به 10 ثانیه از صوت نیازمند هستند.
3-2-2 استخراج ویژگیها
همان طور که در فصل قبل بیان شده است دو مجموعه داده معروف از موسیقی غربی که مورد استفاده قرار میگیرد، تنها به ارائه چند ضریب MFCC به عنوان ویژگی محتوایی آهنگها پرداختند. که به هیچ وجه نمیتواند نماینده مناسبی از آهنگ باشد، چرا که ضرایب MFCC در اصل برای تشخیص صدا ارائه شده نه موسیقی.
طبق دسته بندی انجام شده در جدول 2-1ما به استخراج ویژگیهایی که بتوانند نماینده، ریتم، تمپو، تون، نواک، رنگ و ویژگیهای آماری سیگنال صوتی باشد میپردازیم. ویژگیهای استخراج شده مجموعه داده مطابق با ویژگیهای ارائه شده در جدول 2-1 است.
به منظور استخراج ویژگیها از ابزار JAudio استفاده شده است. این ابزار توسط گروه موسیقی دانشگاه Mcgill ارائه شده است.این ابزار امکان استخراج بیش از 700 ویژگی مربوط به سیگنال صوتی را در اختیار میگذارد. بعضی از این ویژگیها دارای چندین بعدیمیباشند که این ابزار تمامی ویژگیهای چند بعدی را مسطح مینماید به این صورت که هر یک ازبعدها را به عنوان یک ویژگی در نظر میگیرد.
در میان ویژگیهای مد نظر برای تولید مجموعه داده، ویژگیهایMFCC، LPC و Area method of moment MFCC چند بعدی هستند.
3-2-3 ویژگیهای مجموعه داده
در این بخش ویژگیهای آماری مجموعه داده از نظر پراکندگی ویژگیها، سبکها، خوانندهها و مجموعه داده آورده شده است.
جدول3-1 اطلاعات کلی از مجموعه داده
دسته ویژگی تعداد ویژگی حالت تعداد خواننده تعداد ریتم
تمپو
نواک
رنگ
آماری 504 شاد –
پر انرژی 10 71 رقص
شاد- غمگین – پر انرژی- آرامشبخش 23 327 پاپ
پر انرژی 4 89 رپ
پر انرژی- آرامشبخش 3 81 راک
آرامش بخش 11 14 لالایی
شاد- غمگین – پر انرژی- آرامشبخش 2 107 سنتی
پر انرژی 1 11 تکنو
پر انرژی 2 55 متال
آرامشبخش 2 30 فولک
پراکندگی ویژگیها:
تعداد 504 ویژگی مجزا از صفتهای مختلف موسیقی (ریتم، تمپو، تون، نواک، رنگ و ویژگیهای آماری سیگنال صوتی) استخراج شده است که در این میان 36 ویژگی مربوط به ویژگیهای ریتمیک، 36 ویژگی از تون، 276 ویژگی از رنگ، 132 ویژگی آماری، 12 ویژگی از تمپو و 12 ویژگی از نواک میباشد(جدول 3-2). شکل3-1پراکندگی تعداد ویژگیها را در نمودار ستونی به نمایش گذاشته است.
جدول 3-2- پراکندگی تعداد ویژگیها در دستههای مختلف
آماری رنگ نواک تمپو ریتم دسته
270 174 12 12 36 تعداد
شکل3-1- پراکندگی تعداد ویژگیها در دستههای مختلفپراکندگی سبکها
در این مجموعه داده،فایلهای موسیقی از 9 سبک مختلف میباشد. که سبکهای کلی و معروف در دنیای موسیقی میباشد هر یک از این سبکهامیتوانند چند زیر سبک داشته باشند. اما در مجموعه دادهها زیر سبکها در نظر گرفته نشده است. این 9 سبک عبارتند از رقص (71 آهنگ)، پاپ(327 آهنگ)، متال (55 آهنگ)، لالایی (14 آهنگ)، رپ(89 آهنگ)، فولک (30 آهنگ)، سنتی(107 آهنگ) و راک (81 آهنگ). شکل3-2 پراکندگی تعداد آهنگها را به نمایش گذاشته است.
سبک موسیقی سنتی ایرانی از دستگاههای مختلفی تشکیل شده است. به دلیل توجه ویژه این تحقیق به موسیقی ناب ایرانی دستگاههای مختلف موسیقی آهنگهای مربوط به سبک سنتی مشخص شده است. این دستگاهها عبارتند از:ماهور(18آهنگ)، نوا (9 آهنگ)، چهارگاه (6 آهنگ)، سه گاه (7آهنگ)، اصفهان (31 آهنگ) و شور(35 آهنگ). شکل 3-3پراکندگی تعداد دستگاهها را به نمایش گذاشته است.
شکل 3-2- پراکندگی تعداد آهنگها برای سبکهای مختلف
شکل3-3- پراکندگی تعداد آهنگها برای دستگاههای مختلفپراکندگی خوانندهها:
به منظور ایجاد مجموعه دادهای که برای ردهبندی خواننده مناسب باشد 15 خواننده که بیش از 10 آهنگ در مجموعه داده دارند، به مجموعه داده اضافه شده است تمامی این خوانندهها از ژانر پاپ و از هر دو جنسیت زن(11 نفر) و مرد(17 نفر)میباشند. در نهایت 28 خواننده که میتوانند در ردهبندی موثر باشند وجود دارد که تعداد320 آهنگ را پوشش میدهند.
پراکندگیحالتها:
تعداد کل حالتهای به کار رفته عبارتند از: رقص(62 آهنگ)، انرژی دهنده (278آهنگ)، شاد (109 آهنگ)، غمگین ( 134آهنگ) و آرامش بخش ( 162آهنگ)است.
در بخش 4-2 با ارائه یک آزمایش کوچک برتری مجموعه داده تولید شده را نسبت به مجموعه دادههای معروف غربی به اثبات میرسانیم.
3-3 ویژگی Area Method of Moments of MFCC
3-3-1 عملگر Area Method of Moments
تکنیک Moments یک تکنیک ساده ریاضی است. این تکنیک برای تجزیهشکلهای نامنظم به مجموعه ویژگیهای توصیفی محدود است. در کل،Momentsکمیتهای عددی در چند فاصله از یک نقطه مرجع یا محور را توصیف میکند.
Moments به صورت کلی در آمار برای مشخص کردن توزیع متغیرهای تصادفی به کار میرود.
تئوری Moments
مجموعه متناهی از moment{ mpq , p,q=0,1,…}ها که به صورت منحصر به فرد F(x,y) را مشخص میکند و بر عکس.
به این معنا که هر مجموعه عدد را میتوان به صورت کامل با یک سری مجموعه متنهای عدد تعریف شود.
Moments دو بعدی برای ماتریس عددی گسسته (m×n) به صورت زیر تعریف میشود:
Mpq= x=0m-1y=0m-1xpyqg(x,y)
یک مجموعه moment از درجه n شامل تمام moment،Mpq، که در آنn p+q≤ و شامل (n+1)(n+2)12 عضو است.
Zeroth order moments: Area
تعریف zeroth order moments،m00،از ماتریس g(x,y) عبارتند از:
M00=x=0m-1y=0m-1g(x,y)روش محاسبه Moments:
جزئیات محاسبه Area method of moments
اگر ماتریسعددی X از مرتبهm n× را داشته باشیم.آنگاه AreaMomentsX0 به صورت زیر محاسبه میشود
F(x) =i=0nj=0mXijC1=i=0nj=0mfx*iC2=i=0nj=0mfx*jC3=i=0nj=0mfx*i2C4=i=0nj=0mfx*j2C5=i=0nj=0mfx*j*iC6=i=0nj=0mfx*j3C7=i=0nj=0mfx*i3C8=i=0nj=0mfx*j*i2C9=i=0nj=0mfx*i*j2AreaMomentsX0=f(X)
AreaMomentsX1=C1
AreaMomentsX2=C2
AreaMomentsX3=C3- C12AreaMomentsX4=C5- (C1* C2)
AreaMomentsX5=C2-C22AreaMomentsX6=2*C13-3* C1* C7+ C7
AreaMomentsX7=2*C1* C5
AreaMomentsX8=2*C2* C5
AreaMomentsX9=2*C23-3* C2* C6+ C6
3-3-2 روش محاسبه ویژگی Area method of moments of MFCC
برای محاسبه ضرایب ویژگی Area method of moments of MFCC سه مرحله زیر انجام میشود:
ابتدا سیگنال صوتی به n پنجره تقسیم میشود. تعداد این پنجرهها در ضرایب استخراج شده نهایی موثر است. این تعداد میتواندمتغیر باشد.
در مرحله بعد از هر پنجره ضرایب MFCC استخراج میشود.ضرایب MFCC دارای m بعد میباشد. در نهایت ماتریسی از درجه n×m خواهیم داشت.
در آخر با استفاده از عملگر Area method of moments به تجمیع MFCCهای استخراج شده میپردازد.