4-3-1رده‌بندی سبک………………………………………………………………………………………………61
4-3-2رده‌بندی دستگاه‌های موسیقی سنتی…………………………………………………………..66
4-3-3پیشنهاددهی با استفاده از ویژگی Area Method Of Moment of MFCC68
4-4ارزیابی معیارشباهتپروفایل…………………………………………………………………………………………..69
4-5نتیجه………………………………………………………………………………………………………………………………..69
فصلپنجم:نتیجه گیری و کارهای آینده
5-1مقدمه………………………………………………………………………………………………………………………………….71
5-2دستاوردهایتحقیق…………………………………………………………………………………………………………..72
5-3محدودیتهایتحقیق………………………………………………………………………………………………………73
5-4کارهایآینده…………………………………………………………………………………………………………………….73
فهرست شکل ها
عنوان صفحه
شکل2-1-فلوچارتمحاسبههیستوگرامضرب……………………………………………………………………….17
شکل 2-2- نمونههیستوگرامضرب…………………………………………………………………………………………17
شکل2-2-معیارspectral fluxبرایspeechتقریبابالاترازاینمقداربرایmusicاست.25
شکل2-4-درصدفریم‌هایباانرژیپایین………………………………………………………………………………26
شکل2-5-یکنمونهدرختتصمیمگیری…………………………………………………………………………….29
شکل3-1- پراکندگیتعدادویژگی‌هادردسته‌های مختلف…………………………………………………..44
شکل3-2- پراکندگیتعدادآهنگ‌هابرایسبک‌هایمختلف………………………………………………..45
شکل3-3- پراکندگیتعدادآهنگ‌هابرایدستگاه‌های مختلف……………………………………………..46
شکل3-4-روشمحاسبهArea Method of Moments of MFCC……………………………………49
شکل3-5- شمایکلیازبرنامهکاربردی………………………………………………………………………………..54
شکل3-6- لیستموسیقی‌هایدراختیارکاربر………………………………………………………………………54
شکل3-7- مراحلانتخابموسیقیبراساسشباهتفایل‌هایموسیقی………………………………55
شکل3-8- پیشنهاددهیبراساسشباهتموسیقی‌ها…………………………………………………………..56
شکل3-9- پیشنهادبراساسشباهتپروفایل‌هایمشتریان………………………………………………….57
شکل4-1- درصدصحتبرایهرژانردردوآزمایش……………………………………………………………..60
شکل4-2- معیارRecall- precision وF-measureبرایسبک‌هایمختلف………………64
شکل4-3- معیارRecall- precision وF-measureبرایسبک‌هایمختلف………………66
شکل4-4- معیارRecall- precision وF-measureبرایدستگاه‌های مختلف……………68
فهرست جداول
عنوان صفحه
جدول2-1طبقه بندی ویژگی‌ها……………………………………………………………………………..14
جدول2-2 تقسیم بندی بر اساس طول فریم استخراج…………………………………………..27
جدول2-3مرور متون گذشته در ارتباط با رده‌بندی موسیقی……………………………….31
جدول2-4مرور متون گذشته سیستم پیشنهاددهنده……………………………………………37
جدول3-1اطلاعات کلی از مجموعه داده……………………………………………………………….43
جدول3-2پراکندگی تعداد ویژگی‌ها در دسته‌های مختلف…………………………………..44
جدول4-1 درصد صحت برای هر ژانر در دو آزمایش……………………………………………..60
جدول4-2مجموعه آزمایش های انجام شده و ویژگی های آن……………………………..37
جدول4-3مجموعه‌ها ویژگی‌های به کار رفتهدر آموزش درخت تصمیمی…………..63
جدول4-4معیار Recall- precision وF-measure برای سبک مختلف……63
جدول4-5مجموعه‌ها ویژگی‌های به کار رفته در آموزش درخت تصمیمی…………..65
جدول4-6 معیار Recall- precision وF-measure برای موسیقی غربی……65
جدول4-7 مجموعه‌ها ویژگی‌های به کار رفته در آموزش درخت تصمیمی………….67
جدول4-8معیار Recall- precision وF-measure برای دستگاه‌های مختلف67
جدول4-9 بازخورد به دست آمده از افراد…………………………………………………………………69
جدول4-10 کارایی معیار پیشنهاد شده…………………………………………………………………..69
فصل اول
مقدمه
مقدمه:
موسیقی فراتر از تعریف در الفاظ است و شگفتی آن نیز در همین است. موسیقی جبران ناکامی‌های زبان است و شیوه‌ای برای بیان احساسات ناملموس. احساساتی که نمی‌دانیم چه هستند.آن جا که زبان از گفتن باز می‌ماند، موسیقی مأمنی می‌شود برای روح، و زبانی می‌شود برای بیان احساسات و ناگفته‌های ناشناخته. موسیقی، سرچشمه‌ای از درون انسان دارد.
در طول تاریخ موسیقی همواره به عنوان قسمتی از زندگی انسان نقش خود را ایفا کرده است. امروزه نیز با در دسترسبودن ابزار قابل حمل پخش موسیقی و سایر ابزار ذخیره فایل‌های موسیقی این نقش پررنگ‌تر شده است. همچنین رشد بی سابقه موسیقی در سال‌های اخیر لزوم ایجاد روشی برای مدیریت این فایل‌هارا ضروری می‌نماید. در این تحقیق به ارائه روش‌هایی برای مدیریت اتوماتیک موسیقی با استفاده از تکنیک‌های داده کاوی می‌پردازیم.
تعریف مسئله
هر ساله به تعداد فایل‌های موسیقی که در فرمت دیجیتال تهیه می‌شود افزوده می‌شود که به موجب آن امروزه افراد با حجم عظیمی از فایل‌های موسیقی روبه رو هستند. هر شخص مجموعه کامل و بزرگی از موسیقی برای خود ایجاد می‌کند و حتی در ابزارهای قابل حمل پخش موسیقی به همراه خود دارد.بنابراین نیاز زیادی به تعامل – یافتن موسیقی مورد نظر، ایجاد مجموعه لیست‌ها با ویژگی‌هایی خاص، یافتن موسیقی‌هایی که شبیه به هم هستند- با مجموعه‌های ایجاد شده احساس می‌شود. کتابخانه‌های دیجیتال موسیقی باید توانایی ارتباط دو سویه و تعامل با کاربران خود را داشته باشند. بنا بر این تعامل کاربر با مجموعه‌های موسیقی و یا کتابخانه دیجیتال تبدیل به چالش در دنیای دیجیتال شده است. در مجموعه‌های بزرگ موسیقی مدیریت فهرست‌های متنی بسیار زمان‌بر است. این مهم خود محرکی برای سازماندهی مجموعه‌های بزرگ موسیقی می‌باشد.
از نقطه نظر دیگر هر کاربر طبع مخصوص به خود در انتخاب موسیقی دارد. دسته‌بندی‌های از پیش تعریف شده مانند ژانر و یا خواننده می‌تواند گره‌گشا باشد اما ترجیحات شخصی فرد را به حساب نمی‌آورد کما این که ممکن است این دسته‌بندی‌ها برای تمامی فایل‌ها به صورت پیش فرض وجود نداشته باشد و رده‌بندی فایل‌های موسیقی در ژانرهای مختلف خود چالشی دیگر است. شنونده موسیقی باید بتواند دسته‌بندی‌های شخصی خود را داشته باشد.به طور مثال در مقاله]1[به منظور برآورده نمودن این هدف سیستمی ارائه شده است که با گرفتن یک نمونه با استفاده از رده‌بندی هوشمند کل پایگاه داده را بر اساس ترجیح کاربر رده‌بندی می‌نماید.
به موازات رشد حجم فایل‌ها علاقه رو به رشدی در زمینه توسعه و ارزیابی سیستم‌های بازیابی اطلاعات موسیقی به وجود آمده است. رده‌بندی کامپیوتری فایل‌های موسیقی یکی از فعالیت‌های مهم در زمینه بازیابی اطلاعات موسیقی1 است. رده‌بندی یک فعالیت استاندارد یادگیری ماشین است که معمولا شامل پیش‌بینی یک خروجی بر اساس یک ورودی است. رده‌بندی امکان تعامل با مجموعه موسیقی در مسیرهای جدید را ایجاد می‌کند. پروژه‌های مختلفی در زمینه رده‌بندی شامل تشخیص ژانر، خواننده، حالت، ابزار موسیقی، تولید لیست پخش و… انجام شده است.
یکی از مهم‌ترین سرویس‌ها برای رهایی کاربران از این حجم عظیم اطلاعات سیستم‌های پیشنهاددهنده موسیقی است. این سیستم‌ها، امکان انتخاب موسیقی‌های مورد علاقه را برای کاربران ایجاد می‌کند. سرویس پیشنهاددهنده مواردی را که ممکن است مورد پسند کاربر قرار بگیرد را بر اساس پیش تعریف‌های کاربر و یا با دسترسی به پیشینه کاربر، پیشنهاد می‌دهد.
هدف از انجام این پروژه ارائهراهکاریباکاراییبالادر رده‌بندی فایل‌های موسیقی در زمینه‌های مختلف با استفاده از ویژگی‌های سطح بالا (ویژگی‌های موسیقیایی) و سطح پایین (ویژگی‌های آماری سیگنال‌های صوتی) و در نهایت استفاده از آن در ارائه یک سیستم پیشنهاددهنده کارا است،که برای پیشنهاددهی از ویژگی‌های محتوایی (همان نتایج به دست آمده از رده‌بندی موسیقی) و محیطی( شباهت ذائقه موسیقی افراد مختلف)مورد استفاده قرار می‌گیرد. هدف مورد انتظار بهبود روش‌های ارائه شده رده‌بندی فایل‌های موسیقی با توجه به زمینه مورد نظر در رده‌بندی و استفاده از آن در ارائه یک سیستم پیشنهاددهنده است. نتایج به دست آمده از این تحقیق می‌تواند به طور کلی توسط فروشندگان، کتابخانه‌ها، موسیقی‌دانان و شنوندگان مورد استفاده قرار گیرد. می‌توان از این سیستم در صدا و سیما به منظور انتخاب موسیقی برای مناسبت‌های مختلف و یا شرایط جوی مختلف استفاده نمود.می‌توان این سیستم در فروشگاه‌ها و آرشیوهای موسیقی به منظور سازمان‌دهی و پیشنهاد بهترین موسیقی به خریدار مورد استفاده قرار گیرد.از این سیستم می‌توان برای استفاده شخصی به منظور سازمان دهی و ایجاد آرشیوهای شخصی بهره برد.استفاده خاص در محیط‌های عمومی مانند کافی‌شاپ‌ها و رستوران‌ها در انتخاب موسیقی مناسب برای پخش در پس زمینه. استفاده از سیستم در انتخاب موسیقی‌های مورد نظر پزشکان در درمان بیماری‌ها با استفاده از موسیقی (موسیقی درمانی).استفاده خاص برای سازمان‌هایی همانند ایرانسل که به ارائه آهنگ برای جلب مشتری می‌پردازند.
اهداف و دستاوردها
اهداف اصلی این تحقیق از قرار زیر هستند:
ارائه روشی برای بهبود رده‌بندی سبک موسیقی
ارائه روشی برای بهبود سیستم پیشنهاد دهنده موجود موسیقی
پیاده سازی برنامه کاربردی سیستم پیشنهاد دهنده موسیقی
دستاوردهایی که در این زمینه بدست میآید شامل موارد زیر است:
تولید یک مجموعه داده موسیقی بر اساسویژگی‌های محتوایی سیگنال صوتی با فرا داده‌های سبک، خواننده و حالت موسیقی
معرفی یک ویژگی جدید در رده‌بندی موسیقی با کارایی بسیار بالا
ارائه یک مدل پیشنهاد دهنده بر اساس میزان شباهت موسیقی‌ها با استفاده از ویژگی معرفی شده
ارائه یک معیار جدید شباهت پروفایل‌های مشتری
ارائه یک روش جدید برای انتخاب موسیقی از پروفایل‌های مشابه
پیاده سازی برنامه کاربردی پیشنهاد موسیقی
ساختار پایان نامه
در ابتدای فصل دوم این نوشتار به معرفی مفاهیم اصلی مربوط به موسیقی پرداخته و در بخش دوم آن به معرفی ویژگی‌های محتوایی سیگنال صوتی می‌پردازیم در بخش سوم مجموعه داده‌های موجود و مورد استفاده در جامعه علمی مورد بررسی قرار می‌گیرد. در بخش چهارم این فصل به بحث رده‌بندی موسیقی پرداختهمی‌شود و در پایان این فصل سیستم پیشنهاددهنده موسیقی مورد کنکاش قرار می‌گیرد. در ابتدای فصل سوم به توضیح چگونگی تولید مجموعه داده‌های موسیقی ایرانی پرداخته و مراحل مختلف آن را بررسی میکنیم و بعد از به معرفی ویژگی Area method of moments of MFCC که کارایی بالایی در رده‌بندی موسیقی دارد ولی تا به حال مورد استفاده قرار نگرفته است، خواهیم پرداخت. در ادامه فصل سوم معیار شباهت پروفایل جدید خود را معرفی خواهیم کرد. و در پایان این فصل برنامه کاربردی توسعه یافته به منظور پیشنهاد دهی موسیقی معرفی خواهد شد. در فصل چهارم به تحلیل نتایج به دست آمده پرداخته و در نهایت در فصل پنجم به جمعبندی، نتیجهگیری و ارایه چشماندازی برای کارهای آینده میپردازیم.
فصل دوم
مروری بر متون گذشته
2-1 مقدمه:
در این فصل به معرفی موسیقی و ویژگی‌های آن می‌پردازیم. در ادامه موسیقی را به دید سیگنال صوتی دیده و ویژگی‌های قابل استخراج از این سیگنال صوتی که مفید و قابل استفاده است معرفی می‌شود. سپس توضیحی در باره سیستم‌هایرده‌بندی از جمله درخت تصمیم داده می‌شود و در انتها به معرفی انواع سیستم‌های پیشنهاد دهنده و به طور خاص سیستم‌های پیشنهاد دهنده موسیقی می‌پردازیم. به زبانی دیگر مروری کلی بر آنچه تا به حال در زمینه بازیابی اطلاعات و پیشنهاد دهی موسیقی انجام شده است،ارائه خواهد شد.
2-2موسیقی و ویژگی‌های آن:
2-2-1 موسیقی چیست:
موسیقى تراوش احساسات و اندیشه‌هاى آدمى و مبین حالات درونى وى مى‌باشد. شنیدن یک آهنگ آرام‌بخش و جذاب مى‌تواند پایان‌پذیر خستگى‌ روزانه آدمی باشد. موسیقى به معنى پیوند آهنگ‌هاست. تعریف ساده‌ی موسیقى یا صداهاى موسیقایی، صداهاى خوشایندى مى‌شود که انسان از شنیدن آن‌ها احساس لذت مى‌کند.
صداهاى خوشایند، صداهایى هستند که از نظمى خاص پیروى مى‌کنند و بین آن‌ها نسبت‌هاى معینى وجود دارد. براى همین عدد در موسیقى داراى اهمیت بسیارى است. تا جایی که فیثاغورث معتقد است که عدد اصل وجود در آفرینش است. پیروان او اجسام را هر یک عدد مى‌داشتند و معتقد بودند که چون کرات آسمانى و افلاک از یکدیگر فاصله‌هاى معینى دارند، از نسبت آن‌ها نغمه‌ها ساخته مى‌شود و آوازها در اصل ناشى از حرکت افلاک هستند.
موسیقى سنتى ایران شامل قطعاتى است که در مجموع به عنوان ردیف موسیقى ایرانى گفته مى‌شود. امتیاز موسیقى ایرانى در امکانات وسیع مقامى و ملودى‌هاى غنى آن است. این موسیقى هنرى است بسیار ظریف و عمیق.
موسیقی فقط غذای روح و زبان احساسات نیست، بلکه درمانی برای جسم نیز هست. تحقیقات نشان داده است موسیقی که ترکیبی از صداهای گوناگون است، بر روی عملکرد و متابولیسم بدن تأثیر می‌گذارد و اثری مستقیم بر روی بخش‌های اصلی بدن از جمله غدد گوناگون، قلب، دستگاه تنفسی، مغز و … دارد و موسیقی به عنوان ترکیبی منظم و زیبا از اصوات، تأثیری مثبت بر روی جسم نیز می‌گذارد.ولی شناخت تأثیرات مستقیم آن بر روی بدن نیاز به ورود به دنیای علم موسیقی درمانی دارد. البته ارتباط روح و جسم انسان باز هم به ما می‌گوید که در هر لحظه، لذت بردن روح از یک موسیقی مترادف است با تأثیر مثبت آن بر روی جسم انسان. روح انسان است که زیبایی موسیقی را می‌فهمد و این روح است که مانند یک استاد خبره‌ی زیباشناسی در مورد موسیقی قضاوت می‌کند.

در این سایت فقط تکه هایی از این مطلب(به صورت کاملا تصادفی و به صورت نمونه) با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود-این مطالب صرفا برای دمو می باشد

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

زیبایی‌شناسی در موسیقی دارای دو جنبه‌ی تحلیلی و ترکیبی است. زیبایی‌شناسی تحلیلی مربوط به زیبایی اصوات و نوای سازهاست و موج برخاسته از پیانو و ناله و فغان ویولن و کمانچه و … همه واژه‌های زیبایی هستند برای گفتن سخنی زیبا.در مقابل بعد ترکیبی موسیقی برمی‌گردد به نظم و آهنگی که هنرمند با کنار هم چیدن نت‌ها و آواها می‌آفریند.در جنبه‌ی ترکیبی است که هنرمند معنا پیدا می‌کند و موسیقی سخن می‌گوید و جمله‌ای زیبا می‌شود از واژه‌های زیبا.
2-2-2 ویژگی‌های صوتی موسیقی
نواک1: نواک که به زیرایی نیز معروف است تحت عنوان زیری و بمی صدا تعریف می‌شود. روشن است که صداهای موسیقایی می‌توانند در سطوح مختلف زیر و بمی حاصل شوند، مثلا می‌دانیم صدای اصلی مردان از صدای زنان یا کودکان کلفت‌تر و بم‌تر است و صدای کودان نسبت به مردان نازک‌تر و زیرتر است.در سازهای سیمی سیم‌هایکوتاه‌تر (و سبک‌تر) زیرتر و سیم‌های بلندتر بم‌تر صدا می‌دهند.در ساز‌های بادی (لوله‌های صوتی) هر قدر لوله درازتر باشد صوت حاصل از آن بم‌تر است و بالعکس.
دیرند2:دیرند به کشش و امتداد نیز معروف است وبه مدت زمانی که یک صدا طول می‌کشد گویند.دیرند یعنی “زمانی” که هر صدای موسیقایی ادامه می‌یابد.روشن است که یک آهنگ موسیقایی از صداهایی تشکیل شده که اکثرا ارزش‌های متفاوت زمانی دارند.
شدت3:شدت یا دینامیک،میزان قوی (بلند) و یا ضعیف (کم) بودن صدا است. صداهای موسیقی ممکن است نسبت به یکدیگر ضعیف‌تر و یا قوی‌تر باشند.
رنگ4:رنگ یا طنین یا شیوشتفاوت صدای ایجاد شده توسط پیانو و ویولون و یا دو انسان که دارای نواک و دیرند و شدت یکسان باشد، می‌باشد.صداها از نظر طنین و رنگ (شخصیت صوتی) هم می‌توانند با یکدیگر متفاوت باشند.در واقع به علت رنگ صدای هر ساز است که ما صدای ساز‌های مختلف را از هم تمیز می‌دهیم.
2-2-3 تولید موسیقی
تن پایه‌ای‌ترین عنصر در صدای موسیقی است. دو نوع ساختار تن وجود دارد: یک تن ساده فرم گرفته از شکل موج سینوسی واحد و یک تن پیچیده شکل یافته از بیش از یک هارمونیک]2[ است. کیفیت تن به عناصر فرکانسی غیرهارمونیک بستگی دارد. همه تن‌های موزیکال کلاسیک از یک فرکانس رزونانساز بخش‌های مالشی یا در حال حرکت ابزار آلات موسیقی ایجاد می‌شوند و برخی از تن‌ها از رزونانس‌های لوله می‌آیند. به جز موزیک الکترونیک که تن اش را بسته به نیروی الکترومغناطیسی تولید می‌کند. تولید موسیقی عمیقا به نوع ابزار موسیقی بستگی دارد. انواع متداول ابزار موسیقی به صورت زیر خلاصه می‌شوند]2[:
آلات رشته‌ای5:تن‌هایش از لرزش ریسمان‌ها ایجاد می‌شود. این لرزش از طریق نوسان مستقیم ایجاد می‌شود مثل گیتار و یا از طریق کشیدن بین تارها، مثل ویولون، هر تار یک فرکانس پایه‌ای معین دارد به طوری که یک ابزار موسیقی به تنهایی همه باندهای صوتی را پوشش می‌دهد. این نوع تن‌های پیچیده را تولید می‌کند.
آلات دمیدنی6: اساسا این ابزار شامل یک لوله استوانه ای باز در دو انتها مثل فلوت می‌باشد. دریچه‌ها در جدار این ابزار طول موج رزونانس ایستا را تعریف می‌کند و باعث منعکس شدن صدا می‌شود. برخی از ابزار دمیدنی از یک قطعه مسsmall-vibrated برای تولید تن‌های موسیقی مثل آکوردئون استفاده می‌کنند. این نوع ابزار تن‌های هارمونیک تولید می‌کند.
آلات Brass: این نوع مثل woodwind وابسته به دمیدن می‌باشد اما دو تفاوت اساسی آن‌ها را از هم تمیز می‌دهد. تفاوت اول این است که نوع brass یک شکلی از بوق مثل شیپور دارد. تفاوت دوم این است که نوع woodwind وابسته به فشار هوا برای تولید تن‌های مختلف است. در حالی که نوع brass وابسته به سرپوش دستی برای کنترل اندازه حفره می‌باشد مثل ترومپت. نوع brass یک تعداد زیادی از موجودیت‌هایغیر هارمونیک در طیفش دارد.
آلات خانواده پیانو7: این نوع از رشته‌های لرزنده به عنوان منبع تن استفاده می‌کند ( از طریق ضربه زدن به آن که به وسیله صفحه کلید کنترل می‌شود) هر دکمه از صفحه کلید برای تولید یک تن واحد طراحی شده است. دامنه تن وابسته به فشار ضربه از طریق انگشتان پیانیست است. برخی تولیدکننده‌ها میله‌های لرزاننده مسی را به جای رشته‌ها قرار می‌دهند. هارمونیک‌های خالص اکثریت توان تن تولیدشده را دارند.
آلات ضربی مثل طبل8: مثل طبل، طبل هندی، میله‌های لرزان یا سنتور زنگی که از طریق ضرباتی از طریق baton انجام می‌شود. Baton یک چوب یا پلاستیک مخصوص می‌باشد. خصوصیات تن‌های تولید شده به ابعاد فیزیکی و مقاومت و موقعیت ضربه baton بستگی دارد. بیشتر توان تن اجزای غیر هارمونیک را تولید می‌کند.
تولید الکترونیک موسیقی:ارگ از این دسته است. یک ابزار موسیقی دقیق و قوی که دکمه‌های زیادی را در یک صفحه کلید بزرگ دارد. هم چنین حافظه ای دارد که می‌تواند هر نت را ذخیره کند و از آن بارها به عنوان یک آهنگ یا تن پایه استفاده کند و نیز می‌تواند دائما یک ملودی را در پس زمینه اجرا کند که به نوازنده اجازه می‌دهد که فقط برخی از touch‌های موزیکال را برای کامل شدن ملودی اصلی اضافه کند. راک و پاپ و دیسکو و جاز بدون کمک ارگ نمی‌توانند اجرا شوند. اگرچه همه آهنگ‌های مخصوص ارگ بعد از محاسبات دقیق با استفاده از کامپیوترها ساخته شده‌اند، هر صدا از هر جا می‌تواند ضبط و سپس به عنوان یک آهنگ پایه مورد استفاده قرار گیرد. اگرچه ارگ بزرگ‌ترین و گران‌ترین ابزار موسیقی است تنها تولیدکننده موزیک الکترونیک نیست. ابزار زیادی از این نوع با نام‌هاو سایزهای مختلف وجود دارند بنابراین هر شخص به تنهایی می‌تواند مارک دلخواه خود را بخرد و موزیک الکترونیک اجرا کند. نهایتا توجه به این نکته مهم است که اگر ابزار موسیقی الکترونیک برای تولید موسیقی مورد استفاده هستند، نیازی به فکر کردن در مورد هارمونیک‌ها یا فرکانس پایه برای اندازه گیری کیفیت تن نیست.
2-3استخراج ویژگی‌های محتوایی از فایل صوتی

2-3-1انواع ویژگی‌ها
در این بخش ویژگی‌های صوتی مورد استفاده در کاربردهای رده‌بندی صوت با جزئیات توضیح داده می‌شود.ویژگی‌ها مطابق با جدول 2-1 به شش دسته، ریتم، تمپو، تون، نواک، رنگ و ویژگی‌های آماریسیگنال صوتی شده است. و ویژگی‌های صوتی مربوط به هر دسته در جدول دسته بندی شده است.دسته بندی انجام شده بر اساس مستندات نرم افزار استخراج ویژگی مورد استفاده،jaudio میباشد.تعاریف هر دسته عبارتند از:
ریتم: ریتم تناسب زمانی است که با نظم ترتیب و تکرار و توالی همراه است.ریتم میواند با استخراج تغییرات تکرار شونده در هیستگرام ضرب به دست آید.
تمپو:به معنای تعداد ضرب در دقیقه است و نمایانگر تندی و کندی آهنگ است. هر چه تمپوی یک آهنگ بالاتر باشد یعنی تعداد ضرب هایش در دقیقه بیشتر استو در نتیجه آهنگ تند تر است.
نواک:همانطور که در بخش 2-2-2 نیز بیان شده نواک نمایانگر زیری و بمی صدا است.
رنگ:همانطور که در بخش 2-2-2 نیز بیان شده عامل تمایز صدای دو ساز مختلف است وقتی یک ملودی با دینامیکی یکسان توسط دو یاز اجرا میشود.
آماری: ویژگی هایی که نمایانگر هیچ کدام از ویژگی های صوتی موسیقی نیستند اما در میتوانند بحث رده بندی موثر افتد. این ویژگی ها شامل مجموعه ای از صفات آماری سیگنال صوتی است.
جدول2-1 – طبقه بندی ویژگی‌ها
دستهویژگی نمایندهزیر ویژگی هاریتم Beat Histogram
Strength of Strongest Beat
Compactness
Strongest Beat Derivative
Running mean
Standard deviation
Derivative of running mean
Derivative of Standard deviationتمپو Beat Sumنواک Zero Crossingsرنگ[3] MFCC
Spectral Rolloff Point
Spectral Flux
Spectral Centroidآماری Fraction of Low Energy frames
LPC
Area Method of Moments در ادامه به تشریح ویژگی های معرفی شده در جدول 2-1 و چگونگی استخراج آنها و روابط ریاضی مربوط به هر ویژگی میپردازیم:
هیستوگرام ضرب9:
مجموعه ویژگی‌ای برای نمایش ساختار ریتم بر مبنای تشخیص برجسته‌ترین دوره تناوب سیگنال است. شکل2-1نمودارجریانالگوریتمتجزیهوتحلیلضرب را نشان می‌دهد]3[ . سیگنال ابتدابا استفاده ازDWTبهتعدادی باند فرکانسهشتگانهتجزیهشده است. پسازاینتجزیه،بستهدامنهزمانیهر گروه(باند)به صورت جداگانه با استفاده از همسو سازیکل موج، فیلتر پایین گذر و downsampling به هر یک از فرکانس نت‌های هشتگانه،به دست می‌آید. پس از حذف میانگین، بستهی هر یک از گروهها با هم جمع شده و سپس خودهمبستگیبسته مجموع، محاسبه می‌شود.قلههای غالب، تابع همبستگی متناظر با دوره تناوب‌های مختلف بسته سیگنال است.بلوک‌هایساختمان‌های زیر برای استخراج ویژگی تجزیه و تحلیل ضرب استفاده می‌شوند:
یکسو سازی تمام موج10:
به منظوراستخراجپوششزمانیسیگنال به جای خودحوزه زمانی سیگنالاعمال می‌شود
Y[n] = |x[n]|
.فیلتر پایینگذر11:
به عنوان مثال، یک فیلتریک قطب با ارزش آلفای 0.99 که برای صاف کردن بسته استفاده می‌شود. اصلاح موج کامل به دنبال فیلتر پایین گذر روش استاندارد استخراج بسته است.
Y[n] = (1- α)x[n] + αy[n-1]
Downsampling:
. به خاطر دوره تناوب‌هایزیاد تجزیه و تحلیل ضرب، downsamplingسیگنالزمانمحاسباتبرایمحاسبههمبستگی را بدونتأثیر بر عملکردالگوریتم کاهش میدهد.
Y[n] = x[kn]
حذف میانگین12:
منظور ایجاد تمرکز سیگنالبهصفربرای مرحله همبستگی اعمال می‌شود
Y[n] = x[n] – E[x[n]]
همبستگی پیشرفته13:
قلههای تابع خود همبستگی مربوط به تأخیرهای زمانی هستند؛جایی که در آن سیگنال بیشتر شبیه به خود است. تأخیرهای زمانی قلهها در محدودهی زمانی مناسب برای تجزیه و تحلیل ریتم مربوط به دوره تناوب ضرب است. تابع خود همبستگی اصلی خلاصهی پاکتها، به ارزش‌های مثبت و پس از آن به مقیاس زمان با ضریب دو کوتاه شده و از تابع اصلی کوتاه شده، کم شده است. همین روند با عوامل دیگر از جمله قله‌های تکراری که در آن مضارب عدد صحیح حذف می‌شوند، تکرار می‌شود.
Y[k] = 1/N ∑_n▒〖x[n]x[n-k]〗
تشخیص قلهومحاسبههیستوگرام:
سهقلهاولتابعخودهمبستگیافزایش یافته که درمحدودهمناسببرای تشخیصضربهستندانتخاب می‌شوندوبههیستوگرام ضرب‌اضافه میشوند.Binهای هیستوگراممربوط بهضرباندر هردقیقه(BPM) از40 تا200ضربه در دقیقهاست.برای هر قله تابعخودهمبستگیافزایش یافته، دامنهقلهبههیستوگراماضافه شده است.این قلهکه دارایدامنهبالابهشدتنسبتبهقله‌های ضعیف‌تردر محاسبههیستوگراموزن دار شده‌اند.
شکل2-1-فلوچارت محاسبه هیستوگرام ضرب]3[
شکل2-2یک هیستوگرامضرببرای 30ثانیه از این آهنگ “Come Together” بیتلز را نشان می‌دهد.دو قله اصلیBH مربوط به ضرب اصلی در حدود 80 ضرب در دقیقه و هارمونی اول آن (دو برابر سرعت) در 160 ضرب در دقیقه است.
شکل2-2 نمونه هیستوگرام ضرب
قدرت قوی‌ترین ضرب14:
معیاری است از این که چقدر قوی‌ترین ضرب در مقابل سایر ضرب‌های ممکن قوی است. این معیار با یافتن انرژی متناظر قوی‌ترینضرب در هیستوگرام ضرب و تقسیم ان به مجموع کل انرژی در هیستوگرام ضرب محاسبه می‌شود.
قوی‌ترین ضرب15:
ویژگی است که قوی‌ترینضرب در سیگنال را استخراج می‌کند. که از طریق پیدا کردن بلندترین bin در هیستوگرام ضرب تولید می‌شود.
مجموع ضرب‌ها16:
ویژگی خوبی که نشان می‌دهد چقدر یک ضرب معمولی در ین قطعه موسیقی نقش مهمی را بازی می‌کند. و از حاصل جمع تمام مقادیر درهیستوگرام ضرب به دست می‌آید.
نرخ گذار از صفر17:
نرخ گذار از صفر شکل موج حوزه زمان یکی از قوی‌ترین معیارها برای تشخیص گفتار است و به طور گسترده ای به عنوان معیاری قوی برای تشخیص گفتار صدادار از سایشی استفاده می‌شود. نرخ گذار از صفر به طور ساده تعداد نقاط تلاقی با صفر در یک پنجره سایز ثابت است. یعنی تعداد دفعاتی که شکل موج صوتی علامتش در طول فریم تغییر می‌کند. نرخ گذار از صفر زمانی اتفاق می‌افتد که نمونه‌های متوالی علامت‌های جبری مختلفی داشته باشند. معادله زیر نرخ گذار از صفر را نشان می‌دهد:
ZCR=1/2 ∑_(n=1)^(N-1)▒|sgn(x[n])-sgn(x[n-1])|
اگر x[n]>0 باشد sgn([x])=1 و اگر x[n]<0، sgn([x])=-1 و N تعداد نمونه‌ها در یک پنجره می‌باشد.
نرخ گذار از صفر مربوط به صامت‌های انرژی پایین، نسبت به نرخ گذار از صفر مربوط به مصوت‌های انرژی بالا کمتر است. بدیهی است که نرخ گذار از صفر یک الگوریتم حوزه زمان است و به مقدار زیادی به فرکانس سیگنال ورودی x(n) وابستگی دارد. به علاوه نرخ نمونه برداری باید به اندازه کافی بالا باشد تا هر عبور از صفری را نشان دهد. به علاوه چیز مهمی که باید قبل از شروع به شمارش گذرها مورد توجه قرار گیرد نرمال سازی سیگنال است. چون متوسط دامنه در سرتاسر پنجره باید برابر با صفر باشد و این کار با استفاده از شیفت ثابت به هر نمونه در محور دامنه انجام میشود. این ثابت باید معادل با میانگین دامنه واقعی باشد. این به معنی دوباره تنظیم کردن بالانس نرخ گذار از صفر است. این مسئله تضمین می‌کند که هر پنجره فقط یک نرخ گذار از صفر خاص دارد. از معادله مشخص می‌شود کهنرخ گذار از صفر با فرکانس dominant،x(n) متناسب است
در اینجا مفهوم نسبت نرخ گذار از صفر بالا(HZCRR) نیز مطرح می‌شود]4[. کاملا مشخص است که نرخ گذار از صفر برای مشخص کردن سیگنال‌های صوتی مختلف بسیار مفید است و در بسیاری از الگوریتم‌های کلاس بندی گفتار/موسیقی مورد استفاده بود. از طریق آزمایش فهمیده شد که نوسان(تغییرات) نرخ گذار از صفر نسبت به مقدار دقیق نرخ گذار از صفر متمایز کننده تر است. بنابراین HZCRR را می‌توان به عنوان یک ویژگی در نظر گرفت.
HZCRR به صورت نسبت تعداد فریم‌هایی که ZCR شان بالاتر از نرخ گذار از صفر متوسط یک بخش در پنجره یک ثانیه ای است تعریف می‌شود و به صورت زیر بیان می‌شود:
HZCRR=1/2N ∑_(n=0)^(N-1)▒〖[sgn(ZCR(n)-〖ZCR〗_av 〗)+1]
〖ZCR〗_av=∑_(n=0)^(N-1)▒ZCR(n)
n ایندکس فریم و N تعداد کل فریم‌ها در یک پنجره یک ثانیه ای است و sgn[.] یک تابع علامت و ZCR(n)نرخ گذار از صفر در فریم n ام است.
در]5،6،7،8،9،10،11،12،13،14،15،16[ از این دسته ویژگی‌ها استفاده شده است.
انرژی زمان کوتاه18:
دامنه سیگنال به گونه ای محسوس با زمان تغییر می‌کند. دامنه قطعات بی صدا عموما خیلی پایین‌تر از قطعات صدادار است. انرژی زمان کوتاه سیگنال صوت یک نمایش مناسبی را ارائه می‌دهد که این واریانس‌های دامنه را منعکس می‌کند. از آنجاییکه سیگنال موسیقی شامل قطعات بی صدا نیست STE آن معمولا بزرگ‌تر از گفتار است.
انرژی زمان کوتاه یک فریم به صورت مجموع مربعات نمونه‌های سیگنال به صورت زیر تعریف می‌شود:
E=10 log⁡〖(1/N ∑_(n=0)^(N-1)▒〖x^2 [n])〗〗

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

در اینجا مفهوم دیگری به نام انرژی زمان کوتاه پایین ( LSTER) نیز مطرح می‌شود که با استفاده از این ویژگی به جای مقدار دقیق انرژی زمان کوتاه واریانس و تغییرات را به عنوان یک جز از بردار ویژگی‌مان انتخاب می‌کنیم. در اینجا ما از LSTER برای نمایش تغییرات STE استفاده می‌کنیم. LSTER به صورت نسبت تعداد فریم‌هایی که در آن‌هاSTE کمتر از 0.5برابر STE میانگین در یک پنجره یک ثانیه ای است تعریفمی‌شود. به صورت زیر:
LSTER=1/2N ∑_(n=0)^(N-1)▒〖[sgn(0.5 〖STE〗_av 〗-STE(n)+1]
〖STE〗_av=∑_(n=0)^(N-1)▒STE(n)
که N تعداد کل فریم‌ها و STE(n) مقدار STE در n امین فریم و STEav،STE میانگین در یک پنجره یک ثانیه ای است. در]5،6،7،8،9،10،11،12،13،14،16،17،18[ از این دسته ویژگی‌ها استفاده شده است.
ضرایب کپسترال فرکانسی مل (MFCC):
هدف اصلی MFCC تقلید رفتار گوش انسان است. تحقیقات فیزیولوژیکی نشان می‌دهند که ادراک بشر از محتوای فرکانسی صداها برای سیگنال‌هایصوتی از یک مقیاس خطی پیروی نمی‌کند بنابراین برای هر تن با فرکانس واقعی f یک pitch روی مقیاس مل محاسبه می‌شود. مقیاس فرکانسی مل در فضای زیر 1kHz به صورت خطی و در بالای 1kHz به صورت لگاریتمی می‌باشد. بنابراین فیلترها در فرکانس‌های پایین به صورت خطی و در فرکانس‌های بالا به صورت لگاریتمی برای پیگیری ویژگی‌های مهم آواشناسی (صدادار و بدون صدا) استفاده می‌شوند. فرمولی که معمولا برای انعکاس ارتباط بین فرکانس مل و فرکانس فیزیکی استفاده می‌شود به صورت زیر است:
M(f)=1125*log⁡〖(1+f/700)〗
محاسبه ضرایب فرکانسی کپسترال مل با گرفتن DFT از فریم X(k) شروع می‌شود و سپس ضرب آن با یک سری از فیلترهای بالاگذر ایده‌ال مثلثیv_i (k) که فرکانس مرکزی و پهنای فیلتر بر اساس مقیاس مل تنظیم شده‌اند. سپس انرژی طیفی کل در هر فیلتر به صورت زیر محاسبه می‌شود:
E(i)=1/s_i ∑_(k=L_i)^(U_i)▒(|X(k)|.v_i (k))^2
LiوUiباند‌های بالا و پایین فیلتر و siیک ضریب نرمال سازی و i شماره فیلتر بانک است.( برای جبران پهنای باندهای مختلف فیلترها)
S_i=∑_(k=L_i)^(U_i)▒〖(v_i 〗 〖(k))〗^2
نهایتا دنباله MFCC با محاسبه تبدیل کسینوسی گسسته(DCT) از لگاریتم دنباله انرژی E(i) محاسبه می‌شود:
MFCC(l)=1/N ∑_(i=0)^(N-1)▒log⁡〖(E(i)).cos⁡〖(2π/N (i+1/2).l)〗 〗
L شماره ویژگی MFCC و N تعداد نمونه‌ها در یک فریم است. معمولا 12 ضریب به عنوان ویژگی برای نمایش گفتار محاسبه می‌شود. هم چنین می‌توان بردار تفاضل MFCC را بین فریم‌های مختلف محاسبه کرد و نرم اقلیدسی آن بردار به عنوان یک ویژگی اضافی در نظر گرفت.
∆MFCC(i,i-1)=√(∑_(i=1)^10▒|〖MFCC〗_i (l)-〖MFCC〗_(i-1) (l)|^2 )
i ایندکس فریم است. در ]6،7،11،12،13،14،15،16،19،20،21،22[از این دسته ویژگی‌ها استفاده شده است.
:Roll-off point
این ویژگی مقداری را در فرکانس نشان می‌دهد که 95% انرژی سیگنال در زیر آن قرار می‌گیرد. همان طور که قبلا ذکر شد انرژی(توان) درموسیقی در فرکانس‌های بالاتر متمرکز شده است. هرچند گفتار یک رنجی از توان فرکانسی پایین را دارد.گفتار صدادار نسبت بالایی از انرژی را در رنج فرکانسی پایین طیف دارد در حالیکه بیشتر انرژی در گفتار بی صدا و موسیقی در باندهای بالاتر است. در نتیجه نقطه roll-off طیفی برای گفتار بی صدا و موسیقی مقدار بالاتری دارد و برای گفتار صدادار مقدار پایین‌تری دارد. عبارت ریاضی برای پیدا کردن این مقدار از فرکانس به صورت زیر است:
∑_(f<K)▒〖X[f]=0.95∑_f▒〖X[f]〗〗
در ]6،7،12،13،14،15،19[از این دسته ویژگی‌ها استفاده شده است.
مرکزیت طیف19:
این ویژگی نقطه تعادل توزیع توان طیفی را در یک فریم ارائه می‌دهد.این ویژگی مرکز فرکانسی را توصیف می‌کند. سیگنال‌هایموسیقی نویز فرکانس بالا و صداهای تصادمی(زدنی) دارند که یک میانگین طیفی بالا را نتیجه می‌دهد.به عبارت دیگر در سیگنال‌هایگفتار،pitch سیگنال صوتی در یک رنج بسیار باریک از مقادیر پایین می‌ماند.به عنوان نتیجه موسیقی مرکزیت طیف بالاتری نسبت به گفتار دارد. مرکزیت طیف برای یک فریم که در زمان t رخ می‌دهد به صورت زیر محاسبه می‌شود:
SpectralCentroid=SC=(∑_(k=1)^(N-1)▒kX(k) )/(∑_(k=1)^(N-1)▒X(k) )
K ایندکسی متناظر با فرکانس، X(k) توان سیگنال در باند فرکانسی متناظراست.
در ]6،7،10،11،12،13،14،15،18،23،24[از این دسته ویژگی‌ها استفاده شده است.
Spectral Flux:
این ویژگی اختلاف طیف را فریم به فریم اندازه گیری می‌کند بنابراین تغییر در شکل طیف را مشخص می‌کند. گفتار مقدار رنج بالاتری دارد و تغییرات فریم به فریم شدیدتری نسبت به موسیقی دارد. باید به این نکته توجه کرد که گفتار مرتبا بین پریودهایی از گذار( مرزهای مصوت-صامت) و پریودهایی از حالت سکون نسبی(مصوت‌ها ) جابجا می‌شود در حالیکهموسیقی معمولا یک نرخ ثابت‌تری از تغییر را داراست. به عنوان نتیجه مقدار شار طیف(spectral flux) برای گفتار بالاتر است مخصوصا سیگنال‌های بدون صدا. اما مقدار spectral flux برای سیگنال گفتار نسبت به مقدار spectral fluxسیگنال‌های محیطی خیلی کوچک‌تر است زیرا در سیگنال‌های محیطی که تغییرات فریم به فریم نسبت به سیگنال‌هایگفتار بیشتر است.spectral flux به صورت زیر تعریف می‌شود”دومین نرم بردار تفاضل دامنه طیف فریم به فریم” یعنی مجموع مربعات اختلاف‌های فریم به فریم از اندازه DFT. که m وm-1 ایندکس فریم هستند.
Spectralflux=|| |X_i |-|X_(i+1) | ||=∑_(k=0)^(K-1)▒(|X_m (k)|-|X_(m-1) (k)|)^2
شکل2-3 نشان می‌دهد که معیار spectral flux برای speech تقریبا بالا تر از این مقدار برای موسیقی است]24[.
شکل2-3- معیار spectral flux برای گفتار تقریبا بالاتر از این مقدار برای موسیقی است
در ]10،11،13،14،15،21،25،26،27،28،29،30،31[از این دسته ویژگی‌ها استفاده شده است.
درصد فریم‌هایlow energy :
این مقدار نسبت فریم‌هایی با توان RMS20 کمتر از 50% توان RMS میانگین در یک پریود معین از زمان را اندازه گیری می‌کند. توزیع انرژی برای گفتار نسبت به موسیقی چولگی چپ بیشتری دارد. دلیل این مسئله آن است که فریم‌های سکوت بیشتری در گفتار وجود دارد بنابراین انرژی فریم‌هایی که شامل سکوت هستند نسبت به فریم‌هایی که سکوت ندارند بیشتر است.شکل2-4 نشان می‌دهد که این معیار برای گفتار بالا تر از این مقدار برای موسیقی است]24[.
در]6،7،12،13،14،15،18،24،31[ از این ویژگی استفاده شده است.
شکل2-4- درصد فریم‌های با انرژی پایین
ضرایب پیشگویی خطی(LPC):
ایده پشت پیشگویی خطی این است که نمونه بعدی سیگنال از مجموع وزن دار p نمونه قبلی پیشگویی می‌شود.
s^’ (n)=∑_(i=1)^p▒a_i s(n-i)
a_iضرایب پیشگویی هستند و p مرتبه پیشگو است. و s(n-i) یک نمونه در زمان n-i است. به عبارت دیگر هر نمونه از یک سیگنال به صورت یک ترکیب خطی از نمونه‌های قبلی مدل می‌شود. ضرایب پیشگویی به وسیله مینیمم کردن خطای بین نمونه‌های واقعی و پیشگویی شده تعیین می‌شوند. خطای پیشگویی به صورت زیر محاسبه می‌شود:
e(n)=s(n)-s^’ (n)=s(n)-∑_(i=1)^p▒a_i s(n-i)
در]10،13،30،32،33[از این ویژگی استفاده شده است.
2-3-2 تقسیم بندی ویژگی‌ها از نظر طول فریم استخراجی
ویژگی‌های صوتی را می‌توان بر اساس طول فریم استخراجی به سه دسته کوتاه متوسط و بلند تقسیم کرد. مجموعه ویژگی‌هایکه از فریم‌هایی با طول 30 میلی ثانیه-ویژگی‌هایی نظیر مجموع ضرب‌ها یا MFCC یا گذر از صفر- را استخراج می‌کنند تحت عنوان ویژگی‌های با طول فریم کوتاه معرفی می‌شود. ویژگی‌های با طول فریم متوسط از تجمیع چندین پنجره متوالی کوتاه فریم حاصل می‌شود همان طور که در جدول 2-2 نمایان است عملگرهایی چون انحراف از معیار و میانگین و مشتق برای تجمیع در فاز فریم‌های متوسط مورد استفاده قرار می‌گیرد. طبقه بعدی ویژگی‌ها،ویژگی‌های با طول فریم طولانی است. که از تجمیع ویژگی‌های با طول فریم‌های متوسط ایجاد می‌شود. ویژگی‌ها با طول فریم متوسط از فریمی به طول 1 ثانیه و ویژگی‌ها با طول فریم طولانی ازفریم‌هایی با طول 10 ثانیه بهره می‌برند.]34[
جدول 2-2- تقسیم بندی ویژگی‌ها از نظر طول فریم استخراجی
ویژگی‌های
با
طول فریم کوتاهStrength of Strongest Beat – Compactness – Strongest Beat- Strength of Strongest Beat – Beat sum
Spectral Rolloff Point -Spectral Flux -Spectral Centroid
Fraction of Low Energy frames -Area Method of Moments Feature – Magnitude Spectrum-Power Spectrum
LPC – MFCC
Zero Crossing ویژگی
با طول فریم متوسط
Derivative Running mean Standard deviationویژگی
با طول فریم بلندDerivative of Standard deviation
Derivative of Running mean
Beat Histogram
2-4 مجموعه داده‌ها
تعداد مجموعه داده‌های معروفی که برای بازیابی اطلاعات موسیقی ایجادشده‌اندانگشت‌شمار است. در اکثر تحقیقات از مجموعه داده‌های ساختگی خود استفاده کرده‌اند. دو مجموعه داده معروف USPOP2002 و ISMIR 2004به منظور بازیابی اطلاعات موسیقی وجود دارد. بزرگ‌ترین ضعف این دو مجموعه داده عدم ارائه ویژگی‌های کافی برای بازیابی اطلاعات می‌باشد. این دو مجموعه داده تنها ضرایبMFCC را اختیار می‌گذارد. هیچ مجموعه داده مناسبی که بر اساس موسیقی ایرانی تهیه شده باشد وجود ندارد.
2-5 رده‌بندی موسیقی
2-5-1 رده‌بندی
در متون گذشته روشهای مختلفی برای رده‌بندی موسیقی ارائه شده است. ردهبندی کردن دادهها یکی از مهم‌ترین موضوعات در زمینه دادهکاوی محسوب میشود. هدف روشهای ردهبندی، دستهبندی نمونهها در کلاسهای از پیشتعیین شده هستند. آن‌ها نمونههای موجود در دادههای آموزش را برای پیشبینی برچسب نمونههای داخل مجموعه آزمون استفاده میکنند.
مجموعه دادههای D را در نظر بگیریم که نمونههای زیادی در آن وجود دارد و هر نمونه از دنبالهای از مقادیر مشخصهها تشکیل شده است. مضاف بر این، هر نمونه به یک کلاس با برچسب خاص تعلق دارد. بهصورت علمیتر مجموعه داده D شامل نمونههای I_j است که به شکل 〖<v〗_j1,v_j2 , …, v_jn>I_j بوده و v_ji مقدار مشخصه F_i و مربوط به دامنۀ این مشخصه است. مجموعه داده D به دو بخش آموزش و آزمون تقسیمبندی میشود. هدف اصلی در رده‌بندی، ایجاد روشی برای رده‌بندی است که بر اساس دادههای آموزش بتواند برچسبهای نمونههای موجود در مجموعه آزمون را به درستی پیشبین نماید.
در متون گذشته روشهای زیادی برای ردهبندی ارایه شده است. از جمله روشهای ردهبندی معروف میتوان به بیز ساده21[35]، شبکه عصبی [36]، درختهای تصمیمگیری [37] و الگوریتم ژنتیک [38] اشاره کرد. روشهای ردهبندی برای طبقهبندی نمونهها راهبردهای مختلفی را دنبال میکنند. یکی از مهم‌ترین راهبردها، استخراج قوانین در مرحله آموزش و به‌کارگیری این قوانین روی مجموعه آزمون است. برای استخراج قانون دو استراتژی کلی وجود دارد [39]. در استراتژی اول یک درخت تصمیمگیری ایجاد شده و سپس به یک مجموعه قانون تبدیل میشود. در این استراتژی میتوان با دنبال کردن یک مسیر از ریشه درخت به سمت یک برگ یک قانون را استخراج کرد. به عنوان مثال اگر درخت موجود در شکل 2-5 یک درخت ساخته شده توسط یک روش ردهبندی درخت تصمیمگیری باشد، میتوان قوانینی را به شرح زیر از آن استخراج کرد:
شکل2-5- یک نمونه درخت تصمیم‌گیری

دسته بندی : پایان نامه

دیدگاهتان را بنویسید