سایت دانلود پژوهش ها و منابع علمی دانشگاهی فنی تخصصی همه رشته ها – این سایت صرفا جهت کمک به گردآوری داده ها برای نگارش پژوهش های علمی و صرفه جویی در وقت پژوهشگران راه اندازی شده است
فهرست مطالبعنوان صفحه
فصل ۱: آشنایی با تشخیص مرجع مشترک........................... .............................. .............................. ..............................................................۱ HYPERLINK \l "m1" 1-۱. مقدمه و بیان مسئله1
1-2. بررسی ارتباطات هممرجعی6 1-2-1. هممرجع در مقابل پیشایند9 1-۲-1-۱. ارتباط هممرجع.۱0 1-۲-1-2. ارتباط پیشایندی11 1-۲-۲. تحلیل پیشایند16 1-۲-۳. تحلیل مرجع مشترک16 1-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی۱71-3.جمعبندی20فصل 2 : بخش اول212-1-۱. پیشینه تشخیص مرجع مشترک212-1-۲. روشهای زبانشناسی22 2-1-۲-1. فاکتورهای حذف کننده23 2-1-۳-۲-۱. تطبیق جنس و عدد23 2-1-۳-۲-۱. تطبیق معنایی24 2-1-۲-۲. فاکتورهای امتیاز دهنده 24 2-1-۳-۲-۱. مشابهت نحوی24 2-1-۳-۲-۱. مشابهت معنایی25 2-1-۳-۲-۱. بارز بودن252-1-۳. روشهای یادگیری ماشین27 2-1-۳-۱. ویژگیها28 2-1-۳-۲. مدلهای جفت اشاره28 2-1-۳-۲-۱. رده بندی جفت عبارتهای اسمی32 2-1-۳-۲-۱-1. درخت تصمیم33 2-1-۳-۲-۲.افراز35 2-1-۳-۲-۲-۱.درختِ بل36 2-1-۳-۲-۲-۲. افراز گراف38 2-1-۳-۳. روشهای مبتنی بر پیکره40 2-1-۳-۴. روشهای جایگزین44 2-1-۳-۴-۱. روش همآموزی44 2-1-۳-۴-۲. مدل احتمالاتی مرتبه اول46 2-1-۳-۴-۳. رتبهبندی47 2-1-۳-۴-۴. فیلدهای تصادفی شرطی49 2-1-۳-۴-۵. خوشهبندی512-1-۴. جمعبندی56فصل 2: بخش دوم572-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هممرجع582-2-۲. پیکره بیژنخان592-2-۳. پیکره لوتوس602-2-۴.شیوههای نشانهگذاری پیکره لوتوس62 2-2-۴-۱. نشانهگذاری انواع موجودیتها62 2-2-۴-۱-۱. موجودیت شخص64 2-2-۴-۱-۲. موجودیت سازمان64 2-2-۴-۱-۳. موجودیت مکان66 2-2-۴-۱-۴. موجودیت سیاسی66 2-2-۴-۲.کلاس هر موجودیت68 2-2-۴-۲-۱.غیر ارجاعی69 2-2-۴-۲-۲.ارجاعی69 2-2-۴-۲-۲-۱.ارزیابی به شکل منفی69 2-2-۴-۲-۲-۲.ارجاعی خاص70 2-2-۴-۲-۲-۳.ارجاعی عمومی70 2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده70 2-2-۴-۳.انواع اشاره/سطوح اشاره71 2-2-۴-۳-۱.اشاره ساده72 2-2-۴-۳-۱-۱.محدوده اشاره72 2-2-۴-۳-۱-۲. هسته اشاره72 2-2-۴-۳-۱-۳.انواع اشاره ساده72 2-2-۴-۳-۲.ساختارهای پیچیده74 2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل752-2-۵.جمعبندی75فصل 3: الگوریتمهای پیشنهادی763-۱. رده بندی دودویی76 3-1-1.جدا کنندههای خطی77 3-1-1-1 پرسپترون78 3-1-1-2 ماشین بردار پشتیبان80 3-1-1-3 درخت تصمیم853-۲.خوشهبندی88 3-2-1 .الگوریتمهای افراز بستهای89 3-2-1-1 .خوشهبندی سلسله مراتبی پایین به بالا90 3-2-1-2 .آموزش الگوریتم خوشهبندی سلسله مراتبی933-3.جمعبندی96فصل 4: سیستم ارزیابی974-۱.مقدمه974-۲.سیستم شناسایی اشاره لوتوس98 4-2-1 .بانک اطلاعاتی98 4-2-2.سیستم شناسایی اشاره1024-3.تشخیص اشارههای هم مرجع103 4-3-1 ویژگیها104 4-3-2.الگوریتم یادگیری105 4-3-3.معیار ارزیابی107 4-3-4.نتیجه ارزیابی110 4-3-4-1.نتایج بدست آمده110 4-3-4-.2چالشها و تحلیل خطا1124-4.جمعبندی115فصل 5 :نتیجه گیری و پیشنهادها1165-۱.نتیجهگیری1165-2.پیشنهادها118فصل .6 منابع121فهرست جدولها
عنوان صفحه
جدول 1-۱: مقایسه ویژگیهای دو ارتباط هممرجع وپیشایند۱1
جدول 2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک23
جدول 2-۲: برخی از ویژگیهای ارائه شده در تحلیل مرجع مشترک30
جدول 2-۳: معرفی برخی از پژوهشهایی که از خوشهبندی استفاده کردهاند55
جدول 2-4: مشخصات مربوط به انواع موجودیتها62
جدول2-5: زیر گروههای موجودیت مشخص64
جدول2-6: زیر گروههای موجودیت سازمان65
جدول 2-7: زیر گروههای موجودیت مکان 66
جدول 2-8: زیر گروههای موجودیت سیاسی67
جدول 2-9: حالتهای خاص موجودیتهای سیاسی68
جدول 2-10: انواع طبقهبندی اشاره71
جدول 4-1: بانک اطلاعاتی سیستم کشف اشاره: جدول واژگان100
جدول 4-2: بانک اطلاعاتی سیستم کشف اشاره: جدول اشارهها101
جدول 4-3: فهرست ویژگیهای به کار رفته در تشخیص مرجع مشترک106
جدول 4-4: حالتهای ممکن نتایج یک ماشین یادگیر108
جدول 4-5: نتایج ارزیابی الگوریتمهای پایه مورد بررسی110
جدول 4-6: نتایج ارزیابی الگوریتم SVM با هستههای متفاوت111
جدول 4-7: نتایج ارزیابی الگوریتم شبکه عصبی با مدلهای متفاوت112
فهرست شکلها
عنوان صفحه
شکل1-۱. انواع روابط ممکن میان دو عبارت اسمی 12
شکل1-۲. میزان ارتباط میان حوزهها با انواع دانشهای زبانشناسی و واژگانی۱6
شکل2-۱. نمونهای از نمونههای مثبت و منفی که توسط ۴.5C تولید شده است31
شکل2-۲. درختِ بل به ازای سه عبارت اسمی 37
شکل2-3. شمایی از نشانهگذاری پیکره بیژنخان60
شکل2-4. شمایی از نشانهگذاری اشارههای هم مرجع در پیکره لوتوس62
شکل3-۱. شمایی از دادههای خطی و غیر خطی جداییپذیر77
شکل3-۲. الگوریتم پرسپترون میانگیندار80
شکل3-3. نمونهای از یک درخت تصمیمگیری86
شکل3-4.الگوریتم C5 88
شکل3-5. مثالی از نمودار دندوگرام در تشخیص عبارتهای اسمی هممرجع92
شکل3-6. الگوریتم خوشهبندی سلسله مراتبی پایین به بالا 93
شکل3-7.الگوریتم آموزش خوشهبندی حریصانه 94
شکل3-8.الگوریتم بروزرسانی 96
شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس99
شکل4-2 :شمای کلی سیستم شناسایی اشاره102
شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره102
شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان103
شکل4-5: شمایی از نمایش خروجی تعیین نمونههای مثبت و منفی107
شکل4-6: نمودار مقایسه الگوریتمهای پایه مورد بررسی111
فهرست علائم و اختصارات
ACE Automatic Content Extraction
ADR Address Sub Entity
AI Artificial Intelligence
ANA Anaphor
ANT Antecedent
APP Apposition Construction mention type
AR Anaphora Resolution
BAR Bare Sub Entity
BND Boundary Sub Entity
CLS Celestial Sub Entity
CLUS Cluster Sub Entity
COM Commercial Sub Entity
CONT Continent Sub Entity
CR Coreference Resolution
DIS District Sub Entity
EDU Educational Sub Entity
EM Expectation Maximization
ENT Entertainment Sub Entity
GEN General Entity class
GOV Government Sub Entity
GR Group Sub Entity
HLS Headless nominal mention type
IE Information Extraction
IND Individual Sub Entity
IR Information Retrieval
JPE Geo political Entity
LOC Location Entity
MD Mention Detection
MED Media Sub Entity
ML Machine Learning
MT Machine Translation
MUC Message Understanding
NAM Name mention
NAMMH Name which is head of mention
NAMPOS Post modifier mention of name head
NAT Nation Sub Entity
NEG Negative Quantified Entity class
NER Named Entity Recognition
NGOV Non-government Sub Entity
NOMH Nominal which is head of mention
NOMH Nominal mention
NOMPOS Post modifier mention of nominal head
NP Noun phrase
ORG Organization Entity
PER Persons Sub Entity
POP Population Sub Entity
PRO Pronominal mention
PTV Portative Construction mention type
RBFN Radial Basis Function Network
REF Refential Entity class
REG Region Sub Entity
REL Religious Sub Entity
SPC Specific Entity class
SPE Special Sub Entity
SPO Sport Sub Entity
STAT state Sub Entity
SVM Support Vector Machine
TLT Title Sub Entity
USP Underspecified referential Entity class
WAT Water body Sub Entity
WHO WH_Question Words and specific mention type
فصل اول
۱-۱.مقدمه و بیان مسئله
امروزه رایانه در تمام لایههای زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبانشناسی، بیش از پیش احساس میشود. «پردازش زبان طبیعی»شاخهای از علم «هوش مصنوعی» است که به ماشینی کردن فرآیند زبان شناسی سنتی میپردازد. به این ترتیب با استفاده از رایانه میتوان «زبان گفتاری ونوشتاری» را پردازش نمود، به طوریکه رایانهها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبیعی به عنوان ورودی وخروجی استفاده کند. به این ترتیب یک رایانه، درهنگام دریافت ورودی، نیاز به «درک» و درهنگام ارسال خروجی، نیاز به «تولید» زبان طبیعی دارد. ]81[
در زمینه پردازش زبان طبیعی پژوهشهایی مانند طبقهبندی متون، برچسبگذاری ادات سخن، تعیین و ابهامزدایی از معانی واژگان و... انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشتهاند و در نتیجه راه حلهایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب میشوند. تمامی این حوزههای جزئی باید حل شوند تا در نهایت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و یا آنها را بسازد.
وظایف زبان طبیعی را میتوان به ریز کاربردها و کلان کاربردها افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازشهایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیتهای نامدار و ... ) و یا در سطح کل متن (تشخیص هرزنامه، رده بندی متون و...) متمرکز شده اند؛ برخی از کاربردها نیز مانند استخراج اطلاعات، تشخیص مرجع مشترک و ماشین ترجمه در سطح بینابین قرار گرفتهاند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگیهای معنایی متون، انواع متفاوتی از ویژگیهای سطح پایینتر (مانند ویژگیهای لغوی و نحوی) نیز لازم است، اما به لطف سیستمهای جدید که تا حد زیادی به روشهای آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی ویژگیهای سطح پایینتر نیازی نیست. علت اینکه روشهای یادگیری ماشین توانستهاند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم میآورد که برای بسیاری از کاربردها کافی بوده و میتواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روشهای آماری محدود است و هرگز نمیتوانند درک کاملی از محتوای معانی یک متن را فراهم آورند.
از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستمهایی که واژگان و جملات درست را از غلط تشخیص میدهند، به طور گستردهای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوههای تجزیه کردن به صحتی برابر با ۹۰%، و شناسایی موجودیتهای نامدار به صحت ۹۱% رسیده اند. [78,55,38[.
بسیاری از پژوهشگران معتقدند که استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب میشود، که مجموعهای از تکنیکهای ردهبندی، خوشهبندی و قوانین وابستگی است و خروجی استخراج اطلاعات شامل، شناسایی موجودیتها ، تعیین نوع وگروه آنها، طبقه بندی ارتباط میان موجودیتها و همچنین استخراج رویدادهایی که در آن مشارکت دارند، میباشد.[71[ در نهایت میتوان گفت که خلاصه سازی، بازیابی اطلاعات، دادهکاوی، پرسش و پاسخ و درک زبان از جمله کاربردهای این سیستم هستند.
تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارتهای اسمی که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین میگردند. هدف نهایی این پایاننامه شناسایی اشارههای هم مرجع شامل ضمیر و اسم اشاره در متون پارسی میباشد. برای تحقق این هدف نیاز به انجام پیش پردازشهایی بر روی متون خام میباشد تا دادههای مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره به عنوان یک پیش پردازش میتواند در کنار سایر پیمانههای پیش پردازشی مانند تجزیهگر، شناسایی موجودیتهای نامدار و... بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]
به هر ترتیب شناسایی عبارتهای اسمی هممرجع از مهمترین زیر وظایف استخراج اطلاعات میباشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستمهای مرتبط با آن خواهد شد.
واحد مورد بررسی در حوزه تشخیص مرجع مشترک، متن می باشد که پس از اجرای ماژولهایی متفاوت، متن مورد نظر به عبارت های اسمی یا به عبارت بهتر به اشاره تبدیل میشود. روشهای موجود در این حوزه، به دو دسته روشهای زبانشناسی و روشهای یادگیری ماشین تقسیم میشوند. [76[ در روش اول، ابتدا به ازای هر عبارت اسمی، مراجع کاندیدا تعیین میشود و سپس با به کارگیری مجموعهای از قواعد زبانشناسی، برخی از کاندیداها حذف شده و کاندیداهای باقیمانده نیز امتیازدهی میشوند و درنهایت کاندیدایی به عنوان مرجع برگزیده میشود که بیشترین امتیاز را کسب کرده باشد. مسئله اصلی در این روش این است که کسب اطلاعات زبانشناسی مورد نیاز، فرآیندی زمانبر، پرهزینه و پر خطاست. البته با پیدایش پیکرههای زبانشناسی و موفقیت روشهای یادگیری ماشین در سایر حوزهها، روشهای زبانشناسی جای خود را به روشهای یادگیری ماشین دادند. در یادگیری ماشین، به محاسبات زبانشناسی پیچیده و سطح بالای روشهای زبانشناسی نیاز نیست به طوریکه با استفاده از دانش اندکی در زمینه زبانشناسی نیز میتوان به نتایج خوب و قابل توجهی دست یافت.
از سوی دیگر، امروزه اغلب پژوهشگران فرآیند تشخیص مرجع مشترک را به دو مرحله تقسیم می کنند. (۱) کشف و شناسایی اشاره؛ برای شناسایی عبارتهای اسمی که به موجودیت ها در دنیای واقعی اشاره دارند، (۲) شناسائی اشارههایی که به یک مرجع واحد اشاره دارند. به این ترتیب در مرحله اول، اکثر عبارتهای اسمی تحت عنوان اشاره و در قالب چهار گروه اصلی ضمایر، اسامی خاص، اسامی عام و غیر اشارهها قرار میگیرند،[8،910،16،48،53،72] سپس این فرآیند مشخص میکند که هر اشاره به کدام موجودیت در دنیای واقعی اختصاص دار[26]میتوان گفت که فرآیند کشف اشاره، توسعه یافتهی فرآیند شناسایی موجودیتهای نامدار میباشد که علاوه بر شناسایی اسامی خاص، به شناسایی اسامی عام و ضمایر نیز میپردازد. [،23،72،81،113،114]از آنجائیکه بررسی فرآیندهای شناسایی اشاره و تحلیل مرجع مشترک به طور همزمان خارج از حوزهی این پایاننامه است، ما عبارتهای اسمی را در قالب انواع اشارههای گفته شده در پیکرهای تحت عنوان لوتوس برچسبگذاری مینمائیم و نتیجهی آن را برای تحلیل مرجع مشترک به کار خواهیم برد.
چارچوب کلی این پایاننامه به این صورت میباشد: در بخش دوم این فصل گذری کوتاه بر انواع روابط میان دو عبارت اسمی و به خصوص ارتباطهای هممرجعی خواهیم داشت. سپس در بخش اول فصل دوم، روشهای ارائه شده برای تشخیص مرجع مشترک را مورد بررسی و مطالعه قرار میدهیم و در بخش دوم آن، به نحوه ایجاد پیکرهای مناسب برای کشف اشاره و تحلیل مرجع مشترک خواهیم پرداخت. در فصل سوم، به الگوریتمهای مناسب برای این پایاننامه را معرفی می نمائیم. سیستم پیشهنادی برای شناسایی اشارههای ارجاع شده در فصل چهارم معرفی خواهد شد و همچنین در این فصل الگوریتمهای یادشده را مورد ارزیابی قرار میدهیم. در نهایت در فصل پنجم نیز به نتیجه گیری و پیشنهاد کارهای آتی در ادامهی این پژوهش خواهیم پرداخت.
1-2.بررسی ارتباط هممرجعی
یکی از ویژگیهای خاص گفتمان این است که میتوان در یک متن آزادانه در مورد یک یا چند موجودیت صحبت کرد و برای اشاره به هر موجودیت از انواع مختلف عبارتها مانند ضمیر (او)، اسم عام (دانشمند)، اسم خاص (لطفعلی عسگر زاده) و یا یک عبارت اسمی(بنیانگذار منطق فازی) بهره برد تا به این ترتیب از تکرار عبارتها کاسته و شیوایی مطلب نیز افزایش یابد. همین ویژگی موجب میشود که زنجیرههای بالقوهای از تمام عبارتهای اسمیکه به یک موجودیت واحد در متن ارجاع دارند، ایجاد گردد. (مانند: او، دانشمند، لطفعلی عسگر زاده، بنیانگذار منطق فازی که به شخص پرفسور زاده اشاره دارند).
یکی از اهداف مهم استخراج اطلاعات، شناسایی این زنجیرهها در متن است که در فرآیند تحلیل مرجعمشترک انجام میپذیرد. برای شروع، مثال ۱ را در نظر بگیرید:
مثال۱: (سیستم آبیاری گلاب) ۱Ant, در روز سه شنبه رونمایی شد. (این سیستم)۱Ana, محصول اندیشهی (دکتر سارا شکری)۲Ant, است. (او) Ana,2، ( یک پژوهشگر)Ana در (شرکت آبیاری لاله)۳ است.
اگر فرض کنیم که پیمانههای نشانهگذاری تا کشف اشاره به عنوان پیش پردازشهایی بر روی متن اجرا شوند، با اجرای این پیمانهها، انواع عبارتهای اسمیموجود در متن (سیستم آبیاری، این سیستم، دکتر سارا شکری، او، یک پژوهشگر و شرکت آبیاری لاله) تعیین و نشانهگذاری میشوند. سپس با اجرای پیمانه تشخیص مرجعمشترک، ارتباطات میان این عبارتها و اطلاعات نهفته در مورد موجودیتهای شرکت کننده در متن آشکار میشود. به عنوان نمونه، میدانیم «او» و «سارا شکری» (با اندیسِ۲) به یک فرد مشخص و همچنین «سیستم آبیاری گلاب» و «این سیستم» (با اندیسِ۱) نیز به یک سیستم مشخص اشاره میکنند.
استفاده از اصطلاح موجودیت در تحلیل مرجعمشترک، این سؤال را مطرح میکند که چه چیزهایی موجودیت محسوب میشوند؟ تاکنون گروهبندیهای متعددی برای انواع موجودیتها ارائه شده است، به عنوان نمونهACE، یک تقسیم بندی هفت موجودیتی برای انواع موجودیتها (شخص، سازمان، مکان، سیاسی، تسهیلات، سلاح و خودرو) و تعداد زیادی زیرگروه (به عنوان مثال شخص: فرد، گروه) و کلاس برای هر موجودیت پیشنهاد کرده است و[۶۴] که اغلب پژوهشگران همه این موجودیتها و یا گاهی اوقات برخی از آنها را مورد مطالعه و بررسی قرار میدهند.
یکی از ویژگیهای تحلیل مرجعمشترک این است که علاوه بر انواع موجودیتهای رایج، میتوانیم در حوزههای متفاوت از تعاریف پیش فرض خود نیز برای موجودیتها نیز استفاده نماییم. همین ویژگی موجب شده است تا برخی از پژوهشگران مانند[97] به تحلیل مرجعمشترک در متون پزشکی پرداخته و بررسی موجودیتهایی مانند انواع دارو، بیماری، ژن وغیره را هدف پژوهش خود قرار دهند.
با توجه به آنچه تاکنون گفته شد، انتظار میرود که با بررسی مراجع مشترک در مثال ۱، عبارت «یک پژوهشگر» نیز به همراه «او» و «سارا شکری» در یک زنجیره واحد قرار گیرد، اما خروجی پیمانه تحلیل مرجعمشترک چنین نیست. هر چند از نظر ما این ارتباط کاملاً بدیهی است اما واقعیت این است که عبارت «یک پژوهشگر» به عنوان ارجاع به موجودیت شخص (در مثال ۱: سارا شکری) که در دنیای واقعی زندگی میکند در نظر گرفته نمیشود، چون منظور از «یک پژوهشگر» میتواند هر شخص دیگری نیز باشد. در این حالت فرآیند دیگری تحت عنوان تحلیل پیشایند میتواند ارتباط میان «یک پژوهشگر» و «سارا شکری» را تشخیص دهد.
همان طور که مشاهده شد، تحلیل مرجعمشترک و تحلیل پیشایند دو مفهوم نزدیک به هم میباشند به طوری که عموماً به موازات تحلیل مرجعمشترک، با تحلیل پیشایند روبرو میشویم و حتی برخی به اشتباه این دو عبارت را معادل یکدیگر میپندارند. با وجود اینکه این دو پیمانه از بسیاری از جهات با یکدیگر مشابه هستند، اما از جهاتی نیز با یکدیگر تفاوت دارند، و عدم توجه به این مسئله موجب سردرگمیو ایجاد ابهام در تحلیل متن میگردد.در این بخش، هدف ما بررسی هرکدام از این فرآیندها و مطالعه برخی از شباهتها و تفاوتهای میان این دو فرآیند میباشد.
1-۲-۱.هممرجع در مقابل پیشایند
برای اینکه بخواهیم یک سیستم تحلیل مرجعمشترک و یا یک سیستم تحلیل پیشایند را انتخاب کنیم لازم است ابتدا دو پدیده زبانشناسی پیشایند و هممرجع را به خوبی بشناسیم. شباهتها و تفاوتهای میان آنها را درک کنیم. همان طور که پیشتر نیز اشاره شد، اغلب دو عبارت پیشایند و هممرجع را به عنوان دو عبارت نزدیک یا گاهاً مترادف میشناسند به طوری که در بسیاری از پژوهشها این دو اصطلاح را به جای هم استفاده میکنند[59،85،90]
نخستین بار ارتباط میان عبارتهای اسمیتوسط کلرک در سال ۱۹۷۵ مطرح شد که آنرا تحت عنوان پلزنی پیشایند مطرح میکرد. [43] پس از آن هیرست در سال ۱۹۸۱، عبارت پیشایند را بیشتر به منظور تفسیر مخففها در متن به کار برد. هیرست معتقد بود پیشایند یک ابزار ساخت، در گفتمان است که با استفاده از آن یک مخفف به یک یا چند عبارت غیر مخفف که پیش از آن در متن آمدهاند، اشاره میکند تا به این ترتیب با استفاده از عبارتهای پیشین، عبارت مخفف تفسیر شود. مفهوم پیشایند با یک جفت عبارت همراه است که عموماً عبارت ارجاعدهنده را با عنوان «تالی» و عبارت مفسر را با عنوان «مقدم» یا «مرجع» میشناسیم. هیرست این دو عبارت ارجاع دهنده و مرجع را با هم «همارجاع » و فرآیند شناسایی یک مقدم برای یک تالی، را «تحلیل» مینامد.[ 34]
در سال 1998 نیز هیرسکمن و چینکور اصطلاح هممرجع را کنفرانس تشخیص پیام یا به اختصار MUC استفاده کردند[24،59] آنها و بسیاری از پژوهشگران دیگر، زمانی دو عبارت را با یکدیگر هممرجع در نظر میگیرند که هر دو عبارت دقیقاً به یک موجودیت در دنیای واقعی اشاره داشته باشند. البته این پژوهشگران تفاوتی میان دو رابطهی هممرجعی و پیشایندی در نظر نگرفته بودند، تا اینکه این مسئله با انتقاد ون و کیبل مواجه شد به طوری که آنها این دو اصطلاح را از دیدگاهی دیگر مورد بررسی قرار دادند و برخی از نقاط مشترک و تفاوت های آنها را مطرح نمودند.[۵۸]
1-۲-۱-۱.ارتباط هممرجع:
ارتباط میان دو عبارت اسمیمانند ۱a و ۲a زمانی به عنوان ارتباط هممرجع در نظر گرفته میشود که هر دو عبارت اسمی به عنوان ارجاعهایی مشخص، یک موجودیت فرا زبانشناسی واحد را تفسیر نمایند. به واسطهی این تعریف نیاز است تا به طور جداگانه مرجع هرکدام از عبارت اسمیReference(ai) شناسایی شود. در نهایت یک ارتباط هممرجعی به صورت ذیل خواهد بود :
(۱) عبارات اسمی۱a و ۲a با یکدیگر هممرجع هستند اگر و تنها اگر Reference(a1)= Reference(a2) باشد.
مثال ۲: (باراک اوباما)۱Ant,، به سوریه سفر کرد. (او) ۱Ana, گفت...
جدول 1-۱: مقایسه ویژگیهای دو ارتباط هممرجع و پیشایند
هممرجعی پیشایندی
۱) یک رابطه هممرجعی یک رابطهی هم ارزی است به عنوان نمونه «او» و «باراک اوباما» هر دو به یک موجودیت اشاره دارند. ۱)یک رابطهی پیشایندی، متقارن نیست. به این معنا که اگر ۱a به عنوان مقدم برای 2a در نظر گرفته شود عبارت اسمی۲ a نمیتواند متقابلاً نقش مقدم را برای عبارت اسمی۱a ایفا نماید.
۲)رابطه هممرجعی یک رابطهی متقارن است، به این معنا که اگر «او» با «باراک اوباما» هممرجع است «اوباما» نیز با «او» هممرجع میباشد. ۳)ارتباط میان عبارتهای اسمیهممرجع، متعدی است به این معنا که اگر «او» با «باراک اوباما» هممرجع است و «او» نیز با «رئیس جمهور آمریکا» هممرجع باشد بنابراین حتماً «باراک اوباما» نیز با «رئیس جمهور آمریکا» هممرجع میباشد. ۲)رابطهی پیشایندی یک جفت از عبارتهای اسمیرا در نظر میگیرد به طوری که در این رابطهیک عبارت نقش مفسر و دیگری نقش ارجاع دهنده را دارند. بنابراین به طور ذاتی این رابطه غیرمتعدی میباشد.
۴) یک ارتباط هممرجعی یک ارتباط فرا متنی است به این معنا که تفسیر هیچ کدام از عبارتهای اسمیهممرجع به محتوای متن وابسته نمیباشد. به عبارت دیگر، دو عبارت هممرجع لزوماً برای تفسیر به یکدیگر وابسته نیستند. ۳)این رابطه به محتوای متن حساس است به این دلیل که تالی یا عبارت ارجاعدهنده برای اینکه مفهوم باشد نیاز به مفسر یا تفسیر دارد.
۵)یک رابطهی هممرجعی خالص میتواند در تحلیل مرجعمشترک در متون متقاطع به کار رود. ۴)معمولاً تالی یا عبارت ارجاعدهنده در یک رابطهی پیشایندی، به دیگر اجزای تشکیلدهنده در همان جمله و یا نزدیکترین اظهارات ممکن در گفتمان اشاره دارد.
۶) برخی از عبارتهای اسمیذاتاً با یکدیگر هممرجع هستند به عنوان مثال «پرفسور زاده» و «بنیان گذار منطق فازی»، این دو عبارت هر کجا که باشند به یک موجودیت به نام «پرفسور زاده» اشاره خواند داشت. به عبارت دیگر چنین ارتباطی یک ارتباط هممرجعی خالص نامیده میشود ۵) یک تالی تنها نیاز به یک مفسر دارد تا آنرا تفسیر نماید بنابراین اگر چندین مفسر برای آن در متن وجود داشته باشد مناسبترین و نزدیکترین آنها انتخاب خواهد شد.
۷)بیشتر برای استخراج اطلاعات در خصوص یک یا چند موجودیت در متن به کار میرود. ۶) به درک بهتر متن و رفع ابهام برخی از واژگان در متن کمک میکند.
1-۲-۱-۲.ارتباط پیشایندی:
یک ارتباط پیشایندی، از یک جفت عبارت اسمی(۱aو۲a) تشکیل میشود به طوری که عبارت اول نقش مفسر را برای عبارت دوم ایفا نماید. بنابراین یک ارتباط پیشایندی به صورت ذیل تعریف میشود:
(2)عبارت اسمیاول(۱a) به عنوان مقدم برای عبارت اسمیدوم (۲a) در نظر گرفته میشود اگر و تنها اگر ۲a برای تفسیرش به ۱a وابسته باشد
مثال ۳: هنگامیکه پسر وارد (اتاق)Ant شد، (درب)Ana به طور خودکار بسته شد.
همانطور که در مثال۳ مشاهده میشود، دو عبارت اسمیفوق با یکدیگر هممرجع نمیباشند اما دارای یک مرجع گفتاری مشابه هستند یا به تعبیر [۶2] با یکدیگر همواژگان هستند. در این مثال، عبارت اسمی«درب» به عبارت اسمی«اتاق» وابستگی دارد (به عبارت بهتر، منظور از «درب»، دربِ اتاق ذکر شده است نه دربِ ساختمان یا دربِ خودرو یا هر دربِ دیگری)
در جدول1-۱ برخی از ویژگیهای هر کدام از روابط پیشایندی و هممرجعی را قرار دادهایم. توجه به این ویژگیها به درک بهتر نقاط تشابه و اختلاف این دو رابطه کمک فراوانی مینماید.
همچنین باید اضافه کنیم که دو عبارت اسمی میتوانند به طور همزمان هم رابطهی هممرجعی و هم رابطهی پیشایندی داشته باشند. البته این بدین معنا نیست که هرگاه دو عبارت اسمی با یکدیگر هممرجع باشند، با یکدیگر ارتباط پیشایندی نیز داشته باشند و یا بالعکس.
شکل 1-۱: انواع روابط ممکن میان دو عبارت اسمی
شکل 1-۱، ارتباط میان دو عبارت اسمی را با در نظر گرفتن چند حوزه مشخص نمایش میدهد. ما این حوزهها را با توجه به مفاهیم هممرجعی و پیشایندی تفسیر خواهیم نمود. دو عبارت اسمیدر صورتی که با یکدیگر مرتبط باشند، میتوانند هم دارای ارتباط هممرجعی و هم دارای ارتباط پیشایندی باشند. مانند آنچه در مثال۴ آمده است.
مثال ۴: (علی کریمی)Ant,1 در نیمه دوم، ۲ گل به ثمر رساند. به طوری که به عنوان (محبوبترین بازیکن پرسپولیس)Ana.1 در این بازی تشویق شد.
در میان عبارتهای اسمیای که دارای چنین ارتباط دوجانبهای هستند میتوان به برخی از ضمایر و مراجع آنها نیز اشاره کرد. البته مثالهای ۵ و ۶ نشان میدهند که همه ضمایر و مراجعشان در این رابطه صادق نیستند.
مثال ۵: )هر سگیAnt( زندگی )خودشAna( را دارد.
مثال ۶: اگر (یک خانه)Ant داشتم (آن)Ana را به تو اجاره میدادم.
در مثال ۵، ارتباط میان «هر سگی» و «خودش» یک ارتباط پیشایندی از نوع «ارتباط دهنده» یا «باهمآیی» میباشد؛ و یا در مثال ۶، «یک خانه» در دنیای واقعی وجود خارجی ندارد. بنابراین طبق تعریفِ ارتباطِ هممرجعی، «یک خانه» نمیتواند به عنوان هممرجع برای «آن» در نظر گرفتهشود.[76] همان طور که در شکل 1-۱ مشاهده میشود، عبارتهای اسمیکه از نوع پیشایندی هستند اما ارتباط هممرجعی ندارند در حوزه پیشایندهای «ارتباطدهنده» قرار میگیرند [80،87] اغلب پژوهشگران این نوع پیشایند را زمانی به کار میبرند که در جفت عبارت (مقدم و تالی)، عبارت مقدم به وضوح در متن ظاهر نشده باشد و با استفاده از برخی از موجودیتهایی که قبلاً در متن اشاره شده است میتوان وجود آنها را اثبات کرد. مثال ۳، یک نمونه مناسب برای این نوع از پیشایندها میباشد. در این مثال ارتباط میان دو عبارت «درب» و «اتاق» از نوع مرونیمیک است به این معنا که «درب» جزئی از «اتاق» محسوب میشود.
یکی دیگر از انواع ارتباط پیشایندی، پیشایند صفر است. مثال ۷ نمونهای از این ارتباط را نشان میدهد.
مثال ۷: (دو جاده به سمت اصفهان)Ant میرود، (یکی اتوبانی و سریع)Gap1 و (دیگری خاکی و خطرناک)Gap2 است.
در حقیقت پیشایندهای صفر، یکی از انواع پیشایندهای کاهش یافته میباشند به این ترتیب که لزوماً به صورت عبارتهای اسمی نیستند بلکه به صورت یک شکاف در یک عبارت ظاهر میشوند.[35] در مثال۷ منظور از «اتوبانی و سریع» و «خاکی و خطرناک»، دو جادهای است که به سمت اصفهان میروند. هدف از تحلیل پیشایندهای صفر، شناسایی چنین روابطی است.
یکی از حالتهای ارتباط پیشایند صفر، ضمایر صفر میباشد که تحلیل آن در برخی زبانها مانند ژاپنی[92]، اسپانیایی[62] و حتی پارسی بسیار حیاتی است. در این نوع از پیشایندها، یکی از ارکان در جفت(مقدم،تالی) حذف میشود. نمونهای از این نوع پیشایند، مثال ۶ میباشد که منظور از گوینده چنین است: «اگر من یک خانه داشتم آنرا به تو اجاره میدادم».
در نهایت دو عبارت اسمیمیتوانند تنها از نوع هممرجع خالصباشند. ما این ارتباط را با مثال «پرفسور زاده»، «پدر منطق فازی» و «بنیانگذار منطق فازی» تفسیر مینماییم. همان طور که میدانید هر سه عبارت مذکور به شخص«پروفسور لطفعلی عسگرزاده» اشاره دارند اما اگر عبارت اسمیاول، یعنی «پرفسور زاده» در متن عنوان نشود، باز هم میدانیم که عبارتهای اسمی «پدر منطق فازی» و «بنیانگذار منطق فازی» با یکدیگر هممرجع هستند. نمونهی دیگری از یک ارتباط هممرجعِ خالص، ارجاع انواع عبارتهای اسمیبه «باراک اوباما»، در پاراگرافها، مکالمات با حتی متون متمایز است. اغلب نمونههایی از روابط هممرجع خالص در مستندات متقاطع مشاهده میشود. با تکیه بر این مفهوم برخی از پژوهشگران مانند [88] به تحلیل مرجعمشترک در متون متقاطع پرداختهاند.
نکتهی دیگر اینکه، در همه پژوهشهایی که برای شناسایی مرجع ضمیر در زبانهایی مانند انگلیسی انجام شده است، همیشه مرجع ضمیر پیش از ضمیر قرار میگیرد. اما در زبان پارسی این امکان وجود دارد که مرجع یک ضمیر پس از آن قرار گیرد. مثال ۸ ، نمونهای از زبان پارسی میباشد که این مسئله را نشان میدهد.
مثال ۸: سی.ان.ان به آمریکا و جهان چنان شوکی وارد کرد که حتی (خود)Ana,1( ترنر)Ant,1 نیز آنرا باور نمیکرد.
بطورکلی، آنچه مبرهن است برای شناسایی و بررسی هر کدام از روابط پیشایندی و یا هممرجعی، نیاز به دانشهای واژگانی و زبانشناسی در زبان مورد نظر میباشد. به طوری که هر چقدر یک رابطه هممرجعی بیشتر پیشایندی باشد به دانش زبانشناسی بیشتری نیاز دارد. در همین راستا، شکل 1-۲، میزان ارتباط میان حوزههای گفته شده را با هر کدام از انواع دانشهای زبانشناسی و واژگانی نمایش میدهد.
شکل 1-۲: میزان ارتباط میان حوزهها با انواع دانشهای زبانشناسی و واژگانی
1-۲-۲.تحلیل پیشایند:
یکی از وظایف مهم پردازش زبان طبیعی است که موجب کاهش ابهام عبارتهای اسمی به کار رفته در متن میشود. به طور کلی این فرآیند وابستگی و پیوند میان دو عبارت تالی و مقدم را به گونهای تشخیص میدهد که عبارت مقدم، عبارت تالی را تفسیر نماید.
1-۲-۳.تحلیل مرجعمشترک:
با توجه به آنچه گفته شد، تحلیل مرجعمشترک، به فرآیند مرتبط کردن تمام عبارتهایی گفته میشود که به یک موجودیت واحد در دنیای واقعی اشاره دارند. این عبارتهای اسمیهممرجع، با هم تشکیل یک زنجیره واحد را میدهند که شامل ضمایر صفر تا اسامیخاص خواهد بود. تمام اعضای تشکیل دهندهی این زنجیره باید از نظر تعداد، جنس و... با یکدیگر هم تراز باشند.
1-۲-۴.تقابل تحلیل مرجعمشترک و تحلیل پیشایندی:
با توجه به آنچه تا کنون درباره دو مفهوم تحلیل مرجعمشترک و تحلیل پیشایند گفته شد، این دو وظیفه با وجود شباهت زیادی که با یکدیگر دارند، دو وظیفه مجزا محسوب میشوند. بدینترتیب که با به کارگیری فرآیند تحلیل مرجعمشترک، سیستم میتواند تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد را شناسایی نماید. از طرفی دیگر تفسیر درست پیشایندها در متون به رفع ابهامات موجود در متن میانجامد؛ لذا استفاده از این دو وظیفه با در نظر گرفتن حوزههای تشابه و اختلاف آنها به درک و استخراج اطلاعات مفید در متن کمک فراوانی خواهد نمود. در این بخش با استفاده از مثالهایی لزوم اجرای این دو فرآیند را در کنار یکدیگر بررسی میکنیم.
پس از شناخت فرآیندهای تحلیل مرجعمشترک و تحلیل پیشایند و اینکه یک سیستم چه انتظاراتی را باید برآورده نماید، لازم است تا روال کار را برای اجرای هر فرآیند را مشخص نماییم. استفاده از الگوریتمهای یادگیری، از پرکاربردترین روشهای ارائه شده برای شناسایی روابط مثبت و منفی در مرجعمشترک و پیشایند میباشد. به این ترتیب که الگوریتم با استفاده از برخی ویژگیها (مانند [105]( آموزش میبیند تا روابط مثبت و منفی را پیشبینی نماید. البته شایان ذکر است که برخی از ویژگیها برای این دو فرآیند مشترک و برخی دیگر متفاوت میباشد. به عنوان مثال ویژگی تطابق رشتهای از جمله مواردی است که برای تحلیل مرجعمشترک بسیار مورد توجه قرار گرفته است اما در فرآیند تحلیل پیشایند کاملاً بی معنا است( دو عبارت یکسان چگونه میتوانند یکدیگر را تفسیر نمایند). به عبارت دیگر فرض بر این است که دو عبارت اسمیکه در یک متن تکرار میشوند به احتمال خیلی زیاد هممرجع هستند.
مثال ۹: دیروز دو تیم محبوب «الف» و «ب» به مصاف یکدیگر رفتند. تیم «الف»، در نیمه اول بسیار درخشید به طوری که طرفداران این تیم به پیروزی تیمشان امیدوار بودند. اما دیری نپایید که تیم «ب» روال بازی را به نفع خود تغییر داد که منجر به شادمانی طرفداران این تیم شد.
همان طور که در مثال ۹ مشاهده میشود، عبارت اسمی«طرفداران این تیم» در خطوط ۲ و ۳ عیناً تکرار شده است. بنابراین طبق ویژگی تطابق رشتهای در فرآیند تحلیل مرجعمشترک این دو عبارت با یکدیگر هممرجع در نظر گرفته خواهند شد، اما واقعیت این است که این دو عبارت با یکدیگر هممرجع نیستند. به عبارتی قرار گرفتن این دو عبارت در یک زنجیره واحد یکی از خطاهای تحلیل مرجعمشترک محسوب میشود. در حالی که استفاده از فرآیند تحلیل پیشایندی موجب رفع این خطا خواهد شد. این کار به این ترتیب انجام خواهد گرفت که عبارت «طرفداران این تیم» در خط ۳ با اولین و نزدیکترین مفسر خود یعنی «تیم ب»، تشکیل یک جفت تالی و مقدم را میدهند و به همین ترتیب «طرفداران این تیم» در خط ۲ با «تیم الف» جفت خواهد شد. این مثال نمونهایست که در آن دقتِ تحلیل پیشایندی از تحلیل مرجعمشترک پیشی میگیرد.
طبق آنچه در فرآیند تحلیل پیشایندی رایج است. هنگام شناسایی مقدم برای هر عبارت تالی، حرکت از تالی به سمت عبارتهای اسمیماقبل آن انجام خواهد شد تا به این ترتیب، جفت عبارتهای (مقدم و تالی) شناسایی شوند. همان طور که پیش از این اشاره شد، فرآیند تشخیص مرجع ضمیر نیز از همین رویکرد پیروی مینماید، با این تفاوت که در برخی موارد مقدم (در اینجا منظور مرجع ضمیر است) بعد از تالی قرار میگیرد (مانند مثال ۸). بنابراین حرکت الگوریتم (راست به چپ) نمیتواند به شناسائی مرجع صحیح برای ضمیر مورد نظر منجر شود. در حالی که اجرای وظیفهی تحلیل مرجعمشترک، با شناسایی عبارتهای هممرجع، تا حد زیادی این مشکل را برطرف خواهد نمود. حرکت الگوریتم در تحلیل مرجعمشترک نیز از راست به چپ خواهد بود با این تفاوت که نقطه شروع آن میتواند انتهای متن باشد، هر عبارت اسمیجدید که با عبارتهای پیش از خود هممرجع باشد به زنجیرههای موجود اضافه میشود، در غیر این صورت خودش تشکیل زنجیرهای جدید را خواهد داد. در چنین حالتی فراخوانی و دقت در تحلیل مرجعمشترک نسبت به تحلیل پیشایندی پیشی میگیرد.
به همین ترتیب نیز راهکارهای ارائه شده برای هر کدام از این فرآیندها تا حدودی با یکدیگر متفاوت میباشد. به عنوان نمونه یک رویکرد در فرآیند تحلیل پیشایندی افراز پس از آموزش الگوریتم یادگیری است که تنها به منظور افرازِ جفتهای (مقدم و تالی) صورت میگیرد. به این ترتیب که پس از ایجاد نمونههای مثبت و منفی که عموماً توسط یک ردهبند ایجاد میشوند، نزدیکترین و مناسبترین مقدم برای تالی مورد نظر مشخص میشود. در مقابل برخی پژوهشگران برای تحلیل مرجعمشترک را یک فرآیند دومرحلهای در نظر میگیرند؛ در مرحلهی اول به جای استفاده از دو اصطلاح تالی و مقدم، اصطلاحاتی مانند «قابل برچسب» و یا «اشاره» جایگزین میشود. هر اشاره میتواند خروجی فرآیند کشف و شناسایی اشاره باشد. توجیه این جایگزینی این است که ما در تحلیل مرجعمشترک به مفاهیم مفسر یا ارجاع دهنده نیاز نداریم و به جای آن اصلاحِ مستقلِ اشاره را جایگزین مینماییم. هر اشاره به عنوان یک ارجاع به هر گروه از موجودیتها در نظر گرفته میشود و میتواند یکی از انواع اسم عام، اسم خاص و حتی ضمیر (یا شبه ضمیر) باشد. همچنین سایر عبارتهای موجود در متن که برای تحلیل مرجعمشترک کاربرد ندارند، به عنوان خارج از اشاره در نظر گرفته میشوند. در مرحلهی دوم نیز فرآیند تحلیل عبارتهای اسمیهممرجع انجام خواهد شد.
1-3.جمعبندی:
در این فصل، تحلیل مرجع مشترک را به طور دقیق تر مورد بررسی قرار دادیم، آنچه مشخص است این فرآیند به دنبال پیدا کردن ارتباطات هممرجع در متن میباشد. در پژوهشهای انجام شده گاهی یک ارتباط هممرجع با ارتباط مشابه دیگری به نام ارتباط پیشایندی مترادف محسوب میشود. حتی گاهی ما یک ارتباط را هممرجع میپنداریم که هممرجع نیست.
از آنجائیکه ما برای انجام تحلیل مرجع مشترک در زبان پارسی نیاز به پیکرهای با برچسب گفتمان خواهیم داشت، لازم بود تا این ارتباطات را به طور دقیق بشناسیم. تا بر اساس آن بتوانیم پیکرهای با روابط صحیح ایجاد نمائیم. به علاوه این شناخت میتواند به انتخاب راهکارهای مناسب برای فرآیند تحلیل مرجع مشترک نیز کمک شایانی داشته باشد و در نهایت نیز شناخت روابط و راهکارهای مناسب برای تشخیص هر کدام از انواع روابط میان عبارتهای اسمی مرتبط با هم، می تواند به ایجاد یک سیستم چند گذری، مانند آنچه لی 2011، بنسکو2012 ارائه داده اند کمک کند. [41،80]به این ترتیب که در هر گذر، یکی از انواع و حالتهای موجود مورد بررسی و تحلیل قرار گیرد و در نهایت با اجماع نتایج حاصل شده، فرایند تحلیل اتمام یابد.
فصل دوم
بخش اول
2-۱-1. پیشینه تشخیص مرجع مشترک
تشخیص مرجع مشترک، یکی از مهمترین وظایف استخراج اطلاعات است که با شناسایی عبارات اسمی (اشارههایی) که به یک موجودیت واحد اشاره دارند، همراه میباشد.[58]به این ترتیب که این اشارهها تشکیل یک زنجیرهی هممرجع را میدهند. در این فصل برخی از روشهایی که در زمینه تشخیص مرجع مشترک بکارگرفته شدهاند را بررسی مینماییم. از آنجائیکه تا کنون پژوهش منتشر شدهای در این زمینه در زبان پارسی پیدا نکردیم، در این بخش به بررسی روشهای ارائه شده در سایر زبان ها(انگلیسی، عربی، چینی و...) میپردازیم.
به طور کلی روشهای تشخیص مرجع مشترک به دو دسته کلی زبانشناسی و روشهای یادگیری ماشین تقسیم میشوند. به این ترتیب که در روشهای زبانشناسی، بسیار نیازمند دانش زبانشناسی هستیم. استخراج این دانش از متن، فرآیندی زمانبر و پرخطاست. نخستین الگوریتمهای زبانشناسی مرتبط با تشخیص مرجع مشترک در اواخر دهه هفتاد ارائه شدند که در آنها از دانش زبانشناسی و معنایی بسیاری استفاده شدهاست.[19،60] پس از آن، با گذر زمان و فراهم شدن پیکرههای زبانشناسی، این روشها، جای خود را به روشهای آماری دادند. در روشهای آماری، دانش مورد نیاز بیشتر با استفاده از پیکرههای بزرگ و روشهای آماری کسب میشود و نسبت به روش قبل، به دانش زبانشناسی کمتری نیاز است و همچنین به نتایج بهتری نیز بدست میآید.[105] در ادامهی این بخش نخست به مرور مختصری از شیوههای کلی روشهای زبانشناسی میپردازیم. سپس روشهای یادگیری ماشین را با تفصیل بیشتری بیان خواهیم نمود.
2-1-۲. روشهای زبانشناسی
عموماً روشهای زبانشناسی به منظور تشخیص مرجع مشترک، از مجموعهای از فاکتورها بهره میگیرند. تطابق جنس و عدد (چندم شخص ، مفرد/ جمع)، محدودیتهای تطبیق معنایی، مشابهت معنایی، مشابهت نحوی، بارز بودن، مجاورت و غیره از جمله فاکتورهای متداول برای تشخیص مرجع مشترک میباشند. این فاکتورها میتوانند «حذفکننده» یا «امتیازدهنده» باشند. جدول 2-۱ این فاکتورها را به تفکیک «حذفکننده» و «امتیازدهنده» نمایش میدهد.
جدول2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک
«حذفکننده» «امتیازدهنده»
تطبیق جنس و تعداد
تطبیق معنایی مشابهت معنایی
مشابهت نحوی
بارز بودن
مجاورت
در روشهای زبانشناسی، روال کار به این صورت است که ابتدا به ازای یک عبارت تالی، عبارات مقدم(عبارات هممرجع) کاندیدای آن تعیین میگردد. پس از آن با استفاده از فاکتورهای «حذفکننده»، برخی از کاندیداها حذف میشوند، سپس فاکتورهای امتیازدهنده به امتیازدهی کاندیداهای باقیمانده میپردازند. در نهایت نیز کاندیدایی که بیشترین امتیاز را کسب کرده باشد به عنوان عبارت مقدم که با عبارت اسمی مورد نظر هممرجع میباشد، انتخاب خواهد شد.
2-1-۲-۱.فاکتورهای «حذف کننده»
2-1-2-1-1.تطبیق جنس و عدد
این دو فاکتور بررسی میپردازند که آیا دو عبارت اسمی از نظر جنس و تعداد با یکدیگر مطابق هستند یا خیر.
Alii asked Zahraj and Herj sistersk that leave himi alone مثال1:
همان طور که مشاهده میشود در مثال بالا "her sisters" نمیتواند با "him" هممرجع باشد چراکه از نظر جنس و تعداد با یکدیگر مطابقت ندارند.
2-1-2-1-2 .تطبیق معنایی
این فاکتور از این جهت به کار میرود که اگر یک عبارت اسمی در یک حوزه معنایی صادق بود، عبارت اسمی هممرجع آن نیز باید در آن محدودهی معنایی صادق باشد.
Alii closed the windowj and cleaned itj : مثال 2
همانطور که مشاهده میشود، ضمیر it"" تنها میتواند با عبارت اسمی "window" که غیرجاندار و قابل تمیز کردن است هممرجع باشد.
2-1-۲-۲. فاکتورهای امتیازدهنده
فاکتورهای امتیازدهنده، برخلاف فاکتورهای حذفکننده که الزاماً باید بررسی شوند اجباری نیستند. به این ترتیب لزومی ندارد که تمامی عبارتهای اسمی با مرجع مشترک دارای این فاکتورها باشند. در این بخش سه فاکتور مشابهت نحوی، مشابهت معنایی و بارز بودن را به همراه مثال شرح میدهیم.
2-1-2-2-1. مشابهت نحوی
این امتیاز زمانی به یک عبارت اسمی تعلق میگیرد که نقش نحوی آن با عبارت اسمی هممرجع کاندیدا یکسان باشد.
The programmeri finally combined the Prologj with Pascalk, currently heiمثال3:
had combined itj with Cm
در مثال فوق، از آن جایی که عبارت اسمی "prolog" با "it" نقش نحوی یکسانی دارد، برای هممرجع بودن با آن امتیاز بیشتری به عبارت اسمی "Pascal" دارد.
2-1-2-2-2. مشابهت معنایی
مشابهت معنایی، نسبت به فاکتور قبل، تاثیر بیشتری در امتیازدهی دارد. با این تفاوت که تنها سیستمهایی میتوانند از آن بهره ببرند که قادر به تعیین خودکار نقش معنایی هر عبارت باشند. این فاکتور، به عبارت اسمی که نقش معنایی یکسانی با عبارت اسمی مورد نظر داشته باشد، امتیاز بیشتری میدهد.
Alii gave the book to Rezaj; Zahrak also gave himj a notebook مثال4:
در مثال فوق، احتمال هممرجع بودن ضمیر "him" با " Reza"بیشتر است به این دلیل که عبارت اسمی ""Reza، نسبت به ""Ali دارای امتیاز بالاتری میباشد و همچنین نقش نحوی "Reza" باHim" " یکسان است.
2-1-2-2-3.بارز بودن
هر چند دو فاکتور قبل در انتخاب یک مقدم برای تالی مورد نظر، بسیار قوی هستند، اما این فاکتورها همیشه برای تفکیک میان مجموعه کاندیدا از عبارات اسمی مقدم کافی نیستند. بعلاوه این عوامل به جای پیشنهاد کاندیدای محتملتر، بیشتر مانند یک فیلتر برای حذف کردن کاندیدای نامناسب به کار میروند.
در این میان، هنگامی که در انتخاب مقدم کاندیدا ابهام وجود داشته باشد، معمولا عبارت اسمی که بارزتر از سایرین است، دارای امتیاز بیشتری برای عبارت اسمی مقدم میباشد. بارزترین عنصر در زبانشناسی محاسباتی، بهعنوان کانون توجه و یا مرکز در نظر گرفته میشود [10،60]
Jennyi put the cupj on the platek and broke it? مثال 5 :
همان طور که در مثال بالا مشاهده مینمایید نه تنها رایانه، بلکه حتی انسان نیز قادر نیست تا مرجع ضمیر "it" را مشخص نماید. البته در صورتی که این جمله، بخشی از یک متن باشد، میتوان بارزترین عنصر را در متن شناسایی نمود. به این ترتیب با توجه به متن مثال 6 میتوان مشاهده نمود که "The cup" بارزترین موجودیت در متن بوده و به همین دلیل بهعنوان کانون توجه در کل متن در نظر گرفته میشود.
مثال6:
Jenny went window shopping yesterday and spotted a nice cup. She wanted to buy it, but she had no money with her, nevertheless, she knew she would be shopping the following day, so she would be able to buy the cup then. The following day, she went to the shop and bought the coveted cup. However, once back home and in her kitchen, she put the cup on a plate and broke it…
به این ترتیب میتوان نتیجه گرفت که هرگاه دو کاندیدا در شرایط یکسانی قرار گرفته باشند، فرآیند تعیین عبارت مقدم، به فرآیند تعیین بارزترین عنصر جمله تبدیل میشود.
همان طور که گفته شد، روشهای زبانشناسی، برای تشخیص مرجع مشترک از دانشهای نحوی، معنایی، ریخت شناسی و حتی دانش جهان استفاده میپردازند. به این ترتیب کسب این حجم عظیم از اطلاعات فرآیندی پرهزینه، زمانبر و همچنین پرخطا را به دنبال خواهد داشت. به همین دلیل و به علت پدید آمدن پیکرههای بزرگ زبانشناسی، پژوهشگران به سمت استفاده از روشهای آماری ترغیب شدند.
2-1-۳. روشهای یادگیری ماشینی
در سیستمهای مبتنی بر یادگیری ماشین، دانش مورد نیاز از طریق استفاده از الگوریتمهای یادگیری و مجموعه دادههای آموزشی کسب میشود. شاید بتوان گفت که استفاده از روشهای یادگیری ماشینی در فرآیند تشخیص مرجع مشترک نخستین بار توسط مک کارتی و همکارانش در سال ۱۹۹۵ و با به کارگیری مدلهای درخت تصمیم انجام شد[52]
یکی از رویکردهای ارائه شده در تحلیل مرجع مشترک، تحلیل مرجع مشترک پایان به پایان میباشد؛ این رویکرد میتواند به دو صورت دنبال شود، (۱) دریافت متن خام و انجام تمام پیش پردازشها بر روی متن و در نهایت تحلیل مرجع مشترک، (۲) استفاده از متونی که در آنها عبارتهای اسمیای که به موجودیتها ارجاع دارند، در قالب «اشارهها» نشانهگذاری شده باشند.[63] به طوریکه هر اشاره دارای برچسبهای باشد تا ویژگیهای آن اشاره را نمایان سازد.
با تکیه بر این مسئله نخستین بار سون و همکارانش در ۲۰۰۱، از پیش پردازشهایی مانند برچسبگذاری ادات سخن، شناسایی موجودیتهای نامدار و ... استفاده کرده و در نهایت تمام نتایج حاصل از پیش پردازشها را با هم ادغام نمودند. به این ترتیب آنها توانستند به اطلاعات مناسبی برای اشارهها دست پیدا کنند. به دنبال آنها این مسئله به طور گستردهتر مورد توجه پژوهشگران قرار گرفت. به طوریکه در اغلب پژوهشهایی که از انواع روشهای ردهبندی برای تشخیص ارتباط میان اشارهها استفاده شدهاست، مشخص نمودن مجموعهای از ویژگیهای مناسب یک مسئله حیاتی برای شروع کار محسوب میشود. این مجموعه ویژگیها در تعیین اینکه آیا دو عبارت اسمی با هم، هممرجع هستند یا خیر، موثر میباشند. بعلاوه، این ویژگیها باید به اندازه کافی عمومیباشند تا بتوان آنها را برای متن ها در زمینههای متفاوت و انواع گوناگون اسمها و عبارتهای اسمی به کار برد.
2-1-۳-۱. ویژگیها:
از لحاظ زبانشناسی ویژگیهای گفته شده به چهار دستهی لغوی، نحوی، معنایی و فاصله (مکانی) تقسیم میشوند.[105] البته، در طی سالهای اخیر پژوهشگران برای بهبود نتایج تحلیل مرجع مشترک دامنهی ویژگیها را گسترش دادهاند، به طوریکه برخی از پژوهشگران معتقدند اگر یک بازنمائی مناسب از ویژگیهای غنی وجود داشتهباشد، حتی یک مدل ساده نیز میتواند مانند تکنولوژیهای جدید عمل نماید.[45]در جدول2-۲ یک طبقهبندی از ویژگیهای رایج برای تحلیل مرجع مشترک آورده شده است.
2-1-۳-۲. مدلهای جفت اشاره:
یکی از روشهای رایج برای تحلیل مرجع مشترک، استفاده از ردهبندی دودوئی میباشد؛ در روشهای ردهبندی، تصمیمگیری بر اساس یک جفت اشاره صورت میگیرد. عموماً روال کار به این ترتیب است که دو اشاره توسط یک ردهبند دریافت میشود و درنهایت مشخص میشودکه آیا دو عبارت با یکدیگر هممرجع هستند یا خیر. حتی در برخی موارد میزان احتمالِ هممرجع بودن آنها نیز تعیین میگردد. در آخر نیز مجموع این تصمیمات دوبهدو به مسئلهی افراز اشارهها تبدیل میگردد. که میتواند با استفاده از خوشهبندی و یا هر روش افراز دیگر انجام گیرد. یکی از محاسن این دسته از روشها در سادگی آنها میباشد. علاوه براین، مدلهای بسیاری برای حل مسائل ردهبندی وجود دارند که از کارائی بالایی برخوردار میباشند. از سوی دیگر، مشکل این دسته از روشها در این است که تصمیمگیری در مورد جفت عبارات اسمی، به صورت مستقل انجام میگیرد و روابط متعددی در تصمیمگیری در نظر گرفته نمیشود. به عبارت دیگر مشکلی به نام «ناسازگاریهای سهگانه» بوجود خواهند آمد. بهعنوان مثال، در روشهای ردهبندی، اگر عبارتهای "Mrs. Kazemi" و "Kazemi” هممرجع باشند احتمال اینکه عبارتهای "Kazemi “و "he" نیز با هم، هممرجع باشند وجود دارد [6]. از آنجائیکه این دو تصمیم به طور جداگانه گرفته میشود؛ امکان بروز این خطا که در جفت اول، جنس از نوع مونث، اما در عبارت دوم، جنس از نوع مذکر است و هر سه نمیتوانند به یک مرجع مشترک اشاره داشته باشند، غیر قابل اجتناب است.[63،76]
برطرف کردن چنین مشکلی به مسئله خوشهبندی برمیگردد. البته شایان ذکر است که بر طرف کردن چنین خطایی در زبان پارسی، حتی با استفاده از خوشهبندی نیز آسان نخواهد بود، چرا که جنسیت در زبان پارسی مشخص نیست، در هر حال، با توجه به این مسئله، روال کار در مدلهای مبتنی بر جفت اشاره در دو مرحله انجام خواهد شد. اما پیش از آنکه بخواهیم هر کدام از این دو مرحله (رده بندی و افراز) را شرح دهیم، به طور خلاصه به روال تولید نمونههای آموزشی مثبت و منفی از متن ورودی میپردازیم.
جدول2-۲: برخی از ویژگیهای ارائه شده در تحلیل مرجع مشترک[12،44،45،50،65،77،82،103،105]
ویژگی توضیح
فاصله این ویژگیها، فاصله میان دو عبارت اسمی(mi , mj) را در قالب تعداد جملات بین دو عبارت، تعیین میکنند.
تطبیق این ویژگیها، تطبیق عدد و جنس دو عبارت اسمی(mi , mj) را مشخص مینمایند.
نوع عبارت اسمی این ویژگیها، نوع عبارات اسمی را بررسی میپردازند که میتواند هم از طریق تحلیل نحوی و هم از طریق رویکردهای سطحی مشخص شود. عموما انواع عبارات اسمی به سه دسته اسم عام، اسم خاص، ضمایر تقسیم میشوند.
*شناسایی نوع عبارتهای اسمی در زبان انگلیسی ساده تر از زبان پارسی است. به عنوان نمونه اسامی خاص در زبان انگلیسی با حرف بزرگ شروع میشوند در صورتی که در زبان پارسی چنین نیست.
نحوی سطحی در این حالت برخی از ویژگیهای نحوی مورد بررسی قرار میگیرند؛ به عنوان نمونهایا mj به عنوان بدل یا عطف بیان برای mi محسوب میشود.
نحوی عمقی برخی از پژوهشگران، از تجزیهگر برای اینکار استفاده مینمایند. آنها از درختهای تجزیه و یا زیر درختهای تجزیه به عنوان ویژگیهای نحوی عمقی بهره میبرند.به عنوان نمونه [45] خلاصههای مفیدی مانند مسیر وابستگی میان گرههای ریشه و هر کدام از mi و mj را محاسبه مینمایند. همچنین میتوان از برخی از محدودیتهای اتصال مانند آنچه در بخش مشابهت نحوی روشهای زبانشناسی گفته شد نیز استفاده نمود.
تطابق رشته ای این ویژگی میتواند برای عبارتهای اسمی کامل و اسامی بسیار مفید باشد. اینکه این تطبیق چه به صورت کامل درنظر گرفته شود چه به صورت جزئی، میتواند مانند [103] از ورژن قویتری مانند «تطابق هسته» پیروی کند. به این ترتیب که در این رویکرد تمامی وابستهها حذف شده و تنها به تطابق رشتهای هستهها در mi و mj پرداخته میشود. البته در گاهی اوقات مانند اسامی انسانهایی که در وابسته ی پیشین خود با یکدیگر متفاوت هستند(آقای اسمیت و جانت اسمیت) و یا نامهای برخی از سازمانها میتوان از «تطابق اسم مستعار» نیز استفاده کرد.یکی از تکنیکهای ماهرانه در این خصوص، روش [65] میباشد که استفاده از تکنیک فاصله ویرایش حداقل را ارائه نموده است.