پژوهش user7-230

جدول 2-4: مشخصات مربوط به انواع موجودیت‏ها62جدول2-5: زیر گروه‏های موجودیت مشخص64جدول2-6: زیر گروه‏های موجودیت سازمان65جدول 2-7: زیر گروه‏های موجودیت مکان 66جدول 2-8: زیر گروه‏های موجودیت سیاسی67جدول 2-9: حالت‏های خاص موجودیت‏های سیاسی68جدول 2-10: انواع طبقه‏بندی اشاره71جدول 4-1: بانک اطلاعاتی سیستم کشف […]

سایت دانلود پژوهش ها و منابع علمی

سایت دانلود پژوهش ها و منابع علمی دانشگاهی فنی تخصصی همه رشته ها – این سایت صرفا جهت کمک به گردآوری داده ها برای نگارش پژوهش های علمی و صرفه جویی در وقت پژوهشگران راه اندازی شده است

پژوهش user7-230

پژوهش user7-230

فهرست مطالبعنوان صفحه
فصل ۱: آشنایی با تشخیص مرجع مشترک........................... .............................. .............................. ..............................................................۱ HYPERLINK \l "m1" 1-۱. مقدمه و بیان مسئله1
1-2. بررسی ارتباطات هم‏مرجعی6 1-2-1. هم‏مرجع در مقابل پیشایند9 1-۲-1-۱. ارتباط هم‏مرجع.۱0 1-۲-1-2. ارتباط پیشایندی11 1-۲-۲. تحلیل پیشایند16 1-۲-۳. تحلیل مرجع مشترک16 1-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی۱71-3.جمع‏بندی20فصل 2 : بخش اول212-1-۱. پیشینه تشخیص مرجع مشترک212-1-۲. روش‏های زبان‏شناسی22 2-1-۲-1. فاکتورهای حذف کننده23 2-1-۳-۲-۱. تطبیق جنس و عدد23 2-1-۳-۲-۱. تطبیق معنایی24 2-1-۲-۲. فاکتورهای امتیاز دهنده 24 2-1-۳-۲-۱. مشابهت نحوی24 2-1-۳-۲-۱. مشابهت معنایی25 2-1-۳-۲-۱. بارز بودن252-1-۳. روش‏های یادگیری ماشین27 2-1-۳-۱. ویژگی‏ها28 2-1-۳-۲. مدل‏های جفت اشاره28 2-1-۳-۲-۱. رده بندی جفت عبارت‏های اسمی32 2-1-۳-۲-۱-1. درخت تصمیم33 2-1-۳-۲-۲.افراز35 2-1-۳-۲-۲-۱.درختِ بل36 2-1-۳-۲-۲-۲. افراز گراف38 2-1-۳-۳. روش‏های مبتنی بر پیکره40 2-1-۳-۴. روش‏های جایگزین44 2-1-۳-۴-۱. روش هم‏آموزی44 2-1-۳-۴-۲. مدل احتمالاتی مرتبه اول46 2-1-۳-۴-۳. رتبه‏بندی47 2-1-۳-۴-۴. فیلدهای تصادفی شرطی49 2-1-۳-۴-۵. خوشه‏بندی512-1-۴. جمع‏بندی56فصل 2: بخش دوم572-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هم‏مرجع582-2-۲. پیکره بیژن‏خان592-2-۳. پیکره لوتوس602-2-۴.شیوه‏های نشانه‏گذاری پیکره لوتوس62 2-2-۴-۱. نشانه‏گذاری انواع موجودیت‏ها62 2-2-۴-۱-۱. موجودیت شخص64 2-2-۴-۱-۲. موجودیت سازمان64 2-2-۴-۱-۳. موجودیت مکان66 2-2-۴-۱-۴. موجودیت سیاسی66 2-2-۴-۲.کلاس هر موجودیت68 2-2-۴-۲-۱.غیر ارجاعی69 2-2-۴-۲-۲.ارجاعی69 2-2-۴-۲-۲-۱.ارزیابی به شکل منفی69 2-2-۴-۲-۲-۲.ارجاعی خاص70 2-2-۴-۲-۲-۳.ارجاعی عمومی70 2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده70 2-2-۴-۳.انواع اشاره/سطوح اشاره71 2-2-۴-۳-۱.اشاره ساده72 2-2-۴-۳-۱-۱.محدوده اشاره72 2-2-۴-۳-۱-۲. هسته اشاره72 2-2-۴-۳-۱-۳.انواع اشاره ساده72 2-2-۴-۳-۲.ساختارهای پیچیده74 2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل752-2-۵.جمع‏بندی75فصل 3: الگوریتمهای پیشنهادی763-۱. رده بندی دودویی76 3-1-1.جدا کننده‏های خطی77 3-1-1-1 پرسپترون78 3-1-1-2 ماشین بردار پشتیبان80 3-1-1-3 درخت تصمیم853-۲.خوشه‏بندی88 3-2-1 .الگوریتم‏های افراز بسته‏ای89 3-2-1-1 .خوشه‏بندی سلسله مراتبی پایین به بالا90 3-2-1-2 .آموزش الگوریتم خوشه‏بندی سلسله مراتبی933-3.جمع‏بندی96فصل 4: سیستم ارزیابی974-۱.مقدمه974-۲.سیستم شناسایی اشاره لوتوس98 4-2-1 .بانک اطلاعاتی98 4-2-2.سیستم شناسایی اشاره1024-3.تشخیص اشاره‏های هم مرجع103 4-3-1 ویژگی‏ها104 4-3-2.الگوریتم یادگیری105 4-3-3.معیار ارزیابی107 4-3-4.نتیجه ارزیابی110 4-3-4-1.نتایج بدست آمده110 4-3-4-.2چالش‏ها و تحلیل خطا1124-4.جمع‏بندی115فصل 5 :نتیجه گیری و پیشنهادها1165-۱.نتیجه‏گیری1165-2.پیشنهادها118فصل .6 منابع121فهرست جدول‏ها
عنوان صفحه
جدول 1-۱: مقایسه ویژگی‏های دو ارتباط هم‏مرجع وپیشایند۱1
جدول 2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک23
جدول 2-۲: برخی از ویژگی‏های ارائه شده در تحلیل مرجع مشترک30
جدول 2-۳: معرفی برخی از پژوهش‏هایی که از خوشه‏بندی استفاده کرده‏اند55
جدول 2-4: مشخصات مربوط به انواع موجودیت‏ها62
جدول2-5: زیر گروه‏های موجودیت مشخص64
جدول2-6: زیر گروه‏های موجودیت سازمان65
جدول 2-7: زیر گروه‏های موجودیت مکان 66
جدول 2-8: زیر گروه‏های موجودیت سیاسی67
جدول 2-9: حالت‏های خاص موجودیت‏های سیاسی68
جدول 2-10: انواع طبقه‏بندی اشاره71
جدول 4-1: بانک اطلاعاتی سیستم کشف اشاره: جدول واژگان100
جدول 4-2: بانک اطلاعاتی سیستم کشف اشاره: جدول اشاره‏ها101
جدول 4-3: فهرست ویژگی‏های به کار رفته در تشخیص مرجع مشترک106
جدول 4-4: حالت‏های ممکن نتایج یک ماشین یادگیر108
جدول 4-5: نتایج ارزیابی الگوریتم‏های پایه مورد بررسی110
جدول 4-6: نتایج ارزیابی الگوریتم SVM با هسته‏های متفاوت111
جدول 4-7: نتایج ارزیابی الگوریتم شبکه عصبی با مدل‏های متفاوت112
فهرست شکل‏ها
عنوان صفحه
شکل1-۱. انواع روابط ممکن میان دو عبارت اسمی 12
شکل1-۲. میزان ارتباط میان حوزه‏ها با انواع دانش‏های زبان‏شناسی و واژگانی۱6
شکل2-۱. نمونه‏ای از نمونه‏های مثبت و منفی که توسط ۴.5C تولید شده است31
شکل2-۲. درختِ بل به ازای سه عبارت اسمی 37
شکل2-3. شمایی از نشانه‏گذاری پیکره بیژن‏خان60
شکل2-4. شمایی از نشانه‏گذاری اشاره‏های هم مرجع در پیکره لوتوس62
شکل3-۱. شمایی از داده‏های خطی و غیر خطی جدایی‏پذیر77
شکل3-۲. الگوریتم پرسپترون میانگین‏دار80
شکل3-3. نمونه‏ای از یک درخت تصمیم‏گیری86
شکل3-4.الگوریتم C5 88
شکل3-5. مثالی از نمودار دندوگرام در تشخیص عبارت‏های اسمی هم‏مرجع92
شکل3-6. الگوریتم خوشه‏بندی سلسله مراتبی پایین به بالا 93
شکل3-7.الگوریتم آموزش خوشه‏بندی حریصانه 94
شکل3-8.الگوریتم بروزرسانی 96
شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس99
شکل4-2 :شمای کلی سیستم شناسایی اشاره102
شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره102
شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان103
شکل4-5: شمایی از نمایش خروجی تعیین نمونه‏های مثبت و منفی107
شکل4-6: نمودار مقایسه الگوریتم‏های پایه مورد بررسی111
فهرست علائم و اختصارات
ACE Automatic Content Extraction
ADR Address Sub Entity
AI Artificial Intelligence
ANA Anaphor
ANT Antecedent
APP Apposition Construction mention type
AR Anaphora Resolution
BAR Bare Sub Entity
BND Boundary Sub Entity
CLS Celestial Sub Entity
CLUS Cluster Sub Entity
COM Commercial Sub Entity
CONT Continent Sub Entity
CR Coreference Resolution
DIS District Sub Entity
EDU Educational Sub Entity
EM Expectation Maximization
ENT Entertainment Sub Entity
GEN General Entity class
GOV Government Sub Entity
GR Group Sub Entity
HLS Headless nominal mention type
IE Information Extraction
IND Individual Sub Entity
IR Information Retrieval
JPE Geo political Entity
LOC Location Entity
MD Mention Detection
MED Media Sub Entity
ML Machine Learning
MT Machine Translation
MUC Message Understanding
NAM Name mention
NAMMH Name which is head of mention
NAMPOS Post modifier mention of name head
NAT Nation Sub Entity
NEG Negative Quantified Entity class
NER Named Entity Recognition
NGOV Non-government Sub Entity
NOMH Nominal which is head of mention
NOMH Nominal mention
NOMPOS Post modifier mention of nominal head
NP Noun phrase
ORG Organization Entity
PER Persons Sub Entity
POP Population Sub Entity
PRO Pronominal mention
PTV Portative Construction mention type
RBFN Radial Basis Function Network
REF Refential Entity class
REG Region Sub Entity
REL Religious Sub Entity
SPC Specific Entity class
SPE Special Sub Entity
SPO Sport Sub Entity
STAT state Sub Entity
SVM Support Vector Machine
TLT Title Sub Entity
USP Underspecified referential Entity class
WAT Water body Sub Entity
WHO WH_Question Words and specific mention type
فصل اول
۱-۱.مقدمه و بیان مسئله
امروزه رایانه در تمام لایه‏های زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبان‏شناسی، بیش از پیش احساس می‏شود. «پردازش زبان طبیعی»شاخه‏ای از علم «هوش مصنوعی» است که به ماشینی کردن فرآیند زبان شناسی سنتی می‏پردازد. به این ترتیب با استفاده از رایانه می‏توان «زبان گفتاری ونوشتاری» را پردازش نمود، به طوریکه رایانه‏ها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبیعی به عنوان ورودی وخروجی استفاده کند. به این ترتیب یک رایانه، درهنگام دریافت ورودی، نیاز به «درک» و درهنگام ارسال خروجی، نیاز به «تولید» زبان طبیعی دارد. ]81[
در زمینه پردازش زبان طبیعی پژوهش‏هایی مانند طبقه‏بندی متون، برچسب‏گذاری ادات سخن، تعیین و ابهام‏زدایی از معانی واژگان و... انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشته‏اند و در نتیجه راه حل‏هایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب می‏‏‏شوند. تمامی این حوزه‏های جزئی باید حل شوند تا در نهایت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و یا آنها را بسازد.
وظایف زبان طبیعی را می‏توان به ریز کاربردها و کلان کاربردها افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازش‏هایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیت‏های نامدار و ... ) و یا در سطح کل متن (تشخیص هرزنامه، رده بندی متون و...) متمرکز شده اند؛ برخی از کاربرد‏ها نیز مانند استخراج اطلاعات، تشخیص مرجع مشترک و ماشین ترجمه در سطح بینابین قرار گرفته‏اند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگی‏های معنایی متون، انواع متفاوتی از ویژگی‏های سطح پایین‏تر (مانند ویژگی‏های لغوی و نحوی) نیز لازم است، اما به لطف سیستم‏های جدید که تا حد زیادی به روش‏های آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی‏‏‏ ویژگی‏های سطح پایین‏تر نیازی نیست. علت اینکه روش‏های یادگیری ماشین توانسته‏اند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم می‏آورد که برای بسیاری از کاربرد‏ها کافی بوده و می‏‏‏‏تواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روش‏های آماری محدود است و هرگز نمی‏توانند درک کاملی از محتوای معانی یک متن را فراهم آورند.
از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستم‏‏هایی که واژگان و جملات درست را از غلط تشخیص می‏دهند، به طور گسترده‏ای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوه‏های تجزیه کردن به صحتی برابر با ۹۰%، و شناسایی موجودیت‏های نامدار به صحت ۹۱% رسیده اند. [78,55,38[.
بسیاری از پژوهشگران معتقدند که استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب می‏شود، که مجموعه‏ای از تکنیک‏های رده‏بندی، خوشه‏بندی و قوانین وابستگی است و خروجی استخراج اطلاعات شامل، شناسایی موجودیت‏ها ، تعیین نوع وگروه آنها، طبقه بندی ارتباط میان موجودیت‏ها و همچنین استخراج رویدادهایی که در آن مشارکت دارند، می‏باشد.[71[ در نهایت می‏توان گفت که خلاصه سازی، بازیابی اطلاعات، داده‏کاوی، پرسش و پاسخ و درک زبان از جمله کاربردهای این سیستم هستند.
تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارت‏های اسمی‏‏‏ که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین می‏گردند. هدف نهایی این پایان‏نامه شناسایی اشاره‏های هم مرجع شامل ضمیر و اسم اشاره در متون پارسی می‏باشد. برای تحقق این هدف نیاز به انجام پیش پردازش‏هایی بر روی متون خام می‏باشد تا داده‏های مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره به عنوان یک پیش پردازش می‏تواند در کنار سایر پیمانه‏های پیش پردازشی مانند تجزیه‏گر، شناسایی موجودیت‏های نامدار و... بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]
به هر ترتیب شناسایی عبارت‏های اسمی‏‏‏ هم‏مرجع از مهمترین زیر وظایف استخراج اطلاعات می‏باشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستم‏های مرتبط با آن خواهد شد.
واحد مورد بررسی در حوزه تشخیص مرجع مشترک، متن می باشد که پس از اجرای ماژول‏هایی متفاوت، متن مورد نظر به عبارت های اسمی یا به عبارت بهتر به اشاره تبدیل می‏شود. روش‏های موجود در این حوزه، به دو دسته روش‏های زبان‏شناسی و روش‏های یادگیری ماشین تقسیم می‏‏‏شوند. [76[ در روش اول، ابتدا به ازای هر عبارت اسمی‏‏، مراجع کاندیدا تعیین می‏‏‏شود و سپس با به کارگیری مجموعه‏ای از قواعد زبان‏شناسی، برخی از کاندیداها حذف شده و کاندیداهای باقیمانده نیز امتیازدهی می‏‏‏شوند و در‏نهایت کاندیدایی به عنوان مرجع برگزیده می‏‏‏شود که بیشترین امتیاز را کسب کرده باشد. مسئله اصلی در این روش این است که کسب اطلاعات زبان‏شناسی مورد نیاز، فرآیندی زمان‏بر، پرهزینه و پر خطاست. البته با پیدایش پیکره‏های زبان‏شناسی و موفقیت روش‏های یادگیری ماشین در سایر حوزه‏ها، روش‏های زبان‏شناسی جای خود را به روش‏های یادگیری ماشین دادند. در یادگیری ماشین، به محاسبات زبان‏شناسی پیچیده و سطح بالای روش‏های زبان‏شناسی نیاز نیست به طوریکه با استفاده از دانش اندکی در زمینه زبان‏شناسی نیز می‏توان به نتایج خوب و قابل توجهی دست یافت.
از سوی دیگر، امروزه اغلب پژوهشگران فرآیند تشخیص مرجع مشترک را به دو مرحله تقسیم می‏‏‏ کنند. (۱) کشف و شناسایی اشاره؛ برای شناسایی عبارت‏های اسمی‏‏‏ که به موجودیت ها در دنیای واقعی اشاره دارند، (۲) شناسائی اشاره‏هایی که به یک مرجع واحد اشاره دارند. به این ترتیب در مرحله اول، اکثر عبارت‏های اسمی‏‏‏ تحت عنوان اشاره و در قالب چهار گروه اصلی ضمایر، اسامی‏‏‏ خاص، اسامی‏‏‏ عام و غیر اشاره‏ها قرار می‏گیرند،[8،910،16،48،53،72] سپس این فرآیند مشخص می‏‏‏‌کند که هر اشاره به کدام موجودیت در دنیای واقعی اختصاص دار[26]می‏‏‏توان گفت که فرآیند کشف اشاره، توسعه یافته‏ی فرآیند شناسایی موجودیت‏های نامدار می‏باشد که علاوه بر شناسایی اسامی‏‏‏ خاص، به شناسایی اسامی‏‏‏ عام و ضمایر نیز می‏پردازد. [،23،72،81،113،114]از آنجائیکه بررسی فرآیند‏های شناسایی اشاره و تحلیل مرجع مشترک به طور همزمان خارج از حوزه‏ی این پایان‏نامه است، ما عبارت‏های اسمی‏‏‏ را در قالب انواع اشاره‏های گفته شده در پیکره‏ای تحت عنوان لوتوس برچسب‏گذاری می‏نمائیم و نتیجه‏ی آن را برای تحلیل مرجع مشترک به کار خواهیم برد.
چارچوب کلی این پایان‏نامه به این صورت می‏باشد: در بخش دوم این فصل گذری کوتاه بر انواع روابط میان دو عبارت اسمی‏‏‏ و به خصوص ارتباط‏های هم‏مرجعی خواهیم داشت. سپس در بخش اول فصل دوم، روش‏های ارائه شده برای تشخیص مرجع مشترک را مورد بررسی و مطالعه قرار می‏دهیم و در بخش دوم آن، به نحوه ایجاد پیکره‏ای مناسب برای کشف اشاره و تحلیل مرجع مشترک خواهیم پرداخت. در فصل سوم، به الگوریتم‏های مناسب برای این پایان‏نامه را معرفی می نمائیم. سیستم پیشهنادی برای شناسایی اشاره‏های ارجاع شده در فصل چهارم معرفی خواهد شد و همچنین در این فصل الگوریتم‏های یادشده را مورد ارزیابی قرار می‏دهیم. در نهایت در فصل پنجم نیز به نتیجه گیری و پیشنهاد کارهای آتی در ادامه‏ی این پژوهش خواهیم پرداخت.
1-2.بررسی ارتباط هم‏مرجعی
یکی از ‏ویژگی‏های خاص گفتمان این است که می‏توان در یک متن آزادانه در مورد یک یا چند موجودیت صحبت کرد و برای اشاره به هر موجودیت از انواع مختلف عبارت‏ها مانند ضمیر (او)، اسم عام (دانشمند)، اسم خاص (لطفعلی عسگر زاده) و یا یک عبارت اسمی‏(بنیان‏گذار منطق فازی) بهره برد تا به این ترتیب از تکرار عبارت‏ها کاسته و شیوایی مطلب نیز افزایش یابد. همین ویژگی موجب می‏شود که زنجیره‏ها‏ی بالقوه‏ای از تمام عبارت‏های اسمی‏که به یک موجودیت واحد در متن ارجاع دارند، ایجاد گردد. (مانند: او، دانشمند، لطفعلی عسگر زاده، بنیان‏گذار منطق فازی که به شخص پرفسور زاده اشاره دارند).
یکی از اهداف مهم استخراج اطلاعات، شناسایی این زنجیره‏ها در متن است که در فرآیند تحلیل مرجع‏مشترک انجام می‏پذیرد. برای شروع، مثال ۱ را در نظر بگیرید:
مثال۱: (سیستم آبیاری گلاب) ۱Ant, در روز سه شنبه رونمایی شد. (این سیستم)۱Ana, محصول اندیشه‏ی (دکتر سارا شکری)۲Ant, است. (او) Ana,2، ( یک پژوهشگر)Ana در (شرکت آبیاری لاله)۳ است.
اگر فرض کنیم که پیمانه‏های نشانه‏گذاری تا کشف اشاره به عنوان پیش پردازش‏هایی بر روی متن اجرا شوند، با اجرای این پیمانه‏ها، انواع عبارت‏های اسمی‏موجود در متن (سیستم آبیاری، این سیستم، دکتر سارا شکری، او، یک پژوهشگر و شرکت آبیاری لاله) تعیین و نشانه‏گذاری می‏شوند. سپس با اجرای پیمانه تشخیص مرجع‏مشترک، ارتباطات میان این عبارت‏ها و اطلاعات نهفته در مورد موجودیت‏های شرکت کننده در متن آشکار می‏شود. به عنوان نمونه، می‏دانیم «او» و «سارا شکری» (با اندیسِ۲) به یک فرد مشخص و همچنین «سیستم آبیاری گلاب» و «این سیستم» (با اندیسِ۱) نیز به یک سیستم مشخص اشاره می‏کنند.
استفاده از اصطلاح موجودیت در تحلیل مرجع‏مشترک، این سؤال را مطرح می‏کند که چه چیزهایی موجودیت محسوب می‏شوند؟ تاکنون گروه‏بندی‏های متعددی برای انواع موجودیت‏ها ارائه شده است، به عنوان نمونهACE، یک تقسیم بندی هفت موجودیتی برای انواع موجودیت‏ها (شخص، سازمان، مکان، سیاسی، تسهیلات، سلاح و خودرو) و تعداد زیادی زیرگروه (به عنوان مثال شخص: فرد، گروه) و کلاس برای هر موجودیت پیشنهاد کرده است و[۶۴] که اغلب پژوهشگران همه این موجودیت‏ها و یا گاهی اوقات برخی از آن‏ها را مورد مطالعه و بررسی قرار می‏دهند.
یکی از ‏ویژگی‏های تحلیل مرجع‏مشترک این است که علاوه بر انواع موجودیت‏های رایج، می‏توانیم در حوزه‏ها‏ی متفاوت از تعاریف پیش فرض خود نیز برای موجودیت‏ها نیز استفاده نماییم. همین ویژگی موجب شده است تا برخی از پژوهشگران مانند[97] به تحلیل مرجع‏مشترک در متون پزشکی پرداخته و بررسی موجودیت‏هایی مانند انواع دارو، بیماری، ژن وغیره را هدف پژوهش خود قرار دهند.
با توجه به آنچه تا‏کنون گفته شد، انتظار می‏رود که با بررسی مراجع مشترک در مثال ۱، عبارت «یک پژوهشگر» نیز به همراه «او» و «سارا شکری» در یک زنجیره واحد قرار گیرد، اما خروجی پیمانه تحلیل مرجع‏مشترک چنین نیست. هر چند از نظر ما این ارتباط کاملاً بدیهی است اما واقعیت این است که عبارت «یک پژوهشگر» به عنوان ارجاع به موجودیت شخص (در مثال ۱: سارا شکری) که در دنیای واقعی زندگی می‏کند در نظر گرفته نمی‏شود، چون منظور از «یک پژوهشگر» می‏تواند هر شخص دیگری نیز باشد. در این حالت فرآیند دیگری تحت عنوان تحلیل پیشایند می‏تواند ارتباط میان «یک پژوهشگر» و «سارا شکری» را تشخیص دهد.
همان طور که مشاهده شد، تحلیل مرجع‏مشترک و تحلیل پیشایند دو مفهوم نزدیک به هم می‏باشند به طوری که عموماً به موازات تحلیل مرجع‏مشترک، با تحلیل پیشایند روبرو می‏شویم و حتی برخی به اشتباه این دو عبارت را معادل یکدیگر می‏پندارند. با وجود اینکه این دو پیمانه از بسیاری از جهات با یکدیگر مشابه هستند، اما از جهاتی نیز با یکدیگر تفاوت دارند، و عدم توجه به این مسئله موجب سردرگمی‏و ایجاد ابهام در تحلیل متن می‏گردد.در این بخش، هدف ما بررسی هرکدام از این فرآیند‏ها‏ و مطالعه برخی از شباهت‏ها‏ و تفاوت‏ها‏ی میان این دو فرآیند می‏باشد.
1-۲-۱.هم‏مرجع در مقابل پیشایند
برای اینکه بخواهیم یک سیستم تحلیل مرجع‏مشترک و یا یک سیستم تحلیل پیشایند را انتخاب کنیم لازم است ابتدا دو پدیده زبان‏شناسی پیشایند و هم‏مرجع را به خوبی بشناسیم. شباهت‏ها و تفاوت‏های میان آن‏ها را درک کنیم. همان طور که پیش‏تر نیز اشاره شد، اغلب دو عبارت پیشایند و هم‏مرجع را به عنوان دو عبارت نزدیک یا گاهاً مترادف می‏شناسند به طوری که در بسیاری از پژوهش‏ها این دو اصطلاح را به جای هم استفاده می‏کنند[59،85،90]
نخستین بار ارتباط میان عبارت‏های اسمی‏توسط کلرک در سال ۱۹۷۵ مطرح شد که آن‏را تحت عنوان پل‏زنی پیشایند مطرح می‏کرد. [43] پس از آن هیرست در سال ۱۹۸۱، عبارت پیشایند را بیشتر به منظور تفسیر مخفف‏ها در متن به کار برد. هیرست معتقد بود پیشایند یک ابزار ساخت، در گفتمان است که با استفاده از آن یک مخفف به یک یا چند عبارت غیر مخفف که پیش از آن در متن آمده‏اند، اشاره می‏کند تا به این ترتیب با استفاده از عبارت‏های پیشین، عبارت مخفف تفسیر شود. مفهوم پیشایند با یک جفت عبارت همراه است که عموماً عبارت ارجاع‏دهنده را با عنوان «تالی» و عبارت مفسر را با عنوان «مقدم» یا «مرجع» می‏شناسیم. هیرست این دو عبارت ارجاع دهنده و مرجع را با هم «هم‏ارجاع » و فرآیند شناسایی یک مقدم برای یک تالی، را «تحلیل» می‏نامد.[ 34]
در سال 1998 نیز هیرسکمن و چینکور اصطلاح هم‏مرجع را کنفرانس تشخیص پیام یا به اختصار MUC استفاده کردند[24،59] آنها و بسیاری از پژوهشگران دیگر، زمانی دو عبارت را با یکدیگر هم‏مرجع در نظر می‏گیرند که هر دو عبارت دقیقاً به یک موجودیت در دنیای واقعی اشاره داشته باشند. البته این پژوهشگران تفاوتی میان دو رابطه‏ی هم‏مرجعی و پیشایندی در نظر نگرفته بودند، تا اینکه این مسئله با انتقاد ون و کیبل مواجه شد به طوری که آن‏ها این دو اصطلاح را از دیدگاهی دیگر مورد بررسی قرار دادند و برخی از نقاط مشترک و تفاوت های آنها را مطرح نمودند.[۵۸]
1-۲-۱-۱.ارتباط هم‏مرجع:
ارتباط میان دو عبارت اسمی‏مانند ۱a و ۲a زمانی به عنوان ارتباط هم‏مرجع در نظر گرفته می‏شود که هر دو عبارت اسمی‏ به عنوان ارجاع‏هایی مشخص، یک موجودیت فرا زبان‏شناسی واحد را تفسیر نمایند. به واسطه‏ی این تعریف نیاز است تا به طور جداگانه مرجع هرکدام از عبارت اسمی‏Reference(ai) شناسایی شود. در نهایت یک ارتباط هم‏مرجعی به صورت ذیل خواهد بود :
(۱) عبارات اسمی‏۱a و ۲a با یکدیگر هم‏مرجع هستند اگر و تنها اگر Reference(a1)= Reference(a2) باشد.
مثال ۲: (باراک اوباما)۱Ant,، به سوریه سفر کرد. (او) ۱Ana, گفت...
جدول 1-۱: مقایسه ویژگی‏ها‏ی دو ارتباط هم‏مرجع و پیشایند
هم‏مرجعی پیشایندی
۱) یک رابطه هم‏مرجعی یک رابطه‏ی هم ارزی است به عنوان نمونه «او» و «باراک اوباما» هر دو به یک موجودیت اشاره دارند. ۱)یک رابطه‏ی پیشایندی، متقارن نیست. به این معنا که اگر ۱a به عنوان مقدم برای 2a در نظر گرفته شود عبارت اسمی‏۲ a نمی‏تواند متقابلاً نقش مقدم را برای عبارت اسمی‏۱a ایفا نماید.
۲)رابطه هم‏مرجعی یک رابطه‏ی متقارن است، به این معنا که اگر «او» با «باراک اوباما» هم‏مرجع است «اوباما» نیز با «او» هم‏مرجع می‏باشد. ۳)ارتباط میان عبارت‏های اسمی‏هم‏مرجع، متعدی است به این معنا که اگر «او» با «باراک اوباما» هم‏مرجع است و «او» نیز با «رئیس جمهور آمریکا» هم‏مرجع باشد بنابراین حتماً «باراک اوباما» نیز با «رئیس جمهور آمریکا» هم‏مرجع می‏باشد. ۲)رابطه‏ی پیشایندی یک جفت از عبارت‏های اسمی‏را در نظر می‏گیرد به طوری که در این رابطه‏یک عبارت نقش مفسر و دیگری نقش ارجاع دهنده را دارند. بنابراین به طور ذاتی این رابطه غیرمتعدی می‏باشد.
۴) یک ارتباط هم‏مرجعی یک ارتباط فرا متنی است به این معنا که تفسیر هیچ کدام از عبارت‏های اسمی‏هم‏مرجع به محتوای متن وابسته نمی‏باشد. به عبارت دیگر، دو عبارت هم‏مرجع لزوماً برای تفسیر به یکدیگر وابسته نیستند. ۳)این رابطه به محتوای متن حساس است به این دلیل که تالی یا عبارت ارجاع‏دهنده برای اینکه مفهوم باشد نیاز به مفسر یا تفسیر دارد.
۵)یک رابطه‏ی هم‏مرجعی خالص می‏تواند در تحلیل مرجع‏مشترک در متون متقاطع به کار رود. ۴)معمولاً تالی یا عبارت ارجاع‏دهنده در یک رابطه‏ی پیشایندی، به دیگر اجزای تشکیل‏دهنده در همان جمله و یا نزدیک‏ترین اظهارات ممکن در گفتمان اشاره دارد.
۶) برخی از عبارت‏های اسمی‏ذاتاً با یکدیگر هم‏مرجع هستند به عنوان مثال «پرفسور زاده» و «بنیان گذار منطق فازی»، این دو عبارت هر کجا که باشند به یک موجودیت به نام «پرفسور زاده» اشاره خواند داشت. به عبارت دیگر چنین ارتباطی یک ارتباط هم‏مرجعی خالص نامیده می‏شود ۵) یک تالی تنها نیاز به یک مفسر دارد تا آن‏را تفسیر نماید بنابراین اگر چندین مفسر برای آن در متن وجود داشته باشد مناسب‏ترین و نزدیک‏ترین آن‏ها انتخاب خواهد شد.
۷)بیشتر برای استخراج اطلاعات در خصوص یک یا چند موجودیت در متن به کار می‏رود. ۶) به درک بهتر متن و رفع ابهام برخی از واژگان در متن کمک می‏کند.
1-۲-۱-۲.ارتباط پیشایندی:
یک ارتباط پیشایندی، از یک جفت عبارت اسمی‏(۱aو۲a) تشکیل می‏شود به طوری که عبارت اول نقش مفسر را برای عبارت دوم ایفا نماید. بنابراین یک ارتباط پیشایندی به صورت ذیل تعریف می‏شود:
(2)عبارت اسمی‏اول(۱a) به عنوان مقدم برای عبارت اسمی‏دوم (۲a) در نظر گرفته می‏شود اگر و تنها اگر ۲a برای تفسیرش به ۱a وابسته باشد
مثال ۳: هنگامی‏که پسر وارد (اتاق)Ant شد، (درب)Ana به طور خودکار بسته شد.
همان‏طور که در مثال۳ مشاهده می‏شود، دو عبارت اسمی‏فوق با یکدیگر هم‏مرجع نمی‏باشند اما دارای یک مرجع گفتاری مشابه هستند یا به تعبیر [۶2] با یکدیگر هم‏واژگان هستند. در این مثال، عبارت اسمی‏«درب» به عبارت اسمی‏«اتاق» وابستگی دارد (به عبارت بهتر، منظور از «درب»، دربِ اتاق ذکر شده است نه دربِ ساختمان یا دربِ خودرو یا هر دربِ دیگری)
در جدول1-۱ برخی از ‏ویژگی‏های هر کدام از روابط پیشایندی و هم‏مرجعی را قرار داده‏ایم. توجه به این ویژگی‏ها به درک بهتر نقاط تشابه و اختلاف این دو رابطه کمک فراوانی می‏نماید.
همچنین باید اضافه کنیم که دو عبارت اسمی ‏می‏توانند به طور هم‏زمان هم رابطه‏ی هم‏مرجعی و هم رابطه‏ی پیشایندی داشته باشند. البته این بدین معنا نیست که هرگاه دو عبارت اسمی ‏با یکدیگر هم‏مرجع باشند، با یکدیگر ارتباط پیشایندی نیز داشته باشند و یا بالعکس.

شکل 1-۱: انواع روابط ممکن میان دو عبارت اسمی
شکل 1-۱، ارتباط میان دو عبارت اسمی ‏را با در نظر گرفتن چند حوزه مشخص نمایش می‏دهد. ما این حوزه‏ها را با توجه به مفاهیم هم‏مرجعی و پیشایندی تفسیر خواهیم نمود. دو عبارت اسمی‏در صورتی که با یکدیگر مرتبط باشند، می‏توانند هم دارای ارتباط هم‏مرجعی و هم دارای ارتباط پیشایندی باشند. مانند آنچه در مثال۴ آمده است.
مثال ۴: (علی کریمی)Ant,1 در نیمه دوم، ۲ گل به ثمر رساند. به طوری که به عنوان (محبوب‏ترین بازیکن پرسپولیس)Ana.1 در این بازی تشویق شد.
در میان عبارت‏های اسمی‏ای که دارای چنین ارتباط دو‏جانبه‏ای هستند می‏توان به برخی از ضمایر و مراجع آن‏ها نیز اشاره کرد. البته مثال‏های ۵ و ۶ نشان می‏دهند که همه ضمایر و مراجعشان در این رابطه صادق نیستند.
مثال ۵: )هر سگیAnt( زندگی )خودشAna( را دارد.
مثال ۶: اگر (یک خانه)Ant داشتم (آن)Ana را به تو اجاره می‌دادم.
در مثال ۵، ارتباط میان «هر سگی» و «خودش» یک ارتباط پیشایندی از نوع «ارتباط دهنده» یا «با‏هم‏آیی» می‏باشد؛ و یا در مثال ۶، «یک خانه» در دنیای واقعی وجود خارجی ندارد. بنابراین طبق تعریفِ ارتباطِ هم‏مرجعی، «یک خانه» نمی‏تواند به عنوان هم‏مرجع برای «آن» در نظر گرفته‏شود.[76] همان طور که در شکل 1-۱ مشاهده می‏شود، عبارت‏های اسمی‏که از نوع پیشایندی هستند اما ارتباط هم‏مرجعی ندارند در حوزه پیشایند‏های «ارتباط‏دهنده» قرار می‏گیرند [80،87] اغلب پژوهشگران این نوع پیشایند را زمانی به کار می‏برند که در جفت عبارت (مقدم و تالی)، عبارت مقدم به وضوح در متن ظاهر نشده باشد و با استفاده از برخی از موجودیت‏هایی که قبلاً در متن اشاره شده است می‏توان وجود آن‏ها را اثبات کرد. مثال ۳، یک نمونه مناسب برای این نوع از پیشایندها می‏باشد. در این مثال ارتباط میان دو عبارت «درب» و «اتاق» از نوع مرونیمیک است به این معنا که «درب» جزئی از «اتاق» محسوب می‏شود.
یکی دیگر از انواع ارتباط پیشایندی، پیشایند صفر است. مثال ۷ نمونه‏ای از این ارتباط را نشان می‏دهد.
مثال ۷: (دو جاده به سمت اصفهان)Ant می‏رود، (یکی اتوبانی و سریع)Gap1 و (دیگری خاکی و خطرناک)Gap2 است.
در حقیقت پیشایندهای صفر، یکی از انواع پیشایندهای کاهش یافته می‏باشند به این ترتیب که لزوماً به صورت عبارت‏های اسمی‏ نیستند بلکه به صورت یک شکاف در یک عبارت ظاهر می‏شوند.[35] در مثال۷ منظور از «اتوبانی و سریع» و «خاکی و خطرناک»، دو جاده‏ای است که به سمت اصفهان می‏روند. هدف از تحلیل پیشایندهای صفر، شناسایی چنین روابطی است.
یکی از حالتهای ارتباط پیشایند صفر، ضمایر صفر می‏باشد که تحلیل آن در برخی زبان‏ها مانند ژاپنی[92]، اسپانیایی[62] و حتی پارسی بسیار حیاتی است. در این نوع از پیشایندها، یکی از ارکان در جفت(مقدم،تالی) حذف می‏شود. نمونهای از این نوع پیشایند، مثال ۶ می‏باشد که منظور از گوینده چنین است: «اگر من یک خانه داشتم آن‏را به تو اجاره می‏دادم».
در نهایت دو عبارت اسمی‏می‏توانند تنها از نوع هم‏مرجع خالصباشند. ما این ارتباط را با مثال «پرفسور زاده»، «پدر منطق فازی» و «بنیان‏گذار منطق فازی» تفسیر می‏نماییم. همان طور که می‎دانید هر سه عبارت مذکور به شخص«پروفسور لطفعلی عسگر‏زاده» اشاره دارند اما اگر عبارت اسمی‏اول، یعنی «پرفسور زاده» در متن عنوان نشود، باز هم می‏دانیم که عبارت‏های اسمی‏ «پدر منطق فازی» و «بنیان‏گذار منطق فازی» با یکدیگر هم‏مرجع هستند. نمونه‏ی دیگری از یک ارتباط هم‏مرجعِ خالص، ارجاع انواع عبارت‏های اسمی‏به «باراک اوباما»، در پاراگراف‏ها، مکالمات با حتی متون متمایز است. اغلب نمونه‏هایی از روابط هم‏مرجع خالص در مستندات متقاطع مشاهده می‏شود. با تکیه بر این مفهوم برخی از پژوهشگران مانند [88] به تحلیل مرجع‏مشترک در متون متقاطع پرداخته‏اند.
نکته‏ی دیگر اینکه، در همه پژوهش‏هایی که برای شناسایی مرجع ضمیر در زبان‏هایی مانند انگلیسی انجام شده است، همیشه مرجع ضمیر پیش از ضمیر قرار می‏گیرد. اما در زبان پارسی این امکان وجود دارد که مرجع یک ضمیر پس از آن قرار گیرد. مثال ۸ ، نمونه‏ای از زبان پارسی می‏باشد که این مسئله را نشان می‏دهد.
مثال ۸: سی.ان.ان به آمریکا و جهان چنان شوکی وارد کرد که حتی (خود)Ana,1( ترنر)Ant,1 نیز آن‏را باور نمی‏کرد.
بطورکلی، آنچه مبرهن است برای شناسایی و بررسی هر کدام از روابط پیشایندی و یا هم‏مرجعی، نیاز به دانش‏های واژگانی و زبان‏شناسی در زبان مورد نظر می‏باشد. به طوری که هر چقدر یک رابطه هم‏مرجعی بیشتر پیشایندی باشد به دانش زبان‏شناسی بیشتری نیاز دارد. در همین راستا، شکل 1-۲، میزان ارتباط میان حوزه‏ها‏ی گفته شده را با هر کدام از انواع دانش‏های زبان‏شناسی و واژگانی نمایش می‏دهد.

شکل 1-۲: میزان ارتباط میان حوزه‏ها‏ با انواع دانش‏های زبان‏شناسی و واژگانی
1-۲-۲.تحلیل پیشایند:
یکی از وظایف مهم پردازش زبان طبیعی است که موجب کاهش ابهام عبارت‏های اسمی‏ به کار رفته در متن می‏شود. به طور کلی این فرآیند وابستگی و پیوند میان دو عبارت تالی و مقدم را به گونه‏ای تشخیص می‏دهد که عبارت مقدم، عبارت تالی را تفسیر نماید.
1-۲-۳.تحلیل مرجع‏مشترک:
با توجه به آنچه گفته شد، تحلیل مرجع‏مشترک، به فرآیند مرتبط کردن تمام عبارت‏هایی گفته می‏شود که به یک موجودیت واحد در دنیای واقعی اشاره دارند. این عبارت‏های اسمی‏هم‏مرجع، با هم تشکیل یک زنجیره واحد را می‏دهند که شامل ضمایر صفر تا اسامی‏خاص خواهد بود. تمام اعضای تشکیل دهنده‏ی این زنجیره باید از نظر تعداد، جنس و... با یکدیگر هم تراز باشند.
1-۲-۴.تقابل تحلیل مرجع‏مشترک و تحلیل پیشایندی:
با توجه به آنچه تا کنون درباره دو مفهوم تحلیل مرجع‏مشترک و تحلیل پیشایند گفته شد، این دو وظیفه با وجود شباهت زیادی که با یکدیگر دارند، دو وظیفه مجزا محسوب می‏شوند. بدین‏ترتیب که با به کارگیری فرآیند تحلیل مرجع‏مشترک، سیستم می‏تواند تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد را شناسایی نماید. از طرفی دیگر تفسیر درست پیشایندها در متون به رفع ابهامات موجود در متن می‏انجامد؛ لذا استفاده از این دو وظیفه با در نظر گرفتن حوزه‏ها‏ی تشابه و اختلاف آن‏ها به درک و استخراج اطلاعات مفید در متن کمک فراوانی خواهد نمود. در این بخش با استفاده از مثال‏هایی لزوم اجرای این دو فرآیند را در کنار یکدیگر بررسی می‏کنیم.
پس از شناخت فرآیندهای تحلیل مرجع‏مشترک و تحلیل پیشایند و اینکه یک سیستم چه انتظاراتی را باید برآورده نماید، لازم است تا روال کار را برای اجرای هر فرآیند را مشخص نماییم. استفاده از الگوریتم‏های یادگیری، از پرکاربردترین روش‏های ارائه شده برای شناسایی روابط مثبت و منفی در مرجع‏مشترک و پیشایند می‏باشد. به این ترتیب که الگوریتم با استفاده از برخی ویژگی‏ها (مانند [105]( آموزش می‏بیند تا روابط مثبت و منفی را پیش‏بینی نماید. البته شایان ذکر است که برخی از ویژگی‏ها برای این دو فرآیند مشترک و برخی دیگر متفاوت می‏باشد. به عنوان مثال ویژگی تطابق رشته‏ای از جمله مواردی است که برای تحلیل مرجع‏مشترک بسیار مورد توجه قرار گرفته است اما در فرآیند تحلیل پیشایند کاملاً بی معنا است( دو عبارت یکسان چگونه می‏توانند یکدیگر را تفسیر نمایند). به عبارت دیگر فرض بر این است که دو عبارت اسمی‏که در یک متن تکرار می‏شوند به احتمال خیلی زیاد هم‏مرجع هستند.
مثال ۹: دیروز دو تیم محبوب «الف» و «ب» به مصاف یکدیگر رفتند. تیم «الف»، در نیمه اول بسیار درخشید به طوری که طرفداران این تیم به پیروزی تیمشان امیدوار بودند. اما دیری نپایید که تیم «ب» روال بازی را به نفع خود تغییر داد که منجر به شادمانی طرفداران این تیم شد.
همان طور که در مثال ۹ مشاهده می‏شود، عبارت اسمی‏«طرفداران این تیم» در خطوط ۲ و ۳ عیناً تکرار شده است. بنابراین طبق ویژگی تطابق رشته‏ای در فرآیند تحلیل مرجع‏مشترک این دو عبارت با یکدیگر هم‏مرجع در نظر گرفته خواهند شد، اما واقعیت این است که این دو عبارت با یکدیگر هم‏مرجع نیستند. به عبارتی قرار گرفتن این دو عبارت در یک زنجیره واحد یکی از خطاهای تحلیل مرجع‏مشترک محسوب می‏شود. در حالی که استفاده از فرآیند تحلیل پیشایندی موجب رفع این خطا خواهد شد. این کار به این ترتیب انجام خواهد گرفت که عبارت «طرفداران این تیم» در خط ۳ با اولین و نزدیک‏ترین مفسر خود یعنی «تیم ب»، تشکیل یک جفت تالی و مقدم را می‏دهند و به همین ترتیب «طرفداران این تیم» در خط ۲ با «تیم الف» جفت خواهد شد. این مثال نمونه‏ایست که در آن دقتِ تحلیل پیشایندی از تحلیل مرجع‏مشترک پیشی می‏گیرد.
طبق آنچه در فرآیند تحلیل پیشایندی رایج است. هنگام شناسایی مقدم برای هر عبارت تالی، حرکت از تالی به سمت عبارت‏های اسمی‏ماقبل آن انجام خواهد شد تا به این ترتیب، جفت عبارت‏های (مقدم و تالی) شناسایی شوند. همان طور که پیش از این اشاره شد، فرآیند تشخیص مرجع ضمیر نیز از همین رویکرد پیروی می‏نماید، با این تفاوت که در برخی موارد مقدم (در اینجا منظور مرجع ضمیر است) بعد از تالی قرار می‏گیرد (مانند مثال ۸). بنابراین حرکت الگوریتم (راست به چپ) نمی‏تواند به شناسائی مرجع صحیح برای ضمیر مورد نظر منجر شود. در حالی که اجرای وظیفه‏ی تحلیل مرجع‏مشترک، با شناسایی عبارت‏های هم‏مرجع، تا حد زیادی این مشکل را برطرف خواهد نمود. حرکت الگوریتم در تحلیل مرجع‏مشترک نیز از راست به چپ خواهد بود با این تفاوت که نقطه‏ شروع آن می‏تواند انتهای متن باشد، هر عبارت اسمی‏جدید که با عبارت‏های پیش از خود هم‏مرجع باشد به زنجیره‏های موجود اضافه می‏شود، در غیر این صورت خودش تشکیل زنجیره‏ای جدید را خواهد داد. در چنین حالتی فراخوانی و دقت در تحلیل مرجع‏مشترک نسبت به تحلیل پیشایندی پیشی می‏گیرد.
به همین ترتیب نیز راهکار‏ها‏ی ارائه شده برای هر کدام از این فرآیندها تا حدودی با یکدیگر متفاوت می‏باشد. به عنوان نمونه یک رویکرد در فرآیند تحلیل پیشایندی افراز پس از آموزش الگوریتم یادگیری است که تنها به منظور افرازِ جفت‏های (مقدم و تالی) صورت می‏گیرد. به این ترتیب که پس از ایجاد نمونه‏ها‏ی مثبت و منفی که عموماً توسط یک رده‏بند ایجاد می‏شوند، نزدیک‏ترین و مناسب‏ترین مقدم برای تالی مورد نظر مشخص می‏شود. در مقابل برخی پژوهشگران برای تحلیل مرجع‏مشترک را یک فرآیند دومرحله‏ای در نظر می‏گیرند؛ در مرحله‏ی اول به جای استفاده از دو اصطلاح تالی و مقدم، اصطلاحاتی مانند «قابل برچسب» و یا «اشاره» جایگزین می‏شود. هر اشاره می‏تواند خروجی فرآیند کشف و شناسایی اشاره باشد. توجیه این جایگزینی این است که ما در تحلیل مرجع‏مشترک به مفاهیم مفسر یا ارجاع دهنده نیاز نداریم و به جای آن اصلاحِ مستقلِ اشاره را جایگزین می‏نماییم. هر اشاره به عنوان یک ارجاع به هر گروه از موجودیت‏ها در نظر گرفته می‏شود و می‏تواند یکی از انواع اسم عام، اسم خاص و حتی ضمیر (یا شبه ضمیر) باشد. همچنین سایر عبارت‏های موجود در متن که برای تحلیل مرجع‏مشترک کاربرد ندارند، به عنوان خارج ‏از اشاره در نظر گرفته می‏شوند. در مرحله‏ی دوم نیز فرآیند تحلیل عبارت‏ها‏ی اسمی‏هم‏مرجع انجام خواهد شد.
1-3.جمع‏بندی:
در این فصل، تحلیل مرجع مشترک را به طور دقیق تر مورد بررسی قرار دادیم، آنچه مشخص است این فرآیند به دنبال پیدا کردن ارتباطات هم‏مرجع در متن می‏باشد. در پژوهش‏ها‏ی انجام شده گاهی یک ارتباط هم‏مرجع با ارتباط مشابه دیگری به نام ارتباط پیشایندی مترادف محسوب می‏شود. حتی گاهی ما یک ارتباط را هم‏مرجع می‏پنداریم که هم‏مرجع نیست.
از آنجائیکه ما برای انجام تحلیل مرجع مشترک در زبان پارسی نیاز به پیکره‏ای با برچسب گفتمان خواهیم داشت، لازم بود تا این ارتباطات را به طور دقیق بشناسیم. تا بر اساس آن بتوانیم پیکره‏ای با روابط صحیح ایجاد نمائیم. به علاوه این شناخت می‏تواند به انتخاب راهکار‏های مناسب برای فرآیند تحلیل مرجع مشترک نیز کمک شایانی داشته باشد و در نهایت نیز شناخت روابط و راهکارهای مناسب برای تشخیص هر کدام از انواع روابط میان عبارت‏های اسمی مرتبط با هم، می تواند به ایجاد یک سیستم چند گذری، مانند آنچه لی 2011، بنسکو2012 ارائه داده اند کمک کند. [41،80]به این ترتیب که در هر گذر، یکی از انواع و حالت‏های موجود مورد بررسی و تحلیل قرار گیرد و در نهایت با اجماع نتایج حاصل شده، فرایند تحلیل اتمام یابد.
فصل دوم
بخش اول
2-۱-1. پیشینه تشخیص مرجع مشترک
تشخیص مرجع مشترک، یکی از مهمترین وظایف استخراج اطلاعات است که با شناسایی عبارات اسمی (اشاره‏هایی) که به یک موجودیت واحد اشاره دارند، همراه می‏باشد.[58]به این ترتیب که این اشاره‏ها تشکیل یک زنجیره‏ی هم‏مرجع را می‏دهند. در این فصل برخی از روش‏هایی که در زمینه تشخیص مرجع مشترک بکارگرفته شده‏اند را بررسی می‏نماییم. از آنجائیکه تا کنون پژوهش منتشر شده‏ای در این زمینه در زبان پارسی پیدا نکردیم، در این بخش به بررسی روش‏های ارائه شده در سایر زبان ها(انگلیسی، عربی، چینی و...) می‏پردازیم.
به طور کلی روش‏های تشخیص مرجع مشترک به دو دسته کلی زبان‏شناسی و روش‏های یادگیری ماشین تقسیم می‏شوند. به این ترتیب که در روش‏های زبان‏شناسی، بسیار نیازمند دانش زبان‏شناسی هستیم. استخراج این دانش از متن، فرآیندی زمان‏بر و پر‏خطاست. نخستین الگوریتم‏های زبان‏شناسی مرتبط با تشخیص مرجع مشترک در اواخر دهه هفتاد ارائه شدند که در آن‏ها از دانش زبان‏شناسی و معنایی بسیاری استفاده شده‏است.[19،60] پس از آن، با گذر زمان و فراهم شدن پیکره‏های زبان‏شناسی، این روش‏ها، جای خود را به روش‏های آماری دادند. در روش‏های آماری، دانش مورد نیاز بیشتر با استفاده از پیکره‏های بزرگ و روش‏های آماری کسب می‏شود و نسبت به روش قبل، به دانش زبان‏شناسی کمتری نیاز است و همچنین به نتایج بهتری نیز بدست می‏آید.[105] در ادامه‏ی این بخش نخست به مرور مختصری از شیوه‏های کلی روش‏های زبان‏شناسی می‏پردازیم. سپس روش‏های یادگیری ماشین را با تفصیل بیشتری بیان خواهیم نمود.
2-1-۲. روش‏های زبان‏شناسی
عموماً روش‏های زبان‏شناسی به منظور تشخیص مرجع مشترک، از مجموعه‏ای از فاکتورها بهره می‏گیرند. تطابق جنس و عدد (چندم شخص ، مفرد/ جمع)، محدودیت‏های تطبیق معنایی، مشابهت معنایی، مشابهت نحوی، بارز بودن، مجاورت و غیره از جمله فاکتورهای متداول برای تشخیص مرجع مشترک می‏باشند. این فاکتورها می‏توانند «حذف‏کننده» یا «امتیاز‏دهنده» باشند. جدول 2-۱ این فاکتورها را به تفکیک «حذف‏کننده» و «امتیازدهنده» نمایش می‏دهد.
جدول2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک
«حذف‏کننده» «امتیاز‏دهنده»
تطبیق جنس و تعداد
تطبیق معنایی مشابهت معنایی
مشابهت نحوی
بارز بودن
مجاورت
در روش‏های زبان‏شناسی، روال کار به این صورت است که ابتدا به ازای یک عبارت تالی، عبارات مقدم(عبارات هم‏مرجع) کاندیدای آن تعیین می‏گردد. پس از آن با استفاده از فاکتورهای «حذف‏کننده»، برخی از کاندیداها حذف می‏شوند، سپس فاکتورهای امتیازدهنده به امتیازدهی کاندیداهای باقیمانده می‏پردازند. در نهایت نیز کاندیدایی که بیشترین امتیاز را کسب کرده باشد به عنوان عبارت مقدم که با عبارت اسمی مورد نظر هم‏مرجع می‏باشد، انتخاب خواهد شد.
2-1-۲-۱.فاکتورهای «حذف کننده»
2-1-2-1-1.تطبیق جنس و عدد
این دو فاکتور بررسی می‏پردازند که آیا دو عبارت اسمی از نظر جنس و تعداد با یکدیگر مطابق هستند یا خیر.
Alii asked Zahraj and Herj sistersk that leave himi alone مثال1:
همان طور که مشاهده می‏شود در مثال بالا "her sisters" نمی‏تواند با "him" هم‏مرجع باشد چراکه از نظر جنس و تعداد با یکدیگر مطابقت ندارند.
2-1-2-1-2 .تطبیق معنایی
این فاکتور از این جهت به کار می‏رود که اگر یک عبارت اسمی در یک حوزه معنایی صادق بود، عبارت اسمی هم‏مرجع آن نیز باید در آن محدوده‏ی معنایی صادق باشد.
Alii closed the windowj and cleaned itj : مثال 2
همانطور که مشاهده می‏شود، ضمیر it"" تنها می‏تواند با عبارت اسمی "window" که غیرجاندار و قابل تمیز کردن است هم‏مرجع باشد.
2-1-۲-۲. فاکتورهای امتیازدهنده
فاکتورهای امتیازدهنده، برخلاف فاکتورهای حذف‏کننده که الزاماً باید بررسی شوند اجباری نیستند. به این ترتیب لزومی ندارد که تمامی عبارت‏های اسمی با مرجع مشترک دارای این فاکتورها باشند. در این بخش سه فاکتور مشابهت نحوی، مشابهت معنایی و بارز بودن را به همراه مثال شرح می‏دهیم.
2-1-2-2-1. مشابهت نحوی
این امتیاز زمانی به یک عبارت اسمی تعلق می‏گیرد که نقش نحوی آن با عبارت اسمی هم‏مرجع کاندیدا یکسان باشد.
The programmeri finally combined the Prologj with Pascalk, currently heiمثال3:
had combined itj with Cm
در مثال فوق، از آن جایی که عبارت اسمی "prolog" با "it" نقش نحوی یکسانی دارد، برای هم‏مرجع بودن با آن امتیاز بیشتری به عبارت اسمی "Pascal" دارد.
2-1-2-2-2. مشابهت معنایی
مشابهت معنایی، نسبت به فاکتور قبل، تاثیر بیشتری در امتیازدهی دارد. با این تفاوت که تنها سیستم‏هایی می‏توانند از آن بهره ببرند که قادر به تعیین خودکار نقش معنایی هر عبارت باشند. این فاکتور، به عبارت اسمی که نقش معنایی یکسانی با عبارت اسمی مورد نظر داشته باشد، امتیاز بیشتری می‏دهد.
Alii gave the book to Rezaj; Zahrak also gave himj a notebook مثال4:
در مثال فوق، احتمال هم‏مرجع بودن ضمیر "him" با " Reza"بیشتر است به این دلیل که عبارت اسمی ""Reza، نسبت به ""Ali دارای امتیاز بالاتری می‏باشد و همچنین نقش نحوی "Reza" باHim" " یکسان است.
2-1-2-2-3.بارز بودن
هر چند دو فاکتور قبل در انتخاب یک مقدم برای تالی مورد نظر، بسیار قوی هستند، اما این فاکتورها همیشه برای تفکیک میان مجموعه کاندیدا از عبارات اسمی مقدم کافی نیستند. بعلاوه این عوامل به جای پیشنهاد کاندیدای محتمل‏تر، بیشتر مانند یک فیلتر برای حذف کردن کاندیدای نامناسب به کار می‏روند.
در این میان، هنگامی که در انتخاب مقدم کاندیدا ابهام وجود داشته باشد، معمولا عبارت اسمی که بارزتر از سایرین است، دارای امتیاز بیشتری برای عبارت اسمی مقدم می‏باشد. بارزترین عنصر در زبان‏شناسی محاسباتی، به‏عنوان کانون توجه و یا مرکز در نظر گرفته می‏شود [10،60]
Jennyi put the cupj on the platek and broke it? مثال 5 :
همان طور که در مثال بالا مشاهده می‏نمایید نه تنها رایانه، بلکه حتی انسان نیز قادر نیست تا مرجع ضمیر "it" را مشخص نماید. البته در صورتی که این جمله، بخشی از یک متن باشد، می‏توان بارزترین عنصر را در متن شناسایی نمود. به این ترتیب با توجه به متن مثال 6 می‏توان مشاهده نمود که "The cup" بارزترین موجودیت در متن بوده و به همین دلیل به‏عنوان کانون توجه در کل متن در نظر گرفته می‏شود.
مثال6:
Jenny went window shopping yesterday and spotted a nice cup. She wanted to buy it, but she had no money with her, nevertheless, she knew she would be shopping the following day, so she would be able to buy the cup then. The following day, she went to the shop and bought the coveted cup. However, once back home and in her kitchen, she put the cup on a plate and broke it…
به این ترتیب می‏توان نتیجه گرفت که هرگاه دو کاندیدا در شرایط یکسانی قرار گرفته باشند، فرآیند تعیین عبارت مقدم، به فرآیند تعیین بارزترین عنصر جمله تبدیل می‏شود.
همان طور که گفته شد، روش‏های زبان‏شناسی، برای تشخیص مرجع مشترک از دانش‏های نحوی، معنایی، ریخت شناسی و حتی دانش جهان استفاده می‏پردازند. به این ترتیب کسب این حجم عظیم از اطلاعات فرآیندی پرهزینه، زمانبر و همچنین پرخطا را به دنبال خواهد داشت. به همین دلیل و به علت پدید آمدن پیکره‏های بزرگ زبان‏شناسی، پژوهشگران به سمت استفاده از روش‏های آماری ترغیب شدند.
2-1-۳. روش‏های یادگیری ماشینی
در سیستم‏های مبتنی بر یادگیری ماشین، دانش مورد نیاز از طریق استفاده از الگوریتم‏های یادگیری و مجموعه داده‏های آموزشی کسب می‏شود. شاید بتوان گفت که استفاده از روش‏های یادگیری ماشینی در فرآیند تشخیص مرجع مشترک نخستین بار توسط مک کارتی و همکارانش در سال ۱۹۹۵ و با به کارگیری مدل‏های درخت تصمیم انجام شد[52]
یکی از رویکرد‏های ارائه شده در تحلیل مرجع مشترک، تحلیل مرجع مشترک پایان به پایان می‏باشد؛ این رویکرد می‏تواند به دو صورت دنبال شود، (۱) دریافت متن خام و انجام تمام پیش پردازش‏ها بر روی متن و در نهایت تحلیل مرجع مشترک، (۲) استفاده از متونی که در آن‏ها عبارت‏های اسمی‏ای که به موجودیت‏ها ارجاع دارند، در قالب «اشاره‏ها» نشانه‏گذاری شده باشند.[63] به طوریکه هر اشاره دارای برچسب‏های باشد تا ویژگی‏های آن اشاره را نمایان سازد.
با تکیه بر این مسئله نخستین بار سون و همکارانش در ۲۰۰۱، از پیش پردازش‏هایی مانند برچسب‏گذاری‏ ادات سخن، شناسایی موجودیت‏های نامدار و ... استفاده کرده و در نهایت تمام نتایج حاصل از پیش پردازش‏ها را با هم ادغام نمودند. به این ترتیب آن‏ها توانستند به اطلاعات مناسبی برای اشاره‏ها دست پیدا کنند. به دنبال آن‏ها این مسئله به طور گسترده‏تر مورد توجه پژوهشگران قرار گرفت. به طوریکه در اغلب پژوهش‏هایی که از انواع روش‏های رده‏بندی برای تشخیص ارتباط میان اشاره‏ها استفاده شده‏است، مشخص نمودن مجموعه‏ای از ویژگی‏های مناسب یک مسئله حیاتی برای شروع کار محسوب می‏شود. این مجموعه ویژگی‏ها در تعیین اینکه آیا دو عبارت اسمی با هم، هم‏مرجع هستند یا خیر، موثر می‏باشند. بعلاوه، این ویژگی‏ها باید به اندازه کافی عمومی‏باشند تا بتوان آن‏ها را برای متن ها در زمینه‏های متفاوت و انواع گوناگون اسم‏ها و عبارت‏های اسمی به کار برد.
2-1-۳-۱. ویژگی‏ها:
از لحاظ زبان‏شناسی ویژگی‏های گفته شده به چهار دسته‏ی لغوی، نحوی، معنایی و فاصله (مکانی) تقسیم می‏شوند.[105] البته، در طی سال‏های اخیر پژوهشگران برای بهبود نتایج تحلیل مرجع مشترک دامنه‏ی ویژگی‏ها را گسترش داده‏اند، به طوریکه برخی از پژوهشگران معتقدند اگر یک بازنمائی مناسب از ویژگی‏های غنی وجود داشته‏باشد، حتی یک مدل ساده نیز می‏تواند مانند تکنولوژی‏های جدید عمل نماید.[45]در جدول2-۲ یک طبقه‏بندی از ویژگی‏های رایج برای تحلیل مرجع مشترک آورده شده است.
2-1-۳-۲. مدل‏های جفت اشاره:
یکی از روش‏های رایج برای تحلیل مرجع مشترک، استفاده از رده‏بندی دودوئی می‏باشد؛ در روش‏های رده‏بندی، تصمیم‏گیری بر اساس یک جفت اشاره صورت می‏گیرد. عموماً روال کار به این ترتیب است که دو اشاره توسط یک رده‏بند دریافت می‏شود و درنهایت مشخص می‏شودکه آیا دو عبارت با یکدیگر هم‏مرجع هستند یا خیر. حتی در برخی موارد میزان احتمالِ هم‏مرجع بودن آن‏ها نیز تعیین می‏گردد. در آخر نیز مجموع این تصمیمات دوبه‏دو به مسئله‏ی افراز اشاره‏ها تبدیل می‏گردد. که می‏تواند با استفاده از خوشه‏بندی و یا هر روش افراز دیگر انجام گیرد. یکی از محاسن این دسته از روش‏ها در سادگی آن‏ها می‏باشد. علاوه براین، مدل‏های بسیاری برای حل مسائل رده‏بندی وجود دارند که از کارائی بالایی برخوردار می‏باشند. از سوی دیگر، مشکل این دسته از روش‏ها در این است که تصمیم‏گیری در مورد جفت عبارات اسمی، به صورت مستقل انجام می‏گیرد و روابط متعددی در تصمیم‏گیری در نظر گرفته نمی‏شود. به عبارت دیگر مشکلی به نام «ناسازگاری‏های سه‏گانه» بوجود خواهند آمد. به‏عنوان مثال، در روش‏های رده‏بندی، اگر عبارت‏های "Mrs. Kazemi" و "Kazemi” هم‏مرجع باشند احتمال اینکه عبارت‏های "Kazemi “و "he" نیز با هم، هم‏مرجع باشند وجود دارد [6]. از آنجائیکه این دو تصمیم به طور جداگانه گرفته می‏شود؛ امکان بروز این خطا که در جفت اول، جنس از نوع مونث، اما در عبارت دوم، جنس از نوع مذکر است و هر سه نمی‏توانند به یک مرجع مشترک اشاره داشته باشند، غیر قابل اجتناب است.[63،76]
برطرف کردن چنین مشکلی به مسئله خوشه‏بندی برمی‏گردد. البته شایان ذکر است که بر طرف کردن چنین خطایی در زبان پارسی، حتی با استفاده از خوشه‏بندی نیز آسان نخواهد بود، چرا که جنسیت در زبان پارسی مشخص نیست، در هر حال، با توجه به این مسئله، روال کار در مدل‏های مبتنی بر جفت اشاره در دو مرحله انجام خواهد شد. اما پیش از آنکه بخواهیم هر کدام از این دو مرحله (رده ‏بندی و افراز) را شرح دهیم، به طور خلاصه به روال تولید نمونه‏های آموزشی مثبت و منفی از متن ورودی می‏پردازیم.
جدول2-۲: برخی از ویژگی‏های ارائه شده در تحلیل مرجع مشترک[12،44،45،50،65،77،82،103،105]
ویژگی توضیح
فاصله این ویژگی‏ها، فاصله میان دو عبارت اسمی(mi , mj) را در قالب تعداد جملات بین دو عبارت، تعیین می‏کنند.
تطبیق این ویژگی‏ها، تطبیق عدد و جنس دو عبارت اسمی(mi , mj) را مشخص می‏نمایند.
نوع عبارت اسمی این ویژگی‏ها، نوع عبارات اسمی را بررسی می‏پردازند که می‏تواند هم از طریق تحلیل نحوی و هم از طریق رویکردهای سطحی مشخص شود. عموما انواع عبارات اسمی به سه دسته اسم عام، اسم خاص، ضمایر تقسیم می‏شوند.
*شناسایی نوع عبارت‏های اسمی در زبان انگلیسی ساده تر از زبان پارسی است. به عنوان نمونه اسامی خاص در زبان انگلیسی با حرف بزرگ شروع می‏شوند در صورتی که در زبان پارسی چنین نیست.
نحوی سطحی در این حالت برخی از ویژگی‏های نحوی مورد بررسی قرار می‏گیرند؛ به عنوان نمونه‏ایا mj به عنوان بدل یا عطف بیان برای mi محسوب می‏شود.
نحوی عمقی برخی از پژوهشگران، از تجزیه‏گر برای اینکار استفاده می‏نمایند. آن‏ها از درخت‏های تجزیه و یا زیر درخت‏های تجزیه به عنوان ویژگی‏های نحوی عمقی بهره می‏برند.به عنوان نمونه [45] خلاصه‏های مفیدی مانند مسیر وابستگی میان گره‏های ریشه و هر کدام از mi و mj را محاسبه می‏نمایند. همچنین می‏توان از برخی از محدودیت‏های اتصال مانند آنچه در بخش مشابهت نحوی روش‏های زبان‏شناسی گفته شد نیز استفاده نمود.
تطابق رشته ای این ویژگی می‏تواند برای عبارت‏های اسمی کامل و اسامی بسیار مفید باشد. اینکه این تطبیق چه به صورت کامل درنظر گرفته شود چه به صورت جزئی، می‏تواند مانند [103] از ورژن قوی‏تری مانند «تطابق هسته» پیروی کند. به این ترتیب که در این رویکرد تمامی وابسته‏ها حذف شده و تنها به تطابق رشته‏ای هسته‏ها در mi و mj پرداخته می‏شود. البته در گاهی اوقات مانند اسامی انسان‏هایی که در وابسته ی پیشین خود با یکدیگر متفاوت هستند(آقای اسمیت و جانت اسمیت) و یا نامهای برخی از سازمان‏ها می‏توان از «تطابق اسم مستعار» نیز استفاده کرد.یکی از تکنیک‏های ماهرانه در این خصوص، روش [65] می‏باشد که استفاده از تکنیک فاصله ویرایش حداقل را ارائه نموده است.

بانک پایان نامه های روانشناسی

بانک پایان نامه های روانشناسی

پژوهش user7-230

سایت دانلود پژوهش ها و منابع علمی

پژوهش user7-230

پژوهش user7-230

پژوهش user7-230

پژوهش

دسته‌بندی نشده

LEAVE COMMENT

بانک پایان نامه های روانشناسی

جدیدترین یادداشت‌ها

بایگانی

جستجو

پژوهش user7-230

سایت دانلود پژوهش ها و منابع علمی

پژوهش user7-230

پژوهش user7-230

پژوهش user7-230

پژوهش

دسته‌بندی نشده

LEAVE COMMENT