طراحی سامانۀ تشخیص دستبرد ادبی جملهبنیاد در متون فارسی به کمک همجوشی گواهها
|
|
|
|
|
نویسنده
|
آهنگربهان حمید ,منتظر غلامعلی
|
منبع
|
پردازش علائم و داده ها - 1395 - دوره : 13 - شماره : 1 - صفحه:71 -85
|
چکیده
|
در حال حاضر، افراد به راحتی میتوانند سند جدیدی را با رونوشتبرداری از منابع وسیع اینترنتی درست و به نام خود ثبت کنند که مصداقی از دستبرد ادبی است. سامانههای دستبرد ادبی موجود قابلیت شناسایی کامل انواع دستبرد را ندارند. چالش اساسی در این زمینه یافتن الگوریتمی مناسب برای بهبود میزان یافتههای مشابه و زمان بررسی آنهاست. تاکنون سنجههای مختلفی برای ارزیابی مشابهت دو سند ارائه شده که کارایی آنها به محتوای متن و منابع مورد استفاده برای مقایسۀ بین واژههای دو سند محدود است. در این مقاله روشی ارائه شده است که با توجه به کیفی و ناکامل بودن عوامل اثرگذار بر سنجش شباهت بین دو متن، از نظریۀ گواه برای همجوشی اطلاعات به منظور ارزیابی تشابه دو سند فارسی و کشف دستبرد ادبی استفاده میکند. سامانۀ طراحیشده در مرحلۀ اول جملههای موجود در سند را به دو بخش عمومی و تخصصی تقسیم کرده و سپس با استفاده از سنجههای متفاوت و استفاده از منابعی همانند «هستاننگار تخصصی» امتیاز تشابه برای هر بخش را محاسبه و در نهایت در دو سطح، میزان شباهت بین دو سند را استنتاج میکند؛ به طوریکه در سطح اول نتایج سنجههای شباهتسنجی به عنوان گواه (با باور پایۀ مشخص) با قاعدۀ دمپسترشفر با هم ترکیب شده و به عنوان گواهی جدید به سطح دوم منتقل میشوند. در سطح دوم نتیجۀ سطح اول وگواه جدید از طریق قاعدۀ میانگینگیری ترکیب شده و توابع باور و مقبولیت نهایی محاسبه و شباهت بین دو جمله(سند) ارزیابی میشود.سامانۀ مذکور بر دادههای واقعی در محیط زبان فارسی مورد ارزیابی قرار گرفته که با دقت بیش از 90% امکان شناسایی اسناد مشابه را داراست و به همین دلیل توانمندی لازم برای استفاده در حوزۀ شناسایی دستبرد ادبی را داراست.
|
کلیدواژه
|
دستبرد ادبی، همجوشی داده، سنجههای شباهتسنجی، نظریۀ گواه، شباهتسنجی معنایی
|
آدرس
|
دانشگاه تربیت مدرس, دانشکده مهندسی صنایع و سیستم ها, ایران, دانشگاه تربیت مدرس, دانشکده مهندسی صنایع و سیستم ها, ایران
|
پست الکترونیکی
|
montazer@modares.ac.ir
|
|
|
|
|