|
|
همانندجویی در متون فارسی بازنویسی شده با استفاده از روشهای معنایی و احتمالاتی
|
|
|
|
|
نویسنده
|
پاکنیت نصراله ,محبی آزاده
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1398 - دوره : 34 - شماره : 4 - صفحه:1823 -1848
|
چکیده
|
همانندجویی ابزاری است که از آن برای تشخیص سرقت علمی/ ادبی استفاده میشود. هدف در یک روش همانندجویی، تشخیص تمام قسمتهای همانندِ موجود در یک متن مشکوک با توجه به تعدادی متن منبع احتمالی است. روشهای زیادی برای همانندجویی ارائه شده، اما از یک طرف، استفاده از روشهای همانندجوی موجود برای سایر زبانها بهمنظور همانندجویی در زبان فارسی مناسب نیست و از طرف دیگر، اغلب روشهای ارائهشده برای همانندجویی در زبان فارسی قادر به تشخیص متون بازنویسیشده نیستند. با توجه به این مهم، در این مقاله دو روش همانندجویی جدید با هدف تشخیص متون فارسی بازنویسیشده ارائه خواهد شد. روششناسی پژوهش بر اساس مطالعه منابع و مستندات معتبر علمی در این خصوص و روش کتابخانهای است. روش اولِ پیشنهادی روشی معنایی است و از لغتنامه جهت بررسی همانندی جملات متون استفاده میکند. روش دومِ پیشنهادی روشی احتمالاتی است و از اطلاعات آماری بهدستآمده از پیکرهای عظیم از متون برای همانندجویی استفاده میکند. روش معناییِ پیشنهادی در مقایسه با روشهای معنایی موجود از معیارهای جدیدتری برای بررسی همانندی متون استفاده کرده و روش احتمالاتی پیشنهادی اولین روش همانندجویی احتمالاتی ارائهشده برای زبان فارسی است. علاوه بر این، در حالی که در سایر روشهای موجود، همانندی هر دو جمله از متون مورد نظر بهصورت مستقل بررسی میشود، در روشهای پیشنهادی همانندی جملات همسایه نیز در بررسی همانندی دو جمله در نظر گرفته شده است. نتایج پیادهسازی و آزمایشات صورتگرفته بر روی روشهای پیشنهادی نشان میدهد که در حالی که هر دو روش از کیفیت مناسب و تقریباً یکسانی برخوردار هستند، روش همانندجوی احتمالاتیِ پیشنهادی بسیار کاراتر بوده و زمان مورد نیاز برای همانندجویی با استفاده از آن بهطور متوسط برابر با 3.8 درصد زمان مورد نیاز توسط الگوریتم همانندجوی معناییِ پیشنهادی است.
|
کلیدواژه
|
تشخیص سرقت علمی، همانندجویی معنایی، همانندجویی احتمالاتی، متون بازنویسی شده
|
آدرس
|
پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), ایران, پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), ایران
|
پست الکترونیکی
|
mohebi@irandoc.ac.ir
|
|
|
|
|
|
|
|
|
Detecting Similarity in Paraphrased Persian Texts using Semantic and Probabilistic Methods
|
|
|
Authors
|
Pakniat Nasrollah ,Mohebi Azadeh
|
Abstract
|
Plagiarism detection is the process of locating instances of plagiarism within a work or a document. The main component of a plagiarism detection system is its text alignment algorithm aiming at detecting paraphrased passages of texts in a suspicious document, using a small set of candidate source documents. As text alignment algorithms are highly languagedependent, thus the numerous existing algorithms for other languages other than Pesian cannot be employed for Persian plagiarism detection puposes. There are different text alignment algorithms for Persian texts, while most of them are only able to detect exactly identical passages shared between texts. However, in many cases of plagiarism detection we are coping with the problem of finding similar passages that are already paraphrased. In this paper, we propose two new text alignment algorithms which are able to detect paraphrased texts in Persian language. The first one is a semantic algorithm that employs a dictionary to detect paraphrased sentences and the second one is a probabilistic algorithm that uses the statistical information obtained from a large corpus of Persian texts to detect similar texts. Compared to other existing semantic text alignment algorithms, the proposed algorithms use different measures to check the similarity between the text sentences. Furthermore, the probabilistic algorithm is the first probabilistic text alignment algorithm proposed for the Persian language. Moreover, while all existing text alignment algorithms check the similarity between any two sentences of the text separately, the proposed algorithms consider the similarity neighboring sentences in the text as well. The implementation results indicate that while the quality of both algorithms in detecting paraphrased texts is high enough and almost the same as each other, the proposed probabilistic method is more efficient than the proposed semantic algorithm in terms of computation time.
|
Keywords
|
Plagiarism ,Semantic text alignment ,Probabilistic text alignment ,Paraphrased texts.
|
|
|
|
|
|
|
|
|
|
|