|
|
شباهت یابی بین زبانی جملات فارسی-انگلیسی با استفاده از یادگیری عمیق
|
|
|
|
|
نویسنده
|
عبدوس محمد ,مینایی بیدگلی بهروز
|
منبع
|
رايانش نرم و فناوري اطلاعات - 1401 - دوره : 11 - شماره : 1 - صفحه:18 -31
|
چکیده
|
شباهتیابی معنایی متون یکی از زیرشاخههای پردازش زبان طبیعی محسوب میشود که در چند سال اخیر تحقیقات گستردهای را به خود معطوف کرده است. سنجش تشابه معنایی بین کلمات یا اصطلاحات، جملات، پاراگراف و اسناد، نقش مهمی در پردازش زبان طبیعی و زبانشناسی رایانشی ایفا میکند. شباهتیابی معنایی متون در سامانههای پرسش و پاسخ، کشف تقلب، ترجمه ماشینی، بازیابی اطلاعات و نظیر آن کاربرد دارد. منظور از شباهتیابی معنایی، محاسبه میزان شباهت معنایی بین دو سند متنی، پاراگراف یا جمله میباشد که به دو صورت تکزبانه و چندزبانه مطرح است. در این مقاله با استفاد از پیکره موازی میزان، برای اولین بار مدل بین زبانی شباهت معنایی جملات فارسی-انگلیسی را ارائه داده و در ادامه مدل خود را با مدل برت چندزبانه مورد آزمون و مقایسه قرار دادیم. نتایج حاکی از آن است که با استفاده از پیکرههای موازی میتوان کیفیت تعبیه جملات را در دو زبان مختلف بهبود بخشید. در روش پیشنهادی، معیار همبستگی پیرسون بر اساس شباهت کسینوسی بین بردارهای معنایی حاصل از برت چندزبانه از 65 درصد به 73.77 درصد افزایش یافته است. روش پیشنهادی بر جفت زبان عربی-انگلیسی نیز مورد آزمون قرار گرفت که نتایج حاصله بیانگر برتری روش پیشنهادی نسبت به برت چند زبانه است.
|
کلیدواژه
|
پردازش زبان طبیعی، شباهت معنایی، بین زبانی، یادگیری عمیق
|
آدرس
|
دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران, دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
b_minaei@iust.ac.ir
|
|
|
|
|
|
|
|
|
semantic textual similarity of persian-english sentences using deep learning
|
|
|
Authors
|
abdous mohammad ,minaei bidgoli behrouz
|
Abstract
|
semantic textual similarity is one of the subtasks of natural language processing that has attracted extensive rese arch in recent years. measuring semantic similarity between words, sentences, paragraphs, and documents plays an important role in natural language processing and computational linguistics. semantic similarity of texts is used in question-answering systems, fraud detection, machine translation, information retrieval and etc. semantic similarity means calculating the degree of similarity between two textual documents, paragraphs or sentences, which are presented in both monolingual and cross lingual forms. in this article, by using the parallel corpus, for the first time, the cross lingual model of semantic similarity for persian-english sentences is presented, and then we test and compare our model with the multilingual bert model. the results show that by using parallel corpuses, the quality of sentence embedding in two different languages can be improved. pearson correlation criterion based on cosine similarity between sentence’s vector of multilingual bert has increased from 65% to 73.77% by the proposed method. the proposed method was also tested on the arabic-english language pair, and the results show that the proposed method is superior to the multilingual bert.
|
Keywords
|
natural language processing ,semantic similarity ,cross lingual ,deep learning
|
|
|
|
|
|
|
|
|
|
|