شباهت یابی بین زبانی جملات فارسی-انگلیسی با استفاده از یادگیری عمیق

Fa | Ar | En

شباهت یابی بین زبانی جملات فارسی-انگلیسی با استفاده از یادگیری عمیق


نویسنده	عبدوس محمد ,مینایی بیدگلی بهروز
منبع	رايانش نرم و فناوري اطلاعات - 1401 - دوره : 11 - شماره : 1 - صفحه:18 -31
چکیده	شباهت‌یابی معنایی متون یکی از زیرشاخه‌های پردازش زبان طبیعی محسوب می‌شود که در چند سال اخیر تحقیقات گسترده‌ای را به خود معطوف کرده است. سنجش تشابه معنایی بین کلمات یا اصطلاحات، جملات، پاراگراف و اسناد، نقش مهمی در پردازش زبان طبیعی و زبان‌شناسی رایانشی ایفا می‌کند. شباهت‌یابی معنایی متون در سامانه‌های پرسش و پاسخ، کشف تقلب، ترجمه ماشینی، بازیابی اطلاعات و نظیر آن کاربرد دارد. منظور از شباهت‌یابی معنایی، محاسبه میزان شباهت معنایی بین دو سند متنی، پاراگراف یا جمله می‌باشد که به دو صورت تک‌زبانه و چندزبانه مطرح است. در این مقاله با استفاد از پیکره موازی میزان، برای اولین بار مدل بین زبانی شباهت معنایی جملات فارسی-انگلیسی را ارائه داده و در ادامه مدل خود را با مدل برت چندزبانه مورد آزمون و مقایسه قرار دادیم. نتایج حاکی از آن است که با استفاده از پیکره‌های موازی می‌توان کیفیت تعبیه جملات را در دو زبان مختلف بهبود بخشید. در روش پیشنهادی، معیار همبستگی پیرسون بر اساس شباهت کسینوسی بین بردارهای معنایی حاصل از برت چندزبانه از 65 درصد به 73.77 درصد افزایش یافته است. روش پیشنهادی بر جفت زبان عربی-انگلیسی نیز مورد آزمون قرار گرفت که نتایج حاصله بیانگر برتری روش پیشنهادی نسبت به برت چند زبانه است.
کلیدواژه	پردازش زبان طبیعی، شباهت معنایی، بین زبانی، یادگیری عمیق
آدرس	دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران, دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران
پست الکترونیکی	b_minaei@iust.ac.ir

semantic textual similarity of persian-english sentences using deep learning

Authors	abdous mohammad ,minaei bidgoli behrouz
Abstract	semantic textual similarity is one of the subtasks of natural language processing that has attracted extensive rese arch in recent years. measuring semantic similarity between words, sentences, paragraphs, and documents plays an important role in natural language processing and computational linguistics. semantic similarity of texts is used in question-answering systems, fraud detection, machine translation, information retrieval and etc. semantic similarity means calculating the degree of similarity between two textual documents, paragraphs or sentences, which are presented in both monolingual and cross lingual forms. in this article, by using the parallel corpus, for the first time, the cross lingual model of semantic similarity for persian-english sentences is presented, and then we test and compare our model with the multilingual bert model. the results show that by using parallel corpuses, the quality of sentence embedding in two different languages can be improved. pearson correlation criterion based on cosine similarity between sentence’s vector of multilingual bert has increased from 65% to 73.77% by the proposed method. the proposed method was also tested on the arabic-english language pair, and the results show that the proposed method is superior to the multilingual bert.
Keywords	natural language processing ,semantic similarity ,cross lingual ,deep learning