|
|
اثربخشی ترجمه ماشینی در فرآیند پردازش زبان؛ بهرهگیری از قرینه سیاق در معنایابی واژگان قرآن
|
|
|
|
|
نویسنده
|
شمس زینب ,چهره سپیده
|
منبع
|
زبان كاوي كاربردي - 1402 - دوره : 6 - شماره : 2 - صفحه:101 -130
|
چکیده
|
به فرآیند برگرداندن مطلبی از زبان مبدا به زبان مقصد که با یافتن هم ارزهای معناشناختی میان دو زبان صورت می گیرد، ترجمه می گویند. مهم ترین مشکلات ترجمه، ابهاماتی است که در واژگان و ساختار جملات وجود دارند. در یک تقسیم بندی، پنج نوع مهم ابهام واژگانی (ابهام های مقوله ای، واژه های هم آوا، واژه های هم نویسه، چند معنایی و ابهام انتقالی) و دو نوع مهم ابهام ساختاری (ابهام های ساختاری واقعی و ابهام های سیستمی) وجود دارد. ترجمه ماشینی (machine translation: mt) که بخشی از حوزه پردازش زبان طبیعی(natural language processing: nlp) مبتنی بر کامپیوتر در زبان شناسی رایانه ای و هوش مصنوعی بوده به عنوان یکی از تکنیکهای خودکاری است که متن بدون ساختار را به دادههای ساختاری تبدیل میکند با تبدیل متن به اطلاعات، توانسته است تحلیلهای بیشتری را به دادهها اعمال کرده تا اطلاعات مفیدی استخراج شود. در این نوشتار که به روش کتابخانه ای تدوین شده، جهت رفع مسائل پیرامون معنای واژگان در ترجمه ماشینی قرآن، طرحی به صورت نظری پیشنهاد شده که هدف آن کمک به فهم بهتر معنای واژگان قرآن، با بهرمندی از قرینه سیاق و بافت عبارت است. در روش پیشنهادی با بهره مندی از قاعده سیاق و تکنیک های متن کاوی، و با استناد به آن، واژه معادل مناسب تری در زبان مقصد برگزیند. در این طرح، سیاق را در مقیاس کلمات دانسته که می توان آن را به شرط احراز شرایط به انواع دیگر توسعه داد. به طور خلاصه این طرح دو مرحله دارد: اولویت بندی (وزن دهی) واژگان هم جوارِ هم ورودی (هر واژه در محدوده آیاتی که در مورد نزول یک باره آن ها اتفاق نظر وجود دارد) و سپس مقایسه با کلماتی که اشتراک لفظی (چندمعنا) دارند و نیز مقایسه همنظیران یک واژه با همنظیران سایر واژگان (مترادف یابی). می باشد. برای دقیق تر شدن نتایج می توان مشخصات بیشتری از کلمات را به صورت دستی تهیه نمود، جداولی شامل مواردی چون مکّی یا مدنی بود آیات، ترتیب نزول سوره، مفاهیم و تعابیری که در معنای کلمات قرآن در فرهنگ لغاتی چون لسان العرب ابن منظور و فرهنگ لغت راغب اصفهانی آمده است و غیره. برای بدست آوردن داده های ورودی از تکنیک های نمایه سازی استفاده می شود. در مرحله پیش پردازش باید داده هایی که دارای اهمیت کمتری است(stop words) (مانندالذی، التی، لم،کان، کانما و غیره) حذف شود تا خروجی بهتری بدست آید. برای تغییر شکل داده می توان اعراب را حذف کرد تا کدنویسی راحت تر انجام شود، برای کاهش نمونه نیز می توان از ریشه میانوندی کلمات استفاده نمود. برای اینکه با استناد به قاعده سیاق، برای یکایک کلماتی که به عنوان ورودی مورد پردازش قرار می گیرند، رکوردی از مشخصات تهیه نمود، لازم است ابتدا واحد سازی(tokenizer) صورت گیرد، در داده های اولیه تهیه شده، در کل مجموعه آیات ورودی، بر اساس دو معیار قرابت مکانی و فراوانی تکرار، به هر کلمه وزنی اختصاص یابد. هر چه کلمات به کلمه مورد نظر نزدیک تر و یا بیشترتکرار شده باشد، وزن بیشتری به آن اختصاص داده می شود که معرف ارتباط معنایی قوی تر آنان است و برعکس. طبیعتاَ کلماتی که در یک آیه قرار دارند (شماره آیه یکسانی دارند) نسب به کلماتی که در آیات دیگر و فاصله دورتر قرار دارند از ظریب تاثیر بیشتری برخوردار هستند. در سنجش معیار فراوانی: برای نشان دادن اهمیت کلمه در سوره از فراوانی وزنی (tf/idf weight) استفاده می شود، مقدار tf/idf به تناسب تعداد تکرار کلمه در هر سوره یا مجموعه آیات ورودی، افزایش مییابد و توسط تعداد آیاتی که در سوره هستند و شامل کلمه نیز میباشند متعادل میشود. در نهایت این نتیجه حاصل آمد که از هم جواری کلمات و روابط معنایی بین آن ها و با کمک تکنیک های متن کاوی، فهم بیشتری از واژگان حاصل شده که این مهم گزینش مناسب تر واژه معادل در زبان مقصد را منجر می شود.
|
کلیدواژه
|
زبان شناسی رایانه ای، جامعه شناسی زبان، ترجمه ماشینی، قرآن، قرینه سیاق، معادل یابی واژگان
|
آدرس
|
دانشگاه کاشان, دانشکده الهیات, ایران, دانشگاه آزاد اسلام واحد علوم تحقیقات تهران, ایران
|
|
|
|
|
|
|
|
|
|
|
efficiency of machine translation in the language processing process; using context clues in finding the [exact] meaning of quranic words [in persian]
|
|
|
Authors
|
shams zaynab ,chehreh sepideh
|
Abstract
|
translation is the transfer of the content of a text from the source language in to the target language, which is done by finding semantic equivalents between the two languages. the most important problems facing translation are the ambiguities in vocabulary and sentence structure. in a division, there are five important types of lexical ambiguity (categorical ambiguities, homophones, homographs, polysemy and transitive ambiguity), and two important types of structural ambiguity (real structural ambiguities and systemic ambiguities). machine translation (mt), which is a part of the computer-based field of natural language processing (nlp) in computational linguistics and artificial intelligence, is considered as one of the automatic techniques that that convert unstructured text into structured data, and by converting text into information, it has been able to apply further analysis to the data to extract useful information. in this article, which was compiled in a library method, a theoretical plan has been proposed to resolve the issues surrounding the meaning of words in the machine translation of the quran, the purpose of which is to help better understand the meaning of the words of the quran, by taking advantage of the context clues and styles of the expressions. in the proposed method, a more suitable equivalent word is chosen in the target language by taking advantage of the context rule and text mining techniques, and referring to it. in this plan, the context is considered in the scale of words, which can be developed to other types if the conditions are met. in short, this plan has two steps: prioritizing (weighting) the adjacent words next to each other (any word within the range of verses where there is a consensus about their simultaneous descent) and then, comparing with the homonyms words (polysemous), and also comparing the equivalents of a word with the equivalents of other words (synonymization). in order to make the results more accurate, more specifications of the words can be prepared manually, tables that include things such as whether the verses are meccan or medinan, the order of revelation of the surahs, the concepts and interpretations that are mentioned in the meaning of the words of the qur’an in dictionaries such as lisan al-arab by ibn manzur and the book of vocabulary in the strange qur’an by al-ragheb al-isfahani and so on. indexing techniques are used to obtain input data. in the pre-processing stage, the data that is less important (stop words) (such as “al-lazi (which)”, “al-lati (that is)”, “lam (not)”, “k’ana (was)”, “kaannama (as if)”, etc.) should be removed to get a better output. to change the shape of the data, the diacritic can be removed to make coding easier, and to reduce the sample size, the infix of the words can be used. in order to prepare a record of specifications for each word that is processed as input, based on the rule of context clues, at first, it is necessary to create a tokenizer, to prepare it in the primary data, and in the entire collection of input verses, a weight should be assigned to each word based on the two criteria of spatial proximity and frequency of repetition. the closer the words are to the desired word or the more it is repeated, the more weight is assigned to it, which represents their stronger semantic connection, and vice versa. naturally, the words that are in the same verse (have the same number of the verse) have a greater influence than the words that are in other verses and at a further distance. in measuring the frequency criterion, weighted frequency (tf/idf weight) is used to show the importance of the word in the surah, the value (tf/idf value) increases proportionally to the number of times a word appears in each surah or set of input verses, and is balanced by the number of verses that are in the surah and contain the word. finally, it was concluded that by using the contiguity of words and the semantic relations between them, and with the help of text mining techniques, a greater understanding of the vocabulary was obtained, which leads to a more appropriate selection of the equivalent word in the target language.
|
Keywords
|
computational linguistics ,sociology of language ,machine translation ,context correlation ,finding equivalents for the words
|
|
|
|
|
|
|
|
|
|
|