>
Fa   |   Ar   |   En
   استخراج روابط محلی وابسته به ترتیب کلمات با استفاده از یک مدل سلسله‌مراتبی بیز  
   
نویسنده رحیمی مرضیه ,زاهدی مرتضی ,مشایخی هدی
منبع مهندسي برق دانشگاه تبريز - 1399 - دوره : 50 - شماره : 3 - صفحه:1239 -1246
چکیده    در این مقاله، یک مدل سلسله مراتبی بیز برای استخراج روابط محلی کلمات معرفی شده‌است. این مدل را می‌توان یک مدل برای زبان دانست. مدل‌های زبانی کنونی به دلیل وابستگی به ترتیب دقیق کلمات، به شدت از مشکل تنکی رنج می‌برند. مدل پیشنهادی قادر است ضمن نادیده نگرفتن ترتیب کلمات، این مشکل را تخفیف دهد. در مدل پیشنهادی که یک مدل مولد است، فرض می‌شود که هر کلمه از یکی از کلمات قبلی خود در یک بازه محدود یا به‌بیان‌دیگر، یک پنجره با طول ثابت، تولید شده‌است. به‌این‌ترتیب، هر کلمه خود توزیعی بر روی کلمات است. برخلاف مدل‌های n-gram که توزیعی بر روی دنباله‌های کلمات هستند و درنتیجه دنباله‌های دقیقاً مرتب کلمات را می‌شمرند، در مدل پیشنهادی به دنبال زوج‌کلماتی هستیم که ممکن است با فاصله‌های مختلف از یکدیگر رخ داده باشند. به‌این‌ترتیب مشکل تنکی تا حد زیادی تخفیف می‌یابد. مدل پیشنهادی از نظر تواناییش در مدل کردن داده‌ها با استفاده از معیار perplexity  با مدل n-gram مقایسه شده‌است و برای پنجره‌هایی با طول‌های مختلف، بهتر از مدل n-gram عمل کرده‌است.
کلیدواژه مدل‌های سلسله مراتبی بیز، مدل‌های گرافیکی، نمونه‌برداری گیبس، مدل‌های زبانی، زنجیره مارکوف مونت کارلو، روابط کلمات
آدرس دانشگاه صنعتی شاهرود, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه صنعتی شاهرود, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه صنعتی شاهرود, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران
پست الکترونیکی hmashayekhi@shahroodut.ac.ir
 
   Extracting Order-Sensitive Word-to-Word Relations Using a Hierarchical Bayes Model  
   
Authors Rahimi M. ,Zahedi M. ,Mashayekhi H.
Abstract    In this paper, a hierarchical Bayes model is introduced which models local word relationships in a language. The model can be considered as a language model. The proposed model does not suffer from sparseness because it does not rely on the exact word orders. However, the model does not completely ignore the word orders.  The proposed generative model assumes that each word is a distribution over words and the current word is generated from the distribution of one of its previous words located in a fixedsize window. Contrary to an n-gram model which is a distribution over word sequences and so takes the exact sequences of words into account, the proposed model considers ordered pairs of words which can occur at different distances in the subject text data. Because of this, the sparseness problem is not severe for the proposed model. The model is compared with and outperformed n-gram model according to its ability to model text data which is evaluated by perplexity.
Keywords
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved