|
|
تولید خودکار متن فارسی با استفاده مدلهای مبتنی بر قاعده و تعبیه واژگان
|
|
|
|
|
نویسنده
|
حاجی پور امید ,سدیدپور سعیده سادات
|
منبع
|
پدافند الكترونيكي و سايبري - 1400 - دوره : 9 - شماره : 4 - صفحه:43 -54
|
چکیده
|
تولید زبان طبیعی از پردازش زبان طبیعی حاصل میشود. زبان طبیعی از یک سیستم ارائه ماشینی مانند پایگاه دانش تولید میشود. سیستمهای nlg از مدتها پیش وجود داشته اما فنّاوری آن به صورت ابزار تجاری اخیراً بهصورت گسترده به وجود آمده است. در nlg، سیستم نیاز به تصمیمگیری در مورد چگونگی قرار دادن یک مفهوم در کلمات دارد. توانایی ایجاد متن معنیدار نقش کلیدی در بسیاری از کاربردهای پردازش زبان طبیعی مانند ترجمه ماشین، گفتار و تبدیل عکس به متن دارد. هدف این پروژه ارائه روشی برای تولید متن با استفاده از روشهای هوش مصنوعی و با ساختار درست و آغازی برای تولید متن فارسی است. به عبارت دیگر در این مقاله روشی ارائه شده که قادر به تولید متن طولانی متنوع علاوه بر حفظ معنا و ساختار در زبان فارسی می باشد. جهت پیشبرد تولید متن سعی شده از ترکیب روش های یادگیری ماشین با مدل های احتمالاتی، استفاده شود. در مدل پیشنهادی از مدل های احتمالاتی برای استخراج قوانین و از word2vec برای برداری سازی متن استفاده شده و سپس در فاز تولید از ترکیب این دو و فاصله کسینوسی استفاده می شود. نتایج نشاندهنده ارائه مدلی بوده که متن تولیدی آن دارای ساختار، مفهوم و تنوع مناسب می باشد. همچنین این مدل از نظر انسانی و پیچیدگی نیز بهینه میباشد.
|
کلیدواژه
|
تولید زبان طبیعی، تولید خودکار متن، مدل زبانی، روش مبتنی بر قاعده، تعبیه کلمات
|
آدرس
|
دانشگاه صنعتی امیرکبیر, ایران, دانشگاه صنعتی مالکاشتر, ایران
|
پست الکترونیکی
|
sadidpour@mut.ac.ir
|
|
|
|
|
|
|
|
|
Automatic Persian Text Generation Using RuleBased Models and Word Embedding
|
|
|
Authors
|
Hajipoor omid ,Sadidpour Saeedeh Sadat
|
Abstract
|
Natural language generation comes from natural language processing. Natural language is generated from a machine system such as a knowledge base. Although NLG systems have been around for a long time, the commercial applications of this technology have recently increased. In NLG, the system needs to decide how to put a concept into words. The ability to create meaningful text plays a key role in many natural language processing applications such as machine translation, speech and imagetotext conversions. The aim of this paper is to provide a method for generating text using artificial intelligence methods with the correct structure and starting point for generating Persian (Farsi) texts. In other words, the method presented in this article can produce various long Persian texts, maintaining the intended meaning and the Persian language structure. In order to advance the generation of text, an attempt has been made to use a combination of machine learning methods with probabilistic models. In the proposed model, probabilistic models are used to extract the rules and Word2vec is used to embed the text, and then in the generation phase, a combination of the two and a cosine distance are used. The results indicate the presentation of a model whose generation text has the appropriate structure, concept and variety. This model is also optimal in terms of ergonomics and complexity .
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|