>
Fa   |   Ar   |   En
   استخراج برچسب برای آگهی ‌های وب‌ سایت مبتنی بر درون ‌سازی واژه  
   
نویسنده زارع چاهوکی علی محمد ,صدقیان محمد ‌مهدی
منبع پژوهشهاي نظري و كاربردي هوش ماشيني - 1403 - دوره : 2 - شماره : 1 - صفحه:39 -50
چکیده    در جامعه امروزی اخبار و آگهی ‌ها، جایگاه به‌ خصوصی در رشد و ترقی جامعه دارند. با مشخص‌کردن واژگان اصلی آگهی، می‌توان به مفهوم کلی آن پی ‌برد. آماده‌سازی این واژگان به روش سنتی نیازمند صرف زمان و دانش تخصصی راجع به موضوع متن است. سایت ایده‌کاو، سامانه‌ای هست که به جمع‌آوری پیام‌ها و آگهی‌های تلگرام می‌پردازد. نیازمندی سامانه ایده‌کاو، استخراج کلمات کلیدی از آگهی‌های منتشر شده در تلگرام بوده‌ است. کیفیت کلمات کلیدی استخراج شده، نقش بسزایی در بهبود سئو و آمار بازید آگهی‌ها دارد. با استفاده از الگوریتم‌های درون‌سازی، می‌توان صحبت‌های محاوره‌ای و ساختار معنایی متن را استخراج کرد، ازاین‌رو در تشخیص کلمات کلیدی در آگهی‌های تلگرام که اغلب به‌صورت عامیانه منتشر می‌شوند، مفید واقع می‌شود. در این پژوهش با استفاده از داده‌های سامانه ایده‌‌کاو مدلی از روش‌های درون‌سازی پیاده‌سازی شده است. نوآوری استفاده شده در این پژوهش از ترکیب‌کردن روش‌های درون‌سازی واژه، بسامد کلمات و جایگاه کلمات ایجاد شده است. مدل درون‌سازی از کلمات دو کلمه‌ای ایجاد شده است. ایجاد مدل از کلمات دو کلمه‌ای، به ‌این دلیل است که اغلب کلمات کلیدی از دو کلمه به بالا تشکیل شده‌اند. جهت نمایش بهتر ارزیابی‌ها، مدل آی‌کِی (مدل پیشنهادی) با روش‌های آماری و روش‌های مبتنی بر گراف مقایسه شده است که نتایج به‌دست‌آمده نشان می‌دهد ترکیب مدل آی‌کِی دو-گرم عملکرد بهتری در استخراج کلمات کلیدی نسبت به سایر روش‌ها به وجود آورده است.
کلیدواژه استخراج برچسب، بهینه‌سازی برای موتور جست‌وجو (سئو)، یادگیری عمیق، درون ‌سازی واژه
آدرس دانشگاه یزد, دانشکده کامپیوتر, ایران, دانشگاه یزد, دانشکده کامپیوتر, ایران
پست الکترونیکی sedghian@yahoo.com
 
   extracting keywords from telegram ads based on the integration of word embedding and statistical features  
   
Authors zare chahooki ali mohammad ,sedghian mohammad mehdi
Abstract    in today’s society, news and advertisements have a special place in the growth and development of society. by specifying the main words of the ad, you can understand its general meaning. preparing these words in the traditional way requires time and specialized knowledge about the subject of the text. ideakav site is a system that collects telegram messages and advertisements. the requirement of the idea search system was to extract keywords from the advertisements published in telegram. the quality of extracted keywords plays a significant role in improving seo and advertising statistics. by using embedding algorithms, it is possible to extract colloquial conversations and the semantic structure of the text, therefore, it is useful in identifying keywords in telegram ads that are often published in popular form. in this research, a model of word embedding has been implemented using the data of the idea mining system. the innovation used in this research is created by combining word embedding methods, word frequency and word position. the embedding model is created from two-word words. creating a model of two-word words is because most of the keywords consist of two words or more. in order to better display the evaluations, the ik model (proposed model) has been compared with statistical methods and graph-based methods, and the obtained results show that the combination of the two-gram ik model has produced a better performance in extracting keywords than other methods.
Keywords tag extraction ,search engine optimization (seo) ,deep learning ,word embedding
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved