|
|
|
|
تحلیل همپوشانی عناصر واسط در بازنمایی اسناد متنی: مطالعهای به روش الگوریتم «rake»
|
|
|
|
|
|
|
|
نویسنده
|
نوروزی یعقوب ,یلوه الهام ,خطیر اشکان
|
|
منبع
|
مطالعات كتابداري و سازماندهي اطلاعات - 1403 - دوره : 35 - شماره : 4 - صفحه:95 -122
|
|
چکیده
|
هدف: پژوهش حاضر با هدف بررسی میزان همپوشانی کلیدواژه های استخراجشده از عناصر واسط در بازنمایی اسناد متنی با استفاده از الگوریتم «rake» انجام شد.روش: در این پژوهش، با استفاده از الگوریتم «rake» کلیدواژههای مجموعه دادهای شامل 500 مقاله علمی در پنج گروه موضوعی مختلف استخراج شد. سپس همپوشانی بین کلیدواژههای عنوان، چکیده و کلیدواژههای نویسندگان موردبررسی قرار گرفت.یافتهها: نتایج نشان داد که همپوشانی بین کلیدواژههای عنوان و کلیدواژههای نویسندگان حدود 45 درصد و همپوشانی بین کلیدواژههای چکیده و کلیدواژههای نویسندگان حدود 18 درصد بود. در ادامه مشاهده شد که کلیدواژههای عنوان دارای پوشش 22 درصدی کلیدواژههای چکیده بودند. نتایج همچنین نشان داد که همپوشانی و پراکندگی بین کلیدواژههای چکیده و کلیدواژههای نویسندگان و نیز بین کلیدواژههای چکیده و کلیدواژههای عنوان بهطور متوازن و تقریباً یکسان بود؛ اما مشاهده شد که کلیدواژههای عنوان و کلیدواژههای نویسندگان دارای پراکندگی بیشتری بودند؛ که نشان دهنده احتمال همپوشانی بیشتر بین کلیدواژه های عنوان و کلیدواژه های نویسنده یک مقاله در مقایسه با کلیدواژه های چکیده و کلیدواژه های نویسنده و همچنین کلیدواژه های چکیده و کلیدواژه های عنوان است. بعلاوه درک خوبی از مفاهیم و مباحث حوزۀ پژوهشی در رشتههای روانشناسی و مدیریت دولتی وجود داشت، درحالیکه در رشتههای فناوری اطلاعات و حقوق عمومی نیاز به بهبود و تقویت درک مفاهیم مشاهده شد. میزان همپوشانی بین کلیدواژههای چکیده و کلیدواژههای نویسندگان در پنج گروه موضوعی حدود 20 درصد بود.نتیجهگیری: استفاده مناسب از کلیدواژهها، نوشتن چکیدههایی با محتوای هماهنگ با موضوع موردنظر و انتخاب عناوین متناسب میتواند به بهبود فرایند استخراج مفاهیم، ذخیرهسازی و بازیابی مقالات علمی کمک کند، ازجمله اینکه کلیدواژهها، چکیدهها و عناوین میتوانند بهعنوان ورودی برای الگوریتمهای استخراج مفاهیم، همچنین بهعنوان بخشهایی از ساختار ذخیرهسازی اطلاعات در سرعت دسترسی کاربران به اطلاعات موردنیازشان و بهعنوان ورودی برای الگوریتمهای بازیابی اطلاعات برای دسترسی سریع به مقالات مرتبط کمک بسزایی داشته باشند.
|
|
کلیدواژه
|
اسناد متنی، استخراج کلیدواژه، همپوشانی کلیدواژه، بازنمایی اسناد، پراکندگی دادهها
|
|
آدرس
|
دانشگاه قم, گروه علم اطلاعات و دانش شناسی, ایران, دانشگاه قم, ایران, پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), ایران
|
|
پست الکترونیکی
|
askan.khatir@irandoc.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
|
overlap analysis of interface elements in the representation of textual documents: a study using the rapid automatic key phrase extraction algorithm
|
|
|
|
|
Authors
|
norouzi yaghoub ,yalveh elham ,khatir askan
|
|
Abstract
|
purpose: the present study investigated the degree of overlap of keywords extracted from interface elements in the representation of text documents using the rapid automatic keyphrase extraction algorithm.method: in this research, the rapid automatic keyphrase extraction algorithm was used.keywords were extracted from a dataset including 500 scientific articles in five different subject groups. then, the overlap between the keywords of the title, abstract, and keywords of the authors was examined.findings: the results showed that the overlap between title keywords and authors’ keywords was about 45%, and the overlap between abstract keywords and authors’ keywords was about 18%. further, it was observed that the keywords of the title covered 22% of the keywords of the abstract. the results also showed that the overlap and dispersion between the keywords of the abstract and the keywords of the authors and between the keywords of the abstract and the keywords of the title were balanced and almost the same. however, it was observed that the keywords of the title and the keywords of the authors were more scattered, which indicates the possibility of more overlap between the keywords of the title and the keywords of the author of an article compared to the keywords of the abstract and the keywords of the author, as well as the keywords of the abstract and the keywords of the title. is. in addition, there was a good understanding of the concepts and topics of the research field in the fields of psychology and public administration, while the need to improve and strengthen the knowledge of concepts was observed in the fields of information technology and public law. the amount of overlap between abstract keywords and authors’ keywords in five subject groups was about 20%.conclusion: appropriate use of keywords, writing abstracts with content in harmony with the topic and choosing suitable titles can help to improve the process of extracting concepts, storing and retrieving scientific articles, including that keywords, abstracts and titles can be used as input for algorithms for extracting concepts, as well as parts of the information storage structure, they can contribute significantly to the speed of users’ access to the information they need and as input for information retrieval algorithms for quick access to related articles.
|
|
Keywords
|
text documents ,keyword extraction ,keyword overlap ,document representation ,data dispersion
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|