|
|
استخراج ماشینی کلید واژه با مدلسازی موضوعی ال. دی. اِی.: شباهت سنجی با کلید واژههای استاندارد و ارزیابی کاربران
|
|
|
|
|
نویسنده
|
شادانپور فرزانه ,ریاحی نیا نصرت ,برنا کیوان ,منتظر غلامعلی
|
منبع
|
تعامل انسان و اطلاعات - 1401 - دوره : 9 - شماره : 3 - صفحه:1 -20
|
چکیده
|
زمینه و هدف: هدف این پژوهش، بررسی نتایج استخراج خودکار کلیدواژه از فهرست مندرجات کتابهای الکترونیکی فارسی حوزۀ علوم با استفاده از مدلسازی موضوعی ال. دی. اِی.، سنجش شباهت کلیدواژههای خروجی با کلیدواژههای استاندارد و ارزیابی کاربران از کلیدواژههای استخراجشده بهصورت ماشینی است.روش پژوهش: این پژوهش کاربردی، از نوع پژوهشهای متنکاوی و به جنبۀ روشهای مورداستفاده در آن پژوهش آمیخته است. از مدلسازی موضوعی ال. دی. اِی. برای استخراج کلیدواژه از فهرستهای مندرجات کتابها استفادهشده و نتایج کاربرد مدل با دو روش سنجش کسینوس شباهت و پژوهش کیفی توسط کاربران مورد ارزیابی قرار گرفته است.یافتهها: فهرستهای مندرجات مورد بررسی با میانگین پیراسته 260.02 کلمه از متون با طول متوسط محسوب میشوند و حدود 20 درصد از کلمات آنها را ایستواژهها تشکیل دادهاند. میان کلیدواژههای استاندارد سرعنوانی و کلیدواژههای خروجی مدل ال. دی. اِی. کسینوس شباهت، 0.0932، بسیار پایین به دست آمد. توافق کامل کاربران نشان داد کلیدواژههای خروجی مدل موضوعی ال. دی. اِی. حوزه موضوعی کل پیکره را نشان میدهند، اما ازنظر کاربران به ترتیب کلیدواژههای سرعنوانی استاندارد، کلیدواژههای مستخرج از مدل در زیرحوزههای موضوعی و کلیدواژههای مستخرج از مدل با کل پیکره در توصیف موضوعات هر تک مدرک موفقاند. نتیجهگیری: کلیدواژههای بهدستآمده از مدل موضوعی ال. دی. اِی. را میتوان در مجموعههای ناشناخته بهمنظور استخراج محتوای موضوعی ناآشکار کل مجموعه به کار برد، اما برای ربط دقیق موضوع به مدرک در پیکرههای بزرگ با موضوعات ناهمگن و متنوع، نمیتوان از این روش استفاده کرد. این روش در رویههای رسمی توصیف موضوعی تکتک مدارک بهصورت مستقل میتواند بهعنوان یک سیستم پیشنهاددهنده کلیدواژه به نیروی انسانی نمایهساز به کار گرفته شود.
|
کلیدواژه
|
استخراج ماشینی کلیدواژه، مدلسازی موضوعی، ال. دی. اِی.، شباهتسنجی، ارزیابی کاربر
|
آدرس
|
دانشگاه خوارزمی, ایران, دانشگاه خوارزمی, گروه علم اطلاعات و دانش شناسی, ایران, دانشگاه خوارزمی, گروه علوم کامپیوتر, ایران, دانشگاه تربیت مدرس, گروه مهندسی فناوری اطلاعات, ایران
|
پست الکترونیکی
|
montazer@modares.ac.ir
|
|
|
|
|
|
|
|
|
automatic keyword extraction using latent dirichlet allocation topic modeling: similarity with golden standard and users' evaluation
|
|
|
Authors
|
shadanpour farzaneh ,riahinia nosrat ,borna keyvan ,montazer gholam ali
|
Abstract
|
purpose: this study investigates the automatic keyword extraction from the table of contents of persian e-books in the field of science using lda topic modeling, evaluating their similarity with the golden standard, and users’ viewpoints of the model keywords.methodology: this is mixed text-mining research in which lda topic modeling is used to extract keywords from the table of contents of scientific e-books. the evaluation of the used approach has been done by two methods of cosine similarity computing and qualitative evaluation by users.findings: table of contents are medium-length texts with a trimmed mean of 260.02 words, about 20% of which are stop-words. the cosine similarity between the golden standard keywords and the output keywords is 0.0932 thus very low. the full agreement of users showed that the extracted keywords with the lda topic model represent the subject field of the whole corpus, but the golden standard keywords, the keywords extracted using the lda topic model in sub-domains of the corpus, and the keywords extracted from the whole corpus were respectively successful in subject describing of each document. conclusion: the keywords extracted using the lda topic model can be used in unspecified and unknown collections to extract hidden thematic content of the whole collection, but not to accurately relate each topic to each document in large and heterogeneous themes. in collections of texts in one subject field, such as mathematics or physics, etc., with less diversity and more uniformity in terms of the words used in them, more coherent and relevant keywords are obtained, but in these cases, the control of the relevance of keywords to each document is required. in formal subject analysis procedures and processes of individual documents, this approach can be used as a keyword suggestion system for indexing and analytical workforce.
|
Keywords
|
keyword extraction ,topic modeling ,latent dirichlet allocation (lda) ,similarity evaluation
|
|
|
|
|
|
|
|
|
|
|