|
|
تهیهٔ فهرست بسامدی واژگان علمی فارسی با بهرهگیری از پیکرهٔ علمی
|
|
|
|
|
نویسنده
|
رضائی شریفآبادی مرتضی ,مولودی امیرسعید ,احمدی علیرضا ,خرمایی علیرضا
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1402 - دوره : 38 - شماره : 3 - صفحه:901 -926
|
چکیده
|
واژههای علمی واژههایی هستند که در طیف وسیعی از رشتههای علمی بسامد بالایی دارند و بسامدشان در متون علمی بسیار بیشتر از بسامدشان در سایر متون است. دسترسی به فهرستی بسامدی از واژههای علمی میتواند به یادگیری سریعتر زبان علمی کمک کند. پیشنیاز تهیه چنین فهرستی ایجاد پیکرهای متوازن از متون علمی فارسی است. برای این منظور، متون علمی منتشرشده در نشریات علمی فارسی با برنامهنویسی رایانهای و توسعه خزنده وب جمعآوری شد. سرانجام، پیکرهای شامل بیش از 51 میلیون واژه با حجم متوازنی از داده در چهار حوزه موضوعی شامل «علوم پایه و فنی و مهندسی»، «علوم انسانی و هنر و معماری»، «پزشکی و دامپزشکی» و «کشاورزی و منابع طبیعی» ساخته شد. در این پژوهش پس از بررسی ملاحظات مربوط به توسعه فهرستهای بسامدی علمی، فهرستی از واژههای علمی فارسی تهیه شد که شامل 307 بنواژه است و در متون علمی بسامد بالایی دارند که بسامدشان در متون علمی به مراتب بیشتر از متون عمومی است و پراکندگی مناسبی در موضوعات مختلف علمی دارند. نتایج ارزیابی فهرست بسامدی تهیهشده نشاندهنده پوشش بیش از 16 درصدی فهرست روی متون علمی است که این درصد با پوشش فهرستهای جمعآوریشده برای زبانهای دیگر مطابقت دارد. همچنین، توزیع مناسب واژههای فهرست جمعآوریشده در چهار حوزه موضوعی پیکره باعث شده است که میزان پوشش در هر یک از این حوزههای موضوعی نیز عددی قابل قبول بین 12 تا 18 درصد باشد. فهرست واژههای علمی استخراجشده میتواند برای اهداف مختلف آموزشی و پژوهشی مورد استفاده قرار گیرد. همچنین، پیکره علمی تهیهشده نیز منبع ارزشمندی برای مطالعات حوزه زبانشناسی پیکرهای و پژوهشهای مرتبط با پردازش زبان است.
|
کلیدواژه
|
فهرست بسامدی، واژگان علمی، پیکره علمی، زبان فارسی، زبانشناسی پیکرهای
|
آدرس
|
دانشگاه شیراز, ایران, دانشگاه شیراز, , بخش زبا نهای خارجی و زبان شناسی بخش زبان های خارجی و زبان شناسی, ایران, دانشگاه شیراز, بخش زبا نهای خارجی و زبان شناسی, ایران, دانشگاه شیراز, بخش زبا نهای خارجی و زبان شناسی, ایران
|
پست الکترونیکی
|
akhormaee@rose.shirazu.ac.ir
|
|
|
|
|
|
|
|
|
development of a persian academic word list based on an academic corpus
|
|
|
Authors
|
rezaei sharifabadi morteza ,moloodi amirsaeid ,ahmadi alireza ,khormaei alireza
|
Abstract
|
academic words occur with high frequency in texts from a wide range of scientific fields, and their frequency in academic texts is much higher than in general texts. academic wordlists can facilitate the learning and teaching of scientific language. in this research, we have developed a frequency list of persian academic words. the word list includes 307 word lemmas with a high frequency in academic texts. creating a balanced corpus of persian academic texts was the prerequisite for developing such a list. for this purpose, we collected scientific texts published in persian scientific journals and built a balanced corpus containing more than 51 million words. the corpus includes texts of academic papers in four general categories, i.e., basic sciences and engineering; humanities, arts, and architecture; medicine and veterinary medicine; and agriculture and natural resources. we used four different criteria for lemmas to be included in our wordlist. 1- frequency: the lemmas should have a relative frequency of at least 30 per million words. 2- ratio: the relative frequency of the lemmas in the academic corpus should be two times greater than their frequency in a 10 million word general corpus. 3- dispersion: juilland’s d value of the lemmas in the four sections should be at least 0.5. 4- range: the observed frequency of the lemma should not be less than a third of its expected frequency in any of the four sections of the corpus. we evaluated the wordlist by measuring its coverage in our corpus’s train and test sections. the wordlist covers 16.69 percent of the train subset and 16.13 percent of the test subset.
|
Keywords
|
frequency list ,academic wordlist ,academic corpus ,persian language ,corpus linguistics
|
|
|
|
|
|
|
|
|
|
|