بررسی پیکره-بنیاد همنگارههای اسمی و صفتی فارسی جهت کمک به برچسبگذاری صحیح اجزای کلام
|
|
|
|
|
|
|
|
نویسنده
|
علایی ابوذر الهام
|
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1397 - دوره : 34 - شماره : 2 - صفحه:897 -922
|
|
چکیده
|
در تهیه سامانه های برچسب گذاری اجزای کلام در زبان فارسی، بررسی ساخت واژی اسم ها و صفت ها از دو نظر حائز اهمیت است: 1. اگر در یک پیکره متنی فارسی کلمه ای در واژگان حضور نداشته باشد (کلمه خارج از واژگان)، نمی توان برچسب های مربوط به کلمه را بازیابی کرد. در این صورت، برچسب کلمه را تنها می توان با توجه به شکل کلمه (انواع پیشوندها و پسوندهایی که به کلمات متصل می شوند) یا بافتی که کلمه در آن ظاهر می شود، یا هر دو، حدس زد. 2. زبان فارسی ظرفیت بالایی برای ساخت هم نگاره های جدید که از ساخت واژه فارسی نشات می گیرند، نیز دارد. بنابراین، بررسی ساخت واژی اسم ها و صفت ها، به منظور تفکیک آن ها از هم ضروری به نظر می رسد، زیرا اکثر صفت ها در بافت های گوناگون، با صورت نوشتاری یکسان می توانند برچسب »اسم « بگیرند. در تحقیق حاضر ساخت واژه اسم ها و صفت ها در فارسی بررسی شده است. نظام نوشتاری زبان فارسی نیز مورد بررسی قرار گرفته تا از این رهگذر بتوان به شناسایی انواع هم نگاره ها در زبان فارسی پرداخت. سپس، انواع هم نگاره ها در زبان فارسی مورد مطالعه قرار گرفته و در نهایت، از طریق جست وجو به دو روش ماشینی و دستی، فهرست مبسوطی از هم نگاره ها از پیکره های »پیکره متنی زبان فارسی «، »پایگاه دادگان زبان فارسی « و »پیکره وابستگی نحوی زبان فارسی « تهیه شده است. بررسی کلی هم نگاره ها در پیکره های مورد مطالعه نشان می دهد که بیشتر هم نگاره ها، فراوانی بالایی در پیکره های متنی فارسی دارند و اکثر آن ها در اثر یکسان بودن نمود نوشتاری تکواژ یای نکره، یای اسم ساز، شناسه دوم شخص مفرد، یای صفت ساز و یای متصل به گروه اسمی ایجاد شده اند.
|
|
کلیدواژه
|
سامانه برچسبگذاری اجزای کلام، ساختواژه اسمها و صفتهای فارسی، نظام نوشتاری فارسی، همنگارهها
|
|
آدرس
|
پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), دکتری زبان شناسی همگانی؛ استادیار؛پژوهشگاه علوم و فناوری اطلاعات ایران )ایرانداک(؛, ایران
|
|
پست الکترونیکی
|
alayi@irandoc.ac.ir
|
|
|
|
|
|
|