>
Fa   |   Ar   |   En
   تعیین مرز و نوع عبارات نحوی در متون فارسی  
   
نویسنده همایون‌پور محمدمهدی ,سلیمی بدر آرمین
منبع پردازش علائم و داده ها - 1392 - دوره : 10 - شماره : 20 - صفحه:69 -86
چکیده    واحدسازی، از مهم‌ترین مسایل در پردازش زبان‌های طبیعی است که عبارت از فرآیند تقسیم متن به واحدهای معنادار نظیر واژه، عبارت نحوی، جمله و غیره است. واحدسازی گروه‌های نحوی یک متن، از جمله وظایف واحدسازی متن محسوب می‌شود که در بسیاری از کارهای پردازش زبان طبیعی، نظیر سامانه‌های ترجمه ماشینی، استخراج اطّلاعات، پرسش ‌و پاسخ و سامانه‌های تبدیل متن به گفتار، به‌عنوان پیش‌پردازشی مهم، می‌تواند حضور داشته باشد. واحدسازی عبارات نحوی، در هر زبان، متناسب با ویژگی‌های نوشتاری آن زبان مشکلات و پیچیدگی‌هایی دارد. زبان فارسی به‌دلیل وجود رسم‌الخط‌های مختلف، جملات بدون ترتیب، افعال مرکب، ابهامات معنایی و عدم نمایش مصوت‌ها مشکلاتی دارد. در این مقاله روشی مبتنی بر روش‌های آماری و یادگیری و اطلاعات و ویژگی‌های دستور زبانی جهت تشخیص مرز و نوع گروه‌های نحوی در متون فارسیِ فاقد علایم سجاوندی، ارایه شده است که در آن از روش‌های یادگیری ماشین بردار پشتیبان و میدان تصادفی شرطی استفاده شده است. در روش ارایه‌شده ویژگی‌های مختلف زبانی مرتبط با زبان فارسی استخراج و برای نخستین‌بار مورد بررسی و استفاده قرار گرفته‌اند. بهترین دقت به‌دست آمده توسط این سامانه، 02/84% بر اساس معیار f و 45/87%، بر اساس تعداد برچسب‌های صحیح به کل در تعیین مرز، و 04/78%، در تعیین مرز و نوع به صورت توام، بوده است.
کلیدواژه پردازش زبان طبیعی ,تعیین مرز و نوع گروه‌های نحوی ,برچسب‌گذاری مقوله نحوی ,ماشین بردار پشتیبان ,میدان تصادفی شرطی ,تبدیل متن به گفتار و ترجمه ماشینی
آدرس دانشگاه صنعتی امیرکبیر, آزمایشگاه پردازش هوشمند سیگنال‌های صوتی و گفتاری، دانشکده مهندسی کامپیوتر و فناوری اطّلاعات، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران, دانشگاه صنعتی امیرکبیر, آزمایشگاه پردازش هوشمند سیگنال‌های صوتی و گفتاری، دانشکده مهندسی کامپیوتر و فناوری اطّلاعات، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران
پست الکترونیکی armin.salimibadr@aut.ac.ir
 
     
   
Authors
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved