تعیین مرز و نوع عبارات نحوی در متون فارسی
|
|
|
|
|
نویسنده
|
همایونپور محمدمهدی ,سلیمی بدر آرمین
|
منبع
|
پردازش علائم و داده ها - 1392 - دوره : 10 - شماره : 20 - صفحه:69 -86
|
چکیده
|
واحدسازی، از مهمترین مسایل در پردازش زبانهای طبیعی است که عبارت از فرآیند تقسیم متن به واحدهای معنادار نظیر واژه، عبارت نحوی، جمله و غیره است. واحدسازی گروههای نحوی یک متن، از جمله وظایف واحدسازی متن محسوب میشود که در بسیاری از کارهای پردازش زبان طبیعی، نظیر سامانههای ترجمه ماشینی، استخراج اطّلاعات، پرسش و پاسخ و سامانههای تبدیل متن به گفتار، بهعنوان پیشپردازشی مهم، میتواند حضور داشته باشد. واحدسازی عبارات نحوی، در هر زبان، متناسب با ویژگیهای نوشتاری آن زبان مشکلات و پیچیدگیهایی دارد. زبان فارسی بهدلیل وجود رسمالخطهای مختلف، جملات بدون ترتیب، افعال مرکب، ابهامات معنایی و عدم نمایش مصوتها مشکلاتی دارد. در این مقاله روشی مبتنی بر روشهای آماری و یادگیری و اطلاعات و ویژگیهای دستور زبانی جهت تشخیص مرز و نوع گروههای نحوی در متون فارسیِ فاقد علایم سجاوندی، ارایه شده است که در آن از روشهای یادگیری ماشین بردار پشتیبان و میدان تصادفی شرطی استفاده شده است. در روش ارایهشده ویژگیهای مختلف زبانی مرتبط با زبان فارسی استخراج و برای نخستینبار مورد بررسی و استفاده قرار گرفتهاند. بهترین دقت بهدست آمده توسط این سامانه، 02/84% بر اساس معیار f و 45/87%، بر اساس تعداد برچسبهای صحیح به کل در تعیین مرز، و 04/78%، در تعیین مرز و نوع به صورت توام، بوده است.
|
کلیدواژه
|
پردازش زبان طبیعی ,تعیین مرز و نوع گروههای نحوی ,برچسبگذاری مقوله نحوی ,ماشین بردار پشتیبان ,میدان تصادفی شرطی ,تبدیل متن به گفتار و ترجمه ماشینی
|
آدرس
|
دانشگاه صنعتی امیرکبیر, آزمایشگاه پردازش هوشمند سیگنالهای صوتی و گفتاری، دانشکده مهندسی کامپیوتر و فناوری اطّلاعات، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران, دانشگاه صنعتی امیرکبیر, آزمایشگاه پردازش هوشمند سیگنالهای صوتی و گفتاری، دانشکده مهندسی کامپیوتر و فناوری اطّلاعات، دانشگاه صنعتی امیرکبیر، تهران، ایران, ایران
|
پست الکترونیکی
|
armin.salimibadr@aut.ac.ir
|
|
|
|
|