|
|
استفاده از الگوریتمهای یادگیری آماری ردهبندی در آمار رسمی
|
|
|
|
|
نویسنده
|
رضائی قهرودی زهرا ,رنجی حسن ,رضایی علیرضا
|
منبع
|
علوم آماري - 1400 - دوره : 15 - شماره : 1 - صفحه:119 -146
|
چکیده
|
در اکثر آمارگیریها، پرسش مشاغل و فعالیتها از طریق پرسشهای باز سوال میشود و کدگذاری این اطلاعات به هزاران رده به روش دستی صورت میگیرد که بسیار زمانبر و پرهزینه است. با توجه به ضروریات مدرنسازی نظام آماری کشورها، امروزه استفاده از روشهای یادگیری آماری در آمار رسمی برای دادههای اولیه و ثانویه ضروری است. همچنین، روشهای ردهبندی یادگیری آماری در فرایند تولید آمار رسمی بسیار کاربرد دارد. هدف این مقاله، کدگذاری برخی فرایندهای آمارگیریها با روشهای یادگیری آماری و آشنایی مدیران در مورد امکان استفاده از روشهای یادگیری آماری در تولید آمارهای رسمی است. دو کاربرد از روشهای یادگیری آماری ردهبندی شامل کدگذاری خودکار رشته فعالیتهای اقتصادی و کدگذاری پرسشهای باز پرسشنامههای مراکز آماری با چهار روش تکرار، روش ترکیبی ماشین بردار پشتیبان با ترکیب مدلها در سطوح مختلف تجمیع، ترکیب روش تکرار و ماشین بردار پشتیبان و روش نزدیکترین همسایه روی دادههای آمارگیری از کارگاههای صنعتی ایران انجام شده است.
|
کلیدواژه
|
کدگذاری خودکار، متنکاوی، یادگیری آماری، آمار رسمی.
|
آدرس
|
دانشگاه تهران, دانشکده ریاضی، آمار و علوم کامپیوتر, ایران, مرکز آمار ایران, ایران, مرکز آمار ایران, ایران
|
|
|
|
|
|
|
|
|
|
|
Using Machine Learning Classification Algorithms in Official Statistics
|
|
|
Authors
|
Rezaei Ghahroodi Zahra ,Ranji Hasan ,Rezaei Alireza
|
Abstract
|
In most surveys, the occupation and jobindustry related questions are asked through openended questions, and the coding of this information into thousands of categories is done manually. This is very time consuming and costly. Given the requirement of modernizing the statistical system of countries, it is necessary to use statistical learning methods in official statistics for primary and secondary data analysis. Statistical learning classification methods are also useful in the process of producing official statistics. The purpose of this article is to code some statistical processes using statistical learning methods and familiarize executive managers about the possibility of using statistical learning methods in the production of official statistics. Two applications of classification statistical learning methods, including automatic coding of economic activities and openended coding of statistical centers questionnaires using four iterative methods, are investigated. The studied methods include duplication, support vector machine (SVM) with multilevel aggregation methods, a combination of the duplication method and SVM, and the nearest neighbor method.
|
Keywords
|
Automated Coding ,Text Mining ,Statistical Learning ,Official Statistics.
|
|
|
|
|
|
|
|
|
|
|