>
Fa   |   Ar   |   En
   غنی‌سازی جاینامه با استفاده از آگهی‌های املاک  
   
نویسنده شاخصی مهدی ,آل شیخ علی اصغر ,حبیبی رویا
منبع علوم و فنون نقشه برداري - 1400 - دوره : 11 - شماره : 2 - صفحه:1 -14
چکیده    با توجه به افزایش روزافزون کاربردهای بازیابی اطلاعات مکانی، جاینامه‌ها به عنوان بخش مهمی از فرآیند بازیابی اطلاعات مکانی، نیازمند غنی‌سازی هستند. یکی از جنبه‌های غنی‌سازی شناسایی و افزودن نام‌های جغرافیایی جدید به جاینامه و به‌هنگام‌سازی آن می‌باشد. از جمله چالش­های مهم در غنی­سازی جاینامه­ها، در نظر گرفته شدن دیدگاه رسمی و اغلب نادیده گرفته شدن جاینام ­های محلی و همچنین پرهزینه و زمانبر بودن به­هنگام­سازی جاینامه ها است. در این تحقیق، با تمرکز بر گردآوری جاینام‌های شهری، روشی داده محور جهت شناسایی نام‌های جغرافیایی از نوع همسایگی و خیابان با استفاده از آگهی‌های املاک ارائه شده است. آگهی‌های املاک برای چهار کلانشهر تهران، مشهد، اصفهان و شیراز از وبسایت دیوار وبکاوی شده و پس از استخراج ان-گرم‌ها و اعمال پیش‌پردازش‌های لازم، ان-گرم‌ها برچسب‌گذاری شدند. بر مبنای 24 معیار مکانی و تحت مدل جنگل تصادفی برای هر کدام از این چهار شهر مدل تولید شده و روی داده سایر شهرها آزموده شد. نتایج نشان‌دهنده‌ی این است که هم در شناسایی خیابان و هم همسایگی، عملکرد مدل آموزش‌یافته براساس داده شهر اول و آزمون روی داده سایر شهرها قابل قبول است. برای مثال، مدل آموزش یافته براساس داده شهر تهران در آزمون روی شهر مشهد، مقادیر 61% و 74% را برای f_score به ترتیب در شناسایی خیابان و همسایگی کسب کرده است. لذا بر این اساس می‌توان گفت که گردآوری نام‌های جغرافیایی در شرایطی که ابزارهای پردازش متن از کارایی کافی برخوردار نباشند، می‌تواند با تکیه بر رفتار مکانی آن‌ها به خوبی انجام پذیرد.
کلیدواژه غنی‌سازی جاینامه، بازیابی اطلاعات جغرافیایی، آگهی‌های املاک، جنگل‌های تصادفی
آدرس دانشگاه خواجه نصیرالدین طوسی, ایران, دانشگاه خواجه نصیرالدین طوسی, دانشکده مهندسی نقشه برداری, ایران, دانشگاه خواجه نصیرالدین طوسی, دانشکده مهندسی نقشه برداری, ایران
پست الکترونیکی rhabibi@mail.kntu.ac.ir
 
   gazetteer enrichment using real estate advertisements  
   
Authors shakhesi m. ,alesheikh a. a. ,habibi roya
Abstract    introductiongazetteers are geospatial dictionaries of geographic names containing triples of place names, geographic footprints, and feature types for named geographic places. as an important element in geospatial information retrieval (gir), these precious resources should be enriched according to new applications. . identification and adding new place names to the gazetteer, and keeping it up to date are important issues in the gazetteer enrichment. the main challenge in this era is that in most gazetteers only a top-down approach is considered. consequently, most local place names are ignored in such gazetteers. in addition, updating gazetteers is a time-consuming and expensive process. since the emergence of web 2.0, using volunteered geographic information (vgi) and social media in harvesting place names have been attracted the attention of many researchers due to containing local place names and recently created ones. in a similar condition, online property ads published by people contain such place names. this article presents a data-driven method for identifying urban place names including neighborhoods and main streets using online real estate advertisements. materials and methodsthe online real estate ads of four metropolises including tehran, mashhad, isfahan, and shiraz mined from the divar website. after n-gram extraction and applying required pre-processes, the n-grams got labeled. to remove outlier points from an n-gram set and consider the scenario that several places can have the same name through a city, the point set of the n-gram get clustered. based on a set of spatial statistics, the random forest models on housing data of each city trained and then tested on the ads data of other cities.discussion and resultsthe results show that either in detecting the main street or neighborhood, the model trained on ads data from one city has a successful prediction on the other ones. for example, the models trained based on the data of tehran and tested on the data of mashhad achieved 61% and 74% respectively in identifying street and neighbourhood. however, for some reasons such as imbalancement of datasets, data labeling challenges, and in some cases, identifying non-spatial n-grams due to clustering, precision has been decreased. also, because of differences in urban patterns and place naming patterns between the cities, the recall has been slightly decreased.conclusiona place can be referenced in two different ways: 1- by calling its name and 2- by coordinate data. gazetteers are considered a bridge between that two types of georeferencing. according to the importance of these resources in geospatial applications, the enrichment of them is a necessity. for containing local place names, online property listings can be considered as a valuable resource for harvesting toponyms and enriching gazetteers. regarding to that most users in publishing online property, ads consider a neighborhood or main street name which is well-known for the readers, these place names usually are written without any clue for identifying a location in a text processing manner. the behavior with respect to a set of spatial statistics can be considered as a spatial signature to recognize an n-gram as a neighborhood or street place name. 
Keywords gazetteer enrichment ,geospatial information retrieval ,real estate advertisements ,random forests
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved