|
|
غنیسازی جاینامه با استفاده از آگهیهای املاک
|
|
|
|
|
نویسنده
|
شاخصی مهدی ,آل شیخ علی اصغر ,حبیبی رویا
|
منبع
|
علوم و فنون نقشه برداري - 1400 - دوره : 11 - شماره : 2 - صفحه:1 -14
|
چکیده
|
با توجه به افزایش روزافزون کاربردهای بازیابی اطلاعات مکانی، جاینامهها به عنوان بخش مهمی از فرآیند بازیابی اطلاعات مکانی، نیازمند غنیسازی هستند. یکی از جنبههای غنیسازی شناسایی و افزودن نامهای جغرافیایی جدید به جاینامه و بههنگامسازی آن میباشد. از جمله چالشهای مهم در غنیسازی جاینامهها، در نظر گرفته شدن دیدگاه رسمی و اغلب نادیده گرفته شدن جاینام های محلی و همچنین پرهزینه و زمانبر بودن بههنگامسازی جاینامه ها است. در این تحقیق، با تمرکز بر گردآوری جاینامهای شهری، روشی داده محور جهت شناسایی نامهای جغرافیایی از نوع همسایگی و خیابان با استفاده از آگهیهای املاک ارائه شده است. آگهیهای املاک برای چهار کلانشهر تهران، مشهد، اصفهان و شیراز از وبسایت دیوار وبکاوی شده و پس از استخراج ان-گرمها و اعمال پیشپردازشهای لازم، ان-گرمها برچسبگذاری شدند. بر مبنای 24 معیار مکانی و تحت مدل جنگل تصادفی برای هر کدام از این چهار شهر مدل تولید شده و روی داده سایر شهرها آزموده شد. نتایج نشاندهندهی این است که هم در شناسایی خیابان و هم همسایگی، عملکرد مدل آموزشیافته براساس داده شهر اول و آزمون روی داده سایر شهرها قابل قبول است. برای مثال، مدل آموزش یافته براساس داده شهر تهران در آزمون روی شهر مشهد، مقادیر 61% و 74% را برای f_score به ترتیب در شناسایی خیابان و همسایگی کسب کرده است. لذا بر این اساس میتوان گفت که گردآوری نامهای جغرافیایی در شرایطی که ابزارهای پردازش متن از کارایی کافی برخوردار نباشند، میتواند با تکیه بر رفتار مکانی آنها به خوبی انجام پذیرد.
|
کلیدواژه
|
غنیسازی جاینامه، بازیابی اطلاعات جغرافیایی، آگهیهای املاک، جنگلهای تصادفی
|
آدرس
|
دانشگاه خواجه نصیرالدین طوسی, ایران, دانشگاه خواجه نصیرالدین طوسی, دانشکده مهندسی نقشه برداری, ایران, دانشگاه خواجه نصیرالدین طوسی, دانشکده مهندسی نقشه برداری, ایران
|
پست الکترونیکی
|
rhabibi@mail.kntu.ac.ir
|
|
|
|
|
|
|
|
|
gazetteer enrichment using real estate advertisements
|
|
|
Authors
|
shakhesi m. ,alesheikh a. a. ,habibi roya
|
Abstract
|
introductiongazetteers are geospatial dictionaries of geographic names containing triples of place names, geographic footprints, and feature types for named geographic places. as an important element in geospatial information retrieval (gir), these precious resources should be enriched according to new applications. . identification and adding new place names to the gazetteer, and keeping it up to date are important issues in the gazetteer enrichment. the main challenge in this era is that in most gazetteers only a top-down approach is considered. consequently, most local place names are ignored in such gazetteers. in addition, updating gazetteers is a time-consuming and expensive process. since the emergence of web 2.0, using volunteered geographic information (vgi) and social media in harvesting place names have been attracted the attention of many researchers due to containing local place names and recently created ones. in a similar condition, online property ads published by people contain such place names. this article presents a data-driven method for identifying urban place names including neighborhoods and main streets using online real estate advertisements. materials and methodsthe online real estate ads of four metropolises including tehran, mashhad, isfahan, and shiraz mined from the divar website. after n-gram extraction and applying required pre-processes, the n-grams got labeled. to remove outlier points from an n-gram set and consider the scenario that several places can have the same name through a city, the point set of the n-gram get clustered. based on a set of spatial statistics, the random forest models on housing data of each city trained and then tested on the ads data of other cities.discussion and resultsthe results show that either in detecting the main street or neighborhood, the model trained on ads data from one city has a successful prediction on the other ones. for example, the models trained based on the data of tehran and tested on the data of mashhad achieved 61% and 74% respectively in identifying street and neighbourhood. however, for some reasons such as imbalancement of datasets, data labeling challenges, and in some cases, identifying non-spatial n-grams due to clustering, precision has been decreased. also, because of differences in urban patterns and place naming patterns between the cities, the recall has been slightly decreased.conclusiona place can be referenced in two different ways: 1- by calling its name and 2- by coordinate data. gazetteers are considered a bridge between that two types of georeferencing. according to the importance of these resources in geospatial applications, the enrichment of them is a necessity. for containing local place names, online property listings can be considered as a valuable resource for harvesting toponyms and enriching gazetteers. regarding to that most users in publishing online property, ads consider a neighborhood or main street name which is well-known for the readers, these place names usually are written without any clue for identifying a location in a text processing manner. the behavior with respect to a set of spatial statistics can be considered as a spatial signature to recognize an n-gram as a neighborhood or street place name.
|
Keywords
|
gazetteer enrichment ,geospatial information retrieval ,real estate advertisements ,random forests
|
|
|
|
|
|
|
|
|
|
|