همبستگی های بلندبرد آماری در زبان بشر: بررسی موردی زبان پارسی

Fa | Ar | En

همبستگی های بلندبرد آماری در زبان بشر: بررسی موردی زبان پارسی


نویسنده	مهری علی
منبع	پژوهش سيستم هاي بس ذره اي - 1397 - دوره : 8 - شماره : 16 - صفحه:123 -133
چکیده	ساختار پیچیده زبان انسان، توانایی تبادل اطلاعات پیچیده را به ما میدهد. این سامانه ارتباطی از برخی قواعد آماری غیرخطی پیروی میکند. ما چهار ویژگی آماری زبان پارسی را بررسی میکنیم. یافته های ما با محاسبات روی شش اثر ارزشمند از اندیشمندان پارسی گوی به دست آمده اند. دو قانون توانی زیف و هیپس در زبان پارسی برقرار هستند و با هم یک رابطه معکوس دارند. محتوای اطلاعاتی نوشتار، ناشی از چیدمان واژه‌ها توسط نویسنده، به کمک آنتروپی اندازه گیری میشود. از این معیار میتوان در مرتب سازی واژه ها بر حسب ارتباطشان با موضوع نوشتار بهره برد. همچنین ما بعد فرکتلی هر واژه در نوشتار را با روش جعبه شماری محاسبه میکنیم. بعد فرکتالی هر واژه، که یک مقدار مثبت کوچکتر یا مساوی یک است، توزیع مکانی واژه در نوشتار را نمایش میدهد. به طور کلی میتوان ادعا کرد که زبان پارسی مانند دیگر زبان های بررسی شده در پژوهش های پیشین از قوانین آماری ذکر شده پیروی میکند.
کلیدواژه	متن کاوی، همبستگی بلندبرد، قانون زیف، قانون هیپس، آنتروپی، بعد فرکتالی
آدرس	دانشگاه صنعتی نوشیروانی بابل, دانشکده علوم, گروه فیزیک, ایران
پست الکترونیکی	alimehri@nit.ac.ir

LongRange Statistical Correlations in Human Language: A Case Study in Persian Language

Authors	Mehri Ali
Abstract	Complex structure of human language enables us to exchange very complicated information. This communication system obeys some common nonlinear statistical regularities. We investigate four important statistical features of Persian language. We perform our calculations for adopted works of six famous Persian litterateurs. Zipf’s law and Heaps’ law, which imply wellknown powerlaw behaviors, are established in this language, showing a qualitative inverse relation with each other. Furthermore, the informational content associated with the words ordering, is measured by using an entropic metric. This metric can be applied in words relevancy ranking process. We also calculate fractal dimension of words in the text by using box counting method. The fractal dimension of each word, that is a positive value less than or equal to one, exhibits its spatial distribution in the text. Generally, we can claim that the Persian language follows the mentioned statistical laws, like the other languages studied in previous works.
Keywords