کاربرد و تعدیل قانون زیف و الگوی آماری زو در بازشناسی واژه های بازدارنده زبان فارسی با استفاده از خوشه زبانی مقالات علمی- پژوهشی رشته کتابداری و اطلاع رسانی

نوع مقاله : مقالات پژوهشی

نویسندگان

1 بیرجند

2 دانشگاه فردوسی مشهد

چکیده

هدف: شناسایی و استخراج سیاهه هایی نظام مند از واژه های بازدارنده به منظور استفاده در نمایه سازی خودکار متن های فارسی رشته کتابداری و اطلاع رسانی
روش: روش تحلیل محتوا است. جامعه پژوهش، 56 مقاله بودند که 20 مقاله با روش نمونه گیری تصادفی ساده انتخاب شدند.
یافته ها: از مجموع 15557 واژه موجود در متن مقالات، مطابق با الگوی زو، قبل از تعدیل واژه ها، 1368 و بعد از تعدیل، 468 واژه؛ مطابق قانون زیف نیز قبل از تعدیل، 217 و بعد از تعدیل، 607 واژه به عنوان واژه بازدارنده شناخته شدند. هم چنین از مجموع 1989 واژه موجود در چکیده مقالات، مطابق با الگوی زو قبل از تعدیل واژه ها، 148 و بعد از تعدیل، 173 واژه و بر اساس قانون زیف، قبل از تعدیل60 و بعد از تعدیل، 186 واژه به عنوان واژه بازدارنده استخراج شدند. در هر دو روش رابطه مستقیمی بین بسامد واژه ها و احتمال بازدارنده بودن آن ها مشاهده شد. بالاترین درصد واژه های بازدارنده (44/39 درصد) بدون احتساب بسامد، در متن مقالات و با کاربرد الگوی آماری زو به دست آمد. نتایج این پژوهش به افزایش کارایی، کاهش حجم فایل درونداد و صرفه جویی در زمان و هزینه ذخیره و بازیابی اطلاعات منجر می شود.

کلیدواژه‌ها


بلندیان، صدیقه (1385). تحلیل متن مقالات فارسی کتابداری و اطلاع رسانی و امکان نمایه سازی ماشینی آن ها بر اساس قانون زیف. پایان نامه کارشناسی ارشد، دانشگاه فردوسی مشهد.
تیلور، آرلین(1381). سازماندهی اطلاعات. (محمد حسین دیانی، مترجم). مشهد: کتابخانه رایانه ای .
سنجی، مجیده (1387). شناسایی واژه های غیرمفهومی رایج در نمایه سازی خودکار مدارک فارسی. پایان نامه کارشناسی ارشد، دانشگاه فردوسی مشهد.
گیلوری، عباس(1379). نمایه سازی خودکار: گذشته، حال، آینده. پیام کتابخانه،10(4): 17-25.
هویدا، علیرضا (1378). آمار و روش های کمّی در کتابداری و اطلاع رسانی. تهران: سازمان مطالعه و تدوین کتب علوم انسانی دانشگاه ها (سمت).
Abu-El Khair, I. H. (2003). Effects of Stop Words Elimination for Arabic Information Retrieval. International Journal of Computing & Information Science, 4(3), 119-133. Retrieved June 18, 2010, from http://www.mons.edu.eg
. pcvs/13702/13102.asp
Berg, C. N. (1997). Developing Corpus Specific Stop Word List Using Quantitative Comparison. PhD thesis, Graduate school of Logistics and acquisition management, Retrieved November 20, 2010, from http://www.research.airuniv
.edu/papers/ay1997/afit/ berg cn.pdf
Davarpanah, M. R., Sanji, M., & Aramideh, M. (2009). Farsi Lexical Analy sis and Stop Word List. Library Hi Tech, 27(3), 435-449. Retrieved December 14, 2011 from http://www.emeraldinsight.comType=Article&contentId=1811864
/InsightviewContentItem/do?content
Edmundson, H. P., & Wyllys, R. E. (1959). Automatic Indexing and Abstracting of Contents of Documents. Retrieved June 14 , 2011, from http:// www.
washington.edu
Fox, C. (1990). A stop list for general text. Retrieved November 20, 2010, from http://www.informatik.uni-trier.de/ley/indice/a-tree.pdf
Hao, L., & Hao, Li. (2008). Automatic Identification of Stop Words in Chinese Text Classification. Retrieved October 3, 2011, from http://ieeexplore .ieee.org/xpls,/abs_all.jsp? arnumber =4721858
Kerner, Y. H., & Blitz, S.Y. (2010). Experiments With Extraction of
Stop words in Hebrew. Retrieved April 21, 2012, from http://www. cs.tau.ac.ir/~nachum/iscol/HaCohenKerner_ISCOL 10_2.pdf
Lazarinis, F. (2007). Engineering and Utilizing a Stop Word List in Greek Web. Journal of the American Society for Information Science and Technology, 58(11), 1645-1652. Retrieved November 18, 2011, from http://dl.acm.org/ citation.cfm?id=1285331
Pandey, A. K., & Siddiqui, T. (2009). Evaluation Effect of Stemming and Stop- Word Removal on Hindi Text Retrieval. Retrieved September 17, 2010, from http://www.springerlink.com/index/j6444068.x213572k. pdf Savoy, J. (1999). A Stemming Procedure and Stop Word List for General French Corpora. Journal of the American Society for Information Science, 50(10), 944-952. Retrieved September 17, 2010, from http://www. members.unine.ch
/jacques.savoy/papers/frjasis.pdf
Wilbur, j., & Sirotkn, K (1992). The automatic identification of Stop Word. Journal of Information Science, 18 (1), 45-55. Retrieved September 3, 2010, from http://www. jis.sagepub.com/content/18/1/4
zou, F., Deng, X., & Han, S. (2006). Automatic identification of Chinese Stop Words. Retrieved November 10, 2010 , from http:/ www.cicling. org/2006/
RCS-18/RCS-18-Page151.pdf
CAPTCHA Image