چالش‌های شیوه نگارش زبان فارسی در بازیابی اطلاعات از موتورهای کاوش وب

نوع مقاله : مقالات پژوهشی

نویسندگان

چکیده

شیوه‌های گوناگون در نوشتن یک واژه، یکی از مشکلاتی است که در بازیابی مدارک مربوطه از طریق ابزارهای جستجو وجود دارد. در زبان فارسی نیز برخی از واژه‌ها به ریخت‌های متفاوتی نوشته می‌شوند. به همین دلیل این پژوهش به بررسی مسائلی پرداخته است که کاوشگران فارسی در کاوش ریخت‌های مختلف یک واژه با آن رو‌به‌رو هستند. برای پاسخگویی به سؤال‌های پژوهش از دو روش پیماش مقایسه‌ای و اسنادی استفاده شده است. جامعه‌ پژوهش شامل سه موتور کاوش گوگل، یاهو و آلتاویستا است که امکان جستجو به زبان فارسی را فراهم کرده‌اند.
با مطالعه و دقت در متون فارسی، سیاهه‌ای شامل 17 کلیدواژه انتخاب شد که هرکدام نمایان‌گر یک مورد از چالش‌های زبان فارسی در بازیابی اطلاعات هستند. پژوهشگران کلیدواژه‌ها را وارد فیلد جستجوی ابزارهای کاوش انتخابی کرده و تعداد بازیافت‌ها برای هرکدام از موتورهای کاوش را ثبت کردند.
تجزیه و تحلیل داده‌ها در دو سطح آمار توصیفی و استنباطی انجام شد. یافته‌ها نشان داد که موتورهای کاوش وب، شیوه‌های نگارش زبان فارسی را به منظور بهبود کاوش، مورد توجه قرار نداده‌اند. همچنین رابطه معناداری بین شکل واژه و نوع ابزار جستجو وجود دارد.
کلیدواژه‌ها: بازیابی اطلاعات، موتورهای کاوش، شیوه نگارش، زبان فارسی

عنوان مقاله [English]

Survey on Morphological Difficulties of Persian Language in Information Retrieval from Web Search Engines

نویسندگان [English]

  • mohammad sadegh Abdollahi
  • abdorasool Jokar
چکیده [English]

This research investigated the difficulties which search engines are faced with in searching different forms of a word in the Persian language. A comparative survey and documentary method were used. Research population consisted of three international search engines (Google, Yahoo and AltaVista) which provide Persian Search capability. Studying Persian texts, a checklist was developed which consisted of 17 keywords each of which represented one of the Persian language challenges. Researchers input keywords in search tools and recorded retrieved results for each search engine. Results showed that none of the search engines considered linguistic challenges of the Persian Language. Furthermore, a significant relation existed between the form of words and the type of search engine.

Keywords: Information Retrieval, Search engines, Morphology, Persian Language

CAPTCHA Image