استخراج فراداده‌های متنی از مقاله‌های علمی به زبان فارسی با مدل آماری CRF

نوع مقاله : مقالات پژوهشی

نویسندگان

دانشگاه بین المللی امام خمینی (ره) قزوین

چکیده

مقدمه:
استخراج فراداده‌های متنی از مقاله‌های علمی به شکل دستی کار زمان‌بر و پرهزینه‌ای است. وجود تنوع در قالب‌های ساختاری مقالات علمی نیز به پیچیدگی مسئله می‌افزاید. بنابراین، استخراج خودکار فراداده‌های متنی از مقاله‌های علمی به عنوان یک مسئله مطرح است و از الگوریتم‌های مختلفی می‌توان برای استخراج فراداده‌ها استفاده کرد. هدف این مقاله ارائه‌ی یک چارچوب برای استخراج فراداده‌های متنی از مقاله‌های علمی به زبان فارسی است. در این پژوهش از مدل آماری سی آر اف برای استخراج فراداده‌ها استفاده شده است.
روش‌شناسی:
این مقاله یک پژوهش کاربردی است. در این مقاله با مطالعات کتابخانه‌ای و آزمایش سعی شده است یک چارچوب برای استخراج فراداده‌ها ارائه شود. چارچوب ارائه شده شامل شناسایی سرآیند و مراجع انگلیسی و فارسی مقاله است. از مدل آماری سی آر اِف برای استخراج فراداده‌ها از سرآیند و مراجع فارسی و انگلیسی استفاده شده است. با تعریف ویژگی‌های مختلف این مدل آماری قابل تغییر است. آزمایش این روش بروی صد مقاله از مجلات علمی- پژوهشی ایران درصد موفقیت آن را نشان می‌دهد. مدل آماری سی آر اِف در برچسب‌زنی متن نسبت به مدل‌های آماری دیگر مانند مدل مخفی مارکوف دقت بالاتری را ارائه می‌دهد. از سوی دیگر این مدل بر مبنای آمار و ریاضی برچسب‌زنی را انجام می‌دهد. استخراج فراداده‌ها از مقالات با قالب‌های مختلف به کمک آمار نسبت به روش‌‌های مبتنی بر قانون نتایج بهتری را به دنبال دارد. بنابراین استفاده از مدل آماری سی آر اِف برای حل این مسئله مناسب است.
یافته ها:
برای ارزیابی روش پیشنهاد شده از معیار اِف استفاده شده است. مقدار معیار اِف در این پژوهش برای هر توکن متنی محاسبه شده است. مقدار معیار اِف به شکل میانگین برای فراداده‌های سرآیند، فراداده‌های مراجع فارسی و فراداده‌های مراجع انگلیسی به ترتیب 89/96 درصد، 87/93 درصد و 75/94 درصد است. نتایج این پژوهش با سه پژوهش مشابه در زبان انگلیسی مقایسه شده است. مقایسه میانگین نتایج به‌دست آمده نشان می‌دهد در فراداده‌های سرآیند نتایج پژوهش این مقاله بهتر از دو پژوهش انجام شده در زبان انگلیسی است. نتایج استخراج فراداده نویسنده در سرآیند در پژوهش‌های زبان انگلیسی بهتر است. برای فراداده چکیده در پژوهش‌ زبان فارسی، نتایج بهتری به‌دست آمده است. مقایسه میانگین نتایج استخراج فراداده‌های مراجع، نشان می‌دهد پژوهش‌های زبان انگلیسی دقت بالاتری ارائه داده‌اند. نتایج استخراج فراداده مؤسسه در مراجع فارسی نسبت به فراداده‌های دیگر ضعیف‌تر است.
بحث و نتیجه‌گیری:
بررسی نتایج بدست آمده نشان می‌دهد که عملکرد مدل آماری سی آر اِف برای استخراج فراداده‌ها خوب است. بیشترین دقت برای فراداده چکیده با معیار اِف برابر 6/99 درصد است. این فراداده تعداد توکن بسیار بیشتری نسبت به بقیه فراداده‌ها دارد. دقت فراداده مؤسسه با معیار اِف برابر 95/80 درصد کمتر از بقیه است. دو دلیل در کاهش دقت موثر است. تعداد این فراداده در پیکره متون نسبت به فراداده‌های دیگر کمتر است. علاوه بر این کلمات نحوی که در این فراداده به‌کار می رود، تنوع بیشتری دارد. در مراجع فارسی اسامی شهرها در فراداده‌های مکان و مؤسسه به‌کار می‌رود. این مسئله باعث می‌شود در برخی از موارد فراداده‌های مکان و مؤسسه به اشتباه تشخیص داده شوند. در زبان فارسی کلماتی که به شکل مشترک در فراداده‌های مختلف به‌کار می‌روند نسبت به زبان انگلیسی بیشتر است. برای مثال بسیاری از اسامی ایرانی که برای نام افراد به‌کار می‌رود با معانی دیگر در فراداده‌های دیگر استفاده می‌شود. این مسئله ممکن است باعث بروز خطا شود. اکثر خطاهای به‌وجود آمده در استخراج فراداده‌ها مربوط به توکن‌هایی است که در مرز دو فراداده قرار دارند. تبدیل مقالات علمی فارسی با فرمت پی دی اِف به فرمت متن در موارد زیادی با مشکل رو به رو است و از محدودیت‌های این پژوهش به شمار می‌آید. در این پژوهش مجموعه‌ای از صد مقاله علمی استفاده شد. افزایش تعداد مقاله‌های علمی و تنوع بیشتر مقالات برای آزمایش می‌تواند در نتیجه‌ی بدست آمده تاثیر مثبتی داشته باشد. مجموعه‌ای از ویژگی‌های متنی در الگوریتم‌های برچسب‌زنی سی آر اِف استفاده می‌شود. تغییر در این ویژگی‌ها می‌تواند موجب بهینه‌سازی روش شود.

کلیدواژه‌ها


Beel, J., Gipp, B., Shaker, A., & Friedrich, N. (2010). SciPlore Xtract: Extracting Titles from Scientific PDF Documents by Analyzing Style Information (Font Size). Proceedings of the 14th European Conference on Digital Libraries. Glasgow.
Candeias, R. (2011). Metadata Extraction from Scholarly Articles.
cb2bib overview. (2016). Retrieved 2015, from http://www.molspaces.com/d_cb2bib-overview.php.
Councill, I. G., Giles, C. L., & Kan, M. Y. (2008). ParsCit: an Open-source CRF Reference String Parsing Package. In LREC, 8, 661-667.
Giuffrida, G., Sheck, E., & Yang, J. (2000). KnowledgeBased Metadata Extraction from PostScript Files. Proceedings of the fifth ACM conference on Digital libraries (pp. 77-84). San Antonio, TX, USA: ACM.
Guo, Z., & Jin, H. (2011a). A Rule-based Framework of Metadata Extraction from Scientific Papers. 10th International Symposium on Distributed Computing and Applications to Business, Engineering and Science (pp. 400-404). Wuxi: IEEE.
Guo, Z., & Jin, H. (2011b). Reference Metadata Extraction from Scientific Papers. 12th International Conference on Parallel and Distributed Computing, Applications and Technologies (pp. 45-49). Gwangju: IEEE.
Han, H., Giles, C. L., Manavoglu, E., Zha, H., Zhang, Z., & Fox, E. A. (2003). Automatic document metadata extraction using support vector machines. Digital Libraries, 2003. Proceedings. 2003 Joint Conference on (pp. 37-48). IEEE.
Hetzner, E. (2008). A simple method for citation metadata extraction using hidden markov models. In Proceedings of the 8th ACM/IEEE-CS joint conference on Digital libraries (pp. 280-284). ACM.
Kovacevic, A., Ivanovic, D., Milosavljevic, B., Konjovic, Z., & Surla, D. (2011). Automatic Extraction of Metadata from Scientific Publications for CRIS Systems. Electronic Library and Information Systems, 45 (4), 376-396.
Lafferty, J., McCallum, A., & Pereira, F. (2001). Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Proceedings of the eighteenth international conference on machine learning. 1, pp. 282-289. USA: Morgan Kaufmann.
ParsCit: Anopen-source CRF Reference String and Logical Document Structure Parsing Package. (2016). Retrieved 2015, from http://aye.comp.nus.edu.sg/parsCit/.
Peng, F., & McCallum, A. (2006). Information extraction from research papers using conditional random fields. Information processing & management, 42 (4), 963-979.
Seymore, K., McCallum, A., & Rosenfeld, R. (1999). Learning hidden Markov model structure for information extraction. AAAI-99 Workshop on Machine Learning for Information Extraction.
Tkaczyk, D., Szostek, P., Dendek, P., Fedoryszak, M., & Bolikowski, L. (2015). CERMINE: automatic extraction of structured metadata from scientific literature. IJDAR, 18 (4), 317-335.
Wallach, H. (2004). Conditional Random Fields: An Introduction. University of Pennsylvania CIS Technical Report.
Zhang, X., Zou, J., Le, D., & Thoma, G. R. (2011). A structural SVM approach for reference parsing. BMC bioinformatics, 12 (3), 479-484.
CAPTCHA Image