توظيف تقنيات معالجة البيانات الضخمة في بناء نموذج حقيبة الكلمات Bag of Words لتحليل مصادر المعلومات بالمكتبات الرقمية : دراسة تطبيقية باستخدام منصة Apache Hadoop (الجزء الأول) Using Big Data Platforms to Build a Bag of Words to Analyze Information Resources in Digital Libraries : An Applied Study Based on Apache Hadoop (Part I)

نوع المستند : المقالة الأصلية

المؤلف

قسم المكتبات والوثائق والمعلومات - جامعة القاهرة

10.21608/sjrc.2025.424719

المستخلص

تأتي هذه الدراسة بوصفها أولى الدراسات التطبيقية العربية المتخصصة في مجال المكتبات وعلوم المعلومات، والتي تركز على معالجة وتحليل البيانات الضخمة من خلال استخدام منصة Apache Hadoop، حيث هدفت الدراسة لإجراء عملية تحليل لأحد مصادر المعلومات داخل إحدى المكتبات الرقمية العربية، من خلال بناء ما يعرف بنموذج حقيبة الكلمات Bag of Words، حيث يعد هذا النموذج إحدى المراحل الأساسية في معالجة وتكشيف الوثائق من خلال تقنيات الذكاء الاصطناعي. كما تكشف الدراسة، من خلال عملية بناء نموذج حقيبة الكلمات BoW، مدى قدرة منصة Hadoop على معالجة البيانات النصية غير المهيكلة Unstructured Data، معتمدة في ذلك على المنهج الوصفي في رصد الدوافع لتطوير منصات البيانات الضخمة، وإيضاح مفهوم البيانات الضخمة The Big Data في إطارها العلمي المجرد عن السياقات التخصصية، ثم التطرق للجانب التكويني لمنصة Hadoop، والتطبيقات المساندة للمنصة ودورها في دعم تحليل ومعالجة البيانات. أما المنهج التجريبي، فقد اعتمدت الدراسة عليه في بناء نموذج حقيبة الكلمات من خلال منصة Hadoop، وتعد أبرز النتائج التي توصلت لها الدراسة هي قدرة منصة Hadoop على معالجة البيانات غير المهيكلة النصية بصورة كاملة، والتي تعكس غالبية مصادر المعلومات المقتناة في المكتبات الرقمية، ونجاح المنصة في بناء نموذج حقيبة الكلمات بصورة مكتملة، ولكن تبرز صعوبة تتعلق بتعامل منصة Hadoop مع اللغة العربية في التحليل والمعالجة.