توظيف تقنيات معالجة البيانات الضخمة في بناء نموذج حقيبة الكلمات Bag of Words لتحليل مصادر المعلومات بالمكتبات الرقمية : دراسة تطبيقية باستخدام منصة Apache Hadoop (الجزء الثاني) Using Big Data Platforms to Build a Bag of Words to Analyze Information Resources in Digital Libraries : An Applied Study Based on Apache Hadoop (Part II)

سيد النشرتي, مؤمن

doi:10.21608/sjrc.2025.455998

توظيف تقنيات معالجة البيانات الضخمة في بناء نموذج حقيبة الكلمات Bag of Words لتحليل مصادر المعلومات بالمكتبات الرقمية : دراسة تطبيقية باستخدام منصة Apache Hadoop (الجزء الثاني) Using Big Data Platforms to Build a Bag of Words to Analyze Information Resources in Digital Libraries : An Applied Study Based on Apache Hadoop (Part II)

نوع المستند : المقالة الأصلية

المؤلف

مؤمن سيد النشرتي

قسم المكتبات والوثائق والمعلومات - جامعة القاهرة

10.21608/sjrc.2025.455998

المستخلص

تأتي هذه الدراسة باعتبارها أولى الدراسات التطبيقية العربية المتخصصة في مجال المكتبات وعلوم المعلومات، والتي تركز على معالجة وتحليل البيانات الضخمة من خلال استخدام منصة Apache Hadoop، حيث هدفت الدراسة لإجراء عملية تحليل لإحدى مصادر المعلومات داخل إحدى المكتبات الرقمية العربية، من خلال بناء ما يعرف بنموذج حقيبة الكلمات Bag of Words، حيث يعد هذا النموذج أحد المراحل الأساسية في معالجة وتكشيف الوثائق من خلال تقنيات الذكاء الاصطناعي، كما تكشف الدراسة من خلال عملية بناء نموذج حقيبة الكلمات BoW مدى قدرة منصة Hadoop على معالجة البيانات النصية غير المهيكلة Unstructured Data، معتمدة في ذلك على المنهج الوصفي في رصد الدوافع لتطوير منصات البيانات الضخمة، وإيضاح مفهوم البيانات الضخمة The Big Data في إطارها العلمي المجرد عن السياقات التخصصية، ثم التطرق للجانب التكويني لمنصة Hadoop، والتطبيقات المساندة للمنصة ودورها في دعم عمليات التحليل والمعالجة للبيانات. أما المنهج التجريبي، فقد اعتمدت الدراسة عليه في بناء نموذج حقيبة الكلمات من خلال منصة Hadoop، وتعد أبرز النتائج التي توصلت لها الدراسة هي قدرة منصة Hadoop على معالجة البيانات غير المهيكلة النصية بصورة كاملة، والتي تعكس غالبية مصادر المعلومات المقتناة في المكتبات الرقمية، ونجاح المنصة في بناء نموذج حقيبة الكلمات بصورة مكتملة، ولكن تبرز صعوبة تتعلق بتعامل منصة Hadoop مع اللغة العربية في التحليل والمعالجة.

الكلمات الرئيسية