بناء ذخيرة لُغوية قياسية معاصرة للغة العربية لأغراض استرجاع المعلومات

نوع المستند : المقالة الأصلية

المؤلف

قسم علم المعلومات، کلية العلوم الاجتماعية - جامعة أم القرى - مکة المکرمة - السعودية

المستخلص

الذخيرة اللغوية هي مجموعة من النصوص المکتوبة بلغة معينة، أو بأکثر من لغة، والتي يتم جمعها، وتخزينها، ومعالجتها، آلياً بشکل منظم على الحاسب الآلي؛ وفقاً لطريقة استخدامها والعمل عليها، وهي تعد أحد أهم المصادر في مجال البحث في استرجاع المعلومات، والمعالجة الطبيعية للغة، وکذلک اللغويات الحاسوبية، وقد أصبح بناء الذخائر اللغوية أمراً شائعاً ومألوفاً في هذه المجالات منذ سنوات، کما أن أحجام الذخائر قد زادت بشکل کبير في الآونة الأخيرة؛ بسبب التطور الهائل في التکنولوجيا المستخدمة في بنائها. إن هذه الدراسة هي محاولة من قبل الباحث لبناء ذخيرة لُغوية قياسية معاصرة للغة العربية. والذخيرة الناتجة، هي ذخيرة نصية مکتوبة مکونة مما يزيد على خمسة ملايين مقال وتحقيق صحفي، بإجمالي عدد کلمات يزيد على مليار ونصف المليار کلمة، منها حوالي أکثر من ثلاث ملايين کلمة فريدة لم تتکرر، وقد تم جمعها من المقالات الصحفية في عشرة مصادر من ثمانِ دول عربية، على مدار أربع عشرة سنة، وقد تم تشفير الذخيرة بنوعين من التشفير هما: الکود الموحد UTF-8، وکود ويندوز للغة العربية Windows cp-1256، کما تم توسيمها بلغة SGML ، ولغة XML.

الكلمات الرئيسية