وسام البهنسي

مدونة مبرمج معماري

مغامرة مع مستبعدات الفهرسة

خلال عملي في تطوير هذه المدونة اللطيفة وصلتُ إلى مهمة إعداد قائمة مستبعدات الفهرسة المستخدمة في عملية البحث.

 

ماذا؟ تسألوني ما هي مستبعدات الفهرسة؟ حسناً... فلنستطرد قليلاً ونتعلم ما هي مستبعدات الفهرسة...

مستبعدات الفهرسة (stop words) هي تلك الكلمات التي يعتبرها محرك البحث كلمات غير فعالة أو مؤثرة في البحث. مثلاً، أحرف العطف وكلمات الوصل وبعض الضمائر وأحرف الجر (الذي، التي، من، لأن، على، له، هو، في، ... الخ). عندما يقوم محرك البحث بتصنيف نص ما فإنه يتجاهل أو يستبعد الكلمات التي يواجهها في النص والتي تقع ضمن قائمة المستبعدات. ناتج هذه العملية هو توفير المساحة في قاعدة بيانات محرك البحث وتسريع البحث لاحقاً لأنك ستبحث في عدد أقل من الكلمات المفتاحية. فعندما يواجه المحرك نصاً كالآتي: "تجولت في ليلة جميلة في حارات دمشق القديمة وصليتُ العشاء في الجامع الأموي" فإن هذا النص سيعطي الكلمات المفتاحية التالية "تجولت ليلة جميلة حارات دمشق القديمة صليتُ العشاء الجامع الأموي". وعندما نطلب البحث عن عبارة "دمشق القديمة" فإن المحرك سيجد هاتين الكلمتين ضمن الكلمات المفتاحية السابقة، ومن ثم يعطينا النص الأصلي ضمن قائمة النتائج. إذن نظرياً لن نستطيع البحث عن أي كلمة ترد في قائمة المستبعدات.

الآن لنعد إلى موضوعنا، كنتُ أنوي إعداد قائمة مستبعدات الفهرسة العربية لمحرك بحث المدونة، فقررت أن أحاول الاستفادة من جهود من سبقني من مواقع بحث عربية وما شابه، فبدأتُ رحلة البحث الحثيث لأجد مجموعة من البحوث النظرية عن الموضوع من جامعات مختلفة، إضافة إلى قائمة توجد على موقع البروفسور جاك سافوي وأخرى في موقع عربايز، وأخيراً وجدت أحدهم وقد قرر استخدام القائمة المقدمة من موقع جاك سافوي لميزة البحث في نظام بريدي.

 

قررتُ الاطلاع على قائمة البروفسور جاك، وقد فوجئت بقائمة غريبة مليئة بالكلمات: إسرائيلي، بيريز، غزة، قتل، دمار، ... وما شابه!!!

لقد كانت صعقة كبيرة للوهلة الأولى، وبدأت نظرية المؤامرة تداعب أفكاري، فبأي منطق تعتبر تلك الكلمات مستبعدة عن البحث؟ إلا إن كان من وضعها قد قصد إبعاد الباحثين عن إيجاد أي شيء يتعلق بتلك الكلمات...

 

تقصيت قليلاً عن مصدر هذه القائمة، لأجد أنها ناتجة عن تطبيق أحد أبحاث جامعة ميريلاند الأمريكية لتحليل النصوص واستخراج المعلومات منها. ويبدو أن أحدهم قد قرر التجريب على بضعة نشرات إخبارية عربية، فاستخرج منها تلك الكلمات التي كانت تتكرر بكثرة فاعتبرها كلمات مستبعدة. وقد التقط جاك سافوي هذه القائمة (عالماً أو غير عالم بفحواها) ليضعها على موقعه. لذا فما كان مني إلا أن قمتُ بمراسلة البروفسور جاك ذاكراً له أن قائمته غير صحيحة وقد رد عليّ مشكوراً بأنه سيعدّل القائمة لتصبح أكثر منطقية، وفعلاً تم اختصار العديد من الكلمات من تلك القائمة فبقي غالبها أحرفاً وكلمات غير ذات معنى بحد ذاتها.

 

الآن وقد ارتحت بالاً من هذه الثغرة، أعتقد أن أفضل قائمة لمستبعدات البحث حالياً هي تلك التي يستضيفها موقع عربايز (قائمة جاك سافوي غير متماسكة برأيي). على أنني لو كنتُ أنوي استعمال قائمة مستبعدات في منتدى عربي عام فإنني سأضع الكلمات التالية على رأس القائمة:

 

  • مشكوووووور (هذه الكلمة بحاجة إلى معالجة خاصة لالتقاطها بغض النظر عن مقدار ورود حرف الواو في الكلمة)
  • أين الردود
  • رمز الابتسامة ذات الأسنان البارزة 

 

بعيداً عن الهزل، أعتقد أن الإنترنت العربية تحتاج إلى قائمة من الجمل المستبعدة أكثر من حاجتها للكلمات المستبعدة. فلغتنا تمتاز بثرائها بالدعوات وعبارات المديح مثل (الحمد لله على سلامتك، في رعاية الله، بالتوفيق، بارك الله في عمرك ... ). هذه العبارات لا تضيف الكثير إلى المعنى الموضوعي المجرد الذي يهم الباحث، كما أنها ترد بكثرة وتحتل مساحة كبيرة وبتجاهلنا لها بدلاً من كلماتها المكونة فإننا نقلل من فرص استبعاد كلمات قد تكون مهمة. مثلاً، لو وضعنا كلمة "رعاية" ضمن قائمة المستبعدات لخربنا مواضيع كثيرة كتلك التي تتحدث عن رعاية الأيتام فلا نقدر أن نفرق بين رعاية الأيتام وإيذاء الأيتام مثلاً... والله أعلم.

أضف تعليقاً

Loading