ما هو استخراج المعلومات؟

يُعرف استخراج المعلومات (IE) أحيانًا باسم استرجاع المعلومات ، وهو عملية تُستخدم مع أنظمة الكمبيوتر للسماح باستخراج البيانات ذات الصلة من مجموعات أكبر من البيانات ، باستخدام مجموعة من المعايير المحددة مسبقًا. تتمثل الفكرة وراء استخراج المعلومات في إتاحة إمكانية تحديد واستيعاب البيانات ذات الصلة بنشاط معين بسهولة ، دون الحاجة إلى الانتقال يدويًا إلى كميات كبيرة من المعلومات للعثور على البيانات الدقيقة المطلوبة. تشبه هذه العملية أفكار التنقيب عن المفاهيم أو تجريف الويب ، حيث تسعى كل هذه الأساليب إلى جمع معلومات مفيدة من مجموعة أوسع من البيانات المتاحة.

يستدعي النهج العام لاستخراج المعلومات استخدام البرمجة القادرة على مسح مصادر المعلومات التي يمكن قراءتها آليًا. يمكن أن يشمل ذلك المستندات ذات النسخ المطبوعة التي تم مسحها ضوئيًا إلى نوع من الملفات الإلكترونية ، أو المستندات المعدة في شكل جداول بيانات أو مستندات معالجة النصوص ، أو حتى البيانات الموجودة في الحقول القابلة للقراءة في قاعدة البيانات. عادة ، يتم تعيين المعلمات التي تجعل من الممكن لبرنامج ما أن يُمنح الوصول إلى مصادر البيانات هذه ويفحصها بسرعة باستخدام معايير محددة لتحديد الأولويات وسحب أنواع معينة من المعلومات من المجموعة المتاحة. تختلف هذه العملية عادةً عن عملية البحث البسيطة ، حيث تستدعي الطريقة عدم مطابقة كلمات أو عبارات محددة في حد ذاتها ، ولكنها تستخدم بدلاً من ذلك عملية تسمى معالجة اللغة الطبيعية ، والتي تساعد ليس فقط في تقييم الكلمات الفعلية ولكن أيضًا في السياق و المعنى الذي ينطوي عليه هذا السياق.

تجعل التعقيدات التي ينطوي عليها استخراج المعلومات من الصعب إلى حد ما إدارة استخدام هذا النهج على نطاق عالمي ، على الرغم من وجود أدوات IE التي تعمل بشكل جيد للغاية فقط مع كمية محدودة من البيانات ، مثل مصادر البيانات المرتبطة بالملفات الإلكترونية الموجودة على خادم شركة ، أو حتى مجموعة مصادر تتضمن عددًا محدودًا من موجز الأخبار. باستخدام هذا النهج ، من الممكن تحديد نوع ما من الأحداث ، وربما حتى الحد من العوائد لإدراج عدد معين من المشاركين في الحدث ، وترتيب البيانات وفقًا للتاريخ.

كما هو الحال مع العديد من أشكال التكنولوجيا ، يتم صقل الأدوات المستخدمة للانخراط في استخراج المعلومات باستمرار. منذ بداية القرن الحادي والعشرين ، ازدادت بشكل كبير القدرة على تعيين المعلمات والاستفادة من مجموعات البيانات الإلكترونية المتزايدة باستمرار كجزء من البحث عن المعلومات ذات الصلة. يتضمن ذلك القدرة على التعامل مع كميات كبيرة من البيانات غير المهيكلة واستخدام هذه المعلمات لتقديم بعض الترتيب أو الهيكل لتلك البيانات ، مما يجعلها أكثر فائدة لعمليات البحث المستقبلية.