ما هو تصنيف استخراج البيانات؟

تصنيف التنقيب في البيانات هو خطوة واحدة في عملية التنقيب عن البيانات. يتم استخدامه لتجميع العناصر بناءً على خصائص رئيسية معينة. هناك العديد من التقنيات المستخدمة لتصنيف استخراج البيانات ، بما في ذلك تصنيف أقرب الجيران وتعلم شجرة القرار وآلات المتجهات الداعمة.

التنقيب عن البيانات هو طريقة يستخدمها الباحثون لاستخراج الأنماط من البيانات. بشكل عام ، يتم اختيار عينة تمثيلية من مجموعة البيانات ثم معالجتها وتحليلها للعثور على الأنماط. بالإضافة إلى تصنيف استخراج البيانات ، يمكن للباحثين أيضًا استخدام التجميع والانحدار وتعلم القواعد لتحليل البيانات.

هناك العديد من الخوارزميات التي يمكن استخدامها في تصنيف التنقيب عن البيانات. يعد تصنيف الجار الأقرب أحد أبسط خوارزميات تصنيف استخراج البيانات. يعتمد على مجموعة التدريب. مجموعة التدريب هي مجموعة من البيانات المستخدمة لتدريب الكمبيوتر على الانتباه إلى متغيرات معينة. في تصنيف أقرب الجيران ، يصنف الكمبيوتر ببساطة جميع البيانات كجزء من المجموعة التي تحتوي على البيانات الأقرب من حيث القيمة إلى الإدخال.

يستخدم تعلم شجرة القرار نموذجًا متفرعًا لتصنيف البيانات. يطرح الكمبيوتر بشكل أساسي سلسلة من الأسئلة حول البيانات. إذا كانت الإجابة على السؤال الأول صحيحة ، فإنه يطرح السؤال 2 أ. إذا كانت الإجابة خاطئة ، فإنها تطرح السؤال 2 ب. عند رسمها ، تشكل هذه الطريقة شجرة من المسارات المتفرعة.

يعتمد تصنيف بايز الساذج على الاحتمال. يطرح سلسلة من الأسئلة حول كل جزء من البيانات ثم يستخدم الإجابات لتحديد احتمال أن البيانات تنتمي إلى تصنيف معين. هذا يختلف عن تعلم شجرة القرار لأن الإجابة على السؤال الأول لا تؤثر على السؤال الذي سيتم طرحه بعد ذلك.

تتضمن الطرق الأكثر تعقيدًا لتصنيف استخراج البيانات الشبكات العصبية وآلات ناقلات الدعم. هذه الأساليب عبارة عن نماذج قائمة على الكمبيوتر يصعب القيام بها يدويًا. غالبًا ما تُستخدم الشبكات العصبية في برمجة الذكاء الاصطناعي لأنها تحاكي الدماغ البشري. يقوم بتصفية المعلومات من خلال سلسلة من العقد التي تجد الأنماط ثم تصنف المعلومات.
تستخدم آلات المتجهات الداعمة عينات تدريبية لبناء نموذج يصنف المعلومات ، وعادة ما يتم تصويره على أنه مخطط مبعثر بمسافة واسعة بين الفئات. عندما يتم إدخال معلومات جديدة في الجهاز ، يتم رسمها على الرسم البياني. ثم يتم تصنيف البيانات بناءً على الفئة الأقرب للمعلومات على الرسم البياني. تعمل هذه الطريقة فقط عندما يكون هناك خياران للاختيار من بينها.