في رسالة ماجستير للباحثة خديجة عثمان: الحصول على صفات أمثلية من المصفوفات الدقيقة في بيئة البيانات الكبيرة
الثورة/ هاشم السريحي
نالت الباحثة خديجة عبدالله عثمان، على درجة الماجستير بامتياز من كلية الحاسوب وتكنولوجيا المعلومات جامعة صنعاء عن رسالته الموسومة بـ ”
A model for obtaining an optimal subset of features from Microarray Datasets in Big Data Environment نموذج للحصول على مجموعة صفات أمثلية من المصفوفات الدقيقة في بيئة البيانات الكبيرة “.
وقد أشادت لجنة المناقشة والحكم – المكونة من الدكتور/ بشير المقالح رئيساً ومناقشاً خارجياً من جامعة ذمار، والدكتور/ فضل باعلوي عضواً ومشرفاً من جامعة صنعاء، والدكتور/ عبدالماجد الخليدي عضواً ومناقشا داخلياً من جامعة صنعاء، بالرسالة وما بذلته الباحثة من جهود في انجازها.
وتكمن أهمية الدراسة في أن عالم التطبيقات الحقيقية مثل التشخيص الطبي والكشف عن الاحتيال والاعلام والتطبيقات المالية تتميز فيها البيانات بأنها ذات أبعاد كبيرة مما يمثل أحد أهم التحديات سواء من ناحية التحليل للبيانات أو اكتشاف المعرفة.
وتعتبر عملية اختيار الصفات من الخطوات الهامة التي يتم تنفيذها قبل عملية المعالجة للبيانات في مجال تعلم الآلة وتهدف إلى تقليل الأبعاد للبيانات حيث يتم اعتبارها مجالاً بحثياً نشطاً لعقود، وتحتوي بيانات المصفوفات الدقيقة على عدد كبير من الصفات أو الجينات التي لا يمكن من خلالها الحصول على معلومات مفيدة بالإضافة لأنها قد تتسبب في تضليل خوارزميات التعلم وتقليل الأبعاد في مثل هذا النوع من البيانات هو خطوة أساسية لزيادة نسبة الأداء في عملية التصنيف بالإضافة إلى تقليل زمن التنفيذ.
حيث قامت الباحثة بعمل نموذج هجين مقترح للحصول على صفات أمثلية من المصفوفات الدقيقة يجمع بين خوارزمية الترشيح السريع للصفات المترابطة FCBF وخوارزمية الغابة العشوائية RF-RFE الدورية لاستبعاد الصفات الأقل تأثيراً.. ولتقييم النموذج الهجين المقترح تم تطبيق الخوارزمية الجينية لاختيار الصفات المميزة بعد عملية الترشيح للصفات، وتم استخدام البيانات الخاصة بسرطان الرئة للتحقق من صحة النموذج الهجين المقترح وهي بيانات تتميز بوجود عدد كبير من الصفات المكررة وغير الداخلة في تشخيص المرض.
تم برمجة هذا النموذج من خلال إنشاء تطبيق بلغة آر التي تستخدم في تحليل البيانات الكبيرة، ومن خلال تطبيق النموذج المقترح تم الحصول على نتائج تصنيف بدقة 98.31 % و 94.92 % باستخدام خوارزميات knn و Rf على التوالي. حيث تم الاستنتاج بأن نتائج النموذج المقترح أكثر دقة مقارنة بالنتائج السابقة.