Search In this Thesis
   Search In this Thesis  
العنوان
Data mining of bioinformatics data bases /
المؤلف
Salem, Dina Ahmed Mohamed.
هيئة الاعداد
باحث / Computers and Systems Engineering
مشرف / Hesham Arafat Ali
مشرف / Rania Ahmed A. A. AbulSeoud
مناقش / Hesham Arafat Ali
الموضوع
Bioinformatics. Data mining. classification.
تاريخ النشر
2012.
عدد الصفحات
135 p. :
اللغة
الإنجليزية
الدرجة
ماجستير
التخصص
هندسة النظم والتحكم
تاريخ الإجازة
1/1/2012
مكان الإجازة
جامعة المنصورة - كلية الهندسة - Department of Computers and Systems Engineering
الفهرس
Only 14 pages are availabe for public view

from 135

from 135

Abstract

تعدين البيانات هو الأداة الرئيسية المستخدمة لاستخراج المعرفة من البيانات الخام في كثير من جوانب الحياة المختلفة. الحاجة القصوى لتعدين البيانات تنبثق من واقع الزيادة اليومية المتراكمة في كمية البيانات المخزنة. البيانات البيولوجية هي واحدة من أهم أنواع البيانات لأن تفسيرها الدقيق يؤدي الى القرارات الصحيحة المتعلقة بالحياة البشرية. إدارة وتعدين وتفسير المعلومات من البيانات البيولوجية تشكل الأهداف الرئيسية للمعلوماتية الحيوية. بذلك ، خوارزميات تعدين البيانات تكون مناسبة بشكل مثالي للمعلوماتية الحيوية لأنها لا تتطلب أي معرفة بيولوجية سابقة لتعمل بكفاءة. ميكروأريس تمثل واحدة من التقنيات الحديثة الأكثر إنتاجية في مجال المعلوماتية الحيوية. ميكروأريس تقدم الآلاف من قيم التعبير الجيني التى تشكل كمية ضخمة من البيانات المخزنة في شكل مصفوفة.
التجميع والتصنيف هما أكثر تقنيات تعدين البيانات انطباقا على الميكروأري. التصنيف هو عملية تعيين عناصر البيانات إلى فئات أو أصناف محددة مسبقا. في الميكروأرى، التصنيف يوظف فى تحديد أصناف عينات سرطانية جديدة. التصنيف الدقيق للعينات السرطانية فى الإنسان هو أمر أساسي لإدارة علاج المرضى. و لكن مشكلة ارتفاع الأبعاد فى الميكروأرى قد تؤثر على دقة التصنيف. والحل لهذه المشكلة هو استخدام تقنيات اختيار الجينات للحد من البيانات الأصلية عن طريق تحديد الجينات عالية المعلوماتية. تعتبر تقنيات اختيار الجينات مرحلة تجهيز مسبق لأي نظام التصنيف. اذن تصميم نظام تصنيف فعال يجب تنفيذ مرحلتين؛ تقنية اختيار جينات مناسبة و مصنف قوى.
في الأطروحة في متناول اليد تم اقتراح ستة نظم التصنيف لتصنيف عينات سرطانية بشرية من مختلف قواعد بيانات الميكروأرى. ويقترح نوعين مختلفين من تقنيات اختيار الجينات؛ تقنية مرشح متعدد السجل و تقنية مجمع بالخوارزمية الجينية. ويتم ضخ الناتج من كل واحد منهم في كل واحدة من ثلاث مصنفات مصممة؛ SVM, KNN, LDA. الأنظمة الستة الناتجة هى؛ MUGS-LDA, MUGS-KNN, MUGS-SVM, GA-LDA, GA-KNN AND GA-SVM. يتم تقييم كل واحد من هذه النظم على ثلاث مجموعات البيانات المختلفة من الميكروأري. النظم الستة المقترحة تظهر دقة تصنيف عالية وموثوق بها. أربعة منهم قادرون على تصنيف مجموعة البيانات اللوكيميا دون أي الخطأ في التصنيف والحد من الجين يساوي 99.94 ٪. واحد من النظم المقترحة يحقق دقة 97.3 ٪ على مجموعة البيانات الليمفوما مع انخفاض الجينات يعادل 99.86 ٪. النتائج المسجلة على مجموعة بيانات القولون معقولة حيث أن واحدا من الأنظمة استطاع أن يصل إلى 90 ٪ وأساء تصنيف ثلاث عينات مع الحد من مجموعة البيانات الأصلية بنسبة 99.8 ٪.