كيفية عمل التعرف على الصور في التعلم الآلي: دليل عملي

تجربة مستقبل التحليل الجغرافي المكاني مع FlyPix!

أخبرنا ما هو التحدي الذي تحتاج إلى حله - سوف نساعدك!

pexels-mikhail-nilov-7988748

قد يبدو التعرف على الصور معقدًا، لكن الفكرة الأساسية بسيطة للغاية. ينظر الجهاز إلى الصور كبيانات، ويتعلم الأنماط من الأمثلة، ويستخدم هذه الخبرة للتعرف على ما يراه في المرة القادمة. يكمن العمل الحقيقي في كيفية إعداد هذه الأمثلة، وكيفية تعلم النموذج منها، ومدى فعالية هذا التعلم خارج بيئة المختبر.

في هذه المقالة، سنشرح بالتفصيل كيفية عمل تقنية التعرف على الصور في مجال التعلم الآلي. لن نستخدم المعادلات الرياضية المعقدة أو المصطلحات التقنية الرنانة. سنقدم نظرة واضحة على كيفية تحويل الصور إلى إشارات، وكيف تتعلم النماذج تفسيرها، ولماذا تتفوق بعض الأنظمة في ظروف العالم الحقيقي بينما تفشل أنظمة أخرى.

ما الذي يعنيه التعرف على الصور حقًا في مجال التعلم الآلي؟

في جوهرها، تدور عملية التعرف على الصور حول التصنيف والتحديد. يستقبل النظام صورة ويجيب على أسئلة مثل:

  • ما الذي تحتويه هذه الصورة؟
  • أين يوجد عنصر معين؟
  • كم عدد الأشياء الموجودة؟
  • هل تنتمي هذه الصور إلى نفس الفئة؟

في مجال تعلم الآلة، يُعدّ التعرف على الصور جزءًا من رؤية الحاسوب. وتركز رؤية الحاسوب على تعليم الآلات كيفية تفسير البيانات المرئية بطريقة مفيدة لاتخاذ القرارات.

من المهم التمييز في البداية بين أن الآلات لا ترى الصور بالطريقة التي يراها بها البشر. فالإنسان يرى قطة، بينما ترى الآلة شبكة من الأرقام. وكل ما يلي في مجال التعرف على الصور يهدف إلى سد هذه الفجوة.

كيف ترى الآلات الصور

قبل بدء أي عملية تعلم، يجب تحويل الصورة إلى شكل يمكن للآلة التعامل معه. تتكون الصور الرقمية من وحدات بكسل. تحتوي كل وحدة بكسل على قيم عددية تصف شدة اللون.

في صورة RGB القياسية، تحتوي كل بكسل على ثلاث قيم:

  • أحمر
  • أخضر
  • أزرق

تتراوح كل قيمة عادةً بين 0 و255. يُمثَّل البكسل الأسود بالأصفار، بينما يُستخدم الحد الأقصى للقيم في البكسل الأبيض. الصورة الكاملة هي ببساطة مصفوفة كبيرة من هذه الأرقام.

تعمل الصور ذات التدرج الرمادي على تبسيط هذا الأمر باستخدام قيمة واحدة لكل بكسل، مما يقلل من التعقيد وغالبًا ما يكون كافيًا للمهام التي تعتمد على الشكل أو التباين بدلاً من اللون.

في هذه المرحلة، لا تحمل الصورة أي معنى. إنها مجرد بيانات. وتتمثل مهمة التعرف على الصور في تعلم الأنماط المهمة في تلك البيانات.

دور البيانات في التعرف على الصور

يبدأ التعرف الجيد على الصور ببيانات جيدة. وهنا يكمن سر نجاح أو فشل العديد من المشاريع، حتى قبل تدريب أي نموذج. فحتى الخوارزميات القوية تواجه صعوبة عندما لا تعكس الصور الأساسية ظروف التشغيل الحقيقية.

جمع البيانات

يجب أن تعكس مجموعة البيانات الظروف التي سيواجهها النموذج بعد نشره. نادرًا ما تتطابق الصور الملتقطة في بيئات مضبوطة مع التباين الواقعي. تتغير الإضاءة، وتتغير الزوايا، وتتداخل الأجسام، وتختلف الدقة.

تتضمن مجموعة البيانات المفيدة

  • وجهات نظر مختلفة
  • اختلافات في الإضاءة
  • خلفيات واقعية
  • أمثلة غير كاملة أو مشوشة

إذا تم تدريب نموذج ما فقط على صور نظيفة ومثالية، فمن المحتمل أن يكون أداؤه ضعيفًا في البيئات العملية حيث تكون الظروف غير متوقعة.

التصنيف والتعليق

في التعلم الخاضع للإشراف، يجب تصنيف الصور. تُخبر التصنيفات النموذج بما يُفترض أن يتعلمه. قد يكون هذا بسيطًا مثل تعيين اسم فئة، أو مفصلًا مثل تحديد حدود الكائن بدقة على مستوى البكسل.

أنواع التعليقات التوضيحية الشائعة

  • تصنيف الصور باستخدام التصنيفات
  • مربعات الإحاطة لاكتشاف الأجسام
  • أقنعة البكسل للتجزئة
  • النقاط الرئيسية لتقدير الوضعية

جودة البيانات المصنفة أهم من كميتها. فالتصنيفات غير المتسقة أو غير الدقيقة تُربك النموذج وتحد من قدرته على التعميم خارج نطاق بيانات التدريب.

كيف نستخدم تقنية التعرف على الصور في التحليل الجغرافي المكاني في شركة FlyPix AI

في فلاي بيكس الذكاء الاصطناعي, نُطبّق تقنية التعرّف على الصور على بيانات جغرافية مكانية حقيقية، تشمل صور الأقمار الصناعية والصور الجوية وصور الطائرات المسيّرة. تتسم هذه البيانات بالتعقيد والكثافة، مما يجعل التحليل اليدوي بطيئًا وغير متسق. يُمكّننا التعلّم الآلي من رصد ومراقبة وفحص مساحات واسعة بدقة عالية وفي وقت قياسي.

تستخدم منصتنا وكلاء الذكاء الاصطناعي لتحديد ورسم حدود آلاف العناصر في مشاهد معقدة. يمكن للمستخدمين تدريب نماذج مخصصة باستخدام تعليقاتهم الخاصة، دون الحاجة إلى مهارات برمجية أو خبرة متعمقة في الذكاء الاصطناعي. هذا يجعل التعرف على الصور عمليًا للاستخدام اليومي، وليس فقط للفرق التقنية.

نركز بشكل كبير على السرعة والنطاق. فالمهام التي كانت تستغرق ساعات أو أيامًا يمكن إنجازها الآن في ثوانٍ، مما يساعد الفرق على الانتقال من مرحلة التصوير إلى اتخاذ القرارات بشكل أسرع. وتستفيد من هذا النهج قطاعات البناء والزراعة وعمليات الموانئ والغابات والبنية التحتية والمشاريع الحكومية.

بالنسبة لنا، لا يقتصر التعرف على الصور على مجرد الكشف، بل يتعلق بتحويل البيانات المرئية إلى رؤى موثوقة تصمد في ظروف العالم الحقيقي.

المعالجة المسبقة: تجهيز الصور للتعلم

نادراً ما تُستخدم الصور الخام كما هي. تعمل المعالجة المسبقة على تحسين الاتساق وتساعد النماذج على تعلم الأنماط ذات الصلة بكفاءة أكبر عن طريق تقليل التباين غير الضروري قبل بدء التدريب.

تتضمن هذه المرحلة عادةً تغيير حجم الصور إلى شكل ثابت بحيث يتلقى النموذج مدخلات موحدة، وتطبيع قيم البكسل للحفاظ على استقرار النطاقات العددية، وتحويل مساحات الألوان عندما لا تكون معلومات اللون ضرورية، وتقليل الضوضاء الناتجة عن أجهزة الاستشعار أو الضغط، واقتصاص المناطق التي لا تساهم بإشارة مفيدة.

يلعب التوحيد دورًا بالغ الأهمية. فمن خلال ضبط قيم البكسل ضمن نطاق ثابت، يتجنب النموذج عدم الاستقرار العددي أثناء التدريب ويتقارب بشكل أكثر موثوقية.

غالبًا ما تُستخدم تقنيات زيادة البيانات بالتزامن مع المعالجة المسبقة. وتُدخل تقنيات مثل التدوير والقلب والتكبير وتعديل السطوع تنوعًا مُتحكمًا به في مجموعة البيانات دون الحاجة إلى جمع صور جديدة. وهذا يُساعد على تقليل التجاوز في التدريب ويُحسّن من قدرة النموذج على التعامل مع التغيرات الواقعية في المنظور والإضاءة والاتجاه.

استخلاص الميزات في التعلم الآلي التقليدي

قبل أن يصبح التعلم العميق هو السائد، كان التعرف على الصور يعتمد بشكل كبير على استخلاص الميزات يدويًا. وكان المهندسون يحددون الخصائص البصرية التي يجب أن يركز عليها النموذج.

تشمل السمات النموذجية المصنوعة يدوياً ما يلي:

  • الحواف
  • الزوايا
  • أنماط النسيج
  • التدرجات

قامت طرق مثل مخطط التدرجات الموجهة، والأنماط الثنائية المحلية، ومجموعة الميزات بتحويل الصور إلى متجهات عددية ذات طول ثابت.

نجحت هذه الأساليب في مهام محددة، لكنها تطلبت خبرة واسعة في المجال. كما أنها واجهت صعوبة في التكيف مع تغير الظروف البصرية، إذ تطلب كل سيناريو جديد تعديلاً يدوياً.

التعلم العميق والتعلم التلقائي للميزات

أحدث التعلم العميق ثورة في مجال التعرف على الصور، إذ ألغى الحاجة إلى تصميم خصائص محددة مسبقًا. فبدلًا من توجيه النموذج نحو ما يبحث عنه، يُمكّنه المهندسون من تعلم الخصائص مباشرةً من البيانات. وتُعدّ الشبكات العصبية الالتفافية (CNNs) الركيزة الأساسية للتعرف الحديث على الصور، وهي مصممة لاستغلال البنية المكانية للصور.

الطبقات التلافيفية

تُطبّق الطبقات الالتفافية مرشحات صغيرة على الصورة، تستجيب للأنماط المحلية كالحواف والنسيج. تكتشف الطبقات الأولى الأشكال البسيطة، بينما تجمع الطبقات الأعمق هذه الأشكال لتكوين هياكل أكثر تعقيدًا. يُحاكي هذا النهج الطبقي كيفية معالجة البشر للمعلومات البصرية، بدءًا من الخطوط البسيطة وصولًا إلى الأجسام الكاملة.

وظائف التنشيط

بعد كل عملية التفاف، تُدخل دوال التنشيط اللاخطية. وهذا يسمح للشبكة بنمذجة العلاقات المعقدة بدلاً من الأنماط الخطية البسيطة.

تجميع الطبقات

يقلل التجميع من الأبعاد المكانية مع الحفاظ على السمات المهمة. وهذا يساعد النماذج على التعامل مع التحولات أو التشوهات الطفيفة في موضع الكائن.

طبقات متصلة بالكامل

في نهاية الشبكة، يتم دمج الميزات المستخرجة وتقييمها لإجراء التنبؤات. وتدمج هذه الطبقات المعلومات من جميع أنحاء الصورة.

عملية التدريب خطوة بخطوة

يُعد تدريب نموذج التعرف على الصور عملية تكرارية. فهو يتضمن التعرض المتكرر للبيانات المصنفة والتعديل التدريجي للمعلمات الداخلية.

1. تمريرة أمامية

يقوم النموذج بمعالجة الصورة وإنتاج تنبؤ.

2. حساب الخسائر

تتم مقارنة التوقع بالتصنيف الصحيح. وتقيس دالة الخسارة مدى خطأ التوقع.

3. الانتشار العكسي

يقوم النموذج بتعديل أوزانه الداخلية لتقليل الخطأ. ويحدث هذا عن طريق نشر الخسارة عكسياً عبر الشبكة.

4. التحسين

يقوم مُحسِّن النموذج بتحديث المعلمات بناءً على التدرجات. ومع تكرار العملية عدة مرات، يتحسن النموذج في دقته. ويستمر التدريب حتى يستقر الأداء أو يصل إلى مستويات مقبولة على بيانات التحقق.

الكشف عن الأجسام وتقسيم الصور

لا يقتصر التعرف على الصور على التصنيف فقط. ففي العديد من سيناريوهات العالم الحقيقي، لا يكفي مجرد معرفة وجود جسم ما في الصورة. غالبًا ما تحتاج الأنظمة إلى فهم موقع الأجسام، وعددها، وكيفية ارتباطها بمحيطها. هذه الحاجة إلى الوعي المكاني هي ما يحفز اكتشاف الأجسام وتقسيم الصور.

  • يكشف نظام الكشف عن الأجسام عن ماهية الأجسام ومواقعها في الصورة. يقوم النموذج عادةً برسم مربعات محيطة بالأجسام وتعيين تصنيف لكل مربع. تشمل عائلات النماذج الشائعة Faster R-CNN وSSD وYOLO، وغالبًا ما يعتمد الاختيار على المفاضلة بين السرعة والدقة.
  • تعتمد تقنية تجزئة الصور على تصنيف البكسلات بدلاً من رسم المستطيلات، مما يجعل الحدود أكثر دقة. وهذا مفيد عندما تكون الأشكال غير منتظمة، أو تتداخل العناصر، أو عندما تكون دقة الحواف مهمة. تفصل تجزئة الصور الفردية العناصر المنتمية إلى نفس الفئة، بينما تصنف التجزئة الدلالية المناطق حسب الفئة عبر الصورة بأكملها.

التعلم الخاضع للإشراف، والتعلم غير الخاضع للإشراف، والتعلم الذاتي الخاضع للإشراف

تعتمد معظم أنظمة التعرف على الصور على التعلم الخاضع للإشراف، ولكن الأساليب الأخرى تزداد أهمية مع تغير توافر البيانات وقيود المشروع.

التعلم غير الخاضع للإشراف

تكتشف النماذج غير الخاضعة للإشراف الأنماط دون الحاجة إلى تصنيفات. فهي تُصنّف الصور بناءً على التشابه. وهذا مفيد عندما تكون البيانات المصنفة نادرة.

التعلم الذاتي

تُنشئ أساليب التعلم الذاتي إشارات التعلم من البيانات نفسها. وتتيح مهام مثل التنبؤ بالأجزاء المفقودة من الصورة للنماذج تعلم تمثيلات مفيدة بأقل قدر من التصنيف. وتُعد هذه الأساليب ذات قيمة خاصة لمجموعات البيانات واسعة النطاق أو المتخصصة.

قيود النشر والواقع العملي

لا يكون النموذج المدرب مفيدًا إلا إذا كان أداؤه موثوقًا به بعد نشره. وهنا تبدأ العديد من أنظمة التعرف على الصور بالمعاناة، ليس بسبب سوء تصميم النموذج، بل لأن ظروف العالم الحقيقي نادرًا ما تتطابق مع بيئة التدريب.

بعد نشر النماذج، غالبًا ما تواجه اختلافات في جودة الصورة نتيجةً لاختلاف الكاميرات، ومستويات الضغط، أو ضبابية الحركة. قد تظهر الأجسام بأشكال أو سياقات غير مألوفة، كما أن العوامل البيئية كالإضاءة والطقس وتشويش الخلفية قد تُدخل أنماطًا لم يسبق للنموذج رؤيتها. تلعب قيود الأجهزة دورًا أيضًا، خاصةً عندما يُتوقع تشغيل النماذج على أجهزة ذات موارد محدودة بدلًا من خوادم قوية.

قد تعمل أنظمة التعرف على الصور في الحوسبة السحابية أو مباشرةً على الأجهزة الطرفية. يوفر النشر السحابي قدرة حاسوبية أكبر وتحديثات أسهل، بينما يُحسّن النشر الطرفي الخصوصية، ويقلل زمن الاستجابة، ويسمح للأنظمة بالعمل دون اتصال دائم بالإنترنت. أما المقابل فهو محدودية القدرة الحاسوبية، مما يتطلب غالبًا نماذج أصغر حجمًا أو مُحسّنة.

لضمان فعالية النماذج المنشورة على المدى الطويل، تحتاج إلى مراقبة مستمرة. قد يتراجع الأداء مع تغير توزيع البيانات، مما يستدعي إعادة التدريب والتعديل بشكل دوري. لذا، يُعدّ التعامل مع عملية النشر كعملية مستمرة، وليس كخطوة نهائية، أمرًا بالغ الأهمية للحفاظ على موثوقية التعرف على الصور في ظروف العالم الحقيقي.

الأخطاء الشائعة في مشاريع التعرف على الصور

حتى أنظمة التعرف على الصور المصممة جيدًا قد تفشل إذا تم تجاهل بعض المشكلات المتكررة. وعادةً ما تظهر هذه المشكلات ليس أثناء التطوير، بل بعد تعريض النموذج لظروف التشغيل الحقيقية.

  • التدريب على بيانات غير واقعية. غالباً ما تواجه النماذج التي يتم تدريبها فقط على صور نقية، ذات إضاءة جيدة، ومؤطرة بشكل مثالي، صعوبة في العالم الحقيقي. إذ يمكن أن يؤدي تشويش الكاميرا، وضبابية الحركة، والظلال، والحجب الجزئي إلى تقليل الدقة بشكل كبير إذا لم يتم تمثيلها في مجموعة التدريب.
  • جودة التعليقات التوضيحية رديئة. تُسبب التصنيفات غير المتناسقة، أو العناصر المفقودة، أو الحدود غير الدقيقة، ارتباكًا أثناء التدريب. وعادةً ما تتفوق مجموعة بيانات أصغر ذات تصنيفات عالية الجودة على مجموعة بيانات كبيرة ذات تصنيفات غير دقيقة.
  • مع تجاهل الحالات الشاذة. من السهل التغاضي عن الحالات النادرة، أو المظاهر غير المألوفة للأشياء، أو الخلفيات غير المتوقعة. وغالبًا ما تكون هذه الحالات الاستثنائية مسؤولة عن أخطر الإخفاقات بعد النشر.
  • التخصيص المفرط للمعايير. قد يؤدي تحسين النماذج لتحقيق أداء جيد على مجموعات البيانات القياسية إلى شعور زائف بالنجاح. فالنتائج العالية في الاختبارات المعيارية لا تُترجم بالضرورة إلى أداء موثوق به على البيانات المخصصة أو الخاصة بمجال معين.
  • التقليل من شأن ظروف النشر. تتصرف النماذج بشكل مختلف بمجرد نشرها. يمكن أن تؤثر التغييرات في دقة الصورة، وقيود الأجهزة، وزمن استجابة الشبكة، أو الظروف البيئية على الأداء.

تُبنى أنظمة التعرف على الصور الناجحة من خلال حلقات تغذية راجعة مستمرة، وفحوصات أداء دورية، واختبارات واقعية. إن اعتبار عملية النشر عملية مستمرة وليست خطوة نهائية هو ما يُحدث الفرق بين نموذج يبدو جيدًا نظريًا وآخر يعمل بفعالية في الواقع.

الأفكار النهائية

إنّ التعرّف على الصور في مجال التعلّم الآلي ليس ضرباً من السحر، بل هو عملية منظمة مبنية على البيانات والتعلّم والتكرار. لا تفهم الآلات الصور بالمعنى البشري، بل تتعلم الربط بين الأنماط والنتائج.

إن ما يجعل تقنية التعرف على الصور قوية ليس خوارزمية واحدة، بل النظام المحيط بها. جودة البيانات. استراتيجية التدريب. منهجية التقييم. والتطبيق الدقيق.

عندما تتضافر هذه العناصر، يصبح التعرف على الصور أداة موثوقة بدلاً من كونه مجرد عرض تجريبي هش. وهذا ما يجعله عملياً.

الأسئلة الشائعة

ما هو التعرف على الصور في مجال التعلم الآلي؟

التعرف على الصور في مجال التعلم الآلي هو عملية تعليم نظام ما كيفية تحديد وتصنيف الأشياء أو الأنماط أو السمات في الصور. يتعلم النموذج من البيانات المرئية المصنفة أو غير المصنفة، ويستخدم هذه الخبرة لتفسير الصور الجديدة التي لم يرها من قبل.

كيف تتعرف الآلات على الصور إذا كانت لا ترى مثل البشر؟

لا تنظر الآلات إلى الصور كأشياء أو مشاهد، بل تعالجها كبيانات رقمية تتكون من قيم البكسل. وتتعلم نماذج التعرف على الصور أنماطًا ضمن هذه الأرقام، مثل الحواف والنسيج والأشكال، وتربطها بنتائج معروفة من خلال التدريب.

ما الفرق بين التعرف على الصور واكتشاف الأجسام؟

يشير التعرف على الصور عادةً إلى تحديد محتويات الصورة، غالبًا على مستوى عالٍ. أما اكتشاف الكائنات فيتجاوز ذلك بتحديد الكائنات الفردية وتحديد مواقعها داخل الصورة باستخدام مربعات الإحاطة. ويضيف الاكتشاف إدراكًا مكانيًا لا يوفره التصنيف البسيط.

كيف يختلف تجزئة الصور عن اكتشاف الكائنات؟

تُحدد تقنية الكشف عن الأجسام حدود الأجسام باستخدام مربعات مستطيلة، بينما تُصنف تقنية تجزئة الصور وحدات البكسل الفردية. وتتيح التجزئة حدودًا أكثر دقة، وتُستخدم عندما تكون الأشكال أو المناطق الدقيقة مهمة، كما هو الحال في التصوير الطبي أو تحليل صور الأقمار الصناعية.

لماذا تُعد جودة البيانات مهمة جدًا للتعرف على الصور؟

لا يستطيع النموذج التعلم إلا من البيانات التي يتلقاها. وتؤدي الصور ذات الجودة الرديئة، أو التصنيفات غير المتسقة، أو أمثلة التدريب غير الواقعية إلى ضعف الأداء. وعادةً ما يكون للبيانات عالية الجودة والمُصنّفة جيدًا تأثير أكبر من بنى النماذج الأكثر تعقيدًا.

ما مقدار البيانات اللازمة لتدريب نموذج التعرف على الصور؟

تعتمد كمية البيانات على مدى تعقيد المهمة والنموذج المستخدم. قد تتطلب مهام التصنيف البسيطة آلاف الصور، بينما قد تتطلب مهام الكشف أو التجزئة الأكثر تعقيدًا عددًا أكبر بكثير. ويمكن لتقنيات التعلم بالنقل والتعلم الذاتي تقليل متطلبات البيانات.

تجربة مستقبل التحليل الجغرافي المكاني مع FlyPix!