منذ سنوات قلائل، رغبت شركة "Netfix" في مساعدة عملائها على إيجاد الأفلام المفضلة لديهم عبر الإنترنت، فأنشأت نظاماً يعمل من خلال التواصل بين الشركة وعملائها، بيد أنه لم يكن بالدقة والكمال المطلوبين، فأطلقت الشركة مسابقة لتحسين الجهود المبذولة، كانت قوا
منذ سنوات قلائل، رغبت شركة "Netfix" في مساعدة عملائها على إيجاد الأفلام المفضلة لديهم عبر الإنترنت، فأنشأت نظاماً يعمل من خلال التواصل بين الشركة وعملائها، بيد أنه لم يكن بالدقة والكمال المطلوبين، فأطلقت الشركة مسابقة لتحسين الجهود المبذولة، كانت قواعدها غاية في البساطة، إذ حددت جائزة قدرها مليون دولار لمن يتفوق على أداء نظامها، وشارك في المسابقة عشرات الآلاف حول العالم .
وبالنسبة إلى الباحثين في تعليم الآلة، كانت المسابقة حلماً بعيد المنال، ليس بسبب قيمة الجائزة، وإنما بسبب قيمتها العلمية بالنسبة إليهم .
وأكثر أدوات نظم تعليم الآلة تعقيداً هي البيانات، وأتاحت "Netfix" 100 مليون معلومة حقيقية يمكن تحميلها عبر الإنترنت . استمرت المسابقة ثلاث سنوات، وتغلبت مجموعات كثيرة من المنافسين على المشكلة .
وفي الأسابيع الأخيرة من مسابقة "Netfix"، اتجهت مجموعات من المتنافسين إلى مزج اللوغاريتمات التي استخدموها باتباع طرق التجميع المختلفة . وفي الساعة الأخيرة من المسابقة، ظل فريقان يكافحان في محاولة للفوز بالجائزة، وسجل كل منهما تفوقاً على اللوغاريتمات الأساسية للآلة بنسبة 06 .10 في المئة .
وفي مسابقات تقييم الأفلام، يتبع الفنيون نظام تعليم للآلة يطلقون عليه "التعلم تحت الإشراف والمراقبة"، والذي يستخدم أيضاً في التشخيص الطبي . فيزود الحاسب بآلاف من الصور لخلايا الدم البيضاء من سجلات المريض الطبية، وجنباً إلى جنب مع معلومات حول ما إذا كانت الصورة لخلية مصابة بالسرطان أم لا . ومن هذه المعلومات يتعلم اللوغاريتم كيفية تطبيق معلومات بعينها حول الخلية، مثل شكلها، وحجمها، ولونها، للتعرف إلى الخلية المصابة . وهنا يشرف الباحث على عملية التعلم، ويزود الحاسب بالإجابة الصحيحة عن كل صورة للبيانات التدريبية .
ويعد التعلم تحت الإشراف من أشهر نظم تعليم الآلة، بيد أنه ليس الوحيد .
فالتعلم بالخبرة أو التعليم المعزز يمثل شكلاً آخر، فعندما تواجه علماء الروبوت مشكلة ما في إيجاد أفضل الطرق لصناعة روبوت يمكنه السير على قدمين، في هذه الحالة، يمكنهم تصميم لوغاريتم يمكنه التعايش مع مجموعة مختلفة من أنواع المشي، فإذا تسببت إحداها في سقوط الروبوت، تتعلم اللوغاريتمات ألا تقدم على هذه المشية مرة أخرى .ويسمى هذا بالتعليم المعزز، ويعتمد أساساً على التجربة والخطأ، وهو ستراتيجية تعلم يعرفها الجميع . وفي أحد سيناريوهات التعليم المعزز سواء في الإنسان أو الآلة، نواجه موقفاً يحتاج منا إلى اتخاذ إجراء ما، فبدلاً من تلقي التعليمات من شخص ما، نحاول التصرف بمفردنا ومراقبة ما سيحدث، وبناءً على النتائج، نتعلم من تلقاء أنفسنا تعزيز تصرفنا الجيد الذي أدى إلى نتائج إيجابية، واستبعاد ذلك الذي لم يكن مجدياً مستقبلاً، وبهذه الطريقة يتعلم الإنسان أو الآلة التصرف السليم في مواقف بعينها .
ويستخدم الباحثون التعليم المعزز للقيام بمهام تتطلب تسلسلاً للأحداث مثل ممارسة لعبة ما . كما يستخدم في التطبيقات الاقتصادية المتقدمة مثل إيجاد عامل التوازن "ناش"، وهو مصطلح يستخدم في نظريات اللعب ليصف مرحلة من التوازن تصل فيها ستراتيجية كل لاعب إلى أفضل مستوياتها، مقارنة بستراتيجيات اللاعبين الآخرين، ويتحقق عامل التوازن "ناش" بعدم حدوث انحراف في الفوز من جانب أحد اللاعبين المشاركين، أي أنه لا يمكن لأحد اللاعبين أن يأخذ إجراءً مختلفاً طالما أن اللاعبين الآخرين لم يتغيروا، فيفضل البقاء إيماناً منه أن التحرك سيؤدي به إلى الأسوأ .
وأحياناً لا يفضل اللجوء إلى مبدأ التعليم المعزز لعدم القدرة على الحصول على نتائج أو تغذية استرجاعية لأفعالنا، فنلجأ حينها إلى مبدأ التعليم تحت الإشراف، الذي يوفر للباحث مجموعة من البيانات ليس من بينها نوع الإجراء أو التصرف الذي ينبغي عليه اتباعه، لا صراحة ولا ضمنياً . فكيف يمكن التعلم من هذه البيانات؟
كخطوة أولى، ولكي نكسبها معنى يجب تصنيف البيانات في مجموعات استناداً إلى تشابهها، ويسمى ذلك "العنقدة" . ويتم تجميع البيانات غير المسماة وتستنتج المعلومات حول تركيبتها المجهولة . ويوفر نظام العنقدة تفهماً أكبر للمعلومات قبل تقرير الخطوة التي سنقدم عليها . وربما تكون العنقدة كافية في حد ذاتها في بعض الأحيان، في حال ما إذا أردنا فقط تنظيم مكتبة ما، ووضع الكتب في مجموعات متماثلة . وفي أحيان أخرى، وربما تكون المهمة أكثر تعقيداً، فيلجأ الباحثون إلى تطبيق نظام التعليم تحت إشراف على المعلومات المصنفة أو المعنقدة.