متاجر البقالة من خلال عيون الذكاء الاصطناعي: بناء نظام التعرف على المنتجات في الوقت الفعلي

بقلم: إيفان ريليتش، كبير مهندسي التعلم الآلي

في Microblink ، نطبق الذكاء الاصطناعي على مشاكل العالم الحقيقي بهدف تسهيل حياة أكبر عدد ممكن من الناس. في الآونة الأخيرة، كان فريقنا المعني بالذكاء الاصطناعي يبحث في طرق استخدام الرؤية الحاسوبية لجلب أفضل ما في التسوق عبر الإنترنت إلى محلات السوبر ماركت في جميع أنحاء العالم. أردنا أن نسمح للمتسوقين بالتفاعل مع منتجات السوبر ماركت من هواتفهم الذكية لإظهار أشياء مثل

  • مراجعات المنتجات
  • عروض الاسترداد النقدي
  • معلومات عن مسببات الحساسية والقيم الغذائية
  • أي شيء آخر من شأنه أن يجعل تجربة الشراء أفضل!

ومن ناحية أخرى، أردنا أن يستخدم الموردون وتجار التجزئة والعلامات التجارية للسلع الاستهلاكية المعبأة (CPG) هذه التقنية في تشغيل العروض الترويجية المستهدفة وتوجيه استراتيجية التسعير الخاصة بهم والحفاظ على سير العمل في المتجر بسلاسة.

لسنا أول من يعمل على حل هذه المشكلة – فقد كانت Google تحاول أن تكسب أرضًا بحل مماثل – ولكننا كنا في وضع أفضل لمعالجة هذه المشكلة بفعالية. يقوم منتجنا Shopper Intelligence بالفعل بالتقاط بيانات الشراء من إيصالات البيع بالتجزئة حتى تتمكن العلامات التجارية من إنشاء برامج ولاء قائمة على البيانات – ويستفيد المتسوقون منها. وعلى مدار السنوات، عالجنا أكثر من 5 مليارات عملية شراء فريدة وأنشأنا كتالوجاً شاملاً لمنتجات المتاجر الكبرى. كما أنشأنا أيضاً عدداً من نماذج تعلّم الآلة المصممة للعمل بكفاءة على الأجهزة المحمولة. وكان أحد هذه النماذج المستخدمة للكشف عن الإيصالات بمثابة خط أساس للكشف عن المنتجات على الرفوف.

الحصول على البيانات

بصرف النظر عن كتالوج منتجاتنا، حاولنا استخدام عدد من مجموعات البيانات مفتوحة المصدر مثل SKU-110K للحصول على بيانات التدريب. كانت هذه نقطة انطلاق جيدة لجمع البيانات، لكن استخدامها التجاري محظور. لم يكن أمامنا خيار سوى القيام بالأشياء بأنفسنا، ولذلك ذهب فريقنا إلى متاجر التجزئة الكبرى في جميع أنحاء البلاد، والتقطوا صوراً للرفوف من بعيد وكذلك صور المنتجات الفردية. كما طُلب منهم أيضاً التقاط صورة للرمز الشريطي لكل منتج، حتى نتمكن من ربطه مع رمز المنتج الفريد (UPC) الخاص به والحصول على معرّف موثوق به لاسترجاعه. وفي غضون بضعة أشهر فقط، جمعنا ملايين الصور من متاجر البيع بالتجزئة على مستوى البلاد.

بعد ذلك، راجع فريق التعليقات التوضيحية لدينا جميع هذه الصور في محاولة لتحديد المنتجات التي ظهرت فيها. لدينا فريق مكون من 100 شارح. ولتسريع سير عملهم، أنشأنا نموذجاً أولياً للتعليقات التوضيحية المسبقة التي سمحت لنا بتسمية ملايين حزم المنتجات وعشرات الآلاف من صور الرفوف.

أصبحنا الآن مستعدين للبدء في إجراء بعض التدريبات المناسبة على النماذج.

الكشف عن المنتجات من دفق الكاميرا

أول ما نحتاج إلى القيام به هو اكتشاف المنتجات المميزة أثناء وجودها على الرفوف بحيث يمكن تصنيفها حسب النماذج الأخرى في وقت لاحق من العملية. كان يجب أن يعمل كاشفنا في الوقت الفعلي على الأجهزة المحمولة لاقتصاص صور المنتجات عندما يقوم المستخدم بمسح الرف من مسافة قريبة ومن بعيد.

يضع النموذج الذي قمنا بتدريبنا عليه مربعات محددة حول كل عبوة منتج على حدة. في المستقبل، قد ننتقل في المستقبل إلى تجزئة المضلعات حيث تميل السلع الاستهلاكية إلى أن تأتي في جميع الأشكال والأحجام. لقد استخدمنا تقاطعًا قاسيًا نسبيًا فوق عتبة الاتحاد بنسبة 0.7 وما زلنا قادرين على تحقيق درجة f1 بنسبة 92%. كما خفضنا وقت الاستدلال على النموذج إلى أقل من 100 مللي ثانية على iPhone 8 وما فوق بفضل محرك الاستدلال الداخلي الخاص بنا.

التحدي الأكبر الذي يواجه كاشف المنتجات في الوقت الحالي هو منظور الصورة. عندما يتم التقاط صورة من زاوية، قد ينتهي الأمر بأن يكون لحزمة المنتج شكل مختلف تمامًا ومشوّه. لمعالجة هذه المشكلة، أضفنا نموذج اكتشاف الرف إلى المزيج. يمكننا استخدام الرف كنقطة مرجعية لإزالة تشويه الصور بسرعة وتعزيز فرصنا في إجراء عمليات اكتشاف دقيقة.

التمييز بين المنتجات

بمجرد اكتشافها، يجب تصنيف المنتجات إلى الفئات الخاصة بها. عندما نقول فئات، فإننا نعني حقًا UPCs – وهناك الكثير منها. لا يقتصر الأمر على وجود الملايين من منتجات المتاجر الكبرى فحسب، بل إن العلامات التجارية تحب تغيير عبواتها كلما رغبت في ذلك. إنها بالتأكيد ليست مشكلة التصنيف اليومية.

دفعنا الحجم الهائل للفئات المحتملة إلى تجربة نهج مختلف، باستخدام نظام التضمين والاسترجاع. والفكرة بسيطة: تحويل كل محصول منتج إلى متجه خاصية ثم استرجاع المتجهات المماثلة من قاعدة البيانات. يمكن بعد ذلك مقارنة التمثيل المكثف لصور المنتج بسرعة أكبر بكثير ولا يتأثر بالتغيرات في الوهج وزاوية المسح.

لدينا حاليًا حوالي مليون منتج مفهرس يتم تخزينها والاستعلام عنها مقابل تضمينات المدخلات باستخدام خوارزمية k-NN، حيث تتراوح قيمة المخرجات لكل زوج من -1 إلى 1. كلما اقترب حاصل الضرب النقطي من 1، كلما كانت المنتجات أكثر تشابهًا. في حالتنا، وُجد أن غالبية عمليات الاسترجاع التي تزيد عن 0.75 صحيحة، ولكن هذه العتبة لا بد أن ترتفع مع استمرارنا في توسيع فهرسنا.

قمنا بتجربة مجموعة متنوعة من بنيات النماذج للوصول إلى الإعداد الذي يعمل بشكل أفضل. أردنا أن يسترجع النموذج أكثر المتجهات تشابهًا عند إعطاء صورة جديدة غير مرئية لمنتج ما. ولكن هذا يصبح تحديًا حقيقيًا مع الاختلافات الدقيقة مثل أحجام العبوات والنكهات، والتي يصعب أحيانًا تمييزها حتى بالنسبة للبشر.

كان هدفنا هو تحسين معدل الإصابة في أول نتيجة استرجاع، وتحقيق أقصى قدر من الاسترجاع، وتعميم النموذج بشكل جيد للمنتجات التي لم يرها أثناء التدريب. يعني معدل الإصابة في أول عملية استرجاع أنه بعد إنشاء متجه التضمين واستخدامه لاسترجاع أقرب مائة جيران من قاعدة البيانات، على سبيل المثال، يكون أقرب متجه هو المنتج الصحيح بالفعل. لكن هذا هو السيناريو المثالي، ومع ذلك، قد لا يزال متجه التضمين يواجه صعوبة في التفريق بين الاختلافات الطفيفة في المنتج. لهذا السبب من المهم أن يكون لدينا استرجاع قوي حتى تحظى طرق إعادة الترتيب بفرصة أفضل لاختيار الفائز الحقيقي في حالة لم يكن الأول.

يتمتع أفضل نموذج لدينا حاليًا بمعدل إصابة 93% في النتيجة الأولى على أمثلة المنتجات غير المرئية. يبلغ معدل الإصابة عند أقرب 10 جيران 98% مما يعني أن إعادة الترتيب يجب أن تسفر عن نتائج دقيقة في معظم الحالات.

تماماً مثل الكاشف، يجب أن يعمل هذا النموذج في الوقت الفعلي على الأجهزة المحمولة. وبما أنه يمكن أن يكون لدينا بضع عشرات من المنتجات في أي إطار معين من تغذية كاميرا المستخدم، فإن الأداء العالي لكل منتج أمر بالغ الأهمية. مرة أخرى، أثبت محرك الاستدلال الداخلي لدينا قيمته الحقيقية هنا. يبلغ وقت الاستدلال أقل من 10 مللي ثانية لكل منتج، مما يعني أنه يمكننا القيام بالكشف والتضمين لرف متوسط في أقل من ثانية. ما لدينا الآن هو نظام سريع يمكن لفريق التصميم لدينا بناء تجربة مستخدم مذهلة فوقه.

مذهل-أوكس

تعتمد عملية الاسترجاع على الاتصال بالإنترنت، ولكن من خلال تضمين المنتجات على الجهاز، استغنينا عن الحاجة إلى إرسال الصور إلى الواجهة الخلفية. علينا فقط إرسال حوالي 1 كيلوبايت لكل منتج، وهذا ليس سيئاً للغاية.

استرجاع المنتج

إن نموذج التضمين هو المكان الذي يحدث فيه السحر في خط الأنابيب، ولكن استرجاع الواجهة الخلفية مهم بنفس القدر من حيث الأداء والدقة. جزء الأداء سهل لأن هناك بعض قواعد البيانات المتجهة مفتوحة المصدر الرائعة المتاحة، لكن جزء الدقة يثبت أنه صعب! كلما زاد عدد الصور التي لديك في نظام الاسترجاع الخاص بك، كلما كان من الأسهل التقاط الصورة الصحيحة، خاصةً إذا كان لديك أشكال متعددة من صور المنتج الملتقطة في ظروف إضاءة مختلفة وتحت زوايا مختلفة.

استشراف المستقبل

إن خط أنابيب التعرف على المنتجات الذي حددناه يفتح عالماً من الفرص للمستهلكين والشركات على حد سواء. نحن متحمسون لاستكشاف جميع حالات الاستخدام المحتملة لهذه التقنية ومواصلة تحسينها، بدءاً من تعزيز تجربة التسوق داخل المتجر إلى تحسين تنفيذ المتاجر.

المساهمون: لوكا سليبار، ماتي بالون وفيتو بوليتيك

أغسطس 2, 2022

اكتشف حلولنا

استكشاف حلولنا على بُعد نقرة واحدة فقط. جرّب منتجاتنا أو تحدث معنا مع أحد خبرائنا للتعمق أكثر في ما نقدمه.