机器视觉中的智能无人零售系统设计-AET-电子技术应用

机器视觉中的智能无人零售系统设计

2018年电子技术应用第9期

林付春，张荣芬，何倩倩，刘宇红

贵州大学大数据与信息工程学院，贵州贵阳550025

摘要： 提出了一种基于机器视觉和深度学习的智能无人零售系统。采用嵌入式的ARM9和各种传感器模块组成前端采集系统，在服务器上用训练好的卷积神经网络模型分别对物品进行动态和静态检测识别，然后将识别信息反馈给数据库，由数据库整理所有信息，最终确定顾客订单信息。本系统使用前端硬件在无人售货柜上进行图像采集并在服务器的Caffe框架上进行测试，结果表明该系统的实时准确率达到99%。

关键词： 新零售机器视觉深度学习卷积神经网络 Cortex-A9

中图分类号： TP181
文献标识码： A
DOI：10.16157/j.issn.0258-7998.180564
中文引用格式： 林付春，张荣芬，何倩倩，等. 机器视觉中的智能无人零售系统设计[J].电子技术应用，2018，44(9)：96-98，103.
英文引用格式： Lin Fuchun，Zhang Rongfen，He Qianqian，et al. Design of intelligent unmanned vending system in machine vision[J]. Application of Electronic Technique，2018，44(9)：96-98，103.

Design of intelligent unmanned vending system in machine vision

Lin Fuchun，Zhang Rongfen，He Qianqian，Liu Yuhong

College of Big Data and Information Engineering，Guizhou University，Guiyang 550025，China

Abstract： This paper proposes an intelligent automated vending system based on machine vision and deep learning. The embedded ARM9 and various sensors are used to form the front-end acquisition system. The trained convolutional neural network is used to detect and identify the goods dynamically and statically on the server. Then the identifying information will be fed back to the databases, and the databases will integrate all the information. Finally it will determine the order information of customers. This system uses front-end hardware to acquire images on the automated vending counter and test them on the server's Caffe framework, and the result shows that the accuracy of this system can reach 99% in real time.

Key words : new retail；machine vision；deep learning；convolutional neural network；Cortex-A9

0 引言

零售行业是距离消费者最近的行业，也是对体验和性能要求最高的行业。随着人工智能和深度学习技术的快速发展，计算机视觉被广泛应用到各个领域。其中在无人零售中，计算机视觉将前端人货关系重构表现得淋漓尽致。传统的无人售货机只能销售少量类别的商品，或者采用RFID技术为每件商品贴上标签，浪费资源和人力物力^[1]。除此之外，需要购买者弯腰去拿，对顾客很不尊重。而新型无人售货机购物者可以开门自己拿想买的各种商品。在国内，阿里巴巴开设无人超市，人们随意自由购物。缤果盒子无人超市内置专业扫描识别机器，用于快速识别和结算，效率很高，但成本也很高^[2]。市场上也有一些智能售货柜企业以视觉方案切入，不过大多数产品都还停留在概念阶段，并且产品成本非常高，无法解决零售的实际问题。

本系统在无人售货柜中装有各种传感器模块组与摄像头，摄像头会对顾客的动作进行捕捉，通过运用人工智能(AI)图像检测和图像处理技术识别出顾客拿走的商品，同时配合各种传感器数据与服务器数据进行比对，从而得出最终的结果。这种方式不仅可以大幅度地节省消费者的购物时间，还可以根据不同场景快速变化销售物品种类，解决了目前无人零售的痛点。在人工智能潮流的趋势下，新零售行业被推到风口浪尖。人工智能应用在新零售行业是将来零售行业的大趋势。

1 智能无人零售系统的总体设计

整体无人零售系统工作流程：顾客扫描，服务器收到顾客开门通知，服务器通知前端硬件开门。顾客在无人零售柜自由选择各种商品，顾客选择完商品关门，同时前端采集商品图像数据，各种传感器数据上传服务器，服务器对图像和数据进行处理，并与后台数据库比对，得到顾客购买的商品，并进行自动结算。

本文主要介绍视觉系统部分设计，系统由基于嵌入式技术的前端采集、通信传输系统、远程云服务器识别与数据库计算系统组成。前端硬件采集传输采用基于三星Cortex-A9架构的核心板，搭载摄像头模块组、压力传感器模块组、红外传感器模块组、WiFi通信模块和4G通信模块构建智无人零售系统的硬件平台。摄像头分别拍摄动态和静态商品的图像，由主控芯片用预先板载的压缩算法对采集的图像进行压缩，压缩后的图像在WiFi或者4G模块作用下传送到云服务器上^[3]。采用云平台服务器作为智能无人零售系统的数据处理中心，在服务器上同时对前端静态和动态图像进行识别与分析，然后将结果返回给数据库。智能无人零售系统的总体设计如图1所示。

2 智能无人零售系统硬件系统设计

本系统硬件采用基于嵌入式的四核ARM9作为前端图像采集控制器，利用它实现对整个智能无人零售系统各个单元模块上的数据信息进行汇总分析和处理，对各个功能模块发出控制指令，协调整个系统稳定运行。每个无人售货柜的结构分为4层2列共8个格子，每个格子放一类商品。在每个格子上方安装一个500万像素的CMOS摄像头，用来静态采集每个格子里商品的数量。每个格子下面各安装一个压力传感器，用来判断顾客拿走了哪一类商品，然后将这个格子的图像传到服务器进行识别和计数，以此来精确判断顾客拿走了几个商品。同时压力传感器的数据发送给服务器数据库进行分析比对。柜子内部顶端安装一个1 000万像素摄像头，用来动态采集商品种类。同时柜子每一层格子前方安装两对红外传感器，当红外传感器检测到顾客拿完商品之后，柜子顶端摄像头对顾客手中的商品进行动态拍摄，中央控制器对采集的图像在前端进行压缩，通过WiFi或者4G模块上传到服务器。硬件系统流程图如图2所示。

3 智能无人零售系统软件系统设计

近几年来，深度学习卷积神经网络算法在图像检测、分割和识别上表现出越来越卓越的效果，因此，许多优秀的深度学习算法被应用在工业界。本系统软件设计由两部分组成，分别是对商品静态识别和对商品动态识别。采用的是目前流行的深度学习框架——Caffe框架^[4]，主要采用C++/CUDA高级语言来实现对深度学习网络的训练和图像的识别。商品静态识别算法基于经典的YOLO(You Only Look Once)网络模型优化^[5]；商品动态识别算法基于典型的Alexlet网络模型进行优化。

3.1 对商品进行静态识别

静态识别是服务器从每个格子得到压力传感器的数据，通过数据分析质量格子质量变化，得到顾客取出的是哪个格子的那种物品。同时前端摄像头拍摄这个格子的图像，在前端处理后上传到服务器。在服务器上通过深度学习算法(YOLO)对图像进行检测、定位和识别。基于卷积神经网络的YOLO模型在2015年被提出，能够实时地对物体进行检测和识别，是对物体进行位置检测准确率和识别准确率综合最好的网络模型之一，同时也是实时性最好的网络模型，模型采用卷积神经网络结构。模型的卷积层提取图像特征，全连接层预测输出概率。模型结构类似于GoogleNet网络模型，最终输出为其网络模型，如图3所示。本系统在此网络模型基础上对其进行优化，分别在其全连接层和卷积层进行修改，减少卷积层和filter，最终输出为7×7×18的tensor。其网络模型如图4所示。

3.2 对商品动态识别

动态识别算法由两部分组成，当红外传感器检测到信号，1 000万像素摄像头拍摄的图像经过压缩上传到服务器后，在OpenCV库平台下，先采用传统视觉算法通过手势识别裁剪出商品图像，然后将图像放入训练好的卷积神经网络进行识别，以此来提高这个系统识别准确性。

基于卷积神经网络的Alexlet网络模型是2012年的Imagnet比赛的冠军^[6]。其网络模型如图5所示，本系统在此网络模型基础上对其进行优化，分别对其全连接层和卷积层进行修改，为了减少过拟合，优化Dropout值为0.5，对网络进行训练测试^[7]。其网络模型如图6所示。

4 系统测试

在智能无人售货系统中挑选日常生活中常见的可口可乐、加多宝、压缩饼干、酸奶、香皂、泡面、洗衣液和茶杯8种商品，对其进行数据集采集。静态识别中多采用多个物品在一张图片上，共80 000张图片，其中10 000张图片做测试集，70 000张图片作为训练集。动态识别中采用每类10 000张图片作为训练集，共80 000张图片。每类1 000张图片作为测试。在静态测试中，运用图4网络模型在Caffe框架上对其进行训练和测试，得到如图7所示的准确率和loss值。当迭代次数达到27 000左右时，静态测试准确率达到99%的准确率。同时在迭代次数达到31 000左右时，静态测试值损失值减到最小，并且趋于稳定。

动态测试中，运用图6网络模型在Caffe框架上对其进行训练和测试，得到如图8所示的准确率和loss值。当迭代次数达到23 000左右时，动态测试准确率达到99%。同时，在迭代次数达到30 000左右时，动态测试值损失值减到最小，并且趋于稳定。

5 结论

本文完成了智能无人零售视觉系统的软件和硬件设计；实现了前端硬件摄像头模块组对图像的静态和动态拍摄、压力传感器组的数据传输、红外传感器组的数据采集以及各个模块之间的通信；软件上完成了神经网络对图像的检测定位与识别；通过与前端APP和后台数据库结合，可实现新的智能无人新零售系统。本文将人工智能视觉系统应用到新零售行业，能使顾客拥有扫描开门、自己取货、关门自动结算的新体验，方便了顾客，也节约了产品成本。未来智能无人新零售将取代传统售货机，分布在城市的各个角落。

参考文献

[1] 王汝传，马守明，叶宁，等.基于射频识别标签和传感器网络的智能零售市场构建方法：中国，CN 103714465 B[P].2014-04-09.

[2] 宋杰.无人智能零售店来了[J].中国经济周刊，2017(28)：86-87.

[3] 何腾鹏，张荣芬，刘超，等.基于机器视觉的智能导盲眼镜设计[J].电子技术应用，2017，43(4)：58-61.

[4] JIA Y，SHELHAMER E，DONAHUE J，et al.Caffe：convolutional architecture for fast feature embedding[C].Proceedings of ACM International Conference on Multimedia.ACM，2014：675-678.

[5] REDMON J，DIVVALA S，GIRSHICK R，et al.You only look once: unified, real-time object detection[C].Computer Vision and Pattern Recognition.IEEE，2016：779-788.

[6] KRIZHEVSKY A，SUTSKEVER I，HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.，2012：1097-1105.

[7] HINTON G E，SRIVASTAVA N，KRIZHEVSKY A，et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science，2012，3(4)：212-223.

作者信息:

林付春，张荣芬，何倩倩，刘宇红

（贵州大学大数据与信息工程学院，贵州贵阳550025）

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容