《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 測(cè)試測(cè)量 > 設(shè)計(jì)應(yīng)用 > 機(jī)器視覺(jué)中的智能無(wú)人零售系統(tǒng)設(shè)計(jì)
機(jī)器視覺(jué)中的智能無(wú)人零售系統(tǒng)設(shè)計(jì)
2018年電子技術(shù)應(yīng)用第9期
林付春,張榮芬,何倩倩,劉宇紅
貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng)550025
摘要: 提出了一種基于機(jī)器視覺(jué)和深度學(xué)習(xí)的智能無(wú)人零售系統(tǒng)。采用嵌入式的ARM9和各種傳感器模塊組成前端采集系統(tǒng),在服務(wù)器上用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型分別對(duì)物品進(jìn)行動(dòng)態(tài)和靜態(tài)檢測(cè)識(shí)別,然后將識(shí)別信息反饋給數(shù)據(jù)庫(kù),由數(shù)據(jù)庫(kù)整理所有信息,最終確定顧客訂單信息。本系統(tǒng)使用前端硬件在無(wú)人售貨柜上進(jìn)行圖像采集并在服務(wù)器的Caffe框架上進(jìn)行測(cè)試,結(jié)果表明該系統(tǒng)的實(shí)時(shí)準(zhǔn)確率達(dá)到99%。
中圖分類(lèi)號(hào): TP181
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.180564
中文引用格式: 林付春,張榮芬,何倩倩,等. 機(jī)器視覺(jué)中的智能無(wú)人零售系統(tǒng)設(shè)計(jì)[J].電子技術(shù)應(yīng)用,2018,44(9):96-98,103.
英文引用格式: Lin Fuchun,Zhang Rongfen,He Qianqian,et al. Design of intelligent unmanned vending system in machine vision[J]. Application of Electronic Technique,2018,44(9):96-98,103.
Design of intelligent unmanned vending system in machine vision
Lin Fuchun,Zhang Rongfen,He Qianqian,Liu Yuhong
College of Big Data and Information Engineering,Guizhou University,Guiyang 550025,China
Abstract: This paper proposes an intelligent automated vending system based on machine vision and deep learning. The embedded ARM9 and various sensors are used to form the front-end acquisition system. The trained convolutional neural network is used to detect and identify the goods dynamically and statically on the server. Then the identifying information will be fed back to the databases, and the databases will integrate all the information. Finally it will determine the order information of customers. This system uses front-end hardware to acquire images on the automated vending counter and test them on the server's Caffe framework, and the result shows that the accuracy of this system can reach 99% in real time.
Key words : new retail;machine vision;deep learning;convolutional neural network;Cortex-A9

0 引言

    零售行業(yè)是距離消費(fèi)者最近的行業(yè),也是對(duì)體驗(yàn)和性能要求最高的行業(yè)。隨著人工智能和深度學(xué)習(xí)技術(shù)的快速發(fā)展,計(jì)算機(jī)視覺(jué)被廣泛應(yīng)用到各個(gè)領(lǐng)域。其中在無(wú)人零售中,計(jì)算機(jī)視覺(jué)將前端人貨關(guān)系重構(gòu)表現(xiàn)得淋漓盡致。傳統(tǒng)的無(wú)人售貨機(jī)只能銷(xiāo)售少量類(lèi)別的商品,或者采用RFID技術(shù)為每件商品貼上標(biāo)簽,浪費(fèi)資源和人力物力[1]。除此之外,需要購(gòu)買(mǎi)者彎腰去拿,對(duì)顧客很不尊重。而新型無(wú)人售貨機(jī)購(gòu)物者可以開(kāi)門(mén)自己拿想買(mǎi)的各種商品。在國(guó)內(nèi),阿里巴巴開(kāi)設(shè)無(wú)人超市,人們隨意自由購(gòu)物。繽果盒子無(wú)人超市內(nèi)置專(zhuān)業(yè)掃描識(shí)別機(jī)器,用于快速識(shí)別和結(jié)算,效率很高,但成本也很高[2]。市場(chǎng)上也有一些智能售貨柜企業(yè)以視覺(jué)方案切入,不過(guò)大多數(shù)產(chǎn)品都還停留在概念階段,并且產(chǎn)品成本非常高,無(wú)法解決零售的實(shí)際問(wèn)題。

    本系統(tǒng)在無(wú)人售貨柜中裝有各種傳感器模塊組與攝像頭,攝像頭會(huì)對(duì)顧客的動(dòng)作進(jìn)行捕捉,通過(guò)運(yùn)用人工智能(AI)圖像檢測(cè)和圖像處理技術(shù)識(shí)別出顧客拿走的商品,同時(shí)配合各種傳感器數(shù)據(jù)與服務(wù)器數(shù)據(jù)進(jìn)行比對(duì),從而得出最終的結(jié)果。這種方式不僅可以大幅度地節(jié)省消費(fèi)者的購(gòu)物時(shí)間,還可以根據(jù)不同場(chǎng)景快速變化銷(xiāo)售物品種類(lèi),解決了目前無(wú)人零售的痛點(diǎn)。在人工智能潮流的趨勢(shì)下,新零售行業(yè)被推到風(fēng)口浪尖。人工智能應(yīng)用在新零售行業(yè)是將來(lái)零售行業(yè)的大趨勢(shì)。

1 智能無(wú)人零售系統(tǒng)的總體設(shè)計(jì)

    整體無(wú)人零售系統(tǒng)工作流程:顧客掃描,服務(wù)器收到顧客開(kāi)門(mén)通知,服務(wù)器通知前端硬件開(kāi)門(mén)。顧客在無(wú)人零售柜自由選擇各種商品,顧客選擇完商品關(guān)門(mén),同時(shí)前端采集商品圖像數(shù)據(jù),各種傳感器數(shù)據(jù)上傳服務(wù)器,服務(wù)器對(duì)圖像和數(shù)據(jù)進(jìn)行處理,并與后臺(tái)數(shù)據(jù)庫(kù)比對(duì),得到顧客購(gòu)買(mǎi)的商品,并進(jìn)行自動(dòng)結(jié)算。

    本文主要介紹視覺(jué)系統(tǒng)部分設(shè)計(jì),系統(tǒng)由基于嵌入式技術(shù)的前端采集、通信傳輸系統(tǒng)、遠(yuǎn)程云服務(wù)器識(shí)別與數(shù)據(jù)庫(kù)計(jì)算系統(tǒng)組成。前端硬件采集傳輸采用基于三星Cortex-A9架構(gòu)的核心板,搭載攝像頭模塊組、壓力傳感器模塊組、紅外傳感器模塊組、WiFi通信模塊和4G通信模塊構(gòu)建智無(wú)人零售系統(tǒng)的硬件平臺(tái)。攝像頭分別拍攝動(dòng)態(tài)和靜態(tài)商品的圖像,由主控芯片用預(yù)先板載的壓縮算法對(duì)采集的圖像進(jìn)行壓縮,壓縮后的圖像在WiFi或者4G模塊作用下傳送到云服務(wù)器上[3]。采用云平臺(tái)服務(wù)器作為智能無(wú)人零售系統(tǒng)的數(shù)據(jù)處理中心,在服務(wù)器上同時(shí)對(duì)前端靜態(tài)和動(dòng)態(tài)圖像進(jìn)行識(shí)別與分析,然后將結(jié)果返回給數(shù)據(jù)庫(kù)。智能無(wú)人零售系統(tǒng)的總體設(shè)計(jì)如圖1所示。

ck5-t1.gif

2 智能無(wú)人零售系統(tǒng)硬件系統(tǒng)設(shè)計(jì)

    本系統(tǒng)硬件采用基于嵌入式的四核ARM9作為前端圖像采集控制器,利用它實(shí)現(xiàn)對(duì)整個(gè)智能無(wú)人零售系統(tǒng)各個(gè)單元模塊上的數(shù)據(jù)信息進(jìn)行匯總分析和處理,對(duì)各個(gè)功能模塊發(fā)出控制指令,協(xié)調(diào)整個(gè)系統(tǒng)穩(wěn)定運(yùn)行。每個(gè)無(wú)人售貨柜的結(jié)構(gòu)分為4層2列共8個(gè)格子,每個(gè)格子放一類(lèi)商品。在每個(gè)格子上方安裝一個(gè)500萬(wàn)像素的CMOS攝像頭,用來(lái)靜態(tài)采集每個(gè)格子里商品的數(shù)量。每個(gè)格子下面各安裝一個(gè)壓力傳感器,用來(lái)判斷顧客拿走了哪一類(lèi)商品,然后將這個(gè)格子的圖像傳到服務(wù)器進(jìn)行識(shí)別和計(jì)數(shù),以此來(lái)精確判斷顧客拿走了幾個(gè)商品。同時(shí)壓力傳感器的數(shù)據(jù)發(fā)送給服務(wù)器數(shù)據(jù)庫(kù)進(jìn)行分析比對(duì)。柜子內(nèi)部頂端安裝一個(gè)1 000萬(wàn)像素?cái)z像頭,用來(lái)動(dòng)態(tài)采集商品種類(lèi)。同時(shí)柜子每一層格子前方安裝兩對(duì)紅外傳感器,當(dāng)紅外傳感器檢測(cè)到顧客拿完商品之后,柜子頂端攝像頭對(duì)顧客手中的商品進(jìn)行動(dòng)態(tài)拍攝,中央控制器對(duì)采集的圖像在前端進(jìn)行壓縮,通過(guò)WiFi或者4G模塊上傳到服務(wù)器。硬件系統(tǒng)流程圖如圖2所示。

ck5-t2.gif

3 智能無(wú)人零售系統(tǒng)軟件系統(tǒng)設(shè)計(jì)

    近幾年來(lái),深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)算法在圖像檢測(cè)、分割和識(shí)別上表現(xiàn)出越來(lái)越卓越的效果,因此,許多優(yōu)秀的深度學(xué)習(xí)算法被應(yīng)用在工業(yè)界。本系統(tǒng)軟件設(shè)計(jì)由兩部分組成,分別是對(duì)商品靜態(tài)識(shí)別和對(duì)商品動(dòng)態(tài)識(shí)別。采用的是目前流行的深度學(xué)習(xí)框架——Caffe框架[4],主要采用C++/CUDA高級(jí)語(yǔ)言來(lái)實(shí)現(xiàn)對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練和圖像的識(shí)別。商品靜態(tài)識(shí)別算法基于經(jīng)典的YOLO(You Only Look Once)網(wǎng)絡(luò)模型優(yōu)化[5];商品動(dòng)態(tài)識(shí)別算法基于典型的Alexlet網(wǎng)絡(luò)模型進(jìn)行優(yōu)化。

3.1 對(duì)商品進(jìn)行靜態(tài)識(shí)別

    靜態(tài)識(shí)別是服務(wù)器從每個(gè)格子得到壓力傳感器的數(shù)據(jù),通過(guò)數(shù)據(jù)分析質(zhì)量格子質(zhì)量變化,得到顧客取出的是哪個(gè)格子的那種物品。同時(shí)前端攝像頭拍攝這個(gè)格子的圖像,在前端處理后上傳到服務(wù)器。在服務(wù)器上通過(guò)深度學(xué)習(xí)算法(YOLO)對(duì)圖像進(jìn)行檢測(cè)、定位和識(shí)別。基于卷積神經(jīng)網(wǎng)絡(luò)的YOLO模型在2015年被提出,能夠?qū)崟r(shí)地對(duì)物體進(jìn)行檢測(cè)和識(shí)別,是對(duì)物體進(jìn)行位置檢測(cè)準(zhǔn)確率和識(shí)別準(zhǔn)確率綜合最好的網(wǎng)絡(luò)模型之一,同時(shí)也是實(shí)時(shí)性最好的網(wǎng)絡(luò)模型,模型采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。模型的卷積層提取圖像特征,全連接層預(yù)測(cè)輸出概率。模型結(jié)構(gòu)類(lèi)似于GoogleNet網(wǎng)絡(luò)模型,最終輸出為其網(wǎng)絡(luò)模型,如圖3所示。本系統(tǒng)在此網(wǎng)絡(luò)模型基礎(chǔ)上對(duì)其進(jìn)行優(yōu)化,分別在其全連接層和卷積層進(jìn)行修改,減少卷積層和filter,最終輸出為7×7×18的tensor。其網(wǎng)絡(luò)模型如圖4所示。

ck5-t3.gif

ck5-t4.gif

3.2 對(duì)商品動(dòng)態(tài)識(shí)別

    動(dòng)態(tài)識(shí)別算法由兩部分組成,當(dāng)紅外傳感器檢測(cè)到信號(hào),1 000萬(wàn)像素?cái)z像頭拍攝的圖像經(jīng)過(guò)壓縮上傳到服務(wù)器后,在OpenCV庫(kù)平臺(tái)下,先采用傳統(tǒng)視覺(jué)算法通過(guò)手勢(shì)識(shí)別裁剪出商品圖像,然后將圖像放入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,以此來(lái)提高這個(gè)系統(tǒng)識(shí)別準(zhǔn)確性。

    基于卷積神經(jīng)網(wǎng)絡(luò)的Alexlet網(wǎng)絡(luò)模型是2012年的Imagnet比賽的冠軍[6]。其網(wǎng)絡(luò)模型如圖5所示,本系統(tǒng)在此網(wǎng)絡(luò)模型基礎(chǔ)上對(duì)其進(jìn)行優(yōu)化,分別對(duì)其全連接層和卷積層進(jìn)行修改,為了減少過(guò)擬合,優(yōu)化Dropout值為0.5,對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練測(cè)試[7]。其網(wǎng)絡(luò)模型如圖6所示。

ck5-t5.gif

ck5-t6.gif

4 系統(tǒng)測(cè)試

    在智能無(wú)人售貨系統(tǒng)中挑選日常生活中常見(jiàn)的可口可樂(lè)、加多寶、壓縮餅干、酸奶、香皂、泡面、洗衣液和茶杯8種商品,對(duì)其進(jìn)行數(shù)據(jù)集采集。靜態(tài)識(shí)別中多采用多個(gè)物品在一張圖片上,共80 000張圖片,其中10 000張圖片做測(cè)試集,70 000張圖片作為訓(xùn)練集。動(dòng)態(tài)識(shí)別中采用每類(lèi)10 000張圖片作為訓(xùn)練集,共80 000張圖片。每類(lèi)1 000張圖片作為測(cè)試。在靜態(tài)測(cè)試中,運(yùn)用圖4網(wǎng)絡(luò)模型在Caffe框架上對(duì)其進(jìn)行訓(xùn)練和測(cè)試,得到如圖7所示的準(zhǔn)確率和loss值。當(dāng)?shù)螖?shù)達(dá)到27 000左右時(shí),靜態(tài)測(cè)試準(zhǔn)確率達(dá)到99%的準(zhǔn)確率。同時(shí)在迭代次數(shù)達(dá)到31 000左右時(shí),靜態(tài)測(cè)試值損失值減到最小,并且趨于穩(wěn)定。

ck5-t7.gif

    動(dòng)態(tài)測(cè)試中,運(yùn)用圖6網(wǎng)絡(luò)模型在Caffe框架上對(duì)其進(jìn)行訓(xùn)練和測(cè)試,得到如圖8所示的準(zhǔn)確率和loss值。當(dāng)?shù)螖?shù)達(dá)到23 000左右時(shí),動(dòng)態(tài)測(cè)試準(zhǔn)確率達(dá)到99%。同時(shí),在迭代次數(shù)達(dá)到30 000左右時(shí),動(dòng)態(tài)測(cè)試值損失值減到最小,并且趨于穩(wěn)定。

ck5-t8.gif

5 結(jié)論

    本文完成了智能無(wú)人零售視覺(jué)系統(tǒng)的軟件和硬件設(shè)計(jì);實(shí)現(xiàn)了前端硬件攝像頭模塊組對(duì)圖像的靜態(tài)和動(dòng)態(tài)拍攝、壓力傳感器組的數(shù)據(jù)傳輸、紅外傳感器組的數(shù)據(jù)采集以及各個(gè)模塊之間的通信;軟件上完成了神經(jīng)網(wǎng)絡(luò)對(duì)圖像的檢測(cè)定位與識(shí)別;通過(guò)與前端APP和后臺(tái)數(shù)據(jù)庫(kù)結(jié)合,可實(shí)現(xiàn)新的智能無(wú)人新零售系統(tǒng)。本文將人工智能視覺(jué)系統(tǒng)應(yīng)用到新零售行業(yè),能使顧客擁有掃描開(kāi)門(mén)、自己取貨、關(guān)門(mén)自動(dòng)結(jié)算的新體驗(yàn),方便了顧客,也節(jié)約了產(chǎn)品成本。未來(lái)智能無(wú)人新零售將取代傳統(tǒng)售貨機(jī),分布在城市的各個(gè)角落。

參考文獻(xiàn)

[1] 王汝傳,馬守明,葉寧,等.基于射頻識(shí)別標(biāo)簽和傳感器網(wǎng)絡(luò)的智能零售市場(chǎng)構(gòu)建方法:中國(guó),CN 103714465 B[P].2014-04-09.

[2] 宋杰.無(wú)人智能零售店來(lái)了[J].中國(guó)經(jīng)濟(jì)周刊,2017(28):86-87.

[3] 何騰鵬,張榮芬,劉超,等.基于機(jī)器視覺(jué)的智能導(dǎo)盲眼鏡設(shè)計(jì)[J].電子技術(shù)應(yīng)用,2017,43(4):58-61.

[4] JIA Y,SHELHAMER E,DONAHUE J,et al.Caffe:convolutional architecture for fast feature embedding[C].Proceedings of ACM International Conference on Multimedia.ACM,2014:675-678.

[5] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once: unified, real-time object detection[C].Computer Vision and Pattern Recognition.IEEE,2016:779-788.

[6] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.,2012:1097-1105.

[7] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.




作者信息:

林付春,張榮芬,何倩倩,劉宇紅

(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng)550025)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。