《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計應(yīng)用 > 基于數(shù)據(jù)挖掘的呼叫中心IVR客戶細(xì)分研究
基于數(shù)據(jù)挖掘的呼叫中心IVR客戶細(xì)分研究
2014年微型機與應(yīng)用第12期
莫 贊,樊 鵬,李燕飛
廣東工業(yè)大學(xué) 管理學(xué)院,廣東 廣州
摘要: 語音應(yīng)答業(yè)務(wù)利用率低、人力需求成本高是一大問題,對此,結(jié)合案例,運用CRISP-DW方法,采用Clementine工具對所得數(shù)據(jù)進(jìn)行分析處理,得到IVR客戶與地區(qū)分布、ARPU值和入網(wǎng)時長的關(guān)系;對IVR客戶進(jìn)行聚類分析,總結(jié)出其重要特點;提出相應(yīng)對策,幫助提高IVR客戶的滿意度和利用率。建立一個C5.0決策樹模型,分析預(yù)測客戶是基于什么情況才進(jìn)入IVR系統(tǒng)的。分析IVR客戶與入網(wǎng)時長、地區(qū)、ARPU值之間的規(guī)則,有助于更準(zhǔn)確地了解IVR客戶并對其細(xì)分。
Abstract:
Key words :

  摘  要語音應(yīng)答業(yè)務(wù)利用率低、人力需求成本高是一大問題,對此,結(jié)合案例,運用CRISP-DW方法,采用Clementine工具對所得數(shù)據(jù)進(jìn)行分析處理,得到IVR客戶與地區(qū)分布、ARPU值和入網(wǎng)時長的關(guān)系;對IVR客戶進(jìn)行聚類分析,總結(jié)出其重要特點;提出相應(yīng)對策,幫助提高IVR客戶的滿意度和利用率。建立一個C5.0決策樹模型,分析預(yù)測客戶是基于什么情況才進(jìn)入IVR系統(tǒng)的。分析IVR客戶與入網(wǎng)時長、地區(qū)、ARPU值之間的規(guī)則,有助于更準(zhǔn)確地了解IVR客戶并對其細(xì)分。

  關(guān)鍵詞: 語音應(yīng)答業(yè)務(wù);數(shù)據(jù)挖掘;CRISP-DM;客戶細(xì)分

  互動式語音應(yīng)答業(yè)務(wù)IVR(Interactive Voice Response)是企業(yè)客戶關(guān)系管理中一種有效的模式,它可以解決用戶的絕大部分問題[1]。本文針對電信行業(yè)客戶細(xì)分要求,將數(shù)據(jù)挖掘中的聚類分析、決策樹方法應(yīng)用于分析過程[2]。

  1 電信呼叫中心客戶細(xì)分體系

  隨著客戶關(guān)系管理實踐和理論的發(fā)展,在客戶細(xì)分方法研究方面,研究者正尋找將客戶聚類為獨特的客戶群的方法[3-4]。在國際學(xué)術(shù)界,學(xué)者們主要利用數(shù)據(jù)挖掘技術(shù)建立基于細(xì)分市場水平的客戶分割模型。在國內(nèi),武漢大學(xué)郭蘊華等人提出了基于模糊聚類分析的客戶分類算法。

  2 數(shù)據(jù)挖掘與數(shù)據(jù)處理

  2.1 數(shù)據(jù)挖掘在客戶細(xì)分和呼叫中心中的應(yīng)用

  數(shù)據(jù)挖掘用來根據(jù)客戶的預(yù)測行為定義客戶細(xì)分群[5]。例如,將決策樹的葉節(jié)點視為一個獨立的客戶細(xì)分群。

  2.2 移動中心數(shù)據(jù)獲取與預(yù)處理

  研究數(shù)據(jù)來自于中國移動深圳分公司呼叫中心(10086)中的操作數(shù)據(jù),操作數(shù)據(jù)的原數(shù)據(jù)項以及含義如表1所示。

  本文選取動感地帶2月份的數(shù)據(jù)進(jìn)行分析研究,數(shù)據(jù)量為20多萬條。進(jìn)行數(shù)據(jù)挖掘[6]之前,對原始數(shù)據(jù)進(jìn)行預(yù)處理和數(shù)據(jù)整理,具體步驟如下。

  (1)合并具有相同變量的數(shù)據(jù)集。

  (2)對呼入時間進(jìn)行升序排序,當(dāng)一個客戶連續(xù)撥打10086時,可以更好地顯示數(shù)據(jù)。

  (3)去除重復(fù)數(shù)據(jù)。根據(jù)呼入時間排序,在同一相鄰的時間段同時出現(xiàn)重復(fù)的呼叫號碼視為重復(fù)數(shù)據(jù)。

  (4)去除異常數(shù)據(jù)。去除異常數(shù)據(jù)的條件為:ARPU值>1 000或入網(wǎng)時長>80或ARPU值<0或入網(wǎng)時長<0或地區(qū)="沉默"。

  (5)平衡數(shù)據(jù)集。

  (6)離散化處理。采取“分箱”的方法劃分區(qū)間,根據(jù)其取值情況分別對應(yīng)到相應(yīng)的區(qū)間,結(jié)果如圖1所示。

001.jpg

  入網(wǎng)時長為整型屬性。對于整型屬性采取“分箱”的方法進(jìn)行區(qū)間劃分,根據(jù)取值情況對應(yīng)到相應(yīng)的區(qū)間,結(jié)果如圖2所示。

002.jpg

  3 聚類分析在客戶細(xì)分中的應(yīng)用研究

  以深圳移動動感地帶的客戶作為分析對象,對IVR客戶進(jìn)行聚類分析[7]。

  3.1 深圳移動IVR客戶基本情況分析

 ?。?)地區(qū)分布與IVR客戶的關(guān)系分析

  經(jīng)分析得到地區(qū)分布結(jié)果,95%以上撥打IVR的客戶來自寶安、龍崗、福田、南山和羅湖5個地區(qū)。寶安地區(qū)撥打IVR的客戶最多,占到總數(shù)據(jù)量的45.79%;鹽田地區(qū)的客戶撥打數(shù)最少,僅占總數(shù)據(jù)量的1.31%。

 ?。?)ARPU值與IVR客戶的關(guān)系分析

  經(jīng)分析得到ARPU值分布,99.9%的客戶ARPU值小于600,而其余0.1%的客戶ARPU值在600~1 608.690之間。因此可以看出,ARPU值越大的客戶撥打IVR的數(shù)量越少,ARPU值小于200的客戶撥打數(shù)量最多。撥打IVR的客戶主要是ARPU值小于350的客戶,ARPU值為100~150之間的客戶撥打IVR的頻率最高。

  3.2 K-means算法與分析過程

  移動IVR客戶細(xì)分分析過程[5]如下:

  (1)將客戶劃分為4類:

  A類客戶:ARPU值及入網(wǎng)時長都很高

  B類客戶:ARPU值高,入網(wǎng)時長較低

  C類客戶:ARPU值較低,入網(wǎng)時長高

  D類客戶:ARPU值和入網(wǎng)時長都較低

  (2)選取“arpu”和“in_months”作為模型的輸入。

  (3)數(shù)據(jù)準(zhǔn)備:

  ①將所有數(shù)據(jù)合并到一個記錄表;

 ?、诟鶕?jù)呼入時間對數(shù)據(jù)進(jìn)行排序;

 ?、鄹鶕?jù)呼入號碼去除重復(fù)數(shù)據(jù);

 ?、苋コ惓W兞?;

  ⑤選擇IVR客戶。

  ARPU值、入網(wǎng)時長的數(shù)據(jù)大小差別非常大,具體統(tǒng)計值如圖3所示。

003.jpg

  (4)使用Clementine進(jìn)行建模,選取“arpu”、“in_months”作為模型的輸入。此處設(shè)定K=4。

  (5)根據(jù)聚類結(jié)果,分為4類是較為理想的,結(jié)果如圖4所示。

004.jpg

  相關(guān)統(tǒng)計量結(jié)果如表2所示。

007.jpg

  從聚類結(jié)果得到以下客戶劃分:

  A類:cluster-2,7 487條記錄,占13%

  B類:cluster-3,5 190條記錄,占9%

  C類:cluster-4,15 370條記錄,占26%

  D類:cluster-1,30 797條記錄,占52%

  4 決策樹C5.0算法的客戶行為預(yù)測

  (1)進(jìn)行客戶行為預(yù)測的商業(yè)理解。用戶在撥打熱線電話時,只會產(chǎn)生兩種情況:一種是轉(zhuǎn)入“人工接聽”,另一種是進(jìn)入“自動語音播放”。

  (2)選取“area”、“arpu”、“in_months”,作為模型的輸入,將 “是否轉(zhuǎn)人工”作為輸出變量。

  (3)評估客戶行為預(yù)測的模型。通過采用analysis節(jié)點對C5決策模型進(jìn)行評估,得到的評估結(jié)果如圖5所示,從圖中的可信矩陣可以看出模型的正確率達(dá)到60.42%。

005.jpg

  結(jié)果分析如下:

  (1)更可能撥打IVR的客戶包括:ARPU值在50~150,入網(wǎng)時長為5.5~8.5,居住在鹽田、羅湖地區(qū)的客戶;入網(wǎng)時長為0~2.5和59.5~62.5,居住在鹽田、龍崗地區(qū)的客戶;ARPU值在50~150,入網(wǎng)時長為8.5~11.5,居住在南山、寶安、鹽田、羅湖的客戶。

  (2)更可能撥打人工座席的客戶包括:ARPU值在50~150,入網(wǎng)時長為5.5~8.5,居住在南山、寶安地區(qū)的客戶;入網(wǎng)時長為11.5~20.5,居住在鹽田、龍崗地區(qū)的客戶;入網(wǎng)時長為5.5~11.5,居住在鹽田、龍崗地區(qū)的客戶。

  該領(lǐng)域的研究仍有許多待改進(jìn)之處,特別是在模型分析上,利用數(shù)據(jù)挖掘的方法較少,本文針對這些不足,通過數(shù)據(jù)挖掘技術(shù),達(dá)到提高客戶關(guān)系管理可用性、實時性、智能性等目標(biāo)。本文在國外已有研究的基礎(chǔ)上,結(jié)合電信企業(yè)的實際需要,提出了電信客戶細(xì)分?jǐn)?shù)據(jù)挖掘模型,并根據(jù)客戶細(xì)分結(jié)果為企業(yè)提供決策支持。在業(yè)務(wù)應(yīng)用上,建立了一個聚類模型和一個定量化的決策樹數(shù)據(jù)挖掘模型,提出了相應(yīng)的改進(jìn)措施,可為相關(guān)的決策者提供一定的參考。

  參考文獻(xiàn)

  [1] 王扶東,馬玉芳.基于數(shù)據(jù)挖掘的客戶細(xì)分方法的研究[J].計算機工程與應(yīng)用,2011,47(4):215-218.

  [2] 易珺,路璐,曹東.改進(jìn)的k-means算法在客戶細(xì)分中的應(yīng)用研究[J].微型機與應(yīng)用,2005,24(12):52-53.

  [3] 潘玲玲,張育平,徐濤.核DBSCAN算法在民航客戶細(xì)分中的應(yīng)用[J].計算機工程,2012,38(10):71-73.

  [4] 徐翔斌,王佳強,涂歡,等.基于改進(jìn)RFM模型的電子商務(wù)客戶細(xì)分[J].計算機應(yīng)用,2012,32(5):1440-1442.

  [5] 張煥國,呂莎,李瑋.C均值算法的電信客戶細(xì)分研究[J].計算機仿真,2011,28(6):185-188.

  [6] 廖寶魁,孫雋楓.基于MapReduce的增量數(shù)據(jù)挖掘研究[J].微型機與應(yīng)用,2014,33(1):67-70.

  [7] 徐新國,朱廷劭,康衛(wèi),等.基于數(shù)據(jù)挖掘的工業(yè)控制系統(tǒng)防危機制研究[J].電子技術(shù)應(yīng)用,2012,38(5):87-90.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。