響水專業(yè)做網站的公司已備案域名30元
目錄
- 內容概述
- 數據說明
- 技術點
- 主要內容
- 4 會員用戶畫像和特征字段創(chuàng)造
- 4.1 構建會員用戶基本特征標簽
- 4.2 會員用戶詞云分析
- 5 會員用戶細分和營銷方案制定
- 5.1 會員用戶的聚類分析及可視化
- 5.2 對會員用戶進行精細劃分并分析不同群體帶來的價值差異
內容概述
本項目內容主要是基于Python的“百貨商場用戶畫像描述與價值分析”,里面有詳細的數據預處理、數據可視化和數據建模等步驟。同時,針對傳統(tǒng)RFM模型進行了改進,構造了LRFMP模型來分析客戶價值,挖掘客戶價值的八個字段,并通過WordCloud形式展現了出來,可以對會員用戶進行精準畫像。
數據說明
數據集分為兩部分,.xlsx結尾的是會員信息表,.csv結尾的是銷售流水表。其中,會員信息表共有將近19萬條記錄,銷售流水表共有接近189萬條記錄。
兩個表包含了如會員卡號,消費產生時間,性別,出生時間,商品編碼,銷售數量,商品售價,消費金額,商品名稱,此次消費的會員積分,收銀機號,單據號,柜組編碼,柜組名稱,等級時間等 15 個特征。
- L(入會程度):3個月以下為新用戶,4-12個月為中等用戶,13個月以上為老用戶
- R(最近購買的時間)
- F(消費頻次):次數20次以上的為高頻消費,6-19次為中頻消費,5次以下為低頻消費
- M(消費金額):10萬以上為高等消費,1萬-10萬為中等消費,1萬以下為低等消費
- P(消費積分):10萬以上為高等積分用戶,1萬-10萬為中等積分用戶,1萬以下為低等積分用戶
技術點
- 數據預處理:包括去重去缺失值、異常值處理、變量重編碼和時間序列數據處理方式等;
- 數據可視化:餅圖、柱狀圖、折線圖、雷達圖和復合圖等繪制方式等;
- 特征創(chuàng)造和數據建模:從海量連續(xù)數據中創(chuàng)造出性別、消費偏好、入會程度、最近購買的時間、消費頻次、消費金額、消費積分等類別數據,建模部分主要通過標準化和歸一化數據來對比KMeans聚類的輪廓系數結果。
主要內容
4 會員用戶畫像和特征字段創(chuàng)造
4.1 構建會員用戶基本特征標簽
說明積分這一列沒有存在異常值
查看登記時間和消費產生的時間是否存在異常值,即大于2018-01-03
篩掉兩列異常時間的數據
說明單個會員有多條消費記錄數
可以先篩選每位會員,然后依據各個字段對進行運算,求出對應的LRFMP
自定義一個函數來實現兩列數據時間相減
開始登記的時間 和 最后一次消費的時間
調用函數
會員消費的總次數:
會員消費的總金額:
會員的積分總數:
創(chuàng)造一列特征字段“消費時間偏好”(凌晨、上午、中午、下午、晚上)
會員消費的時間偏好,在多項記錄中取眾數
會員性別
開始構建對應的特征標簽
構建會員用戶業(yè)務特征標簽
取DataFrame之后轉置取values得到一個列表,再繪制對應的詞云,可以自定義一個繪制詞云的函數,輸入參數為df和會員卡號
查看數據的基本特征
描述性統(tǒng)計
開始對數據進行分組
保存數據
4.2 會員用戶詞云分析
開始繪制用戶詞云,封裝成一個函數來直接顯示詞云
隨機查找一個會員來繪制用戶畫像
5 會員用戶細分和營銷方案制定
5.1 會員用戶的聚類分析及可視化
先對數據進行標準化處理
對數據進行聚類
構造一個繪制聚類可視化效果雷達圖的函數
從上面可以看出,標準化后的數據聚類效果相較于歸一化的更好,且從輪廓系數和聚類雷達圖也可以看出,聚類數最佳為2。因此,下面我們使用聚類數為2的標準化數據進行聚類,得到兩類客戶的LRFMP均值數據,以此來判斷兩者之間的差異
5.2 對會員用戶進行精細劃分并分析不同群體帶來的價值差異
以聚類數為2貼上對應的標簽
統(tǒng)計一下兩類用戶之間的差異,發(fā)現兩類客戶之間數量相差過大
用均值來計算兩類樣本之間的LRFMP
從上面可以看出,標簽為1的客戶消費頻次、消費金額和消費積分均遠大于標簽為0的客戶,且這類客戶所占的比例僅有2.3%,可以將其定義為“重要保持會員”。標簽為0的客戶所占比例為97.7%,其會員登記時間跟標簽為1的比較接近,但最近一次消費時間較標簽1的還要長,可以將其定義為“一般發(fā)展會員”
更多詳細內容可看