【數(shù)據(jù)競(jìng)賽】CCF乘用車細(xì)分市場(chǎng)銷量預(yù)測(cè)競(jìng)賽總結(jié)
題目:乘用車細(xì)分市場(chǎng)銷量預(yù)測(cè) 類型:時(shí)序回歸
https://datafountain.cn/competitions/352/
賽題背景
近幾年來,國內(nèi)汽車市場(chǎng)由增量市場(chǎng)逐步進(jìn)入存量市場(chǎng)階段,2018年整體市場(chǎng)銷量首次同比下降。在市場(chǎng)整體趨勢(shì)逐步改變的環(huán)境下,消費(fèi)者購車決策的過程也正在從線下向線上轉(zhuǎn)移,我們希望能在銷量數(shù)據(jù)自身趨勢(shì)規(guī)律的基礎(chǔ)上,找到消費(fèi)者在互聯(lián)網(wǎng)上的行為數(shù)據(jù)與銷量之間的相關(guān)性,為汽車行業(yè)帶來更準(zhǔn)確有效的銷量趨勢(shì)預(yù)測(cè)。
賽題任務(wù)
本賽題需要參賽隊(duì)伍根據(jù)給出的60款車型在22個(gè)細(xì)分市場(chǎng)(省份)的銷量連續(xù)24個(gè)月(從2016年1月至2018年12月)的銷量數(shù)據(jù),建立銷量預(yù)測(cè)模型;基于該模型預(yù)測(cè)同一款車型和相同細(xì)分市場(chǎng)在接下來一個(gè)季度連續(xù)4個(gè)月份的銷量;
除銷量數(shù)據(jù)外,還提供同時(shí)期的用戶互聯(lián)網(wǎng)行為統(tǒng)計(jì)數(shù)據(jù),包括:各細(xì)分市場(chǎng)每個(gè)車型名稱的互聯(lián)網(wǎng)搜索量數(shù)據(jù);主流汽車垂直媒體用戶活躍數(shù)據(jù)等。參賽隊(duì)伍可同時(shí)使用這些非銷量數(shù)據(jù)用于建模。
賽題數(shù)據(jù)
歷史銷量數(shù)據(jù)包含60個(gè)車型在22個(gè)省份,從2016年1月至2017年12月的銷量。參賽隊(duì)伍需要預(yù)測(cè)接下來4個(gè)月(2018年1月至2018年4月),這60個(gè)車型在22個(gè)省份的銷量;參賽參賽隊(duì)伍需自行劃分訓(xùn)練集數(shù)據(jù)進(jìn)行建模。
評(píng)分標(biāo)準(zhǔn)
采用NRMSE(歸一化均方根誤差)的均值作為評(píng)估指標(biāo)。首先單獨(dú)計(jì)算每個(gè)車型在每個(gè)細(xì)分市場(chǎng)(省份)的NRMSE,再計(jì)算所有NRMSE的均值。
寶可夢(mèng)訓(xùn)練團(tuán)隊(duì)
本方案先對(duì)數(shù)據(jù)進(jìn)行了探索性分析,去除掉與銷售量變化趨勢(shì)關(guān)系不大的"搜索量"、"對(duì)車型相關(guān)新聞文章的評(píng)論數(shù)量"、"對(duì)車型的評(píng)價(jià)數(shù)量"等用處不大的特征。
在其中的一個(gè)模型,對(duì)銷售量進(jìn)行l(wèi)og1p變換,這樣可以使銷量數(shù)據(jù)在轉(zhuǎn)換后基本服從一個(gè)正態(tài)分布,能夠提升一定的效果;考慮到春節(jié)、農(nóng)歷月份的影響,本方案做了相關(guān)標(biāo)示。
在做特征工程方面,構(gòu)造了滑窗。平移,趨勢(shì),統(tǒng)計(jì)等方面的特征。在總體策略上,因?yàn)橐A(yù)測(cè)連續(xù)四個(gè)月的銷量,我本方案的策略是一個(gè)月一個(gè)月的預(yù)測(cè),首先預(yù)測(cè)1月份的結(jié)果。然后將1月份的預(yù)測(cè)結(jié)果合并到訓(xùn)練集,再預(yù)測(cè)2 月份結(jié)果,依次類準(zhǔn)。
在模型融合方面,我一共使用了3個(gè)模型,每個(gè)模型的特征組合不同,進(jìn)行融合后有一定提升效果。
數(shù)據(jù)分析
不同車型、不同省份在不同月份的點(diǎn),銷量差距還是很大的,但也不排除是臟數(shù)的可能。
銷量與車型搜索量、相關(guān)新聞回復(fù)量、評(píng)價(jià)數(shù)量分析的變化趨勢(shì)并沒有太大的規(guī)律性,所以我在訓(xùn)練時(shí),沒有要這些特征。
銷量數(shù)據(jù)分析 銷量銷量趨勢(shì)分析 銷量與車型的關(guān)系
特征工程
模型1
是否春節(jié)特征 車型(model)、車身類型(bodyIype)、省份分別與年份進(jìn)行分組提作,求得銷量均值 距離2015年12月的月數(shù)間隔特征 車型和省份的組合特征 車型、省份和間隔月份 mt 的組合特征 設(shè)置不同月份數(shù)據(jù)的權(quán)重值特征 同車型同省份上一個(gè)月的銷量
模型2
是否春節(jié)特征。 農(nóng)歷月份 2017年同車型同省份銷量之和同比 2016年的倍數(shù) 距離 2015年12月的月數(shù)間隔特征mt 車型和省份的組合特征 車型、省份和間隔月份 mt 的組合特征 同車型同省份前面第1到第 13個(gè)月的銷量 同車型同省份前面第1個(gè)月與第 13個(gè)月的比值 同車型同省份前面第1個(gè)月與第13個(gè)月的差值再驗(yàn)以第13個(gè)月的值 同車型同省份前面第1個(gè)月與第2個(gè)月的比值和差值。 同車型同省份前面第 2個(gè)月與第3個(gè)月的比值和差事 滑窗特征。分別計(jì)算同車型同省份前面3個(gè)月和6 個(gè)月的均值、標(biāo)準(zhǔn)差 滑窗特征。分別計(jì)算同 bodyType 同省份前面3個(gè)月和6個(gè)月的均值、標(biāo)準(zhǔn)差 滑窗特征。分別計(jì)算同省份前面3個(gè)月和6個(gè)月的均值、標(biāo)準(zhǔn)差 滑商特征。分別計(jì)算同bodyType 前面3個(gè)月和6 個(gè)月的均值、標(biāo)準(zhǔn)差
模型3
距離2015年 12月的月數(shù)間隔特征 mt 車型和省份的組合特征 車型、省份和間隔月份 mt 的組合特征 相同車型、省份前16個(gè)月每個(gè)月的銷量 比前一年的增長率 每個(gè)省份、每個(gè)月的車型上一年同月份銷量均值和最小值。 前面的第3、4、15、16個(gè)月同車型的銷量均值。并求;前面第15月均值與前面第3個(gè)月均值之差與前面第15 個(gè)月均值的商;前面第 16月均值與前面第4個(gè)月均值之差與前面第16個(gè)月均值的商 同車型同省份前面第1、2、11、12個(gè)月銷量之和 同車型同省份前面第1、2、3個(gè)月銷量之和。(11)同車型同省份前面第1、12個(gè)月銷量之和
秋名山車神團(tuán)隊(duì)
特征工程
不同省份 & 不同車型構(gòu)建不同銷量 基于特征重要性、均值和相關(guān)系數(shù)篩選特征

模型選擇
對(duì)比XGBoost、LightGBM、CatBoost、LSTM、CNN和Prophet模型,最后選擇LightGBM。
詩人藏夜里團(tuán)隊(duì)
整體方案
從實(shí)際業(yè)務(wù)場(chǎng)景出發(fā)挖掘有效特征,采用機(jī)器學(xué)習(xí)模型逐月預(yù)測(cè) 結(jié)合前沿神經(jīng)網(wǎng)絡(luò)研究成果采用神經(jīng)網(wǎng)絡(luò)模型分車型建模預(yù)測(cè),最終對(duì)不同預(yù)測(cè)結(jié)果分月按不同比例加權(quán)驗(yàn)合

特征工程
將所提取的特征歸為以下幾類:同比、環(huán)比、歷史信息、編碼、差分差比、趨勢(shì)、節(jié)假日、其它。
掙錢買地球團(tuán)隊(duì)
本賽題的最為難解決的難點(diǎn)在于驗(yàn)證集的線上線下不一致的問題,我們放棄了驗(yàn)證集。
我們會(huì)拿預(yù)測(cè)出來的每個(gè)月的總銷量去跟我們猜測(cè)的數(shù)據(jù)去比較,如果預(yù)測(cè)出來的數(shù)據(jù)不是特別高,并且跟猜測(cè)的數(shù)據(jù)接近的話,我們會(huì)嘗試提交,往往效果都很不錯(cuò)。
核平精英團(tuán)隊(duì)
特征工程
要仔細(xì)考慮教據(jù)的周期性與趨勢(shì)性,可分為環(huán)比趨勢(shì)及同比趨勢(shì):
環(huán)比方面,主要體現(xiàn)的為該類車在近幾個(gè)月內(nèi)銷量的情況 同比方面,主要體現(xiàn)的為該類車當(dāng)年與去年相比的情況,在這之間也體現(xiàn)了乘用車銷量的年周期性, 對(duì)于周期性,將其作為結(jié)果評(píng)估的依據(jù),對(duì)本題所要預(yù)測(cè)的1-4月,可以明顯的看出其每年的銷量都呈現(xiàn)1月高峰、2月低谷、3和4月有所改善目兩月近平持平的趨勢(shì),若模型預(yù)測(cè)出的教據(jù)分布不是如此即需調(diào)整。
后處理
隨比賽進(jìn)行,多次提交過結(jié)果后可以猜測(cè),所要預(yù)測(cè)的18年 1-4月的銷量是偏低的,這時(shí)就可以對(duì)預(yù)測(cè)結(jié)果乘一個(gè)小于1的因子進(jìn)行調(diào)整。
往期精彩回顧
