1 JetRail高鐵乘客量預測——7種時間序列方法

內容簡介

?
時間序列預測在日常分析中常會用到，是重要的時序數(shù)據(jù)處理方法。
?

高鐵客運量預測

?
假設要解決一個時序問題：根據(jù)過往兩年的數(shù)據(jù)（2012 年 8 月至 2014 年 8月），需要用這些數(shù)據(jù)預測接下來 7 個月的乘客數(shù)量。
?

數(shù)據(jù)獲?。韩@得2012-2014兩年每小時乘客數(shù)量

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt
 
df = pd.read_csv('../profile/train2.csv')
df.head()

運行結果

數(shù)據(jù)集處理：（以每天為單位構造和聚合數(shù)據(jù)集）

從2012年8月—2013年12月的數(shù)據(jù)中構造一個數(shù)據(jù)集
創(chuàng)建train and test文件用于建模。前14個月（2012年8月—2013年10月）用作訓練數(shù)據(jù)，后兩個月（2013年11月—2013年12月）用作測試數(shù)據(jù)。
以每天為單位聚合數(shù)據(jù)集

import pandas as pd
import matplotlib.pyplot as plt
 
df = pd.read_csv('../profile/train2.csv',nrows=11856)

train = df[0:10392]
test = df[10392:]
 
df['Timestamp'] = pd.to_datetime(df['Datetime'], format='%d-%m-%Y %H:%M')  # 4位年用Y，2位年用y
df.index = df['Timestamp']
df = df.resample('D').mean() #按天采樣，計算均值
 
train['Timestamp'] = pd.to_datetime(train['Datetime'], format='%d-%m-%Y %H:%M')
train.index = train['Timestamp']
train = train.resample('D').mean() 
 
test['Timestamp'] = pd.to_datetime(test['Datetime'], format='%d-%m-%Y %H:%M')
test.index = test['Timestamp']
test = test.resample('D').mean()
 

train.Count.plot(figsize=(15,8), title= 'Daily Ridership', fontsize=14)
test.Count.plot(figsize=(15,8), title= 'Daily Ridership', fontsize=14)
plt.show()

運行結果

1.1 樸素法

如下圖所示， y 軸表示物品的價格，x 軸表示時間（天）

如果數(shù)據(jù)集在一段時間內都很穩(wěn)定，我們想預測第二天的價格，可以取前面一天的價格，預測第二天的值。這種假設第一個預測點和上一個觀察點相等的預測方法就叫樸素法。即

Demo代碼

dd = np.asarray(train['Count'])
y_hat = test.copy()
y_hat['naive'] = dd[len(dd) - 1]
plt.figure(figsize=(12, 8))
plt.plot(train.index, train['Count'], label='Train')
plt.plot(test.index, test['Count'], label='Test')
plt.plot(y_hat.index, y_hat['naive'], label='Naive Forecast')
plt.legend(loc='best')
plt.title("Naive Forecast")
plt.show()

運行結果

樸素法并不適合變化很大的數(shù)據(jù)集，最適合穩(wěn)定性很高的數(shù)據(jù)集。我們計算下均方根誤差，檢查模型在測試數(shù)據(jù)集上的準確率：

from sklearn.metrics import mean_squared_error
from math import sqrt
 
rms = sqrt(mean_squared_error(test['Count'], y_hat['naive']))
print(rms)

# 43.91640614391676

運行結果

最終均方根誤差RMS為：43.91640614391676

1.2 簡單平均法

如下圖所示， y 軸表示物品的價格，x 軸表示時間（天）

物品價格會隨機上漲和下跌，平均價格會保持一致。我們經(jīng)常會遇到一些數(shù)據(jù)集，雖然在一定時期內出現(xiàn)小幅變動，但每個時間段的平均值確實保持不變。這種情況下，我們可以預測出第二天的價格大致和過去天數(shù)的價格平均值一致。這種將預期值等同于之前所有觀測點的平均值的預測方法就叫簡單平均法。即

y_hat_avg = test.copy()
y_hat_avg['avg_forecast'] = train['Count'].mean()
plt.figure(figsize=(12,8))
plt.plot(train['Count'], label='Train')
plt.plot(test['Count'], label='Test')
plt.plot(y_hat_avg['avg_forecast'], label='Average Forecast')
plt.legend(loc='best')
plt.show()

運行結果

簡單平均法用之前全部已知的值計算出它們的平均值，將它作為要預測的下一個值。當然這不會很準確，但這種預測方法在某些情況下效果是最好的。

from sklearn.metrics import mean_squared_error 
from math import sqrt 
rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['avg_forecast'])) 
print(rms)

# 109.88526527082863

運行結果

這種模型并沒有改善準確率。因此我們可以從中推斷出當每個時間段的平均值保持不變時，這種方法的效果才能達到最好。雖然樸素法的準確率高于簡單平均法，但這并不意味著樸素法在所有的數(shù)據(jù)集上都比簡單平均法好。

1.3 移動平均法

如下圖所示， y 軸表示物品的價格，x 軸表示時間（天）

物品價格在一段時間內大幅上漲，但后來又趨于平穩(wěn)。我們也經(jīng)常會遇到這種數(shù)據(jù)集，比如價格或銷售額某段時間大幅上升或下降。如果我們這時用之前的簡單平均法，就得使用所有先前數(shù)據(jù)的平均值，但在這里使用之前的所有數(shù)據(jù)是說不通的，因為用開始階段的價格值會大幅影響接下來日期的預測值。因此，我們只取最近幾個時期的價格平均值。很明顯這里的邏輯是只有最近的值最要緊。這種用某些窗口期計算平均值的預測方法就叫移動平均法。

計算移動平均值涉及到一個有時被稱為“滑動窗口”的大小值p。使用簡單的移動平均模型，我們可以根據(jù)之前數(shù)值的固定有限數(shù)p的平均值預測某個時序中的下一個值。這樣，對于所有的 ??>??：

移動平均法實際很有效，特別是當你為時序選擇了正確的p值時

y_hat_avg = test.copy() 
y_hat_avg['moving_avg_forecast'] = train['Count'].rolling(60).mean().iloc[-1] 
plt.figure(figsize=(16,8)) 
plt.plot(train['Count'], label='Train') 
plt.plot(test['Count'], label='Test') 
plt.plot(y_hat_avg['moving_avg_forecast'], label='Moving Average Forecast') 
plt.legend(loc='best') 
plt.show()

運行結果

from sklearn.metrics import mean_squared_error
from math import sqrt
rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['moving_avg_forecast']))
print(rms)

此方法計算出來的均方根差為：46.72840725106963

我們可以看到，對于這個數(shù)據(jù)集，樸素法比簡單平均法和移動平均法的表現(xiàn)要好。此外，我們還可以試試簡單指數(shù)平滑法，它比移動平均法的一個進步之處就是相當于對移動平均法進行了加權。在上文移動平均法可以看到，我們對“p”中的觀察值賦予了同樣的權重。但是我們可能遇到一些情況，比如“p”中每個觀察值會以不同的方式影響預測結果。將過去觀察值賦予不同權重的方法就叫做加權移動平均法。加權移動平均法其實還是一種移動平均法，只是“滑動窗口期”內的值被賦予不同的權重，通常來講，最近時間點的值發(fā)揮的作用更大了。

這種方法并非選擇一個窗口期的值，而是需要一列權重值（相加后為1）。例如，如果我們選擇[0.40, 0.25, 0.20, 0.15]作為權值，我們會為最近的4個時間點分別賦給40%，25%，20%和15%的權重。

1.4 簡單指數(shù)平滑法

我們注意到簡單平均法和加權移動平均法在選取時間點的思路上存在較大的差異。我們就需要在這兩種方法之間取一個折中的方法，在將所有數(shù)據(jù)考慮在內的同時也能給數(shù)據(jù)賦予不同非權重。例如，相比更早時期內的觀測值，它會給近期的觀測值賦予更大的權重。按照這種原則工作的方法就叫做簡單指數(shù)平滑法。它通過加權平均值計算出預測值，其中權重隨著觀測值從早期到晚期的變化呈指數(shù)級下降，最小的權重和最早的觀測值相關：

其中0≤α≤1是平滑參數(shù)。對時間點T+1的單步預測值是時序所有觀測值的加權平均數(shù)。權重下降的速率由參數(shù)α控制，預測值是時間點T的單步預測值與的和。因而寫作

所以本質上，我們是用兩個權重α和1?α得到一個加權移動平均值。我們可以看到和1?α相乘，讓表達式呈遞進形式，這也是該方法被稱為“指數(shù)”的原因。時間 t+1 處的預測值為最近觀測值yt和最近預測值之間的加權平均值。

from statsmodels.tsa.api import SimpleExpSmoothing

y_hat_avg = test.copy()
fit = SimpleExpSmoothing(np.asarray(train['Count'])).fit(smoothing_level=0.6, optimized=False)
y_hat_avg['SES'] = fit.forecast(len(test))
plt.figure(figsize=(16, 8))
plt.plot(train['Count'], label='Train')
plt.plot(test['Count'], label='Test')
plt.plot(y_hat_avg['SES'], label='SES')
plt.legend(loc='best')
plt.show()

運行結果

from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['SES']))
print(rms)

均方根差為：43.357625225228155

1.5 霍爾特線性趨勢法

如下圖所示， y 軸表示物品的價格，x 軸表示時間（天）

如果物品的價格是不斷上漲的（見上圖），我們上面的方法并沒有考慮這種趨勢，即我們在一段時間內觀察到的價格的總體模式。在上圖例子中，我們可以看到物品的價格呈上漲趨勢。雖然上面這些方法都可以應用于這種趨勢，但我們仍需要一種方法可以在無需假設的情況下，準確預測出價格趨勢。這種考慮到數(shù)據(jù)集變化趨勢的方法就叫做霍爾特線性趨勢法。

每個時序數(shù)據(jù)集可以分解為相應的幾個部分：趨勢（Trend），季節(jié)性(Seasonal)和殘差(Residual)。任何呈現(xiàn)某種趨勢的數(shù)據(jù)集都可以用霍爾特線性趨勢法用于預測。

Demo代碼

import statsmodels.api as sm

sm.tsa.seasonal_decompose(train['Count']).plot()
result = sm.tsa.stattools.adfuller(train['Count'])
plt.show()

運行結果

我們從圖中可以看出，該數(shù)據(jù)集呈上升趨勢。因此我們可以用霍爾特線性趨勢法預測未來價格。該算法包含三個方程：一個水平方程，一個趨勢方程，一個方程將二者相加以得到預測值

我們在上面算法中預測的值稱為水平（level）。正如簡單指數(shù)平滑一樣，這里的水平方程顯示它是觀測值和樣本內單步預測值的加權平均數(shù)，趨勢方程顯示它是根據(jù) ?(t)??(t?1) 和之前的預測趨勢 b(t?1) 在時間t處的預測趨勢的加權平均值。

我們將這兩個方程相加，得出一個預測函數(shù)。我們也可以將兩者相乘而不是相加得到一個乘法預測方程。當趨勢呈線性增加和下降時，我們用相加得到的方程；當趨勢呈指數(shù)級增加或下降時，我們用相乘得到的方程。實踐操作顯示，用相乘得到的方程，預測結果會更穩(wěn)定，但用相加得到的方程，更容易理解。

Demo代碼

from statsmodels.tsa.api import Holt

y_hat_avg = test.copy()

fit = Holt(np.asarray(train['Count'])).fit(smoothing_level=0.3, smoothing_slope=0.1)
y_hat_avg['Holt_linear'] = fit.forecast(len(test))

plt.figure(figsize=(16, 8))
plt.plot(train['Count'], label='Train')
plt.plot(test['Count'], label='Test')
plt.plot(y_hat_avg['Holt_linear'], label='Holt_linear')
plt.legend(loc='best')
plt.show()

運行結果

from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['Holt_linear']))
print(rms)
# 43.056259611507286

均方根誤差為：43.056259611507286

1.6 Holt-Winters季節(jié)性預測模型

在應用這種算法前，我們先介紹一個新術語。假如有家酒店坐落在半山腰上，夏季的時候生意很好，顧客很多，但每年其余時間顧客很少。因此，每年夏季的收入會遠高于其它季節(jié)，而且每年都是這樣，那么這種重復現(xiàn)象叫做“季節(jié)性”（Seasonality）。如果數(shù)據(jù)集在一定時間段內的固定區(qū)間內呈現(xiàn)相似的模式，那么該數(shù)據(jù)集就具有季節(jié)性。

我們之前討論的5種模型在預測時并沒有考慮到數(shù)據(jù)集的季節(jié)性，因此我們需要一種能考慮這種因素的方法。應用到這種情況下的算法就叫做Holt-Winters季節(jié)性預測模型，它是一種三次指數(shù)平滑預測，其背后的理念就是除了水平和趨勢外，還將指數(shù)平滑應用到季節(jié)分量上。

其中 s 為季節(jié)循環(huán)的長度，0≤α≤ 1, 0 ≤β≤ 1 ， 0≤γ≤ 1。水平函數(shù)為季節(jié)性調整的觀測值和時間點t處非季節(jié)預測之間的加權平均值。趨勢函數(shù)和霍爾特線性方法中的含義相同。季節(jié)函數(shù)為當前季節(jié)指數(shù)和去年同一季節(jié)的季節(jié)性指數(shù)之間的加權平均值。

在本算法，我們同樣可以用相加和相乘的方法。當季節(jié)性變化大致相同時，優(yōu)先選擇相加方法，而當季節(jié)變化的幅度與各時間段的水平成正比時，優(yōu)先選擇相乘的方法。

from statsmodels.tsa.api import ExponentialSmoothing

y_hat_avg = test.copy()
fit1 = ExponentialSmoothing(np.asarray(train['Count']), seasonal_periods=7, trend='add', seasonal='add', ).fit()
y_hat_avg['Holt_Winter'] = fit1.forecast(len(test))
plt.figure(figsize=(16, 8))
plt.plot(train['Count'], label='Train')
plt.plot(test['Count'], label='Test')
plt.plot(y_hat_avg['Holt_Winter'], label='Holt_Winter')
plt.legend(loc='best')
plt.show()

運行結果

from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['Holt_Winter']))
print(rms)

# 25.26453787766697

1.7 自回歸移動平均模型（ARIMA）

另一個場景的時序模型是自回歸移動平均模型（ARIMA）。指數(shù)平滑模型都是基于數(shù)據(jù)中的趨勢和季節(jié)性的描述，而自回歸移動平均模型的目標是描述數(shù)據(jù)中彼此之間的關系。ARIMA的一個優(yōu)化版就是季節(jié)性ARIMA。它像Holt-Winters季節(jié)性預測模型一樣，也把數(shù)據(jù)集的季節(jié)性考慮在內。

Demo代碼

import statsmodels.api as sm

y_hat_avg = test.copy()
fit1 = sm.tsa.statespace.SARIMAX(train.Count, order=(2, 1, 4), seasonal_order=(0, 1, 1, 7)).fit()
y_hat_avg['SARIMA'] = fit1.predict(start="2013-11-1", end="2013-12-31", dynamic=True)
plt.figure(figsize=(16, 8))
plt.plot(train['Count'], label='Train')
plt.plot(test['Count'], label='Test')
plt.plot(y_hat_avg['SARIMA'], label='SARIMA')
plt.legend(loc='best')
plt.show()

運行結果

from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['SARIMA']))
print(rms)

# 26.05142646431944

我們可以看到使用季節(jié)性 ARIMA 的效果和Holt-Winters差不多。

結語

學習來源：B站及其課堂PPT，對其中代碼進行了復現(xiàn)

?
https://www.bilibili.com/video/BV12h411d7Dm
?

「文章僅作為學習筆記，記錄從0到1的一個過程」

希望對您有所幫助，如有錯誤歡迎小伙伴指正～

Python數(shù)學建模系列（十）：時間序列

1 JetRail高鐵乘客量預測——7種時間序列方法

1.1 樸素法

1.2 簡單平均法

1.3 移動平均法

1.4 簡單指數(shù)平滑法

1.5 霍爾特線性趨勢法

1.6 Holt-Winters季節(jié)性預測模型

1.7 自回歸移動平均模型（ARIMA）

結語