電視劇收視率預測論文

時間:2022-02-06 10:20:42

導語:電視劇收視率預測論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

電視劇收視率預測論文

【摘要】電視劇收視率和網絡播放量一直是衡量電視劇熱度的重要評價指標。本文在前人研究的基礎上,首先對收視率的時間序列變化進行研究。采用無監督學習的流程,總結出描述收視率變化的四個特征,用k-means聚類分析方法,依據四個特征將電視劇分成了三類,并根據每一類收視率的實際變化特點,分別采用自回歸模型和灰色預測模型進行了時序預測,最終分析出了電視劇收視隨時間的變化趨勢。

【關鍵詞】時間序列預測;k-means聚類;自回歸模型;灰色預測模型

1.前言

電視?。ㄓ址Q為劇集、電視戲劇節目、電視戲劇或電視系列?。┦且环N適應電視廣播特點、融合舞臺和電影藝術的表現方法而形成的藝術樣式。電視劇熱度值,不僅體現了人們對于娛樂生活的輿論趨勢,更是電視劇平臺多元化發展的體現。對于電視劇熱度值的研究正在快速發展,人民大學新聞學院的周小、韓瑞娜、凌姝在其相關研究中,開展了對網上收視度與線下收視率的關系探討,并提出了多屏發展下新的電視評估體系的參考因素[1]。此外,胡兵、鄧極在《微博對電視劇收視率的影響研究》中,還深入探究了新媒體微博對于傳統電視劇收視率的影響[2]。各大視頻網站都在近幾年推出了關于電視劇指數的綜合評價體系,如“愛奇藝指數”、“優酷指數”等。本文在前人研究的基礎上,逐步深入地對多屏播放模式下的電視劇熱度展開了研究,探尋了電視劇收視率變化模式的客觀規律,提出描述收視率變化模式的四個特征,并用k-means方法進行聚類分析,根據三類電視劇的特點,建立了自回歸模型和灰色預測模型進行時間序列預測,按類別對比了不同階次間自回歸模型的擬合效果,最終建立了通過歷史數據對電視劇最后三集的收視率進行預測的模型。

2.電視劇收視率預測模型的建立和求解

2.1數據收集和預處理。本文中用到的電視劇相關信息主要來源于百度百科資料庫,其中收視率數據來源于CSM52城市網和全國網收視率(www.csm.com.cn),播放量數據來源于騰訊、優酷、愛奇藝等主流視頻網站。當一部電視劇在同一時間段于多個電視臺播出時,我們將各個臺收視率加在一起,作為數據用收視率。在收集到近幾年電視劇的比較權威的大量數據后,我們小組對數據進行了預處理工作。電視劇的熱播有很多原因,為了研究熱度高的電視劇內在的規律,我們將研究對象定為近幾年的“大熱劇”。研究對象符合以下兩條標準:(1)最近三年播出:由于近幾年網絡化發展迅速,收視率和播放量的發展模式與數年前有所不同。若加入很早之前的熱門電視?。ㄈ纭哆€珠格格》、《西游記》)為研究對象,勢必會造成收視率與網絡播放量的異常波動,所以我們將研究對象定為近三年電視劇。(2)平均首播收視率在2%以上:通過收視率以及網絡搜索量數據比較,我們發現,近三年的電視劇中,平均收視率在2%以上的電視劇,在播出時均造成了不小的轟動,并成為了當時的熱點,符合我們對于研究對象熱度高的要求。所以,我們用以上條件為標準,并結合了社會輿論、觀眾口碑和電視劇影響力等因素進行調整。從近三年所有電視劇范圍內,最終選擇了《瑯琊榜》、《人民的名義》、《羋月傳》、《三生三世十里桃花》、《花千骨》、《歡樂頌1》、《歡樂頌2》、《微微一笑很傾城》、《武媚娘傳奇》、《虎媽貓爸》、《何以笙簫默》、《親愛的翻譯官》、《女醫明妃傳》這13部類型、風格、播出時間并不相同的“大熱劇”為研究對象。2.2基于收視率特征的電視劇聚類分析。對于收視率來說,因為前幾集的收視率勢必與后幾集的收視率有很大的關聯性,所以通過歷史數據可以一定程度上揭示現象的變化規律,所以我們采用時間序列預測模型。本文選用自回歸模型進行預測。由于不同類型的電視劇具有不同的收視規律,顯然不適合用同一模型求解。因此,我們將收視率的變化模式作為電視劇聚類標準,將研究對象進行聚類分析。為了定量地刻畫電視劇的變化模式,我們對13部電視劇的收視率與集數進行了一次、二次擬合,將擬合得到的參數作為聚類特征,進行了如表1的統計分析。表1描述收視率變化模式的四個特征用上述方法,可以分別計算出13部電視劇的每個特征值,由于篇幅所限不再一一贅述。進而利用python實現k-means聚類分析的方法,將所有電視劇分為三個類別,每個類別具有如下表2的特征:2.3收視率自回歸模型的建立與優化。2.3.1利用AR(2)模型預測第一種模式電視劇收視率首先,對于第一種模式,我們選取了《人民的名義》作為研究對象,分別嘗試了四種自回歸模型。采用同樣的訓練集和測試集,來評估不同回歸模型的性能。此處代表第集的收視率:經過研究發現,第三種模型,即運用前一集和前第三集的數據的二階自回歸模型擬合最好。因為收視率會受到人為因素影響,相鄰劇集間收視率會小范圍波動,而采用隔一集的收視率數據可以一定程度上減少波動帶來的影響。而三階自回歸模型會因為參數較多,出現一定的過擬合現象。因此,我們選擇的自回歸模型為:我們利用《人民的名義》、《三生三世十里桃花》、《歡樂頌1》、《虎媽貓爸》、《何以笙簫默》作為訓練集,以《女醫明妃傳》作為與測試集檢驗模型的性能,利用excel的擬合工具進行求解,最終得到模型的表達式為:之后分析該模型的擬合性能,模型的擬合優度R2=0.92988,SignificanceF=3.67*10-45。兩個影響因素的P-value也通過了0.05的顯著性水平檢測??梢?,該模型在訓練集上能夠較好地反映出數據的波動性。之后對該模型的預測性能進行檢測,將《女醫明妃傳》后23個收視率數據代入模型中,求解出《女醫明妃傳》后20個收視率數據的預測值。經過計算,該模型在測試集結果中,真實值與預測值的相關系數為0.923112,均方差為0.981483。能夠看出,模型具有較好的預測能力。2.3.2利用GM(1,1)模型預測第二種模式電視劇收視率接著,我們分析了第二種模式中劇集的收視率變化。在第二種收視率變化模式中,由于存在收視率的拐點,所以最后的10集的收視率可能有所下降(如羋月傳),也可能上下波動(如花千骨)。所以在該模式中,我們選取電視劇的后半段收視率作為訓練集,并選取非線性的時序預測模型——灰色預測GM(1,1)來進行建模。GM(1,1)模型是一種灰色動態預測模型,在灰色系統理論中應用最為廣泛的,該模型是由一個單變量的一階微分方程組成,可以用于復雜系統某一主導因素特征值的擬合和預測,以探究主導因素變化規律和未來發展變化態勢。該模型訓練需要的數據少,能夠反映非線性的變化趨勢,同時對樣本分布沒有嚴格的平穩性要求,所以非常符合該模式的收視率預測。我們利用python編程實現了灰色預測模型,訓練集采用《羋月傳》、《瑯琊榜》、《花千骨》、《微微一笑很傾城》、《歡樂頌2》五部電視劇的后一半集數的收視率,測試集選取這五部電視劇的最后三集收視率。我們建立了GM(1,1)模型和二階自回歸模型進行對比,希望體現出灰色預測模型對于該類電視劇的適用性。經過模型的訓練和求解,在測試集上的測試性能如表3所示。從表3可以看出,真實值和預測值的均方差方面,GM(1,1)模型均方誤差為,而AR(2)模型的均方誤差為,灰色預測模型表現更加優秀。同時以《羋月傳》和《微微一笑很傾城》為例(在表格中標注為黃色),灰色預測模型成功預測出了最后兩天的下降趨勢,而自回歸模型則并未能預測出來2.3.3對第三種模式電視劇收視率的討論在數據統計過程中,我們也發現了諸如《親愛的翻譯官》、《古劍奇譚》等電視劇,其收視率變化模式存在較大幅度的波動。究其原因,這些電視劇的收視率收到很多其他外界因素的干擾。以《古劍奇譚》為例,該劇作為湖南衛視試水的首部周播劇,開創了周播劇先河,并且收獲了大量粉絲,成為了當時的現象級熱播劇,然而我們發現,其電視劇收視率在接近結尾的15集左右,出現大幅度下降。經過分析發現,收視率縮水的時期正好在8月末9月初,處在開學期。由于《古劍奇譚》屬于古裝仙俠劇,主演們均為當紅小鮮肉,所以面對的收視群體多為年輕觀眾,包括一大部分學生。所以導致在開學季出現收視下滑。從中我們也可看出收視群體的不同,對于電視劇收視率的影響。由此看出,這類電視劇的后三集收視率很難用之前的收視率來預測。一種解決方案是排除異常點的干擾,通過數據預處理進行降噪,進而用AR(2)或者GM(1,1)模型求解;另一個解決方案是在模型中加入更多的影響因素,建立多元回歸模型進行求解。

3.結論與展望

電視劇的收視率和網絡播放量一直是衡量電視劇熱度的重要評價指標。本文在前人研究的基礎上,首先對收視率的時間序列變化進行研究。采用無監督學習的流程,總結出描述收視率變化的四個特征,用k-means聚類分析方法,依據四個特征將電視劇分成了三類,并根據每一類收視率的實際變化特點,分別采用自回歸模型和灰色預測模型進行了時序預測,最終分析出了電視劇收視隨時間的變化趨勢。

參考文獻

[1]梁招娣,劉小龍.基于RBF神經網絡的電視收視率預測[J].河南科學,2013(9):1428-1431.

[2],田鋼,溫淑鴻.基于BP神經網絡的電視節目收視率預測模型[J].電視技術,2014,38(6):94-96.

[3]張茜,吳超,喬晗,等.基于TEI@I方法論的中國季播電視綜藝節目收視率預測[J].系統工程理論與實踐,2016(11):2905-2914.

[4]黃玲莉,劉小龍.基于ARIMA與BP神經網絡的收視率組合預測模型[J].電視技術2015,39(9):117-121.

[5]胡兵,鄧極.微博對電視劇收視率的影響研究[J].今傳媒,2015(06):32-34.

作者:倪子航 單位:南京市第二十九中學