三亞學(xué)院信息與智能工程學(xué)院 宣哲鵬 駱銷奇 董浩 王義 蒙誠(chéng)新 張晶
想在海量的數(shù)據(jù)信息中找到自己需要的信息,或者信息的制造者要讓其信息在海量的信息中快速被搜索出來,就要用到推薦系統(tǒng)。從量化選股中的應(yīng)用來說,推薦系統(tǒng)挖掘用戶與所選股票數(shù)據(jù)之間的關(guān)系,在大量的股票數(shù)據(jù)中找到用戶可能感興趣的股票,并針對(duì)用戶生成個(gè)性化推薦以滿足個(gè)性化需求。那么,用戶在面對(duì)大量的股市信息時(shí),不能快速在這些信息中找到有用以及與其相關(guān)的信息,本文提出推薦系統(tǒng)應(yīng)用在股票推薦中,對(duì)基本面數(shù)據(jù)、技術(shù)分析數(shù)據(jù)、新聞資訊等多項(xiàng)指標(biāo)進(jìn)行檢測(cè)與匯總,結(jié)合用戶平時(shí)的偏好,為用戶智能推薦符合需求的股票。
推薦系統(tǒng)的興起與互聯(lián)網(wǎng)的發(fā)展緊密相關(guān)。推薦系統(tǒng)的自動(dòng)化協(xié)同過濾系統(tǒng)最早可以追溯到1994 年,明尼蘇達(dá)大學(xué)計(jì)算機(jī)系的GroupLens 研究組設(shè)計(jì)了名為GroupLens 的新聞推薦系統(tǒng)。該工作組不僅首次提出了協(xié)同過濾的思想,并且為推薦問題建立了一個(gè)形式化的模型,給隨后幾十年推薦系統(tǒng)的發(fā)展帶來了巨大影響。該研究組后來創(chuàng)建了MovieLens 推薦網(wǎng)站,一個(gè)推薦引擎的學(xué)術(shù)研究平臺(tái),其包含的數(shù)據(jù)集是迄今為止推薦領(lǐng)域引用量最大的數(shù)據(jù)集。
推薦系統(tǒng)結(jié)構(gòu)一般包括用戶信息獲取和建模、推薦算法研究、推薦系統(tǒng)的評(píng)價(jià)問題。推薦系統(tǒng)根據(jù)股票用戶的興趣需求信息和推薦對(duì)象的模型和特征信息匹配,使用相對(duì)應(yīng)的推薦算法進(jìn)行計(jì)算,找到推薦給股票用戶可能感興趣的股票數(shù)據(jù)信息。
推薦系統(tǒng)通過獲取信息與用戶交互的系統(tǒng)的轉(zhuǎn)化,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到信息獲取中,挖掘股票用戶的內(nèi)含的隱性需求數(shù)據(jù)信息。
根據(jù)股票用戶對(duì)個(gè)性化推薦的實(shí)現(xiàn)接受和認(rèn)可,設(shè)計(jì)出準(zhǔn)確及高效的個(gè)性化推薦算法,內(nèi)容的推薦和協(xié)同過濾是最主要的兩種推薦算法,為了克服各算法的缺點(diǎn),將各種推薦方法混合使用,以提高推薦精度和覆蓋率。
為了使股票用戶接受推薦系統(tǒng),對(duì)推薦系統(tǒng)作客觀綜合的評(píng)價(jià),推薦出來的結(jié)果的準(zhǔn)確性、可信性是非常重要的。
在深入學(xué)習(xí)中,長(zhǎng)短期記憶LSTM可類比于ARIMA 長(zhǎng)期短期記憶模型。LSTM對(duì)RNN 進(jìn)行了結(jié)構(gòu)上的修改,來避免長(zhǎng)期依賴問題。LSTM在股票預(yù)測(cè)中通常分為兩類應(yīng)用:(1)把LSTM輸出結(jié)果看成單信號(hào)從而對(duì)個(gè)股做回測(cè)。(2)把LSTM預(yù)測(cè)結(jié)果看作選擇時(shí)的信號(hào),與另外的選股模型相結(jié)合做回測(cè)。
股票市場(chǎng)和圖像識(shí)別、機(jī)器翻譯等機(jī)器學(xué)習(xí)場(chǎng)景有很大不同。StockRanker 算法能夠充分考慮三者的不同并根據(jù)不同的特點(diǎn),可以同時(shí)對(duì)全市場(chǎng)3000 支股票的數(shù)據(jù)進(jìn)行計(jì)算,并預(yù)測(cè)出股票的大致波動(dòng)。結(jié)合用戶平時(shí)的偏好,為用戶智能推薦符合其需求的股票。StockRanker 算法中的排序?qū)W習(xí)被廣泛應(yīng)用于監(jiān)督學(xué)習(xí)方法,比如推薦系統(tǒng)的候選產(chǎn)品、用戶排序,搜索引擎的文檔排序,機(jī)器翻譯中的候選結(jié)果排序等;StockRanker 算法梯度提升樹(GBDT),有多種算法可以用來完成排序?qū)W習(xí)任務(wù),比如SVM、邏輯回歸、概率模型等;StockRanker開創(chuàng)性地將排序?qū)W習(xí)和選股結(jié)合,并取得顯著的效果。
StockRanker 的結(jié)構(gòu)圖
推薦系統(tǒng)廣泛應(yīng)用于為股票用戶推薦個(gè)性化需求的推薦。一般由基礎(chǔ)數(shù)據(jù)、推薦算法系統(tǒng)、前臺(tái)展示對(duì)用戶的歷史數(shù)據(jù)進(jìn)行處理。以股票用戶訪問頁面、股票的瀏覽、交易的下單、選股的收藏等多維度信息為基礎(chǔ)數(shù)據(jù);個(gè)性化訴求的推薦有多個(gè)算法組成的推薦模型是推薦系統(tǒng)算法系統(tǒng)的主要依據(jù);前臺(tái)展示即通過用戶的客戶端系統(tǒng)的響應(yīng),返回與之相關(guān)的股票推薦信息。
協(xié)同過濾算法是在推薦領(lǐng)域中最廣泛的算法應(yīng)用,被稱為基于用戶行為的推薦算法,其算法不需要預(yù)先獲得用戶或股票的特征數(shù)據(jù),僅依賴用戶的所使用過歷史行為數(shù)據(jù)并對(duì)其進(jìn)行建模,最后推薦給股票用戶。基于用戶的協(xié)同過濾、基于股票的協(xié)同過濾、隱語義模型等是協(xié)同過濾算法的主要內(nèi)容。統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)進(jìn)行分析是基于用戶和股票的協(xié)同過濾,因此也被稱為基于內(nèi)存的協(xié)同過濾或基于鄰域的協(xié)同過濾。推薦系統(tǒng)中的用戶協(xié)同過濾算法獲得了極大的成功,但其算法本身有局限性。股票的協(xié)同過濾算法與用戶的協(xié)同過濾算法基本類似。該算法以用戶對(duì)股票或者信息的偏好為依據(jù),發(fā)現(xiàn)各個(gè)股票之間的相似度,根據(jù)用戶的瀏覽歷史所顯現(xiàn)的偏好信息,將類似度高的股票推薦給用戶。隱語義模型是采用機(jī)器學(xué)習(xí)等算法、學(xué)習(xí)數(shù)據(jù)得出模型,再進(jìn)行預(yù)測(cè)和推薦。
目前,深度神經(jīng)網(wǎng)絡(luò)發(fā)展迅速,為量化選股推薦系統(tǒng)提供了新的特征提取、排序方法,越來越多的推薦引擎將深度神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的推薦算法相結(jié)合,用于解決數(shù)據(jù)稀疏、推薦排序等問題,深度神經(jīng)網(wǎng)絡(luò)和推薦系統(tǒng)的結(jié)合將是推薦系統(tǒng)未來的主要研究方向。讓大多數(shù)用戶接受量化選股推薦系統(tǒng),需要提高推薦選股結(jié)果的準(zhǔn)確性、可信性,如何斷定推薦結(jié)果的準(zhǔn)確性,如何將推薦結(jié)果展示給股票用戶以及如何獲取用戶的評(píng)價(jià),及在推薦算法研究中對(duì)克服各自的缺點(diǎn)將各種推薦方法混合使用都是需要深入研究的問題。