陳 珂
(蘇州市職業(yè)大學(xué) 計(jì)算機(jī)工程學(xué)院, 江蘇 蘇州 215104)
圖書市場(chǎng)情報(bào)分析在圖書出版和發(fā)行[1]、圖書編輯[2]、圖書館管理[3],在健全學(xué)術(shù)圖書的質(zhì)量評(píng)價(jià)體系等領(lǐng)域有著重要的研究和應(yīng)用價(jià)值[4-6]。
豆瓣(book.douban.com)是國(guó)內(nèi)大型讀書網(wǎng)站的代表,本研究基于豆瓣讀書網(wǎng)站的圖書信息,利用數(shù)據(jù)爬取、數(shù)據(jù)挖掘和清洗、回歸分析等技術(shù)手段對(duì)豆瓣讀書網(wǎng)站數(shù)據(jù)資源進(jìn)行解析、清洗和處理,揭示我國(guó)當(dāng)前圖書市場(chǎng)的現(xiàn)狀和特點(diǎn)。
1)本研究的原始數(shù)據(jù)來(lái)自于豆瓣讀書網(wǎng)站(book.douban.com),利用python編程語(yǔ)言的Scrapy框架(一種對(duì)網(wǎng)站內(nèi)的結(jié)構(gòu)性數(shù)據(jù)進(jìn)行高效挖掘的技術(shù)工具集),實(shí)現(xiàn)對(duì)36 850條有效數(shù)據(jù)進(jìn)行網(wǎng)站內(nèi)的所有圖書網(wǎng)頁(yè)的數(shù)據(jù)爬取和數(shù)據(jù)挖掘。
2)實(shí)施過(guò)程中,通過(guò)降低爬蟲請(qǐng)求新網(wǎng)頁(yè)的頻率(設(shè)置每次請(qǐng)求之間的隨機(jī)延時(shí))和利用隨機(jī)用戶代理機(jī)制(使網(wǎng)站誤以為爬蟲發(fā)出的請(qǐng)求來(lái)源于不同的多個(gè)主機(jī))成功地繞過(guò)網(wǎng)站針對(duì)傳統(tǒng)爬蟲設(shè)置的反爬蟲機(jī)制,爬取了該讀書網(wǎng)站內(nèi)幾乎所有的圖書條目數(shù)據(jù),共計(jì)36 873條。首先數(shù)據(jù)被存成cvs格式文件,通過(guò)數(shù)據(jù)清洗剔除了重復(fù)或包含非法值的數(shù)據(jù),最后得到了整個(gè)豆瓣網(wǎng)站的有效圖書條目共計(jì)36 850條。
由圖1可知,通過(guò)回歸分析降低其他因素的干擾,發(fā)現(xiàn)圖書售價(jià)與評(píng)價(jià)數(shù)之間的確存在著一種近似的負(fù)相關(guān)線性關(guān)系,評(píng)價(jià)數(shù)量隨售價(jià)提高而下降。就每個(gè)售價(jià)區(qū)間而言,評(píng)價(jià)數(shù)越高則圖書數(shù)量越小。對(duì)散點(diǎn)圖表示的圖書售價(jià)與評(píng)價(jià)數(shù)量的數(shù)據(jù)進(jìn)行了直線擬合,得到的擬合直線顯示,國(guó)內(nèi)圖書的評(píng)價(jià)數(shù)與銷售價(jià)格之間總體上呈一個(gè)弱的負(fù)相關(guān)關(guān)系,價(jià)格越高的圖書其獲得的評(píng)價(jià)數(shù)量越小,這一定程度上反映了我國(guó)讀者的購(gòu)書取向?yàn)榈蛢r(jià)圖書銷量高,讀者的反饋性評(píng)價(jià)也就多。
圖1 國(guó)內(nèi)出版圖書評(píng)價(jià)數(shù)與售價(jià)關(guān)系
當(dāng)然,價(jià)格并不是決定圖書銷量的唯一因素,甚至不是最重要的因素。一部圖書獲得熱評(píng)的原因很多,如廣告宣傳的力度、圖書本身或著者的知名度、圖書的類別(歷史、小說(shuō))、同名電影或電視劇的熱播等,這些因素共同作用使得圖書售價(jià)和評(píng)價(jià)數(shù)之間的關(guān)系變得更為模糊。
通過(guò)線性擬合從豆瓣讀書網(wǎng)站挖掘的數(shù)據(jù),得到國(guó)內(nèi)出版圖書評(píng)分與評(píng)價(jià)數(shù)之間的關(guān)系,如圖2所示。在圖2中散點(diǎn)圖為每部書的實(shí)際評(píng)價(jià)數(shù)和評(píng)分的坐標(biāo);直線為評(píng)價(jià)數(shù)與評(píng)分?jǐn)M合關(guān)系直線。
由圖2可知,國(guó)內(nèi)圖書的評(píng)分與圖書評(píng)價(jià)數(shù)量相互獨(dú)立,沒(méi)有相關(guān)性。讀者在評(píng)分時(shí)會(huì)根據(jù)自己的讀書感受和體會(huì)打分,而不會(huì)受圖書的評(píng)價(jià)數(shù)量影響。
圖2 國(guó)內(nèi)出版圖書評(píng)分與評(píng)價(jià)數(shù)之間的關(guān)系
圖書的評(píng)價(jià)數(shù)量受到多重因素的影響,如銷量、廣告、同名影視劇的熱播、名人評(píng)述等,這些外在因素的干擾使得圖書的整體評(píng)價(jià)數(shù)和評(píng)分之間的相互關(guān)系變得模糊不清,會(huì)顯著降低評(píng)價(jià)數(shù)與圖書質(zhì)量(等價(jià)于評(píng)分)之間的相關(guān)性,甚至使它們之間完全獨(dú)立。
為進(jìn)一步分析評(píng)分和評(píng)價(jià)數(shù)量之間的關(guān)系,本研究挑選評(píng)價(jià)數(shù)在所有圖書中排名前15位的熱評(píng)書籍,分析它們的評(píng)價(jià)數(shù)及評(píng)分情況,熱評(píng)圖書(排名前15位)的評(píng)價(jià)數(shù)及評(píng)分情況如圖3所示。
由圖3可知,排名前15位的熱評(píng)書籍的評(píng)分差異顯著,以曹雪芹的古典名著《紅樓夢(mèng)》的9.6分最高,而當(dāng)代作家郭敬明的長(zhǎng)篇小說(shuō)《夢(mèng)里花落知多少》只勉強(qiáng)獲得了中等偏下的7.1分,讀者的評(píng)價(jià)數(shù)量相當(dāng)。這一現(xiàn)象證明了評(píng)分與評(píng)價(jià)數(shù)量之間的無(wú)關(guān)性(或獨(dú)立性)。
圖3 熱評(píng)圖書(排名前15位)的評(píng)價(jià)數(shù)及評(píng)分情況
分析認(rèn)為,一部質(zhì)量一般甚至平庸的圖書,雖然可以通過(guò)包裝、廣告和宣傳推高其銷量和熱度,但這些手段并不能左右讀者對(duì)該書的真實(shí)觀感,最后在讀者的總體評(píng)分中被打回了原形。分析一部作品是否值得推薦時(shí),評(píng)
分是一個(gè)最關(guān)鍵的終極指標(biāo),而評(píng)價(jià)數(shù)量也應(yīng)作為一個(gè)重要的參考指標(biāo)。實(shí)踐中,一方面需要盡力避免那些評(píng)價(jià)數(shù)虛高而評(píng)分較低的圖書;另一方面要警惕那些評(píng)分偏高而評(píng)價(jià)數(shù)量極低的冷門圖書。此時(shí),某些利益關(guān)系人的虛高打分會(huì)左右最終的評(píng)分,從而使得評(píng)分與圖書真實(shí)質(zhì)量之間的誤差風(fēng)險(xiǎn)被顯著放大。
一部質(zhì)量較高的圖書一般在包裝、文風(fēng)、思想、內(nèi)容編排等多方面總體表現(xiàn)更為優(yōu)秀,必然出版成本就更高,銷售價(jià)格也會(huì)高。本研究對(duì)中國(guó)內(nèi)地出版圖書的評(píng)分和售價(jià)之間關(guān)系進(jìn)行了線性回歸分析,得出國(guó)內(nèi)出版圖書評(píng)分與售價(jià)分布圖,如圖4所示。在圖4中散點(diǎn)分布為每部書的售價(jià)和評(píng)分;直線為評(píng)分與售價(jià)的擬合關(guān)系直線。
由圖4可知,評(píng)分的確與售價(jià)存在一定的正相關(guān)關(guān)系。售價(jià)越高,圖書的評(píng)分區(qū)間越窄,證明圖書質(zhì)量大致上隨售價(jià)的提高而有所提升,也即圖書價(jià)格和質(zhì)量之間呈現(xiàn)正相關(guān)關(guān)系。
圖4 國(guó)內(nèi)出版圖書評(píng)分與售價(jià)分布圖
豆瓣網(wǎng)站一個(gè)典型的特點(diǎn)是評(píng)價(jià)數(shù)越高的作品(包括電影和圖書),其觀眾或讀者數(shù)量也越大,即評(píng)價(jià)數(shù)的多寡大體上體現(xiàn)了一部作品的熱門程度。本研究從爬取的圖書大數(shù)據(jù)資源中選取評(píng)價(jià)數(shù)最高的1 000部圖書,根據(jù)它們各自所屬的類型進(jìn)行計(jì)數(shù),提取出排行前十熱門圖書的類型,結(jié)果如圖5所示。
圖5 熱門圖書類型排行(前10個(gè)類型)
由圖5可知,“小說(shuō)”類型獨(dú)占鰲頭,有205部熱門作品,約占1 000部熱評(píng)圖書的20%,準(zhǔn)確反映了國(guó)內(nèi)讀者對(duì)小說(shuō)的喜好程度;占據(jù)榜眼位置的“外國(guó)文學(xué)”,也有164部熱門作品(相當(dāng)于16.4%),考慮到國(guó)內(nèi)出版的“外國(guó)文學(xué)”作品只占整個(gè)圖書市場(chǎng)的4%,因此“外國(guó)文學(xué)”作品中熱門作品的比例要遠(yuǎn)高于其他類型,這充分說(shuō)明了引入國(guó)內(nèi)的“外國(guó)文學(xué)”作品的受歡迎程度要遠(yuǎn)高于國(guó)內(nèi)圖書;占據(jù)第10名的類型“當(dāng)代文學(xué)”僅有29部熱門圖書,其熱門圖書數(shù)量遠(yuǎn)遠(yuǎn)落后第一名“小說(shuō)”。總體來(lái)看,排名前十類別的熱門圖書共有665部熱門作品,約占前1 000部熱門作品的三分之二,可見(jiàn)熱門作品在類型上的聚集度。
本研究還對(duì)上述十類熱評(píng)圖書的評(píng)分均值進(jìn)行了圖表分析,其結(jié)果見(jiàn)圖6。由圖6可知,最熱門的類型“小說(shuō)”,其熱門作品的評(píng)分均值為8.13分,幾乎與豆瓣讀書網(wǎng)站的圖書均值8.15分持平,表明作品的熱門與否并不能左右它們的評(píng)分;平均得分最高的“經(jīng)典”類型,其熱門圖書的評(píng)分均值達(dá)到了9.07分,表明這類作品中絕大部分是優(yōu)秀作品。實(shí)際上,“經(jīng)典”作品通常是古代或近代的絕世佳作,能夠歷經(jīng)數(shù)百年而長(zhǎng)盛不衰,足見(jiàn)其抓住了文學(xué)藝術(shù)中跨時(shí)代甚至超時(shí)代的人類思想的精華,而且經(jīng)典作品往往語(yǔ)言準(zhǔn)確簡(jiǎn)潔,情節(jié)生動(dòng)流暢,躋身熱門圖書有其充分原因;相比之下,當(dāng)代熱評(píng)小說(shuō)雖然更貼合時(shí)代特色,但大多是為不同的讀者群服務(wù)的應(yīng)景之作,注定了它們的影響力會(huì)隨時(shí)代發(fā)展和變化而迅速衰微,很少在多個(gè)不同年齡層次的讀者群中產(chǎn)生共鳴,從而影響了熱門小說(shuō)的總體評(píng)分。
圖6 不同類型熱評(píng)書籍的評(píng)分均值比較
對(duì)我國(guó)出版圖書包括售價(jià)、讀者評(píng)分、熱評(píng)指數(shù)三個(gè)重要的指標(biāo)之間的相關(guān)性進(jìn)行了科學(xué)分析,表明我國(guó)在售圖書的售價(jià)和質(zhì)量(讀者評(píng)分)之間存在一個(gè)弱的正相關(guān)關(guān)系,而圖書的熱門程度(評(píng)價(jià)數(shù)量)與圖書價(jià)格則呈一個(gè)弱的負(fù)相關(guān)關(guān)系,但圖書的熱門程度與圖書質(zhì)量無(wú)關(guān);此外,分析也表明圖書質(zhì)量也與圖書作者的知名度無(wú)關(guān)。讀者在購(gòu)書時(shí),應(yīng)重點(diǎn)權(quán)衡評(píng)分和價(jià)格,而不應(yīng)盲目追隨暢銷書或名著。