吳曉洲, 萬里明, 韓霄松, 梁艷春, 吳春國,3
(1. 吉林大學 計算機科學與技術學院, 符號計算與知識工程教育部重點實驗室, 長春 130012; 2. 中國人民解放軍空軍裝備研究院 裝備總體論證研究所, 北京 100076; 3. 上海理工大學 管理學院, 上海 200093)
本文基于文獻[1-2]提出一種基于隱馬爾可夫模型的轉錄因子文本挖掘算法HMM-TFM(hidden Markov model based transcription factor name mining), 使用隱馬爾可夫模型在英文文獻中識別轉錄因子名稱, 該方法HMM易于建立, 不需要大規(guī)模的轉錄因子實體詞庫與規(guī)則集.
隱馬爾可夫模型HMM由一個五元組(ΩX,ΩO,A,B,π)表示, 其中:ΩX={X1,…,XN}表示隱藏狀態(tài)集合;ΩO={O1,…,OM}表示觀察值集合;A=(aij)表示狀態(tài)轉移概率矩陣;B=(bi(k))表示觀察值概率矩陣;π=(π1,…,πN)是初始狀態(tài)[3]. 通常簡略地將隱馬爾可夫模型表示成三元組的形式λ={A,B,π}. 觀察值集合與隱藏狀態(tài)集合的選擇對算法的性能至關重要.
HMM-TFM首先將文獻以自然語句為單位處理成觀察值序列, 每個單詞對應一個觀察值. 一些在自然語言中頻繁出現(xiàn)的常用單詞, 如連接詞、 介詞、 系動詞等, 由于其數(shù)量較少, 可標記其真實詞性, 并以真實詞性作為其觀察值, 其他單詞的觀察值是根據(jù)后綴判斷的詞性. 本文的觀察值集合為
ΩO={verb,adv,conj,art,prep,adj,be,noun,punctuation,unknown},
其中: verb表示動詞; adv表示副詞; conj表示連接詞; art表示冠詞; prep表示介詞; adj表示形容詞; be表示系動詞; noun表示名詞; 有從句出現(xiàn)時, 若不考慮標點符號會使句子語法結構變得混亂, 則punctuation表示標點符號也作為一種觀察值; unknown表示根據(jù)后綴無法判斷詞性的單詞. 高頻詞和后綴到觀察值的映射關系列于表1. 由表1可見, 映射關系可判斷多數(shù)單詞的詞性. 如后綴“-ment”對應觀察值noun, 后綴“-ate”對應觀察值verb. 在本文使用的訓練樣本中, 共出現(xiàn)1 095個不同的單詞, 其中只有370個單詞根據(jù)該映射表不能判斷詞性, 即訓練樣本的觀察值序列中, unknown的比例較小.
表1 高頻單詞與后綴到觀察值的映射關系Table 1 Relationship of high-frequency words, suffixes and observations mapping
HMM-TFM算法中隱藏狀態(tài)表示單詞在實際語境中的真實詞性, 本文的隱藏狀態(tài)集合為
ΩX={verb,adv,conj,punctuation,art,prep,adj,be,noun,tf},
其中, 狀態(tài)tf為表示轉錄因子的單詞,其他隱藏狀態(tài)的含義與觀察值集合中對應元素的含義相同, 但觀察值通過判斷后綴得到詞性, 而隱藏狀態(tài)通過人工標記或HMM解碼得到當前語境中的真實詞性.
為了高效過濾掉與轉錄因子無關的語句,本文定義一個謂語集, 通過語句的謂語判斷其是否與轉錄因子的描述相關. 謂語集中包含8個元素, 是通過人工閱讀50篇轉錄因子相關文獻總結出的動詞, 這些動詞在文獻中通常作為謂語描述轉錄因子與啟動子的調控或結合關系. 因此, 在將文獻中語句處理成觀察值序列時, 只需處理謂語集中元素出現(xiàn)的語句. 與建立轉錄因子名稱的詞庫相比, 使用謂語集更簡單易行. 謂語集中元素如下:
predicate{repress,bind,transactivate,regulate,activate,suppress,upregulate,downregulate}.
謂語集中元素作為謂語出現(xiàn)在語句中時, 轉錄因子可能出現(xiàn)在主語或主語從句中. 語句中動詞后面的部分是賓語、 賓語從句或修飾賓語的定語. 在使用謂語篩選語句后, 對于主動語態(tài)語句, 轉錄因子的名稱不會出現(xiàn)在謂語后面, 因此在將語句處理成觀察值序列時, 可不考慮動詞后面的部分; 類似地, 對于被動語態(tài)語句, 則只處理謂語后面的部分. 理論上, 這樣處理可縮短時間序列的長度, 從而降低HMM-TFM算法的時間復雜度和空間復雜度.
以“transcription factor”和“promoter”為關鍵詞在科技引文數(shù)據(jù)庫中進行文獻的采集, 選出50篇英文文獻作為HMM-TFM算法的訓練集. 經(jīng)過人工篩選后共得到969條包含謂語集中動詞的語句, 選出其中100條作為訓練樣本. 通過人工標記詞性得到這些語句的隱藏狀態(tài)序列, 觀察值序列通過上述方法獲得. 訓練得到的初始概率向量為π={0.070 18,0.162 36,0.092 97,0.001 17,0.162 07,0.116 43,0.069 65,0.000 29,0.231 78,0.093 09}. 狀態(tài)轉移概率矩陣和觀察值概率矩陣分別列于表2和表3.
由于文獻長度影響單詞的總得分, 而且有的文獻會同時提到若干個轉錄因子, 因此選擇一個固定的閾值或取最高得分并不合適. 對于每篇文獻, HMM-TFM算法選擇最高分單詞得分的80%作為閾值. 實驗結果表明, 當文獻中只提到一種轉錄因子時, 其得分明顯高于其他單詞, 不會因為將閾值降低到最高得分的80%而將其他單詞識別為轉錄因子名稱. 而文獻中出現(xiàn)多個轉錄因子時, 這些單詞的得分較接近, 這種閾值設定方法能夠避免轉錄因子的遺漏.
表2 狀態(tài)轉移概率矩陣Table 2 State transition probability matrix
表3 觀察值概率矩陣Table 3 Observation likelihood matrix
為了測試HMM-TFM算法的準確性, 本文在Pubmed上以“transcription factor”為關鍵詞選擇150篇文獻作為實驗樣本, 通過人工閱讀標記出190個轉錄因子名稱. HMM-TFM算法共找到181個表示轉錄因子的單詞, 其中有141個與人工標記結果一致. 實驗結果表明, HMM-TFM的查全率和查準率分別為74.2%和77.9%. 與文獻[4-5]中算法性能接近, 但不需要使用轉錄因子名稱詞庫, 通過HMM標記單詞詞性減少了工作量, 更簡單易行.
[1] ZHOU De-yu, HE Yu-lan, Kwoh C K. Semi-supervised Learning of the Hidden Vector State Model for Extracting Protein-Protein Interactions [J]. Artificial Intelligence in Medicine, 2007, 41(3): 209-222.
[2] LIU Jie-bin, SONG Mao-qiang, ZHAO Fang, et al. Second-Order Hidden Markov Model Based on Context [J]. Computer Engineering, 2010, 36(10): 231-233.
[3] ZOU Ling-yun, WANG Zheng-zhi, WANG Yong-xian, et al. Combined Prediction of Transmembrane Topology and Signal Peptide of Beta-Barrel Proteins: Using a Hidden Markov Model and Genetic Algorithms [J]. Computers in Biology and Medicine, 2010, 40(7): 621-628.
[4] Fundel K, Guttler D, Zimmer R, et al. A Simple Approach for Protein Name Identification: Prospects and Limits [J]. BMC Bioinformatics, 2005, 6(Suppl 1): 1-15.
[5] Yang Q, Zheng G Y, Xiong Y, et al. Qnet-BSTM: An Algorithm for Mining Transcription Factor Binding Site from Literature [J]. Journal of Computer Research and Development, 2008, 45(Suppl 1): 323-329.