国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隱馬爾可夫模型的轉錄因子文本挖掘算法

2012-12-06 11:40:48吳曉洲萬里明韓霄松梁艷春吳春國
吉林大學學報(理學版) 2012年2期
關鍵詞:馬爾可夫后綴謂語

吳曉洲, 萬里明, 韓霄松, 梁艷春, 吳春國,3

(1. 吉林大學 計算機科學與技術學院, 符號計算與知識工程教育部重點實驗室, 長春 130012; 2. 中國人民解放軍空軍裝備研究院 裝備總體論證研究所, 北京 100076; 3. 上海理工大學 管理學院, 上海 200093)

本文基于文獻[1-2]提出一種基于隱馬爾可夫模型的轉錄因子文本挖掘算法HMM-TFM(hidden Markov model based transcription factor name mining), 使用隱馬爾可夫模型在英文文獻中識別轉錄因子名稱, 該方法HMM易于建立, 不需要大規(guī)模的轉錄因子實體詞庫與規(guī)則集.

1 基于隱馬爾可夫模型的轉錄因子文本挖掘算法

隱馬爾可夫模型HMM由一個五元組(ΩX,ΩO,A,B,π)表示, 其中:ΩX={X1,…,XN}表示隱藏狀態(tài)集合;ΩO={O1,…,OM}表示觀察值集合;A=(aij)表示狀態(tài)轉移概率矩陣;B=(bi(k))表示觀察值概率矩陣;π=(π1,…,πN)是初始狀態(tài)[3]. 通常簡略地將隱馬爾可夫模型表示成三元組的形式λ={A,B,π}. 觀察值集合與隱藏狀態(tài)集合的選擇對算法的性能至關重要.

HMM-TFM首先將文獻以自然語句為單位處理成觀察值序列, 每個單詞對應一個觀察值. 一些在自然語言中頻繁出現(xiàn)的常用單詞, 如連接詞、 介詞、 系動詞等, 由于其數(shù)量較少, 可標記其真實詞性, 并以真實詞性作為其觀察值, 其他單詞的觀察值是根據(jù)后綴判斷的詞性. 本文的觀察值集合為

ΩO={verb,adv,conj,art,prep,adj,be,noun,punctuation,unknown},

其中: verb表示動詞; adv表示副詞; conj表示連接詞; art表示冠詞; prep表示介詞; adj表示形容詞; be表示系動詞; noun表示名詞; 有從句出現(xiàn)時, 若不考慮標點符號會使句子語法結構變得混亂, 則punctuation表示標點符號也作為一種觀察值; unknown表示根據(jù)后綴無法判斷詞性的單詞. 高頻詞和后綴到觀察值的映射關系列于表1. 由表1可見, 映射關系可判斷多數(shù)單詞的詞性. 如后綴“-ment”對應觀察值noun, 后綴“-ate”對應觀察值verb. 在本文使用的訓練樣本中, 共出現(xiàn)1 095個不同的單詞, 其中只有370個單詞根據(jù)該映射表不能判斷詞性, 即訓練樣本的觀察值序列中, unknown的比例較小.

表1 高頻單詞與后綴到觀察值的映射關系Table 1 Relationship of high-frequency words, suffixes and observations mapping

HMM-TFM算法中隱藏狀態(tài)表示單詞在實際語境中的真實詞性, 本文的隱藏狀態(tài)集合為

ΩX={verb,adv,conj,punctuation,art,prep,adj,be,noun,tf},

其中, 狀態(tài)tf為表示轉錄因子的單詞,其他隱藏狀態(tài)的含義與觀察值集合中對應元素的含義相同, 但觀察值通過判斷后綴得到詞性, 而隱藏狀態(tài)通過人工標記或HMM解碼得到當前語境中的真實詞性.

為了高效過濾掉與轉錄因子無關的語句,本文定義一個謂語集, 通過語句的謂語判斷其是否與轉錄因子的描述相關. 謂語集中包含8個元素, 是通過人工閱讀50篇轉錄因子相關文獻總結出的動詞, 這些動詞在文獻中通常作為謂語描述轉錄因子與啟動子的調控或結合關系. 因此, 在將文獻中語句處理成觀察值序列時, 只需處理謂語集中元素出現(xiàn)的語句. 與建立轉錄因子名稱的詞庫相比, 使用謂語集更簡單易行. 謂語集中元素如下:

predicate{repress,bind,transactivate,regulate,activate,suppress,upregulate,downregulate}.

謂語集中元素作為謂語出現(xiàn)在語句中時, 轉錄因子可能出現(xiàn)在主語或主語從句中. 語句中動詞后面的部分是賓語、 賓語從句或修飾賓語的定語. 在使用謂語篩選語句后, 對于主動語態(tài)語句, 轉錄因子的名稱不會出現(xiàn)在謂語后面, 因此在將語句處理成觀察值序列時, 可不考慮動詞后面的部分; 類似地, 對于被動語態(tài)語句, 則只處理謂語后面的部分. 理論上, 這樣處理可縮短時間序列的長度, 從而降低HMM-TFM算法的時間復雜度和空間復雜度.

2 實驗結果

以“transcription factor”和“promoter”為關鍵詞在科技引文數(shù)據(jù)庫中進行文獻的采集, 選出50篇英文文獻作為HMM-TFM算法的訓練集. 經(jīng)過人工篩選后共得到969條包含謂語集中動詞的語句, 選出其中100條作為訓練樣本. 通過人工標記詞性得到這些語句的隱藏狀態(tài)序列, 觀察值序列通過上述方法獲得. 訓練得到的初始概率向量為π={0.070 18,0.162 36,0.092 97,0.001 17,0.162 07,0.116 43,0.069 65,0.000 29,0.231 78,0.093 09}. 狀態(tài)轉移概率矩陣和觀察值概率矩陣分別列于表2和表3.

由于文獻長度影響單詞的總得分, 而且有的文獻會同時提到若干個轉錄因子, 因此選擇一個固定的閾值或取最高得分并不合適. 對于每篇文獻, HMM-TFM算法選擇最高分單詞得分的80%作為閾值. 實驗結果表明, 當文獻中只提到一種轉錄因子時, 其得分明顯高于其他單詞, 不會因為將閾值降低到最高得分的80%而將其他單詞識別為轉錄因子名稱. 而文獻中出現(xiàn)多個轉錄因子時, 這些單詞的得分較接近, 這種閾值設定方法能夠避免轉錄因子的遺漏.

表2 狀態(tài)轉移概率矩陣Table 2 State transition probability matrix

表3 觀察值概率矩陣Table 3 Observation likelihood matrix

為了測試HMM-TFM算法的準確性, 本文在Pubmed上以“transcription factor”為關鍵詞選擇150篇文獻作為實驗樣本, 通過人工閱讀標記出190個轉錄因子名稱. HMM-TFM算法共找到181個表示轉錄因子的單詞, 其中有141個與人工標記結果一致. 實驗結果表明, HMM-TFM的查全率和查準率分別為74.2%和77.9%. 與文獻[4-5]中算法性能接近, 但不需要使用轉錄因子名稱詞庫, 通過HMM標記單詞詞性減少了工作量, 更簡單易行.

[1] ZHOU De-yu, HE Yu-lan, Kwoh C K. Semi-supervised Learning of the Hidden Vector State Model for Extracting Protein-Protein Interactions [J]. Artificial Intelligence in Medicine, 2007, 41(3): 209-222.

[2] LIU Jie-bin, SONG Mao-qiang, ZHAO Fang, et al. Second-Order Hidden Markov Model Based on Context [J]. Computer Engineering, 2010, 36(10): 231-233.

[3] ZOU Ling-yun, WANG Zheng-zhi, WANG Yong-xian, et al. Combined Prediction of Transmembrane Topology and Signal Peptide of Beta-Barrel Proteins: Using a Hidden Markov Model and Genetic Algorithms [J]. Computers in Biology and Medicine, 2010, 40(7): 621-628.

[4] Fundel K, Guttler D, Zimmer R, et al. A Simple Approach for Protein Name Identification: Prospects and Limits [J]. BMC Bioinformatics, 2005, 6(Suppl 1): 1-15.

[5] Yang Q, Zheng G Y, Xiong Y, et al. Qnet-BSTM: An Algorithm for Mining Transcription Factor Binding Site from Literature [J]. Journal of Computer Research and Development, 2008, 45(Suppl 1): 323-329.

猜你喜歡
馬爾可夫后綴謂語
非謂語動詞
非謂語動詞
非謂語動詞題不難答 石娟
河北霸州方言后綴“乎”的研究
保費隨機且?guī)в屑t利支付的復合馬爾可夫二項模型
TalKaholic話癆
說“迪烈子”——關于遼金元時期族名后綴問題
基于SOP的核電廠操縱員監(jiān)視過程馬爾可夫模型
一種基于后綴排序快速實現(xiàn)Burrows-Wheeler變換的方法
應用馬爾可夫鏈對品牌手機市場占有率進行預測
安溪县| 吉木萨尔县| 静宁县| 吉安市| 香港 | 闸北区| 淄博市| 武汉市| 邯郸县| 永兴县| 比如县| 天气| 中卫市| 阳高县| 长子县| 兴安盟| 晋城| 乌审旗| 北宁市| 凌海市| 乌苏市| 岑巩县| 来凤县| 高唐县| 望都县| 夏津县| 敖汉旗| 江门市| 英吉沙县| 晋江市| 特克斯县| 巧家县| 满洲里市| 城口县| 航空| 和龙市| 县级市| 东乌珠穆沁旗| 枣阳市| 万年县| 五大连池市|