在實(shí)際工作中,我們可能經(jīng)常需要從PDF文檔中獲得相關(guān)的內(nèi)容,在沒有安裝Adobe Acrobat的情況下,可以利用Microsoft Office 2007套件中的Microsoft Ofrice Document Imaging組件實(shí)現(xiàn)PDF→DOC之間的轉(zhuǎn)換,具體步驟如下:
第1步:打印為圖像文件
使用Adobe Reader打開相關(guān)的PDF文檔,從“文件”菜單下執(zhí)行“打印”命令,此時(shí)會(huì)彈出“打印”對(duì)話框,由于一般情況下默認(rèn)的打印機(jī)大多為真實(shí)的物理打印機(jī)而非虛擬打印機(jī),因此請(qǐng)從“打印機(jī)”下拉列表框中選擇“Microsoft Office Document ImagingWriter”,然后單擊“確認(rèn)”按鈕。確認(rèn)后即可將PDF文檔輸出為TIFF格式的圖像文件。
第2步:讀取圖像文件
運(yùn)行Microsoft·Office DocumentImaging,這個(gè)組件可以從Office程序組的“Office工具”子程序組下找到。打開剛才所打印的圖像文件。選擇“工具-將文本發(fā)送到Word”的命令,此時(shí)會(huì)彈出對(duì)話框,如果你不需要更改輸出文件夾,那么直接單擊“確定”按鈕,此時(shí)會(huì)提示“必須在執(zhí)行此操作前重新運(yùn)行OCR。這可能需要一些時(shí)間”,確認(rèn)后即可開始轉(zhuǎn)換操作。大家稍等片刻,轉(zhuǎn)換完成后,系統(tǒng)會(huì)自動(dòng)打開Word窗口并顯示從PDF文檔轉(zhuǎn)換而來的文檔內(nèi)容。不過如果PDF文檔比較復(fù)雜的話。某些內(nèi)容例如圖像、表格可能顯示的不太完美。
如果你只是需要獲得PDF文檔中的文字內(nèi)容,那么操作是非常簡(jiǎn)單的,首先使用Adobe Reader打開相關(guān)的PDF文檔,然后從“文件”菜單下執(zhí)行“另存為文本”的命令,在隨之彈出的對(duì)話框中指定保存路徑和文件名,確認(rèn)后需要稍等片刻,保存時(shí)間取決于當(dāng)前文檔的頁(yè)碼,我們很快就可以獲得一份完整的文本文件,至于原文檔中的圖像內(nèi)容。就只能另想它法了。