国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Tom cat環(huán)境下JSP中文亂碼問(wèn)題的解決

2011-08-15 00:53
關(guān)鍵詞:亂碼編碼方式表單

彭 立

(湖南第一師范學(xué)院信息科學(xué)與工程系,湖南 長(zhǎng)沙 410205)

Tom cat環(huán)境下JSP中文亂碼問(wèn)題的解決

彭 立

(湖南第一師范學(xué)院信息科學(xué)與工程系,湖南 長(zhǎng)沙 410205)

Web服務(wù)器Tom cat的中文亂碼問(wèn)題給軟件開發(fā)人員帶來(lái)了很大的困惑。為解決這一問(wèn)題,可通過(guò)分析各種編碼方式之間的相互轉(zhuǎn)換,發(fā)現(xiàn)中文亂碼問(wèn)題的根源,并對(duì)各種出錯(cuò)情況進(jìn)行分析,找出解決問(wèn)題的辦法。

Tomcat;JSP;中文亂碼;編碼;轉(zhuǎn)換

一、引言

Tomcat作為SUN公司官方推薦的JSP和Servlet容器,因其開源、免費(fèi)、跨平臺(tái)、配置簡(jiǎn)單等特點(diǎn),得到了廣大軟件開發(fā)人員的喜愛。然而,在中文操作系統(tǒng)上用Tomcat作為Web服務(wù)器來(lái)開發(fā)網(wǎng)站時(shí),會(huì)出現(xiàn)中文亂碼問(wèn)題,從而給軟件開發(fā)人員帶來(lái)了很大的困惑。有人對(duì)這些問(wèn)題進(jìn)行過(guò)分析,但提出的解決辦法并不全面也不完全正確。Tomcat環(huán)境下的中文亂碼問(wèn)題涉及范圍很廣,本文旨在解決其中的一類問(wèn)題:JSP中文亂碼問(wèn)題?,F(xiàn)將Tomcat環(huán)境下常見的JSP中文亂碼問(wèn)題列舉如下:

問(wèn)題一:JSP(以下都將JSP文件簡(jiǎn)稱為JSP)本身包含的中文內(nèi)容在IE(以下都將IE瀏覽器簡(jiǎn)稱為IE)中顯示為亂碼。

問(wèn)題二:表單通過(guò)POST方式提交給JSP的中文信息在IE中顯示為亂碼。

問(wèn)題三:表單通過(guò)GET方式提交給JSP的中文信息在IE中顯示為亂碼。

為了解決Tomcat環(huán)境下JSP中文亂碼問(wèn)題,有必要先了解該環(huán)境下使用的編碼方式。

二、Tom cat的編碼方式

解決其他系統(tǒng)軟件的中文亂碼問(wèn)題所獲得的經(jīng)驗(yàn)告訴我們,中文亂碼問(wèn)題往往跟字符的編碼方式有關(guān)。編碼方式是指字符在計(jì)算機(jī)內(nèi)的表現(xiàn)形式,也就是機(jī)內(nèi)碼。在Tomcat環(huán)境下使用的編碼方式(即字符集)主要有四種:UNICODE、UFT-8、GB2312-80/GBK和ISO-8859-1。

(一)UN ICODE

UNICODE是Java內(nèi)部采用的編碼方式,也就是說(shuō),當(dāng)Java程序運(yùn)行時(shí),數(shù)據(jù)都會(huì)轉(zhuǎn)換為UNICODE編碼保存在內(nèi)存中。UNICODE是DBCS(雙字節(jié)字符集),它和任意國(guó)家/區(qū)域使用的本地字符集之間存在相互映射的關(guān)系,通過(guò)這樣一種映射關(guān)系,它和本地字符集可相互轉(zhuǎn)換。Java虛擬機(jī)通過(guò)操作系統(tǒng)的Codepage得知系統(tǒng)采用的字符集后,就可以使Java程序中的數(shù)據(jù)在UNICODE編碼和本地字符編碼之間相互轉(zhuǎn)換。

(二)UTF-8

UTF-8以8個(gè)二進(jìn)制位為單元對(duì)UNICODE進(jìn)行編碼,它是網(wǎng)絡(luò)數(shù)據(jù)傳輸以及Java類文件所采用的編碼方式。Tomcat環(huán)境下的JSP編譯成的Servlet類文件就是以UTF-8編碼方式保存的。UTF-8編碼的長(zhǎng)度不一,通常西文字符為一個(gè)字節(jié),而漢字需三個(gè)字節(jié)。

(三)GB2312-80/GBK

GB2312-80/GBK是漢字的國(guó)際碼。中文操作系統(tǒng)中漢字的編碼方式都為GB2312-80/GBK,而西文字符的編碼方式為ISO-8859-1。GB2312-80/GBK是DBCS,其中GB2312-80只能表示簡(jiǎn)體字,它包含了大部分常用的一、二級(jí)漢字和9區(qū)的符號(hào);GBK是GB2312-80 的擴(kuò)展,既可表示簡(jiǎn)體字也可表示繁體字,它包含了20902個(gè)漢字,其編碼范圍是0X8140~0XFEFE,剔除高字節(jié)為0X80的字位,其所有字符都可以一對(duì)一映射到UNICODE 2.0。

(四)ISO-8859-1

ISO-8859-1是SBCS(單字節(jié)字符集),屬于西歐字符集,它是Tomcat默認(rèn)的編碼方式。如無(wú)特殊說(shuō)明,在編譯JSP時(shí),Tomcat會(huì)把JSP的編碼方式默認(rèn)看成ISO-8859-1;接收表單輸入數(shù)據(jù)時(shí),Tomcat會(huì)將數(shù)據(jù)的編碼方式默認(rèn)看成ISO-8859-1;輸出數(shù)據(jù)到IE時(shí),Tomcat會(huì)默認(rèn)將數(shù)據(jù)從UNICODE編碼轉(zhuǎn)換為ISO-8859-1編碼。

三、編碼方式的轉(zhuǎn)換

在Java程序運(yùn)行時(shí),數(shù)據(jù)以UNICODE編碼的形式保存在內(nèi)存中,Tomcat根據(jù)需要,可將其轉(zhuǎn)換為UFT-8編碼、GB2312-80編碼或ISO-8859-1編碼,也可轉(zhuǎn)換回來(lái)。Tomcat環(huán)境下的JSP從編譯到輸出,中間要經(jīng)過(guò)多次編碼轉(zhuǎn)換;JSP接收表單數(shù)據(jù)后輸出到IE,期間也涉及到多次編碼轉(zhuǎn)換。

(一)UN ICODE和UFT-8之間的轉(zhuǎn)換

UNICODE和UFT-8之間的轉(zhuǎn)換通常是網(wǎng)絡(luò)傳輸和保存文件的需要。因?yàn)閁NICODE和UFT-8是一一對(duì)應(yīng)的,這兩者之間的轉(zhuǎn)換通常不會(huì)造成中文亂碼問(wèn)題。

(二)UN ICODE和GB2312-80之間的轉(zhuǎn)換

GB2312-80中所有的字符編碼都可轉(zhuǎn)換為對(duì)應(yīng)的UNICODE編碼,例如,漢字“你”的GB2312-80編碼為0XC4E3,對(duì)應(yīng)的UNICODE編碼為U4F60。但是,一個(gè)不在GB2312-80中的字符編碼被當(dāng)作GB2312-80轉(zhuǎn)換為UNICODE時(shí),會(huì)被轉(zhuǎn)換為一個(gè)特殊編碼UFFFD。反過(guò)來(lái),并不是所有的UNICODE編碼都能轉(zhuǎn)換為GB2312-80編碼,只有漢字字符的UNICODE編碼才能被轉(zhuǎn)換為對(duì)應(yīng)的GB2312-80編碼,例如,漢字“好”的 UNICODE編碼為U597D,對(duì)應(yīng)的GB2312-80編碼為0XBAC3。不能映射到GB2312-80的UNICODE編碼轉(zhuǎn)換為GB2312-80編碼時(shí),結(jié)果為0X3F,顯示出來(lái)是“?”。又如,U00D6轉(zhuǎn)換為GB2312-80編碼為0X3F。UNICODE編碼U00A0~U00FF之間有20個(gè)編碼在轉(zhuǎn)換為GB2312-80編碼后,顯示出來(lái)都是亂碼字符。再如,U00EC轉(zhuǎn)換為GB2312-80編碼為0XA8AC,顯示出來(lái)為亂碼字符“ì”。

(三)UN ICODE和ISO-8859-1之間的轉(zhuǎn)換

ISO-8859-1中所有的字符編碼都可轉(zhuǎn)換為對(duì)應(yīng)的UNICODE編碼,轉(zhuǎn)換方法為:在ISO-8859-1編碼的前面加上0X00。例如字符“A”的ISO-8859-1編碼為0X41,對(duì)應(yīng)的UNICODE編碼為0X0041。一個(gè)不在ISO-8859-1中的字符編碼被轉(zhuǎn)換為UNICODE編碼時(shí),系統(tǒng)并不效驗(yàn)被轉(zhuǎn)換的是否為ISO-8859-1編碼,而是直接按轉(zhuǎn)換方法在編碼的前面加上0X00。反過(guò)來(lái),并不是所有的UNICODE編碼都能轉(zhuǎn)換為ISO-8859-1編碼。如果UNICODE中某個(gè)字符編碼能被轉(zhuǎn)換為ISO-8859-1編碼,那么它的高字節(jié)必為0X00,去掉高字節(jié)0X00,保留低字節(jié),便形成了對(duì)應(yīng)的ISO-8859-1編碼,例如,字符“B”的UNICODE編碼為 U0042,對(duì)應(yīng)的ISO-8859-1編碼為0X42。不能映射到ISO-8859-1的UNICODE編碼被轉(zhuǎn)換為ISO-8859-1編碼時(shí),結(jié)果為0X3F,顯示出來(lái)是“?”,又如漢字“好”的UNICODE編碼為U597D,轉(zhuǎn)換為ISO-8859-1編碼為0X3F[1]。

四、Tom cat中文亂碼問(wèn)題的原因

在Tomcat環(huán)境下,字符通常要經(jīng)過(guò)“編碼方式A→UNICODE→編碼方式B”這樣一個(gè)過(guò)程,才能最終輸出。

現(xiàn)以漢字“的”為例,看看在GB2312-80→UNICODE→ISO-8859-1和 ISO-8859-1→UNICODE→GB2312-80這兩種情況下分別會(huì)出現(xiàn)什么問(wèn)題。“的”字的GB2312-80編碼為0XB5C4。在第一種情況下,“的”字的編碼方式被看作是GB2312-80,轉(zhuǎn)換成的UNICODE編碼為U7684,再由UNICODE編碼轉(zhuǎn)換成ISO-8859-1編碼后,結(jié)果是0X3F,顯示出來(lái)是一個(gè)“?”號(hào)。在第二種情況下,“的”字的編碼方式被看作ISO-8859-1,轉(zhuǎn)換成的UNICODE編碼為U00B5U00C4,再由UNICODE編碼轉(zhuǎn)化為GB2312-80編碼后,結(jié)果是0XA6CC0X3F,顯示出來(lái)是“μ?”這樣兩個(gè)亂碼字符。

可以看出以上兩種情況都會(huì)造成中文亂碼問(wèn)題,錯(cuò)誤的編碼轉(zhuǎn)換過(guò)程是Tomcat中文亂碼問(wèn)題的根源。

五、JSP中文亂碼問(wèn)題的分析和解決

(一)問(wèn)題一的分析和解決

Tomcat環(huán)境下的JSP被IE訪問(wèn)時(shí)要經(jīng)過(guò)“編譯成Servlet→載入運(yùn)行→輸出到IE”這樣三個(gè)階段?,F(xiàn)分析一下在每個(gè)階段中編碼方式是如何轉(zhuǎn)換的。

1.編譯成Servlet

當(dāng)JSP被IE訪問(wèn)時(shí),Tomcat會(huì)采取以下方式來(lái)判斷JSP采用了哪種編碼方式:首先,它會(huì)檢查JSP中是否有 <%@page pageEncoding=”xx”%> 這行語(yǔ)句(只有JSP2.0才支持這種的語(yǔ)句),如果有,它會(huì)把JSP的編碼方式看成是xx;否則,它會(huì)檢查JSP 中 是 否 有 <%@page contentType=”text/html;charset=yy”%>這行語(yǔ)句,如果有,它會(huì)把JSP的編碼方式看成是yy;如果兩者都無(wú),它會(huì)把JSP的編碼方式默認(rèn)看成ISO-8859-1。確定了JSP的編碼方式后(盡管不一定與實(shí)際相符),Tomcat會(huì)將JSP從該編碼方式轉(zhuǎn)換為UNICODE編碼[2],并將UNICODE編碼的JSP編譯為Servlet類文件,然后將Servlet類文件從UNICODE編碼轉(zhuǎn)換為UFT-8編碼,并保存在磁盤上。

2.載入運(yùn)行

JSP編譯成的Servlet類文件被載入內(nèi)存運(yùn)行時(shí),Tomcat會(huì)將Servlet類文件由UFT-8編碼轉(zhuǎn)換回UNICODE編碼。因?yàn)閁FT-8編碼和UNICODE編碼是一一對(duì)應(yīng)的,UFT-8和UNICODE間的相互轉(zhuǎn)換不會(huì)導(dǎo)致亂碼問(wèn)題。

3.輸出到IE

Servlet將信息輸出到IE之前,Tomcat會(huì)檢查其對(duì)應(yīng)的 JSP中是否有 <%@page contentType=”text/html;charset=xx”%>這行語(yǔ)句。如果有,Tomcat會(huì)將輸出信息由UNICODE編碼轉(zhuǎn)換為xx編碼,然后輸出到IE,IE的編碼方式也會(huì)自動(dòng)被設(shè)置為xx;如果JSP中沒有以上語(yǔ)句,但有<%@page pageEncoding=”yy”%> 這行語(yǔ)句,Tomcat會(huì)將輸出信息由UNICODE編碼轉(zhuǎn)換為yy編碼,然后輸出到IE,IE的編碼方式也會(huì)自動(dòng)被設(shè)置為yy;如果JSP中以上兩種語(yǔ)句都沒有,Tomcat會(huì)將輸出信息由UNICODE編碼默認(rèn)轉(zhuǎn)換為ISO-8859-1編碼,然后輸出到IE,IE的編碼方式會(huì)被自動(dòng)設(shè)置為ISO-8859-1。

通過(guò)以上分析可以看出,Tomcat環(huán)境下的JSP被IE訪問(wèn)時(shí)要經(jīng)過(guò)“編碼方式A→UNICODE→編碼方式B”這樣一個(gè)過(guò)程,這一過(guò)程中的錯(cuò)誤編碼轉(zhuǎn)換會(huì)導(dǎo)致問(wèn)題一的出現(xiàn)。問(wèn)題一通常由以下兩種情況造成:

情況一:JSP中沒有包含語(yǔ)句 <%@page pageEncoding=”xx”%> 和 <%@page contentType=”text/html;charset=yy”%>。假設(shè)JSP中有一漢字“的”(以下都以“的”字為例),現(xiàn)分析為什么“的”字在IE中顯示時(shí)會(huì)變成亂碼。在中文操作系統(tǒng)中,JSP以GB2312-80編碼保存,因此,JSP文件中“的”字的編碼為0XB5C4。因?yàn)镴SP中沒有以上兩種語(yǔ)句,在對(duì)JSP進(jìn)行編譯時(shí),Tomcat會(huì)把JSP的編碼方式默認(rèn)當(dāng)作ISO-8859-1,從而將0XB5C4轉(zhuǎn)換為UNICODE編碼U00B5U00C4。Servlet輸出信息到IE時(shí),因JSP源文件中沒有以上兩種語(yǔ)句,Tomcat會(huì)將UNICODE編碼U00B5U00C4轉(zhuǎn)換為ISO-8859-1編碼0XB5C4,然后輸出到IE。因?yàn)镮E的編碼方式會(huì)被自動(dòng)設(shè)置為ISO-8859-1,它將編碼0XB5C4顯示為亂碼“μ?”。

情況二:JSP中同時(shí)包含有語(yǔ)句 <%@page pageEncoding=”xx”% > 和 <%@page contentType=”text/htm l;charset=yy”%>,但xx和yy之中只有一個(gè)為GB2312-80,另一個(gè)為ISO-8859-1。如果xx為GB2312-80,yy 為 ISO-8859-1,“的”字在輸出時(shí),它的編碼會(huì)經(jīng)歷0XB5C4→U7684→0X3F這樣一個(gè)轉(zhuǎn)換過(guò)程,最終在IE中顯示為一個(gè)“?”號(hào)。如果xx 為 ISO-8859-1,yy 為 GB2312-80,“的”字在輸出時(shí),它的編碼會(huì)經(jīng)歷0X B5C4→U00b5U00c4→0XA6CC0X3F這樣一個(gè)轉(zhuǎn)換過(guò)程,最終在IE中顯示為“μ?”這樣兩個(gè)亂碼字符。

解決問(wèn)題一的方法很簡(jiǎn)單,只要在JSP中包含語(yǔ) 句 <%@page pageEncoding=”GB2312-80”%> 或<%@page contentType=”text/htm l;charset=GB2312-80”%>即可,這樣就可以保證JSP中的中文內(nèi)容在編譯時(shí)由GB2312-80編碼轉(zhuǎn)換為UNICODE編碼,在輸出時(shí)由UNICODE編碼轉(zhuǎn)換回GB2312-80編碼。如果要在JSP中同時(shí)使用這兩種語(yǔ)句,要確保兩種語(yǔ)句中的編碼方式都為GB2312-80。

(二)問(wèn)題二、問(wèn)題三的分析和解決

除了被IE直接訪問(wèn),JSP還可以被表單調(diào)用,從而實(shí)現(xiàn)表單輸入信息由JSP接收后再輸出到IE顯示。表單調(diào)用JSP時(shí),實(shí)質(zhì)上是調(diào)用其編譯而成的Servlet。表單輸入信息由IE傳給Tomcat,再由Tomcat傳給運(yùn)行中的Servlet,最后由Servlet輸出到IE進(jìn)行顯示。之前已對(duì)Servlet輸出信息到IE時(shí)出現(xiàn)的編碼轉(zhuǎn)換進(jìn)行過(guò)分析,這里不再贅述,接下來(lái)只對(duì)表單輸入信息經(jīng)Tomcat傳遞給Servlet時(shí)出現(xiàn)的編碼轉(zhuǎn)換進(jìn)行分析。表單調(diào)用JSP時(shí),通常采取兩種方式:POST方式和GET方式。

1.POST方式

在POST方式下,表單輸入數(shù)據(jù)放在IE請(qǐng)求消息的實(shí)體部分傳給Tomcat。Servlet中的Request對(duì)象通過(guò)getParameter方法向Tomcat請(qǐng)求表單輸入數(shù)據(jù)時(shí),Tomcat會(huì)檢查Request對(duì)象的編碼方式屬性。如果在Request對(duì)象調(diào)用getParameter方法之前,其編碼方式屬性已通過(guò)request.setCharacterEncoding(“xx”)語(yǔ)句被設(shè)置成xx,Tomcat會(huì)把輸入數(shù)據(jù)的編碼方式看成是xx。如果Servlet中沒有這行語(yǔ)句,Tomcat會(huì)將輸入數(shù)據(jù)的編碼方式默認(rèn)看成是ISO-8859-1。確定了表單輸入數(shù)據(jù)的編碼方式后(盡管不一定與實(shí)際相符),Tomcat會(huì)將輸入數(shù)據(jù)從該編碼方式轉(zhuǎn)換為UNICODE編碼,然后傳遞給Servlet[3]。

可以發(fā)現(xiàn)在POST方式下,表單輸入數(shù)據(jù)通過(guò)JSP輸出到IE時(shí),同樣要經(jīng)歷“編碼方式A→UNICODE→編碼方式B”這樣一個(gè)過(guò)程,這一過(guò)程中的錯(cuò)誤編碼轉(zhuǎn)換會(huì)導(dǎo)致問(wèn)題二的出現(xiàn)。問(wèn)題二通常由以下兩種情況造成(假定在這兩種情況中,表單所在的HTML頁(yè)面的編碼方式都為GB2312-80,那么表單中的漢字信息在傳給Tomcat時(shí),編碼方式都為GB2312-80):

情況一:JSP中既沒有語(yǔ)句<%@page pageEncoding=”xx”%> 和 <%@page contentType=”textml;charset=yy”%>,也沒有語(yǔ)句request.setCharacterEncoding(“zz”)。因?yàn)镴SP中沒有語(yǔ)句request.setCharacterEncoding(“zz”),Tomcat會(huì)將表單輸入數(shù)據(jù)的編碼方式看成是ISO-8859-1,并轉(zhuǎn)換成UNICODE編碼,因此“的”字的編碼會(huì)從0XB5C4轉(zhuǎn)換為U00B5U00C4。Servlet輸出信息到IE時(shí),因?yàn)镴SP中沒有語(yǔ)句 <%@page pageEncoding=”xx”%> 和<%@page contentType=”textml;charset=yy”%>,Tomcat會(huì)將編碼U00B5U00C4轉(zhuǎn)換為ISO-8859-1編碼0XB5C4,并輸出到IE。因?yàn)镮E的編碼方式會(huì)被自動(dòng)設(shè)置為ISO-8859-1,編碼0XB5C4顯示為亂碼“μ?”。

情況二:JSP中包含有語(yǔ)句<%@page pageEncoding=”GB2312-80”%> 或 <%@page contentType=”textml;charset=GB2312-80”%>,但沒有語(yǔ)句request.setCharacterEncoding(“zz”)。情況二和情況一的不同之處在于:情況二的JSP中包含了語(yǔ)句<%@page pageEncoding=”GB2312-80”%> 或 <%@page content-Type=”textml;charset=GB2312-80”%>,因此”的“字被Servlet輸出到IE時(shí),它的編碼會(huì)從U00B5U00B4轉(zhuǎn)換為GB2312-80編碼0XA6CC0X3F,輸出到IE顯示為“μ?”這樣兩個(gè)亂碼字符。

解決問(wèn)題二有兩種方法。

方法一:確保JSP中包含有語(yǔ)句<%@page pageEncoding=”GB2312-80”%> 或 <%@page content-Type=”textm l;charset=GB2312-80”%>,此外,在 Request對(duì)象調(diào)用getParameter方法之前加上語(yǔ)句request.setCharacterEncoding(“GB2312-80”)。這種方法可確保表單中輸入的中文信息通過(guò)JSP輸出到IE時(shí)會(huì)經(jīng)過(guò)GB2312-80→UNICODE→GB2312-80這樣一個(gè)正確的編碼轉(zhuǎn)換過(guò)程。

方法二:確保JSP中包含有語(yǔ)句<%@page pageEncoding=”GB2312-80”%> 和 <%@page content-Type=”textml;charset=GB2312-80”%>,此外,將 Request對(duì)象調(diào)用getParameter方法的語(yǔ)句改為String Output=new(request.getParameter(“Input”).getBytes(“ISO8859_1”)),然后輸出字符串Output即可?,F(xiàn)說(shuō)明一下這種方法為什么可行。在request.getParameter(“Input”)執(zhí)行之前,并沒有設(shè)置Request對(duì)象的編碼方式,因此表單中漢字的編碼方式被當(dāng)成是ISO-8859-1,然后轉(zhuǎn)換成UNICODE傳給Servlet,因而,“的”字的編碼從0XB5C4轉(zhuǎn)換為U00B5U00C4。調(diào)用了getBytes(“ISO8859_1”)方法后,“的”字的編碼又變回了0XB5C4,相當(dāng)于又變成了GB2312-80編碼。通過(guò)new方法生成字符串 Output時(shí),該GB2312-80編碼會(huì)轉(zhuǎn)換成對(duì)應(yīng)的UNICODE編碼。在字符串Output被輸出時(shí),字符串的內(nèi)容從UNICODE編碼轉(zhuǎn)換成GB2312-80編碼輸出。通過(guò)以上分析發(fā)現(xiàn),該方法可確保表單中輸入的中文信息通過(guò)JSP輸出時(shí)會(huì)經(jīng)過(guò)ISO-8859-1→UNICODE→ISO-8859-1(GB2312-80)→UNICODE→GB2312-80這樣一個(gè)正確的編碼轉(zhuǎn)換過(guò)程。

2.GET方式

在GET方式下,表單輸入數(shù)據(jù)放在IE請(qǐng)求消息的請(qǐng)求行之中傳給Tomcat。通過(guò)查看Tomcat的源代碼可以發(fā)現(xiàn),Tomcat對(duì)GET方式下表單輸入數(shù)據(jù)的處理采用了和POST方式不同的方法。當(dāng)Request對(duì)象通過(guò)getParameter方法向Tomcat請(qǐng)求表單輸入數(shù)據(jù)時(shí),Tomcat不會(huì)檢查Request對(duì)象的編碼方式屬性,而是檢查配置文件server.xml中port值為 8080的 connector元素的 URIEncoding屬性,并將表單輸入數(shù)據(jù)的編碼方式看成URIEncoding屬性所設(shè)置的編碼方式。如果server.xml中port值為8080的connector元素沒有對(duì)URIEncoding屬性進(jìn)行設(shè)置,Tomcat會(huì)將輸入數(shù)據(jù)的編碼方式默認(rèn)當(dāng)作ISO-8859-1[4]。

知道了Tomcat在GET方式下對(duì)表單輸入數(shù)據(jù)所采用的處理方法,不難為問(wèn)題三找到解決辦法,主要有兩種:

方法一:確保JSP中包含有語(yǔ)句<%@page pageEncoding=”GB2312-80”%> 或 <%@page content-Type=”textml;charset=GB2312-80”%>,此外,將配置文件server.xml中port值為8080的connector元素的URIEncoding屬性設(shè)置為GB2312-80。這種方法可確保表單中輸入的中文信息通過(guò)JSP輸出到IE時(shí)會(huì)經(jīng)過(guò)GB2312-80→UNICODE→GB2312-80這樣一個(gè)正確的編碼轉(zhuǎn)換過(guò)程。

方法二:確保JSP中包含有語(yǔ)句<%@page pageEncoding=”GB2312-80”%> 和 <%@page content-Type=”textml;charset=GB2312-80”%>,此外,將 JSP中Request對(duì)象調(diào)用getParameter方法的語(yǔ)句改為String Output=new(request.getParameter(“Input”).get-Bytes(“ISO8859_1”)),然后輸出字符串Output即可。此方法可行的原因和問(wèn)題二的方法二相同,此處不再累述。這種方法可確保表單中輸入的中文信息通過(guò) JSP輸出到 IE時(shí)會(huì)經(jīng)過(guò) ISO-8859-1→UNICODE→ISO-8859-1(GB2312-80)→UNICODE→GB2312-80這樣一個(gè)正確的編碼轉(zhuǎn)換過(guò)程。

六、結(jié)語(yǔ)

Tomcat環(huán)境下JSP中文亂碼問(wèn)題的根源是錯(cuò)誤的編碼轉(zhuǎn)換過(guò)程,對(duì)各種出錯(cuò)情況進(jìn)行分析后,不難找出這些問(wèn)題的解決辦法。以上分析對(duì)解決Tomcat環(huán)境下其他類型的中文亂碼問(wèn)題也具有指導(dǎo)作用。文中的測(cè)試都是在Tomcat5.0.28下進(jìn)行的,所有的解決方法都在該版本下驗(yàn)證通過(guò)。

[1]JrneforsO.AshortoverviewofISO/IEC10646andUni code[DB/OL].http://www.nada.kth.se/i18n/ucs/unicodeiso10646-oview.htm l

[2]LindenbergN.DevelopingMultilingualWebApplications UsingJavaServerPagesTechnology[DB/OL].http://java.sun.com/developer/technicalArticles/Intl/MultilingualJSP/index.htm l

[3]孫衛(wèi)琴,李洪成.Tomcat與JavaWeb開發(fā)技術(shù)詳解[M].北京:電子工業(yè)出版社,2004.

[4]Apache Software Foundation.ApacheTomcatConfiguration ReferenceTheHTTPConnector[DB/OL].http://tom cat.apache.org/tomcat-5.5-doc/config/http.htm l

The Solution to Chinese Lousy Code Problemsof JSPon Tom cat

PENG Li

(Departmentof Information Science and Engineering,Hunan FirstNormalUniversity,Changsha,Hunan 410205)

Chinese lousy code problems on Web server Tomcat have been puzzling software developers.To solve thisproblem,one should analyze the conversion between every encoding and find the reason that Chinese lousy code problemsare caused by false encoding-conversion processes.Then a solution to the problem may be found after a furtheranalysisofeach w rong case.

Tomcat;JSP;Chinese lousy code;encoding;conversion

TP311.1

A

1674-831X(2011)04-0128-05

2011-01-09

湖南第一師范學(xué)院院級(jí)課題(XYS10N09)

彭立(1974—),男,湖南汨羅人,湖南第一師范學(xué)院信息科學(xué)與工程系講師。

[責(zé)任編輯:胡 偉]

猜你喜歡
亂碼編碼方式表單
電子表單系統(tǒng)應(yīng)用分析
對(duì)癥下藥解決多種亂碼難題
這些真的不是亂碼,是漢字
淺談網(wǎng)頁(yè)制作中表單的教學(xué)
GCOA算法
可穿戴式多通道傳感系統(tǒng)功能需求分析及設(shè)計(jì)
混合編碼方式自適應(yīng)差分進(jìn)化算法優(yōu)化設(shè)計(jì)寬帶天線
炫邁:用神奇亂碼勾引你視線
淺談?dòng)?jì)算機(jī)網(wǎng)絡(luò)通信中實(shí)時(shí)差錯(cuò)控制技術(shù)
動(dòng)態(tài)表單技術(shù)在教學(xué)管理中的應(yīng)用*