Java編程技術(shù)中漢字問題的分析及解決

字號(hào)：小 中 大

在基于 Java 語(yǔ)言的編程中，我們經(jīng)常碰到漢字的處理及顯示的問題。一大堆看不懂的亂碼肯定不是我們?cè)敢饪吹降娘@示效果，怎樣才能夠讓那些漢字正確顯示呢？Java語(yǔ)言默認(rèn)的編碼方式是UNICODE，而我們中國(guó)人通常使用的文件和數(shù)據(jù)庫(kù)都是基于GB2312或者BIG5等方式編碼的，怎樣才能夠恰當(dāng)?shù)剡x擇漢字編碼方式并正確地處理漢字的編碼呢？本文將從漢字編碼的常識(shí)入手，結(jié)合Java編程實(shí)例，分析以上兩個(gè)問題并提出解決它們的方案。
    現(xiàn)在 Java 編程語(yǔ)言已經(jīng)廣泛應(yīng)用于互聯(lián)網(wǎng)世界，早在 Sun 公司開發(fā) Java 語(yǔ)言的時(shí)候，就已經(jīng)考慮到對(duì)非英文字符的支持了。Sun 公司公布的 Java 運(yùn)行環(huán)境（JRE）本身就分英文版和國(guó)際版，但只有國(guó)際版才支持非英文字符。不過在 Java 編程語(yǔ)言的應(yīng)用中，對(duì)中文字符的支持并非如同 Java Soft 的標(biāo)準(zhǔn)規(guī)范中所宣稱的那樣完美，因?yàn)橹形淖址恢灰粋€(gè)，而且不同的操作系統(tǒng)對(duì)中文字符的支持也不盡相同，所以會(huì)有許多和漢字編碼處理有關(guān)的問題在我們進(jìn)行應(yīng)用開發(fā)中困擾著我們。有很多關(guān)于這些問題的解答，但都比較瑣碎，并不能夠滿足大家迫切解決問題的愿望，關(guān)于 Java 中文問題的系統(tǒng)研究并不多，本文從漢字編碼常識(shí)出發(fā)，分析 Java 中文問題，希望對(duì)大家解決這個(gè)問題有所幫助。
    漢字編碼的常識(shí)
    我們知道，英文字符一般是以一個(gè)字節(jié)來表示的，最常用的編碼方法是 ASCII 。但一個(gè)字節(jié)最多只能區(qū)分256個(gè)字符，而漢字成千上萬(wàn)，所以現(xiàn)在都以雙字節(jié)來表示漢字，為了能夠與英文字符分開，每個(gè)字節(jié)的位一定為1，這樣雙字節(jié)最多可以表示64K格字符。我們經(jīng)常碰到的編碼方式有 GB2312、BIG5、UNICODE 等。關(guān)于具體編碼方式的詳細(xì)資料，有興趣的讀者可以查閱相關(guān)資料。我膚淺談一下和我們關(guān)系密切的 GB2312 和 UNICODE。GB2312 碼，中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)漢字信息交換用編碼，是一個(gè)由中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)總局發(fā)布的關(guān)于簡(jiǎn)化漢字的編碼，通行于中國(guó)大陸地區(qū)及新加坡，簡(jiǎn)稱國(guó)標(biāo)碼。兩個(gè)字節(jié)中，第一個(gè)字節(jié)（高字節(jié)）的值為區(qū)號(hào)值加32（20H），第二個(gè)字節(jié)（低字節(jié)）的值為位號(hào)值加32（20H），用這兩個(gè)值來表示一個(gè)漢字的編碼。UNICODE 碼是微軟提出的解決多國(guó)字符問題的多字節(jié)等長(zhǎng)編碼，它對(duì)英文字符采取前面加“0”字節(jié)的策略實(shí)現(xiàn)等長(zhǎng)兼容。如 “A” 的 ASCII 碼為0x41，UNICODE 就為0x00，0x41。利用特殊的工具各種編碼之間可以互相轉(zhuǎn)換。
    Java 中文問題的初步認(rèn)識(shí)
    我們基于 Java 編程語(yǔ)言進(jìn)行應(yīng)用開發(fā)時(shí)，不可避免地要處理中文。Java 編程語(yǔ)言默認(rèn)的編碼方式是 UNICODE，而我們通常使用的數(shù)據(jù)庫(kù)及文件都是基于 GB2312 編碼的，我們經(jīng)常碰到這樣的情況：瀏覽基于 JSP 技術(shù)的網(wǎng)站看到的是亂碼，文件打開后看到的也是亂碼，被 Java 修改過的數(shù)據(jù)庫(kù)的內(nèi)容在別的場(chǎng)合應(yīng)用時(shí)無(wú)法繼續(xù)正確地提供信息。
    String sEnglish = “apple”;
    String sChinese = “蘋果”;
    String s = “蘋果 apple ”;
    sEnglish 的長(zhǎng)度是5，sChinese的長(zhǎng)度是4，而 s 默認(rèn)的長(zhǎng)度是14。對(duì)于 sEnglish來說， Java 中的各個(gè)類都支持得非常好，肯定能夠正確顯示。但對(duì)于 sChinese 和 s 來說，雖然 Java Soft 聲明 Java 的基本類已經(jīng)考慮到對(duì)多國(guó)字符的支持（默認(rèn) UNICODE 編碼），但是如果操作系統(tǒng)的默認(rèn)編碼不是 UNICODE ，而是國(guó)標(biāo)碼等。從 Java 源代碼到得到正確的結(jié)果，要經(jīng)過 “Java 源代碼-> Java 字節(jié)碼-> ;虛擬機(jī)->操作系統(tǒng)->顯示設(shè)備”的過程。在上述過程中的每一步驟，我們都必須正確地處理漢字的編碼，才能夠使最終的顯示結(jié)果正確

Java編程技術(shù)中漢字問題的分析及解決

字號(hào)： 小 中 大

字號(hào)：小中大