JAVA字符謎題4:轉(zhuǎn)義字符的潰敗

字號:

下面的程序使用了兩個Unicode的轉(zhuǎn)義字符,它們是用其十六進制代碼來表示Unicode字符。那么,這個程序會打印什么呢?
    public class EscapeRout{
     public static void main(String[] args){
     // \u0022 是雙引號的Unicode轉(zhuǎn)義字符
     System.out.println("a\u0022.length()
    +\u0022b".length());
     }
    }
     對該程序的一種很膚淺的分析會認(rèn)為它應(yīng)該打印出26,因為在由兩個雙引號"a\u0022.length()+\u0022b"標(biāo)識的字符串之間總共有26個字符。
     稍微深入一點的分析會認(rèn)為該程序應(yīng)該打印16,因為兩個Unicode轉(zhuǎn)義字符每一個在源文件中都需要用6個字符來表示,但是它們只表示字符串中的一個字符。因此這個字符串應(yīng)該比它的外表看其來要短10個字符。 如果你運行這個程序,就會發(fā)現(xiàn)事情遠(yuǎn)不是這么回事。它打印的既不是26也不是16,而是2。
    理解這個謎題的關(guān)鍵是要知道:Java對在字符串字面常量中的Unicode轉(zhuǎn)義字符沒有提供任何特殊處理。編譯器在將程序解析成各種符號之前,先將Unicode轉(zhuǎn)義字符轉(zhuǎn)換成為它們所表示的字符[JLS 3.2]。因此,程序中的第一個Unicode轉(zhuǎn)義字符將作為一個單字符字符串字面常量("a")的結(jié)束引號,而第二個Unicode轉(zhuǎn)義字符將作為另一個單字符字符串字面常量("b")的開始引號。程序打印的是表達(dá)式"a".length()+"b".length(),即2。
    如果該程序的作者確實希望得到這種行為,那么下面的語句將要清楚得多:
    System.out.println("a".length()+"b".length());
     更有可能的情況是該作者希望將兩個雙引號字符置于字符串字面常量的內(nèi)部。使用Unicode轉(zhuǎn)義字符你是不能實現(xiàn)這一點的,但是你可以使用轉(zhuǎn)義字符序列來實現(xiàn)[JLS 3.10.6]。表示一個雙引號的轉(zhuǎn)義字符序列是一個反斜杠后面緊跟著一個雙引號(\”)。如果將最初的程序中的Unicode轉(zhuǎn)義字符用轉(zhuǎn)義字符序列來替換,那么它將打印出所期望的16:
    System.out.println("a\".length()+\"b".length());
     許多字符都有相應(yīng)的轉(zhuǎn)義字符序列,包括單引號(\’)、換行(\n)、制表符(\t)和反斜線(\\)。你可以在字符字面常量和字符串字面常量中使用轉(zhuǎn)義字符序列。
    實際上,你可以通過使用被稱為八進制轉(zhuǎn)義字符的特殊類型的轉(zhuǎn)義字符序列,將任何ASCII字符置于一個字符串字面常量或一個字符字面常量中,但是是盡可能地使用普通的轉(zhuǎn)義字符序列。
    普通的轉(zhuǎn)義字符序列和八進制轉(zhuǎn)義字符都比Unicode轉(zhuǎn)義字符要好得多,因為與Unicode轉(zhuǎn)義字符不同,轉(zhuǎn)義字符序列是在程序被解析為各種符號之后被處理的。
    ASCII是字符集的最小公共特性集,它只有128個字符,但是Unicode有超過65,000個字符。一個Unicode轉(zhuǎn)義字符可以被用來在只使用ASCII字符的程序中插入一個Unicode字符。一個Unicode轉(zhuǎn)義字符精確地等價于它所表示的字符。
     Unicode轉(zhuǎn)義字符被設(shè)計為用于在程序員需要插入一個不能用源文件字符集表示的字符的情況。它們主要用于將非ASCII字符置于標(biāo)識符、字符串字面常量、字符字面常量以及注釋中。偶爾地,Unicode轉(zhuǎn)義字符也被用來在看起來頗為相似的數(shù)個字符中明確地標(biāo)識其中的某一個,從而增加程序的清晰度。
    總之,在字符串和字符字面常量中要優(yōu)先選擇的是轉(zhuǎn)義字符序列,而不是Unicode轉(zhuǎn)義字符。Unicode轉(zhuǎn)義字符可能會因為它們在編譯序列中被處理得過早而引起混亂。不要使用Unicode轉(zhuǎn)義字符來表示ASCII字符。在字符串和字符字面常量中,應(yīng)該使用轉(zhuǎn)義字符序列;對于除這些字面常量之外的情況,應(yīng)該直接將ASCII字符插入到源文件中。