1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        你可能也會(huì)掉進(jìn)這個(gè)簡(jiǎn)單的 String 的坑

        共 3478字,需瀏覽 7分鐘

         ·

        2020-11-15 06:19

        背景

        石頭同學(xué)是某大公司高級(jí)開(kāi)發(fā)工程師,某日收到不少錯(cuò)誤告警信息,于是便去開(kāi)始排查。

        跟蹤日志發(fā)現(xiàn)是某個(gè)服務(wù)拋出的異常信息,奇怪的是這個(gè)服務(wù)上線(xiàn)也有一段時(shí)間了。之前很少看到類(lèi)似的錯(cuò)誤信息,最近偶爾多了起來(lái)。

        后來(lái)才定位到是因?yàn)榉?wù)調(diào)用了某外部接口,發(fā)現(xiàn)對(duì)方對(duì)參數(shù)長(zhǎng)度做了限制,如果輸入?yún)?shù)超過(guò) 1000 bytes,就直接拋異常,代碼類(lèi)似如下:

        /** * @param status * @param result, the size should less than 1000 bytes * @throws Exception */public XXResult(boolean status, String result) {    if (result != null && result.getBytes().length > 1000) {        throw new RuntimeException("result size more than 1000 bytes!");    }  ......}


        心想,這還不簡(jiǎn)單,咱們的?result?也不是什么關(guān)鍵性的東西,你有限制,我直接 trim 一下不就行了?

        解決方案

        于是三下五除二,給搞了個(gè)?trim?方法,支持傳不同參數(shù)按需 trim,代碼如下:

        /** * 將給定的字符串 trim 到指定大小 * @param input * @param trimTo 需要 trim 的字節(jié)長(zhǎng)度 * @return trim 后的 String */public static String trimAsByte(String input, int trimTo) {    if (Objects.isNull(input)) {        return null;    }    byte[] bytes = input.getBytes();    if (bytes.length > trimTo) {        byte [] subArray = Arrays.copyOfRange(bytes, 0, trimTo);        return new String(subArray);    }    return input;}


        再在需要調(diào)用外部服務(wù)的地方,先調(diào)用這個(gè)?trimAsByte?方法,一頓操作連忙上線(xiàn),一切完美~

        災(zāi)難現(xiàn)場(chǎng)

        一切完美,石頭哥也是這樣認(rèn)為的。然后幸??偸嵌虝旱摹?/p>

        經(jīng)過(guò)一段時(shí)間后(前面也提到,業(yè)務(wù)場(chǎng)景確實(shí)是偶發(fā)的),相同的錯(cuò)誤仍然發(fā)生了。

        簡(jiǎn)直不敢相信,都 trim 了為啥還會(huì)超出?你也幫忙想想,是哪里的問(wèn)題?


        看看上面的例子(為了方便展示,簡(jiǎn)單修改文首代碼了下),

        trimAsByte("WeChat:tangleithu",?8)

        輸入字符串?WeChat:tangleithu?太長(zhǎng)了,只 trim 到剩下 8 個(gè)字節(jié),對(duì)應(yīng)的字節(jié)數(shù)組是從?[87,101,67,104,97,116,58,116,97,110,103,108,101,105,116,104,117]?變?yōu)榱?[87,101,67,104,97,116,58,116],字符串變成了?WeChat:t?,結(jié)果正確。

        其實(shí)在寫(xiě)這個(gè)方法的時(shí)候還是太草率了,本應(yīng)該很容易想到中文的情況的,我們來(lái)試試:

        trimAsByte("程序猿石頭",?8)

        看上述截圖,悲劇了,輸入程序猿石頭,3 個(gè)字節(jié)一個(gè)漢字,一共 15 個(gè)字節(jié)?[-25,-88,-117,-27,-70,-113,-25,-116,-65,-25,-97,-77,-27,-92,-76],trim 到 8 位,剩下前 8 位?[-25,-88,-117,-27,-70,-113,-25,-116]?也正確。再?new String變成3 個(gè) “中文” 了,雖然第 3 個(gè)“中文”,咱也不認(rèn)識(shí),咱也不敢問(wèn)到底讀啥,總之再轉(zhuǎn)換成字節(jié)數(shù)組,長(zhǎng)度多了 1 個(gè),變成 9 了。

        問(wèn)題算是定位到了。

        不禁要問(wèn),為什么?

        來(lái)看看這個(gè) String 的構(gòu)造函數(shù),看看上面注釋才發(fā)現(xiàn),其實(shí)我們忽略了一個(gè)很重要的概念,就是編碼方式。

        /** * Constructs a new {@code String} by decoding the specified array of bytes * using the platform's default charset.  The length of the new {@code * String} is a function of the charset, and hence may not be equal to the * length of the byte array. * * 

        The behavior of this constructor when the given bytes are not valid * in the default charset is unspecified. The {@link * java.nio.charset.CharsetDecoder} class should be used when more control * over the decoding process is required. * * @param bytes * The bytes to be decoded into characters * * @since JDK1.1 */public String(byte bytes[]) { //this(bytes, 0, bytes.length); checkBounds(bytes, offset, length); this.value = StringCoding.decode(bytes, offset, length);}



        當(dāng)我們用默認(rèn)的構(gòu)造函數(shù) new String 的時(shí)候,只是用了系統(tǒng)默認(rèn)的編碼(本文是“UTF-8”)去嘗試解碼,構(gòu)造出字符串。

        所以,當(dāng)我們?cè)谟米止?jié)數(shù)組(字節(jié)流)來(lái)表達(dá)具體的語(yǔ)義的時(shí)候,一定要約定好以什么方式進(jìn)行編碼,本文不具體闡述編碼問(wèn)題了。下面用一個(gè)例子來(lái)解釋上文的現(xiàn)象:

        [-25,-88,-117,-27,-70,-113,-25,-116,-65,-25,-97,-77,-27,-92,-76]?仍然用這串字節(jié)數(shù)組來(lái)實(shí)驗(yàn),這串字節(jié)數(shù)組,如果用 “UTF-8” 編碼去解釋?zhuān)敲雌湎氡磉_(dá)的語(yǔ)義就是中文“程序猿石頭”,從上文標(biāo)注的 1,2,3 中可以看出來(lái),沒(méi)有寫(xiě)即用了系統(tǒng)中的默認(rèn)編碼“UTF-8”。

        假設(shè)按照 “GBK” 來(lái)解釋?zhuān)?biāo)注 4),就是表達(dá)的 “紼嬪簭鐚跨煶澶?”,注意看下其中的???是不是似曾相識(shí);

        注意標(biāo)注 5,通過(guò) GBK 解釋構(gòu)造字符串后,再通過(guò)默認(rèn)的 “UTF-8” 獲取字節(jié)數(shù)組,長(zhǎng)度就變成 24 了,然后還通過(guò) “GBK” 編碼得到的字節(jié)數(shù)組長(zhǎng)度為 15(標(biāo)注 6),再試圖構(gòu)造字符串(標(biāo)注 7),其中“程序猿石頭”的“頭”字,已經(jīng)沒(méi)了。說(shuō)明這個(gè)轉(zhuǎn)換過(guò)程中,其實(shí)信息已經(jīng)被丟了。

        上面的???其實(shí)是 UNICODE 編碼方式中的一個(gè)特殊的字符,也就是 0xFFFD(65535),其實(shí)是一個(gè)占位符(REPLACEMENT CHARACTER),用來(lái)表達(dá)未知的、沒(méi)辦法表達(dá)的東東。上文中在進(jìn)行編碼轉(zhuǎn)換過(guò)程中,出現(xiàn)了這個(gè)玩意,其實(shí)也就是沒(méi)辦法準(zhǔn)確表達(dá)含義,會(huì)被替換成這個(gè)東西,因此信息也就丟失了。你可以試試前面的例子,比如把前 8 個(gè)字節(jié)中的最后一兩個(gè)字節(jié)隨便改改,都是一樣的。

        程序猿石頭:65533 示例

        總結(jié)

        總結(jié)一下,其實(shí)本來(lái)是一個(gè)很簡(jiǎn)單的問(wèn)題,卻經(jīng)過(guò)幾次修改才最終解決,說(shuō)明對(duì) “基礎(chǔ)” 掌握得還是不夠,一個(gè)重要的點(diǎn)是,在處理二進(jìn)制數(shù)據(jù)的時(shí)候,一定要聯(lián)想到 “編碼” 方式。

        另外,提醒我們,看似簡(jiǎn)單的問(wèn)題,我們往往容易忽略。比如如果單純看到文中提到的這個(gè)trim?方法,其實(shí)很容易寫(xiě)個(gè)單元測(cè)試就能盡早發(fā)現(xiàn)有問(wèn)題

        點(diǎn)個(gè)在看支持我吧,轉(zhuǎn)發(fā)就更好了
        瀏覽 67
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            插插射射综合网 | 骚货视频网站 | 天天被操 | 日本少妇AA一级特黄大片 | 成人A一级毛片免费看视频 | 国产成人精品无码免费看夜聊软件 | 吸逼视频 | 午夜操一操 | 岳乱妇乱第13集 | 人人爽夜夜爽 |