1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        如何正確地運用人工智能模型?

        共 4731字,需瀏覽 10分鐘

         ·

        2021-08-09 14:17



        模型,是客觀事物的簡化表示!

        歷史上,每一個偉大模型的提出,都極大地推動了科學(xué)和社會的發(fā)展,比如歷史上出現(xiàn)的3個非常有名的模型——萬有引力定律、大陸漂移假說、日心說。

        在人工智能領(lǐng)域,也有很多模型用來解決現(xiàn)實生活中遇到的千千萬萬的問題。

        我們在現(xiàn)實生活或業(yè)務(wù)場景中遇到的問題一般可以分為6個通用問題簇:權(quán)重問題、狀態(tài)問題、序列問題、表示問題、相似問題和分類問題。

        那么,在遇到特定場景的特定問題時,選擇什么模型,或需要對現(xiàn)有模型做哪些方面的修正和改良,就成了大家最感興趣的話題。

        我們只要將遇到的問題歸為其中某一類,就可以尋找相關(guān)的模型來解決了。

        為了快速對問題進行分類,幫助大家更好地運用模型,本文就帶大家來看一下運用人工智能模型的基本步驟!

        首先,我們需要參考知識圖譜的相關(guān)理念,對各問題簇進行描述。

        1. 用知識圖譜表示問題

        熟悉人工智能的讀者一定聽說過知識圖譜,其被稱為彌補當(dāng)前深度學(xué)習(xí)困局的最佳方向。

        這里希望借助知識圖譜的許多術(shù)語來研究我們在現(xiàn)實生活中可能遇到的問題。

        知識圖譜的基本理念

        整體來說,知識圖譜是一個“知識”的網(wǎng)狀結(jié)構(gòu)。

        知識圖譜主要包含3個術(shù)語:實體(Entity)、屬性(Attribute)和關(guān)系(Relation)。

        在知識圖譜中,我們將需要描述的事物稱為實體。實體可以是看得見、摸得著的事物,如汽車、房子、電視、風(fēng)扇;也可以是虛擬的事物,如軟件、程序、算法、方案等。

        屬性是實體的特征,一般來說一個實體有多個屬性。

        在不同的應(yīng)用場景中,對同一個實體,我們整理的屬性集合可能完全不同。例如,同樣是統(tǒng)計我國的14億個國民,實體集合是相同的,教育部門在做業(yè)績報表時可能更關(guān)注國民的學(xué)歷屬性,財政部門在做業(yè)績報表時可能更關(guān)注國民的稅收屬性,統(tǒng)計部門在做業(yè)績報表時可能更關(guān)注國民的收入屬性。

        客觀世界的各個事物之間有千絲萬縷的聯(lián)系,在知識圖譜中,我們把這種聯(lián)系用實體之間的關(guān)系來抽象表述。

        關(guān)系(Relation)在知識圖譜中一般用一個三元組(X,R,Y)表示,其中X和Y是兩個實體,R是關(guān)系。

        在實際實現(xiàn)時,R可以是布爾型,例如夫妻關(guān)系可以用是和否的一個布爾型表示;也可以是枚舉型,例如用戶對書籍的喜愛程度可以用1星、2星、3星、4星、5星等5個枚舉值表示;還可以是實型,例如用戶A和用戶B的相似度;也可以是其他可能的類型。

        建立知識圖譜的一般步驟

        對于一個實際的業(yè)務(wù)場景,如果要建立一個知識圖譜體系,一般會包括如下步驟。

        • 確定實體的類型:分析業(yè)務(wù)場景的需求,判斷為滿足業(yè)務(wù)需求需要多少類實體。

        • 確定實體的屬性:分析實際業(yè)務(wù)需求,判斷每一類實體應(yīng)該有多少個屬性,分別是哪些屬性。

        • 確定屬性的數(shù)據(jù)類型:這是一個純技術(shù)問題,布爾型、整型、實型、字符串等,這個比較簡單。

        • 確定實體間的關(guān)系:根據(jù)業(yè)務(wù)需求分析實體之間有哪些聯(lián)系,用什么形式表示成關(guān)系。


        為了對實際業(yè)務(wù)場景中可能遇到的問題進行分類,我們可以建立問題的知識圖譜。問題知識圖譜的建立過程,與上述過程類似,也要分析問題可以表示為多少類實體,每類實體有哪些屬性和關(guān)系。

        問題的屬性研究

        使用知識圖譜的方法來研究實際業(yè)務(wù)場景中可能遇到的問題,每一個問題即為知識圖譜的一個實體。

        對于每一個實體,我們一般關(guān)注的屬性有前提假設(shè)、已有數(shù)據(jù)、待求數(shù)據(jù)等。

        這幾個屬性的含義分別如下。
        • 前提假設(shè):現(xiàn)實業(yè)務(wù)場景的問題一般都有特定的前提假設(shè)。在求解問題時,我們首先要知道問題有哪些前提假設(shè),是否會影響問題的解決效果,不同的前提假設(shè)會導(dǎo)致問題需要使用不同的模型來求解。
        • 已有數(shù)據(jù):在求解問題時,肯定有一些已知數(shù)據(jù),對于解決問題的模型,我們一般把這些已知的數(shù)據(jù)叫作模型的輸入。在分析問題時,首先要仔細分析這些已知數(shù)據(jù)。已知數(shù)據(jù)不同,或數(shù)據(jù)格式不同,可能會需要采用不同的模型來求解。
        • 待求數(shù)據(jù):所謂要解決某一個問題,其實就是有某個數(shù)據(jù)未知,需要想方設(shè)法求出來。對于模型,我們一般把這些待求數(shù)據(jù)叫作模型的輸出。在分析問題時,對這些待求數(shù)據(jù)更要認(rèn)真分析,不同的待求數(shù)據(jù)需要不同的模型來求解。
        問題的關(guān)系研究

        前面已經(jīng)提道:使用知識圖譜的方法來研究實際業(yè)務(wù)場景中可能遇到的問題,每一個問題即為知識圖譜的一個實體,對實體與實體之間的關(guān)系的研究也非常重要。

        一般來說,實體的關(guān)系主要包括如下3種。
        • 實體之間的關(guān)系:要分析實體之間的關(guān)系,尤其是實體之間的負相關(guān)關(guān)系。之所以要研究實體之間的關(guān)系,是為了讓問題解決得更徹底,避免出現(xiàn)解決一個問題導(dǎo)致其他問題又出來的情況。
        • 已知數(shù)據(jù)之間的關(guān)系:一般來說,每個問題的已知數(shù)據(jù)不是一個,而是多個,我們要仔細分析這些已知數(shù)據(jù)之間的關(guān)系。對于同一個問題,不同的已知數(shù)據(jù)關(guān)系,會導(dǎo)致最終選擇不同的求解模型,從而有不同的結(jié)果。
        • 已知數(shù)據(jù)與待求數(shù)據(jù)的關(guān)系:歸根到底,所謂解決問題,就是從已知數(shù)據(jù)求解未知數(shù)據(jù)的過程,即根據(jù)輸入找到輸出的過程。因此我們在分析問題、建立問題的知識圖譜時,要認(rèn)真分析已知數(shù)據(jù)和待求數(shù)據(jù)之間的關(guān)系。
        2. 問題分析的示例

        前面描述的構(gòu)建問題知識圖譜的內(nèi)容可能有點空洞,所以接下來就通過一些實例來理解一下。

        例如,我們考慮如下實際業(yè)務(wù)場景:我們要處理海量的判決文書的數(shù)據(jù),分析完成后,律師輸入一個案件的案由,希望系統(tǒng)返回與本案件最相似的案件,這就是同案同判的實際場景。同案同判對于辯護律師、法官、法律體系科研人員都有重要意義。

        前提假設(shè)分析

        我們先探討一下前提假設(shè)的分析,用實際案例讓讀者體會一下前提假設(shè)分析對問題求解及模型選擇的影響。為了分析和處理海量的判決文書,第一個要解決的問題是對一篇文章中的各個單詞賦予權(quán)重。

        讀者可能馬上會想到TF-IDF模型,這只是一個條件反射,因為大家在學(xué)習(xí)過程中了解最多的模型就是TF-IDF模型。對詞語權(quán)重賦值最完美,最經(jīng)得住實踐檢驗,最有名氣的模型就是TF-IDF模型。TF-IDF模型的前提假設(shè)是:文章中比較重要的詞語在當(dāng)前文檔會頻繁出現(xiàn),在其他文檔中出現(xiàn)的頻次卻不那么高。

        在同案同判場景中,我們并不關(guān)心上訴人和被上訴人是誰,只對案件的作案動機、作案手段、作案過程、作案結(jié)果等感興趣。而在實際的判決文書中,高頻出現(xiàn)的詞語一般是上訴人和被上訴人,“重要的詞語會在當(dāng)前文檔高頻出現(xiàn)”這個假設(shè)不成立。TF-IDF的前提假設(shè)已經(jīng)失效,如果我們還堅持使用傳統(tǒng)的TF-IDF模型求解問題,則效果勢必很差。

        已有數(shù)據(jù)的分析

        已有數(shù)據(jù)是什么?數(shù)據(jù)是什么格式的?有多大規(guī)模?數(shù)據(jù)是否已經(jīng)清洗?

        這些都會影響問題的求解,影響模型的選擇和運用。還是上述的同案同判的場景,如果我們從判決文書網(wǎng)下載了最高人民法院公布的幾千萬份判決文書語料,那么一般的技術(shù)路線是將這幾千萬份判決文書進行分類處理(也可能是聚類),用同一個類的質(zhì)心來表示該類別。律師輸入某個案由后,我們實際要做的是將該案由分到某個或某些類中,因此這是一個分類模型。

        如果沒有海量的判決文書語料,那么上述分類方法就不可行。

        我們可能需要整理法律文書語料的知識圖譜。在建立好知識圖譜后,對于律師輸入的某個案由,系統(tǒng)要做的工作是將該案由與知識圖譜中的實體做相似度計算,返回相似度最大的實體信息。這需要使用相似模型。模型用到的特征可能包括作案性質(zhì)、作案手段等內(nèi)容,這些內(nèi)容可能是文本形式,也可能是格式化好的數(shù)據(jù)庫形式。

        待求數(shù)據(jù)的分析

        待求數(shù)據(jù)的變化會影響產(chǎn)品的形式,也會對模型的選擇造成影響。還以上述同案同判的場景為例,如果已有數(shù)據(jù)已經(jīng)確定,就是有幾千萬的判決文書數(shù)據(jù),同案同判可能至少有兩種不同形式的待求數(shù)據(jù)(輸出數(shù)據(jù))。

        • 第一種形式是使用最多的,輸入一個案由,系統(tǒng)返回與該案由最相似的若干判決文書結(jié)果。
        • 第二種形式更復(fù)雜,輸入一個案由,系統(tǒng)返回最佳的判決結(jié)果。

        兩種待求數(shù)據(jù)完全不同,需要使用的模型集合也會完全不同。

        • 對于第一種待求數(shù)據(jù),一般會采用向量空間模型來表示文本;使用余弦相似度或加權(quán)余弦相似度模型來計算相似度;然后返回相似度最高的若干結(jié)果即可。
        • 對于第二種待求數(shù)據(jù),向量空間模型明顯失效。在向量空間模型中非常相似的兩個文書,對于律師來說可能差之毫厘,謬以千里。例如如下兩個判決結(jié)果,在向量空間模型中相似的可能接近或等于1,但是在律師眼里這兩個判決結(jié)果簡直是天壤之別。我們可能需要類似LSA等語義模型,需要知識圖譜等其他表示模型。
        A.法院最終判決:被告人賠償受害者100萬元人民幣,判處有期徒刑6.0個月。
        B.法院最終判決:被告人賠償受害者1000萬元人民幣,判處有期徒刑60個月。
        關(guān)系分析

        在分析問題時,還需要分析已有數(shù)據(jù)與待求數(shù)據(jù)之間的關(guān)系。數(shù)據(jù)之間的關(guān)系不同,求解模型可能也會不同。

        例如,《模型思維》一書在第2篇介紹了3種權(quán)重計算模型:TF-IDF模型、線性回歸模型和PageRank模型。

        假設(shè)場景是分析中國的名人排名:一個是要排出中國的“Top 500 富豪榜”;一個是要排出中國的“Top 500權(quán)威專家榜”;一個是要排出中國的“Top 500 影響力人物榜”。

        計算富豪榜時的已有數(shù)據(jù)是各人的收入、股票、基金、債券、房產(chǎn)等;計算權(quán)威專家榜時的已有數(shù)據(jù)是各人的畢業(yè)學(xué)校、學(xué)歷、論文、專利、業(yè)績等;計算影響力人物榜是各人的人脈關(guān)系。

        但是,計算富豪榜時我們會使用TF-IDF模型來做適度調(diào)整;計算權(quán)威專家榜時我們會使用線性回歸模型來做適度調(diào)整;計算影響力人物榜時我們會使用PageRank模型來做適度調(diào)整。

        計算富豪榜時需要考慮收入、股票、基金、債券、房產(chǎn)等多個維度,計算權(quán)威專家榜時需要考慮各人的畢業(yè)學(xué)校、學(xué)歷、論文、專利、業(yè)績等多個維度,為什么這些維度這么相似,卻會使用不同的模型呢?這就需要我們認(rèn)真分析各維度之間的差異。

        收入、股票、基金、債券、房產(chǎn)之間是可以有統(tǒng)一量綱的,即美元、歐元或人民幣;而畢業(yè)學(xué)校、學(xué)歷、論文、專利、業(yè)績等是沒有統(tǒng)一量綱的,必須使用回歸模型。

        摘自《模型思維:簡化世界的人工智能模型》


        智能計算重塑工業(yè)未來

        面向AIoT的RISC-V原生操作系統(tǒng)研究

        深度報告:RISC-V異構(gòu)IoT全新架構(gòu)

        ARM系列處理器應(yīng)用技術(shù)完全手冊

        相關(guān)下載:CPU和GPU研究框架合集
        1、行業(yè)深度報告:GPU研究框架

        2、信創(chuàng)產(chǎn)業(yè)研究框架

        3、ARM行業(yè)研究框架

        4、CPU研究框架

        5、國產(chǎn)CPU研究框架

        6、行業(yè)深度報告:GPU研究框架


        Arm架構(gòu)服務(wù)器的開源應(yīng)用

        Arm架構(gòu)服務(wù)器和存儲

        服務(wù)器硬件體系架構(gòu)淺析
        服務(wù)器市場現(xiàn)狀研究


        2021年信創(chuàng)產(chǎn)業(yè)發(fā)展報告

        2020信創(chuàng)發(fā)展研究報告

        信創(chuàng)研究框架

        信創(chuàng)產(chǎn)業(yè)系列專題(總篇)

        2021年中國信創(chuàng)生態(tài)研究報告

        中國信創(chuàng)產(chǎn)業(yè)發(fā)展白皮書(2021)


        異構(gòu)芯片研究框架合集

        1、EDA行業(yè)研究框架
        2、半導(dǎo)體大硅片研究框架
        3、封測行業(yè)研究框架
        4、光刻機行業(yè)研究框架
        4、國產(chǎn)FPGA研究框架
        5、國產(chǎn)基帶芯片研究框架
        6、深度報告:NOR存儲芯片研究框架

        本號資料全部上傳至知識星球,更多內(nèi)容請登錄全棧云技術(shù)知識星球下載全部資料。





        免責(zé)申明:本號聚焦相關(guān)技術(shù)分享,內(nèi)容觀點不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系刪除,謝謝。


        電子書<服務(wù)器基礎(chǔ)知識全解(終極版)>更新完畢,知識點深度講解,提供182頁完整版下載。

        獲取方式:點擊“閱讀原文”即可查看PPT可編輯版本和PDF閱讀版本詳情。



        溫馨提示:

        請搜索“AI_Architect”或“掃碼”關(guān)注公眾號實時掌握深度技術(shù)分享,點擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。

        瀏覽 74
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            歪歪漫画秋蝉 | 久章操 | 青娱乐极品91 | 久久午夜剧场 | 亚洲色在线观看 | zzijzzij亚洲日本成熟少妇 | 一区二区三区在线 | 四虎成人电影 | 美国成年性直播app | 久久久久久a亚洲欧洲aⅴ96 |