国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

DeepMind研究科學(xué)家:NLP基準(zhǔn)測試的現(xiàn)在、過去和未來

共 8862字,需瀏覽 18分鐘

 ·

2021-09-18 11:19

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自AI科技評(píng)論
編譯 | 王琪瑞 校對(duì) | 青暮
隨著時(shí)間流逝,NLP在遇到諸多挑戰(zhàn)的同時(shí),也被寄予更大期望。人們?cè)谑褂盟倪^程中收獲很多,也在一直不斷的改進(jìn)完善它。
在過去幾年的改進(jìn)下,NLP 模型的能力越來越強(qiáng)大。性能大幅提升導(dǎo)致之前的基準(zhǔn)測試已經(jīng)無法滿足當(dāng)下的需求。如AI Index Report 2021所言,最近的模型在SuperGLUE和SQuAD等測試的基準(zhǔn)上面達(dá)到了超越人類的表現(xiàn)。這是否說明,我們已經(jīng)掌握了處理自然語言的方法呢?答案是沒有。
現(xiàn)在的模型具備強(qiáng)大的語言理解能力,我們很難再用準(zhǔn)確率、BLEU 這種單一指標(biāo)和靜態(tài)基準(zhǔn)、抽象任務(wù)公式的傳統(tǒng)做法評(píng)估 NLP 模型。所以,我們需要設(shè)計(jì)新的基準(zhǔn)來評(píng)估模型,并且讓它在今后發(fā)揮作用。
這篇文章的主要內(nèi)容是:NLP 基準(zhǔn)測試所面臨的挑戰(zhàn)、機(jī)遇和一些改進(jìn)的建議。我們希望這篇文章可以讓讀者了解這方面科研的最新進(jìn)展,也要讓初學(xué)者全面了解NLP。文中還涉及到最近的論文、ACL 2021 演講以及ACL 2021 基準(zhǔn)測試研討會(huì)的觀點(diǎn),其中許多觀點(diǎn)涉及到了過去、現(xiàn)在和未來。
標(biāo)題圖片:隨著時(shí)間推移SQuAD 2.0的性能趨勢變化
目錄:
  • 什么是基準(zhǔn)?
  • 基準(zhǔn)測試簡史
  • 指標(biāo)很重要
  • 考慮下游用例
  • 細(xì)粒度評(píng)估
  • 基準(zhǔn)性能的長尾
    大規(guī)模持續(xù)評(píng)估

    1
    基準(zhǔn)是什么?
    “數(shù)據(jù)集是我們領(lǐng)域的望遠(yuǎn)鏡?!?/span>—阿拉文德·喬希
    基準(zhǔn)起初被定義為測量員在水泥結(jié)構(gòu)中幫助水平尺測量數(shù)據(jù)的水平標(biāo)記。后來基準(zhǔn)的定義漸漸變成對(duì)比事物的標(biāo)準(zhǔn)參考點(diǎn)。形象地說,基準(zhǔn)是一個(gè)可以相互比較的標(biāo)準(zhǔn)參考點(diǎn)?;鶞?zhǔn)在ML或NLP中通常由以下幾個(gè)部分組成:一個(gè)或多個(gè)數(shù)據(jù)集、一個(gè)或多個(gè)相關(guān)指標(biāo)以及聚合性能的方法。
    我們?yōu)榛鶞?zhǔn)設(shè)置了一個(gè)評(píng)估社區(qū)商定系統(tǒng)的標(biāo)準(zhǔn),確保基準(zhǔn)被社區(qū)接受。具體操作是要么給基準(zhǔn)選擇一組有代表性的標(biāo)準(zhǔn)任務(wù),如GLUE或XTREME;要么積極征求社區(qū)的任務(wù)提案,比如SuperGLUE、GEM或BIG-Bench等等。
    對(duì)于該領(lǐng)域的人來說,基準(zhǔn)是跟進(jìn)事件發(fā)展的重要工具,阿拉溫德·喬希說:沒有基準(zhǔn)評(píng)估我們的模型,我們就像“不造望遠(yuǎn)鏡的天文學(xué)家想看星星”。
    對(duì)于領(lǐng)域外的人來說,基準(zhǔn)為他們提供了客觀的視角,幫助他們認(rèn)識(shí)了有用的模型,還為他們提供了跟蹤一個(gè)領(lǐng)域進(jìn)展的服務(wù)。例如,《2021年人工智能指數(shù)報(bào)告》使用SuperGLUE和SQuAD作為自然語言處理總體進(jìn)展的代理。
    有些基準(zhǔn)在使用的過程中達(dá)到了和人類近似的表現(xiàn),它們被記入這一領(lǐng)域發(fā)展的歷史中。例如 AlphaFold 2在CASP 14競賽中達(dá)到與實(shí)驗(yàn)方法競爭的性能就標(biāo)志著結(jié)構(gòu)生物學(xué)領(lǐng)域的重大科學(xué)進(jìn)步。
    2
    基準(zhǔn)測試的簡史
    "創(chuàng)建好的基準(zhǔn)比大多數(shù)人想象的要難。"-約翰·馬西;系統(tǒng)基準(zhǔn)(2020)前言
    基準(zhǔn)很久之前就被用來測量計(jì)算機(jī)性能了。1988年成立的基準(zhǔn)性能評(píng)估公司(SPEC)是最老的計(jì)算機(jī)硬件性能基準(zhǔn)測試的組織之一。每年SPEC都會(huì)發(fā)布不同的基準(zhǔn)集,每個(gè)基準(zhǔn)集由多個(gè)程序組成,性能以每秒數(shù)百萬指令的幾何平均值來衡量。值得一提的是,SPEC 得到了該領(lǐng)域很多重要公司的支持。
    最近一個(gè)名為MLCommons的公司組織了一場MLPerf系列績效的基準(zhǔn)測試。測試重點(diǎn)是模型訓(xùn)練和推理。與SPEC相似,MLPerf得到了學(xué)術(shù)界和工業(yè)界的廣泛支持,這項(xiàng)基準(zhǔn)測試建立在以前衡量績效的個(gè)人努力的基礎(chǔ)上,如百度的DeepBench或斯坦福的DAWNBench。
    對(duì)于DARPA和NIST等美國機(jī)構(gòu)來說,基準(zhǔn)在衡量和跟蹤科學(xué)前沿方面發(fā)揮了至關(guān)重要的作用。早在1986年DARPA 就資助了,TIMIT和Switchboard等自動(dòng)語音識(shí)別的基準(zhǔn),并由NIST協(xié)調(diào)。后來在MNIST等ML其他領(lǐng)域有影響力的基準(zhǔn)也是依賴 NIST上的數(shù)據(jù)開始改進(jìn)。
    在語言技術(shù)和信息檢索(IR)方面,NIST舉辦了DARPA資助TREC的系列研討會(huì),會(huì)議內(nèi)容涵蓋面很廣,如下圖所示。TREC曾經(jīng)組織了20世紀(jì)60年代克蘭菲爾德開創(chuàng)的評(píng)估范式競賽,在該范式中,模型基于一組測試集合進(jìn)行評(píng)估。由于不同主題的表現(xiàn)差異很大,許多主題的得分都是平均的。所以TREC的標(biāo)準(zhǔn)廣泛可用。TREC精心構(gòu)建的數(shù)據(jù)集也在IR奠定了進(jìn)一步創(chuàng)新的基礎(chǔ)。
    1992-2020年TREC研討會(huì)的任務(wù)和主題(信貸:艾倫·沃里斯)
    近期基準(zhǔn)的規(guī)模都很大,比如ImageNet、SQuAD或SNLI等。它們是由資金雄厚的大學(xué)學(xué)術(shù)團(tuán)體開發(fā)的。在深度學(xué)習(xí)時(shí)代,大規(guī)模數(shù)據(jù)集被認(rèn)為是推動(dòng)科技進(jìn)步的支柱之一,自然語言處理或生物學(xué)等領(lǐng)域見證了它們的“ImageNet時(shí)刻”。
    隨著時(shí)間的變化,越來越多的基準(zhǔn)開始面向應(yīng)用,它們從單任務(wù)轉(zhuǎn)向多任務(wù),從單域轉(zhuǎn)向多域基準(zhǔn)。例如,從關(guān)注核心語言任務(wù)(如詞性標(biāo)注和依賴解析)向更接近現(xiàn)實(shí)世界的任務(wù)(如面向目標(biāo)的對(duì)話和開放域問題回答)轉(zhuǎn)變(Kwiatkowski et al.,2019);多任務(wù)數(shù)據(jù)集(如GLUE)的出現(xiàn)以及多模態(tài)數(shù)據(jù)集(如WILDS)的出現(xiàn)。
    如下圖所示, MNIST和 Switchboard等經(jīng)典基準(zhǔn),實(shí)現(xiàn)超人性能花了15年。而GLUE和SQuAD 2.0等基準(zhǔn)在模型發(fā)布一年后就能實(shí)現(xiàn)超人性能,但是我們也知道這只是基準(zhǔn)的測試能力,它們的實(shí)際處理能力連一般問答都沒辦法解決。
    隨著時(shí)間的推移,流行基準(zhǔn)的基準(zhǔn)飽和度。初始性能和人類性能分別正常化為-1和0(Kiela et al.,2021)。
    導(dǎo)致基準(zhǔn)容易飽和的另一個(gè)原因是,相比于早期,近期的數(shù)據(jù)集中的人工注釋痕會(huì)被模型快速學(xué)習(xí)并用于捷徑識(shí)別。我們?cè)赟NLI中得出,人工注釋依賴于啟發(fā)式,這樣模型就可以在不同情況下基于假設(shè)自動(dòng)預(yù)測出正確的結(jié)果,同時(shí)在 SQuAD上訓(xùn)練的模型會(huì)受到對(duì)抗性插入語句的影響。
    如今,行業(yè)的發(fā)展趨勢是對(duì)抗性數(shù)據(jù)集的崛起。這些數(shù)據(jù)集如對(duì)抗性NLI(Nie et al.,2020)、Beat the AI(Bartolo et al.,2020)等等。Dynabench 就是一個(gè)最近被設(shè)計(jì)出來促進(jìn)這類數(shù)據(jù)集發(fā)展的開源平臺(tái)。這類基準(zhǔn)的好處是,隨著新模型的出現(xiàn),可以不斷自我更新,從而使基準(zhǔn)不會(huì)太快飽和。
    3
    指標(biāo)很重要
    “當(dāng)你能衡量你在說什么并用數(shù)字表達(dá)時(shí),你就知道你在討論什么。但是當(dāng)你不能衡量它并用數(shù)字表達(dá)時(shí),你的知識(shí)是非常貧乏和令人不滿的?!?/span>-爾文勛爵
    指標(biāo)在衡量模型效果中很重要,但是它沒有受到應(yīng)有的重視。對(duì)于分類任務(wù),準(zhǔn)確率和F-1分?jǐn)?shù)等一般都是默認(rèn)使用的指標(biāo),但實(shí)際上對(duì)于不同的任務(wù),不同類型的錯(cuò)誤會(huì)產(chǎn)生不同的成本。比如對(duì)細(xì)粒度的情緒進(jìn)行分析,搞不清積極和很積極可能沒有問題,但是搞不清非常積極和非常消極問題就大了。Chris Potts還列舉了很多這種例子,其中包括指標(biāo)不足造成更大錯(cuò)誤的情況。
    想要設(shè)計(jì)好一個(gè)指標(biāo),就需要專業(yè)的領(lǐng)域知識(shí)。比如ASR(語音識(shí)別),最初只使用正確轉(zhuǎn)錄單詞的百分比(類似于準(zhǔn)確率)作為指標(biāo)。后來社區(qū)使用了詞錯(cuò)率( word error rate),因?yàn)樗梢苑从吵黾m錯(cuò)成本。
    Mark Liberman曾表示:“研究設(shè)計(jì)可用幾十年的指標(biāo),與為實(shí)際應(yīng)用短期發(fā)展設(shè)計(jì)的指標(biāo)之間,存在很大的差異。若要開發(fā)能用十年的技術(shù),我們就需要更高效的指標(biāo),哪怕細(xì)節(jié)上錯(cuò)點(diǎn)都行,但是大方向不能錯(cuò)?!?/span>
    Mark Liberman想要的指標(biāo)是像ASR中的詞錯(cuò)率(假設(shè)所有單詞都同等重要)和機(jī)器翻譯中的BLEU(假設(shè)詞序不重要)一類的指標(biāo)。
    但是對(duì)于實(shí)際技術(shù)的評(píng)估,我們需要根據(jù)特定的應(yīng)用要求設(shè)計(jì)度量標(biāo)準(zhǔn),并研究不同類型的錯(cuò)誤。
    近年來,隨著模型性能的迅速提高,我們從十年的長期應(yīng)用機(jī)制轉(zhuǎn)向許多短期的應(yīng)用機(jī)制。有意思的是,在這樣的環(huán)境下,我們?nèi)匀辉诖蠓秶褂煤饬块L期研究進(jìn)展的指標(biāo)。Marie等人(2021)在最近的一項(xiàng)報(bào)告分析中發(fā)現(xiàn),2019-2020年間82%的機(jī)器翻譯(MT)論文僅使用BLEU進(jìn)行評(píng)估,雖然在過去十年中人們?yōu)镸T評(píng)估提出了108個(gè)替代指標(biāo),其中許多指標(biāo)與人類判斷相差不大。但是隨著模型的變大,BLEU很難再成為表現(xiàn)最佳的模型了。
    雖然自然語言生成 (NLG) 模型的評(píng)估是出了名的困難,但標(biāo)準(zhǔn)的基于 n-gram 重疊的指標(biāo)(例如 ROUGE 或 BLEU)不太適合具有豐富詞法的語言,使得這些語言將被分配相對(duì)較低的分?jǐn)?shù)。
    NLG最近的發(fā)展趨勢是開發(fā)自動(dòng)度量,比如 BERTScore會(huì)利用大型預(yù)訓(xùn)練模型(Zhang et al.,2020)。這種方法使其更適合短期MT評(píng)估,具體操作是將更大的權(quán)重分配給更困難的token,即少數(shù)MT系統(tǒng)才能正確翻譯的token。
    因此,我們需要不斷更新完善度量標(biāo)準(zhǔn),用特定應(yīng)用的度量標(biāo)準(zhǔn)替代簡單的度量標(biāo)準(zhǔn),例如,最近的GEM基準(zhǔn)將度量指標(biāo)作為一個(gè)組件,其需要隨著時(shí)間的推移而不斷改進(jìn),如下圖所示。
    Opportunities (circle) and challenges of benchmark evaluation (Gehrmann et al., 2021).
    建議:
    1. 考慮更適合下游任務(wù)和語言的度量。

      考慮強(qiáng)調(diào)下游設(shè)置權(quán)衡的指標(biāo)。

      隨著時(shí)間的推移更新和完善指標(biāo)。

    4
    考慮下游用例
    “[...]基準(zhǔn)塑造了一個(gè)領(lǐng)域,無論是好是壞。好的基準(zhǔn)與實(shí)際應(yīng)用一致,但壞的基準(zhǔn)卻不一致,迫使工程師在幫助最終用戶的改變和只幫助營銷的改變之間做出選擇。”-大衛(wèi)·帕特森;系統(tǒng)基準(zhǔn)(2020)前言
    NLP技術(shù)在現(xiàn)實(shí)世界里的應(yīng)用越來越廣泛,從創(chuàng)造性的個(gè)性化語言表達(dá)到欺詐檢測都可以看到NLP的身影。我覺得我們?cè)撘匾曀诂F(xiàn)實(shí)世界里的應(yīng)用機(jī)制了。
    所以基準(zhǔn)測試的數(shù)據(jù)和評(píng)估協(xié)議應(yīng)該反映現(xiàn)實(shí)世界的用例。例如,F(xiàn)ewRel數(shù)據(jù)集面對(duì)關(guān)系分類缺乏現(xiàn)實(shí)屬性,這些屬性在 TACRED地址中很少見。IMDb數(shù)據(jù)集在二元情緒分類的時(shí)候,只考慮高度兩極分化的正面和負(fù)面評(píng)論,標(biāo)簽是不變的。這種基準(zhǔn)測試在簡單的信息檢索中是可行的,但在現(xiàn)實(shí)世界中就不太合理了。
    NLP社會(huì)責(zé)任的第一條規(guī)則是“完全按照你說的去做”。這句話是由 Chris Potts提出的。作為該領(lǐng)域的研究人員,我們應(yīng)該得出基準(zhǔn)上的績效反映了什么,以及這與現(xiàn)實(shí)世界的環(huán)境是如何對(duì)應(yīng)的。同時(shí), Bowman 和 Dahl 認(rèn)為基準(zhǔn)上的良好績效應(yīng)該意味著任務(wù)領(lǐng)域內(nèi)的穩(wěn)健績效。
    因?yàn)槿蝿?wù)的實(shí)際應(yīng)用可能會(huì)產(chǎn)生與訓(xùn)練分布不同的數(shù)據(jù)。所以評(píng)估模型的穩(wěn)健性以及評(píng)估模型對(duì)此類分布數(shù)據(jù)的泛化程度值得被關(guān)注。同理,具有時(shí)間偏移的數(shù)據(jù)和來自其他語言變體的數(shù)據(jù)也需要受到關(guān)注。
    另外,由于 NLP研究中的語言種類很簡單,而且要避免使用英語作為研究的單一語言。所以在設(shè)計(jì)基準(zhǔn)時(shí),我們要涉及到其他語言的測試數(shù)據(jù),這樣可以減少研究的片面性,為多語言交匯提供可能。同時(shí),也能在問答和總結(jié)等任務(wù)中利用其他語言數(shù)據(jù)集為模型的多功能性能提供證據(jù)。
    我們知道,在接下來的道路上,語言技術(shù)會(huì)給我們帶來很多困難,但也會(huì)為我們的評(píng)估和基準(zhǔn)提供新的靈感?;鶞?zhǔn)是我們領(lǐng)域最自豪的成果,它通常會(huì)指引我們一個(gè)新的研究方向,同時(shí)基準(zhǔn)在反映我們現(xiàn)實(shí)世界的技術(shù)和野心時(shí)至關(guān)重要。
    建議:
    1. 設(shè)計(jì)基準(zhǔn)及其評(píng)估,使其反映真實(shí)世界的用例。

    2. 評(píng)估域內(nèi)和域外泛化。

    3. 收集數(shù)據(jù)并評(píng)估其他語言的模型。

    4. 從語言技術(shù)的現(xiàn)實(shí)應(yīng)用中獲得靈感。
    5
    細(xì)粒度評(píng)估
    “不管人們多么希望績效是一個(gè)單一的數(shù)字,但即使是沒有分布的正確均值也會(huì)誤導(dǎo)人,而錯(cuò)誤均值肯定也好不到哪里去。”-約翰·馬西
    技術(shù)的下游用例可以為我們的評(píng)估提供指標(biāo)。尤其是,下游應(yīng)用程序需要考慮的不是單一指標(biāo),而是一系列約束。Rada Mihalcea希望我們不要只關(guān)注準(zhǔn)確率,還應(yīng)該關(guān)注實(shí)際應(yīng)用的其他方面,比如特定環(huán)境中什么最重要。簡單的說,NLP的功能取決于用戶的需求。
    機(jī)器學(xué)習(xí)研究一般不會(huì)過分強(qiáng)調(diào)社會(huì)需求。但是在實(shí)際應(yīng)用中,模型不能表現(xiàn)出不利于社會(huì)的行為。所以在特定任務(wù)的測試中這種表現(xiàn)會(huì)成為評(píng)估模型的一部分標(biāo)準(zhǔn)。
    實(shí)際應(yīng)用最注重的是效率。效率的高低與樣本效率、FLOPS和內(nèi)存約束有關(guān)。就是說,如果內(nèi)存不夠或是其他資源有限,評(píng)估模型就只能轉(zhuǎn)向其他研究方向。比如,NeurIPS 2020的高效質(zhì)量保證競賽(min等人,2020)展示了檢索增強(qiáng)和大量弱監(jiān)督問答對(duì)集合的好處(Lewis等人,2021)。
    為了更了解模型的優(yōu)缺點(diǎn),我們會(huì)對(duì)單一指標(biāo)進(jìn)行細(xì)粒度評(píng)估,標(biāo)注模型擅長和失敗的示例類型。ExplainaBoard(Liu et al.,2021)在不同任務(wù)中實(shí)現(xiàn)了模型性能細(xì)粒度細(xì)分,如下所示。獲得模型性能更細(xì)粒度估計(jì)的另一種方法是為特定現(xiàn)象和模型行為創(chuàng)建測試用例,例如使用CheckList框架(Ribeiro et al.,2020)。
    用于三個(gè)最佳系統(tǒng)的CoNLL-2003 NER數(shù)據(jù)集的ExplainaBoard接口,包括最佳系統(tǒng)的單系統(tǒng)分析(A)、前2個(gè)系統(tǒng)的成對(duì)分析結(jié)果(B)、公共誤差表(C)和組合結(jié)果(D)(Liu et al.,2021)。
    As individual metrics can be flawed, it is key to evaluate across multiple metrics. When evaluating on multiple metrics, scores are typically averaged to obtain a single score. A single score is useful to compare models at a glance and provides people outside the community a clear way to assess model performance. However, using the arithmetic mean is not appropriate for all purposes. SPEC used the geometric mean, nx1x2…xnn, which is useful when aggregating values that are exponential in nature, such as runtimes.
    一般用單個(gè)指標(biāo)可能會(huì)出現(xiàn)缺陷,需要跨多個(gè)指標(biāo)評(píng)估,通常我們會(huì)將分?jǐn)?shù)平均,以獲得單個(gè)分?jǐn)?shù)。單個(gè)分?jǐn)?shù)有助于快速發(fā)現(xiàn)模型的區(qū)別,并為其他領(lǐng)域的人提供評(píng)估模型性能的方法。不過這種算數(shù)平均方法不適合所有模型。SPEC使用幾何平均值,在聚合指數(shù)性質(zhì)的值
    (如運(yùn)行時(shí))的時(shí)候也很有用。
    另一個(gè)減少缺陷的方法是使用加權(quán)總和,讓用戶能夠自己定義每個(gè)組件的權(quán)重。DynaBench使用這種方法來衡量模型的性能,同時(shí)也用這種方法評(píng)估模型吞吐量、內(nèi)存消耗、公平性和穩(wěn)健性。在下圖中,用戶可以定義自己的排行榜(Ethayarajh 和 Jurafsky,2020 年)。
    DyaBench自然語言推理任務(wù)排行榜中的動(dòng)態(tài)度量加權(quán)
    建議:
    1. 不再使用單一指標(biāo)進(jìn)行性能評(píng)估。

    2. 評(píng)估社會(huì)偏見和效率。

    3. 對(duì)模型執(zhí)行細(xì)粒度評(píng)估。

    4. 考慮如何聚合多個(gè)指標(biāo)。
    6
    基準(zhǔn)性能的長尾
    因?yàn)楫?dāng)前模型在分布內(nèi)示例上的表現(xiàn)很好,所以我們開始關(guān)注分布的尾部、異常值和非典型示例上。
    現(xiàn)在我們不但關(guān)注平均情況,也開始關(guān)注模型表現(xiàn)最差的數(shù)據(jù)子集。
    As models become more powerful, the fraction of examples where the performance of models differs and that thus will be able to differentiate between strong and the best models will grow smaller. To ensure that evaluation on this long tail of examples is reliable, benchmarks need to be large enough so that small differences in performance can be detected. It is important to note that larger models are not uniformly better across all examples (Zhong et al., 2021).
    隨著時(shí)間的推進(jìn),模型越變?cè)綇?qiáng),模型性能也發(fā)生了變化。所以強(qiáng)模型和最佳模型的示例的比例將會(huì)變小。為了確保這個(gè)長尾示例評(píng)估的可靠性,基準(zhǔn)測試需要足夠龐大才能檢測到性能的微小差異。值得一提的是,規(guī)模較大的模型不一定有較大的優(yōu)勢。
    除了擴(kuò)大模型規(guī)模,我們還可以開發(fā)機(jī)制,僅用很少的例子就能辨別出最佳的系統(tǒng)。這種方法在昂貴的測試環(huán)境下有很大優(yōu)勢。比如,在自然語言生成的人類評(píng)估中 Mendon?a et al.(2021)將此框定為MT背景下的在線學(xué)習(xí)問題。
    最近對(duì)抗基準(zhǔn)采取的方向是解釋更難的例子,這種基準(zhǔn)如果不偏向特定模型就可以補(bǔ)充常規(guī)基準(zhǔn)。這些對(duì)抗基準(zhǔn)采取的方向在評(píng)估方法的幫助下,可以識(shí)別或者生成尖銳的例子來評(píng)估模型性能,也能幫助注釋者更好地理解模型的決策邊界。
    由于基準(zhǔn)的預(yù)算(以及規(guī)模)通常保持不變,統(tǒng)計(jì)顯著性測試會(huì)很重要,因?yàn)樗刮覀兛煽康貦z測系統(tǒng)之間的性能差異。
    基準(zhǔn)的注釋在正確的情況下才能進(jìn)行比較。但是有些看起來錯(cuò)誤的例子其實(shí)不是注釋的錯(cuò)誤,而是注釋產(chǎn)生的歧義。也是不久前Bowman and Dahl (2021)強(qiáng)調(diào)了模型如何利用這種歧義的線索在基準(zhǔn)上達(dá)到超人的性能。
    如果可以,基準(zhǔn)能收集多個(gè)注釋來識(shí)別例子。這些注釋會(huì)幫助基準(zhǔn)分析錯(cuò)誤。同時(shí)也會(huì)增加標(biāo)準(zhǔn)指標(biāo)的重要性,因?yàn)檫@種多注釋會(huì)給模型的基準(zhǔn)性能設(shè)置上限。
    建議:
    1. 在基準(zhǔn)中包括許多和/或困難樣本。

    2. 進(jìn)行統(tǒng)計(jì)學(xué)顯著性檢驗(yàn)。

    3. 為不明確的示例收集多個(gè)注釋。

    4. 報(bào)告注釋者協(xié)議。
    7
    大規(guī)模連續(xù)評(píng)價(jià)
    "當(dāng)一個(gè)措施成為目標(biāo)時(shí),它就不再是一個(gè)好的措施."-古德哈特定律
    GLUE等多任務(wù)基準(zhǔn)已經(jīng)成為領(lǐng)域進(jìn)步的關(guān)鍵指標(biāo),但這種靜態(tài)基準(zhǔn)很快就過時(shí)了。模型的更新使跨任務(wù)的進(jìn)展無法統(tǒng)一。雖然模型在多數(shù)GLUE任務(wù)上都取得了超人的表現(xiàn),但在 CoLA 等一些任務(wù)上與人類仍有差距(Nangia 和 Bowman,2019 年)。同時(shí)在XTREME 上,模型的跨語言檢索方面有了很大改進(jìn)。
    因?yàn)槟P透倪M(jìn)太快,我們需要更靈活的模型評(píng)估機(jī)制。具體來說,就是除了動(dòng)態(tài)單任務(wù)評(píng)估(例如DynaBench),還有就是定義基準(zhǔn)數(shù)據(jù)集的動(dòng)態(tài)集合。該集合由社區(qū)管理,等到模型達(dá)到人類性能并定期添加新的數(shù)據(jù)集時(shí),社區(qū)會(huì)刪除或降低數(shù)據(jù)集的權(quán)重。這樣的集合需要進(jìn)行版本控制,以便能夠在學(xué)術(shù)審查周期之外進(jìn)行更新,并且與以前的方法進(jìn)行比較。
    現(xiàn)有的多任務(wù)基準(zhǔn)測試,例如GEM ( Gehrmann et al., 2021 ),旨在成為“活的”基準(zhǔn)測試,通常包括大約 10-15 個(gè)不同的任務(wù)。由于不斷發(fā)布的新數(shù)據(jù)集的數(shù)量,如果要將基準(zhǔn)測試限制為一小部分代表性任務(wù),還不如將包含更大的 NLP 任務(wù)得出的結(jié)果有用。同時(shí)NLP 中任務(wù)的多樣性,將為模型性能提供更穩(wěn)健和最新的評(píng)估。百度的LUGE是朝著如此龐大的中文自然語言處理任務(wù)集合邁出的一步,目前由28個(gè)數(shù)據(jù)集組成。
    任務(wù)的集合可以通過各種方式分解,分解后得到對(duì)模型能力的更細(xì)粒度的評(píng)估。如果任務(wù)根據(jù)模型正在測試的行為分類,則這種細(xì)分會(huì)非常有洞察力。BIG-Bench是最近的語言模型探測協(xié)作的基準(zhǔn),包括按關(guān)鍵字分類。
    這種大規(guī)模多任務(wù)評(píng)估的一個(gè)重要挑戰(zhàn)是可訪問性。就是說,任務(wù)需要以通用輸入格式導(dǎo)入,以便它們可以輕松運(yùn)行。此外,任務(wù)應(yīng)該高效運(yùn)行,即使沒有太多計(jì)算要求,基礎(chǔ)設(shè)施也要可用于運(yùn)行任務(wù)。
    另外,這樣的集合有利于大型通用模型,為財(cái)力雄厚的公司或機(jī)構(gòu)提供訓(xùn)練。而且,這些模型已經(jīng)被用作當(dāng)前大多數(shù)研究工作的起點(diǎn),一旦經(jīng)過訓(xùn)練,就可以通過微調(diào)或修剪使之更有效地使用。
    建議:
    1. 考慮收集和評(píng)估大型、多樣化、版本化的 NLP 任務(wù)集合。
    8
    結(jié)論
    為了追上建模發(fā)展的速度,我們需要重新審視很多默認(rèn)的基準(zhǔn)測試,比如F1分?jǐn)?shù)和BLEU等簡單指標(biāo)。還需要從語言技術(shù)的現(xiàn)實(shí)應(yīng)用中思考現(xiàn)實(shí)設(shè)置給模型帶來的影響。另外也應(yīng)該關(guān)心分布的長尾,因?yàn)檫@是許多應(yīng)用程序可以觀察的到的地方。最后,我希望我們可以通過多指標(biāo)和統(tǒng)計(jì)顯著性測試來嚴(yán)格的評(píng)估我們的模型,使之越來越完善。
    原文鏈接:https://ruder.io/nlp-benchmarking/
    作者簡介:
    SEBASTIAN RUDER,是倫敦 DeepMind 語言團(tuán)隊(duì)的一名研究科學(xué)家。
    2015-2019年就讀于愛爾蘭國立高威大學(xué),工程與信息學(xué)院,自然語言處理博士畢業(yè)。
    2017.4-2017.6在哥本哈根大學(xué),自然語言處理組,計(jì)算機(jī)科學(xué)系研究訪問。
    2014.09-2015.01愛爾蘭都柏林三一學(xué)院,海外學(xué)期,計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)院,計(jì)算機(jī)科學(xué)與語言
    2012.10-2015.09就讀于Ruprecht-Karls-Universit?t Heidelberg 德國海德堡計(jì)算語言學(xué)研究所,文學(xué)學(xué)士計(jì)算語言學(xué)、英語語言學(xué)。
    SEBASTIAN RUDER在學(xué)習(xí)期間,曾與Microsoft、IBM 的 Extreme Blue、Google Summer of Code和SAP等機(jī)構(gòu)合作。他對(duì) NLP 的遷移學(xué)習(xí)使 ML 和 NLP 被大眾所了解。

    點(diǎn)「在看」的人都變好看了哦!
    瀏覽 31
    點(diǎn)贊
    評(píng)論
    收藏
    分享

    手機(jī)掃一掃分享

    分享
    舉報(bào)
    評(píng)論
    圖片
    表情
    推薦
    點(diǎn)贊
    評(píng)論
    收藏
    分享

    手機(jī)掃一掃分享

    分享
    舉報(bào)

    感谢您访问我们的网站,您可能还对以下资源感兴趣:

    国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频 成人电影A片| 欧美怕怕| 人妻在线观看| 日韩无码动漫| 四虎影院在线| 日韩中文字幕视频在线观看| 日韩无码123区| 国产无套进入免费| 午夜香蕉视频| 亚洲国产成人91PORN| 国产卡一卡二在线| 亚洲精品A片| 亚洲国产成人精品女人久久久| 亚洲视频二区| 91足浴店按摩漂亮少妇| 自拍偷拍| 天天综合天天| 中文字幕在线播放第一页| 麻豆91网站| 免费a在线| 毛片在线观看网站| 老婆中文字幕乱码中文乱码 | 日韩在线视频91| 中文字幕va| 日韩无码a| 啪啪啪av| 综合色国产精品欧美在线| 人人插人人操| 欧美日韩高清无码| 亚洲精品911| 国产一級A片免费看| 亚洲高清福利视频| 操逼操逼操| 亚洲成人大香蕉视频| 女毛片| 色播婷婷五月天| 安徽妇搡BBBB搡BBBB袄爱直播| 国产1区2区3区中文字幕| 色欲色欲一区二区三区| 狼人综合影院| 国产在线一二三| 人妻无码| 日本人妻A片成人免费看片| 无码视频在线观看免费| 欧美一级大香蕉| 国产TS变态重口人妖| 成人精品一区二区三区无码视频| 人人操日本| AV1区二区| 秋霞91| 五月天激情视频| 双飞人妻13p| 性无码一区二区三区无码免费| 亚州成人视频| 亚洲aⅴ| 黄页av| 豆花视频在线免费观看| 国产有码在线观看| A视频免费在线观看| 麻豆MD传媒MD0071| 搡BBB搡BBBB搡BBBB-百度| 日韩一区二区三区视频| 69AV在线视频| 婷婷丁香五月激情| 免费黄色网页| 欧美亚洲中文| 婷婷夜色福利网| 色情一级AA片免费观看| 噜噜噜在线视频| 91精品婷婷国产综合| 先锋AV资源在线| 久久草视频在线播放| 狠狠大香蕉| 一级做a爰片毛片A片| 国产黄色av| 日韩婷婷| 国产成人精品一区二区| 日韩三级在线| 免费日逼视频| 国产理论片| 91精品国产综合久久蜜臀使用方法| 欧美精产国品一区二区区别| 一级黄色电影免费观看| 欧美激情视频一区二区| 久久永久免费视频| 中国特级毛片| 69视频在线播放| 影音先锋成人在线视频| 欧美成a| 国精品无码A区一区二区| 岛国免费视频| 台湾无码精品| 欧美日韩一级二级三级| 欧美亚洲日韩一区| 欧美日韩亚洲另类| 日日操天天操| 综合自拍偷拍| 蜜桃久久精品成人无码AV| 福利视频免费观看| 国产成人久久精品麻豆二区| AAA久久久| 色婷婷香蕉在线一区二区| 欧美成人午夜影院| 一本大道久久久久| 久福利| 男人v天堂| 亚洲成人视频网| 日韩蜜桃视频| jzzijzzij亚洲成熟少妇在线观看| 好看的中文字幕av| 亚洲AV无码成人精品区h麻豆| 霸道总裁雷总各种姿势白浆爱情岛论坛 | AV中文在线观看| 一级国产欧美成人A片| 男人在线天堂| 欧美性爱五月天| 中文字幕不卡视频| 少妇bbw搡bbbb搡bbbb| 成人国产精品在线看| ThePorn日本无码| 日韩性爱AV| 国产激情福利| 午夜AV无码| 91大鸡巴| 亚洲骚货| 国精产品乱码一区一区三区四区| 99re| 亚洲免费MV| 久久91av| 做爱网站在线观看| 久久九九国产精品怡红院| 16一17女人毛片| 国产精品国产三级国产专区52 | 国产热视频| 美女裸体网站国产| 午夜成人精品一区二区三区| 99热99re6国产线播放| 久久久久亚洲AV无码专区| 刘玥一级婬片A片AAA| 无码做爱视频| 午夜啪啪视频| 深夜福利av| 三级无码在线| 亚洲视频免费播放| 久久人妻中文字幕| 亚洲一区无码| 丝瓜视频污APP| 亚洲无码激情在线| 亚洲影院第一页在线观看| 亚洲乱码在线| 男人视频网站| 大香蕉AV在线观看| 久久久久久久成人| 青草无码视频| 黄色成人在线视频| 日韩三级视频| 三级AV在线免费观看| 黄色免费在线观看网站| 精品吃奶一区二区三区视频| 无码蜜桃一区二区| 日韩AV高清无码| 亲子伦视频一区二区三区| 性饥渴熟妇乱子伦| 久热精品在线观看| 99综合| 天堂A片电影网站在线观看| 97这里只有精品| www.91超碰在线| 亚洲AV无码成人片在线| 亚洲视频大全| 91无码人妻一区二区成人AⅤ| 欧美日韩免费一区二区三区| 国产又爽又黄免费网站在线观看| 四虎网站| 中文字幕日本电影| 午夜精品一区二区三区在线成人 | 欧美日韩国产成人在线| 国精产品一区一区三区四川| 精品国产久久久| 免费视频一区二区| 成年人毛片视频| 久久精品99国产国产精| 国产乱伦内射视频| 国产伊人影院| 97在线观看免费| 夜夜欢天天干| 成人免费Av| 日韩av电影免费在线观看| 免费黄色av网址| 亚卅无码| 国产一级片免费看| 国产第一页在线观看| 人人妻人人澡人人爽久久con| 国产精品久久久久的角色| 伊人久久AV| 翔田千里91| 中文字幕日韩高清| 在线第一页| 网站色色免费看| 人人妻人人玩澡人人爽| 99黄色电影| 亚洲av网址| 在线免费观看黄色小视频| 国产激情小视频| 午夜精品18视频国产17c| 亚洲草逼| 国产69精品久久久久久| 九九成人电影| 天天看天天干| 蜜桃av无码| 国产91久久婷婷一区二区| 日韩天堂网| 黄色成人网站免费在线观看| 东京热免费视频| 俺去啦俺也去| 日韩久久精品视频| 国产AV无码成人精品区| 亚洲无码在线免费观看视频| 国产亚洲视频完整在线观看| 亚洲一级无码视频| 69人妻人人澡人人爽久久| 无码成人AV| 国产精品久久久久永久免费看| 一级色色片| 激情婷婷六月| 日韩欧美成人在线视频| 亚洲精品无码久久| 国产又爽又黄免费视频免费观看| 亚洲激情综合视频| www.中文无码| 国产精品人妻AⅤ在线看| 国产日批| AV口爆| 亚洲自拍中文字幕| 91探花视频| 欧美中文字幕在线| 国产1区在线观看| 日韩日韩日韩日韩| 蜜桃精品在线观看| 91精品国产成人观看| 日韩AV免费在线播放| 少妇喷水视频| 成人在线精品视频| 欧美黄色激情视频网站| 少妇厨房愉情理伦BD在线观| 久青草资源福利视频| 五月天堂网| 丁香五月天婷婷久久| 午夜免费小视频| 大香蕉久操视频| 99综合| 大香蕉福利在线| 九九九欧美| 操逼电影| 成人av小说网站| 蜜臀久久99精品久久| 色色播播| 日韩免费高清| 一级片黑人| 亚洲A∨无码无在线观看| 丰满人妻一区二区三区精品高| 九九九免费视频| 国产特黄视频| 国产免费av片| 成人性爱在线观看| 97超碰色| 香蕉视频成人在线| 青青草97国产精品麻豆| 国产三级高清无码| 国产精品一区二区在线观看 | 色99在线| 特级婬片AAAAAAA级| 91视频精品| 人人看人人摸人人插| 无码中文AV| 亚洲中文字幕免费观看| 国产精品麻豆视频| 天堂网亚洲| 韩国精品无码一区二区三区18| se99av| 黄色片无码| 一区二区三区在线免费观看| 夜夜骚| 伊人久久香蕉网| 无码精品人妻一区二区三区漫画| 久久伊人春色| 操美女视频网站| 西西特级无码444www| 免费操逼网址| aaaaaa在线观看免费高清| 成人无码区免费AV片| 国模一区二区三区| 亚洲成年视频| 夜夜操夜夜操| 热re99久久精品国产99热 | 91精品国产一区| 日本中文在线观看| 国产熟妇搡BBBB搡BBBB毛片 | 午夜麻豆| 婷婷天堂| 精品人妻在线| 中文字幕永久| 无码AV高清| 一级a性色毛片| EEUSS| 国产一级A片在线观看| 天天爱综合| 91麻豆精品| 黄色片久久| 青青草原在线| 特级特黄A级高潮播放| 人人操超碰在线| 自拍超碰| 日批网站在线| 欧美一级婬片A片免费软件| 摸BBB槡BBBB搡BBB,,,,,| 国产精品欧美综合| 麻豆久久| 人人操人人爽人人妻| 欧美第1页| 精品蜜桃秘一区二区三区观看| 一本色道久久综合无码人妻软件 | 黄片视频免费播放| 亚洲秘无码一区二区三区观看| 九九九九九九精品视频| 久久精品国产99精品国产亚洲性色 | 亚洲AV无码乱码| 黄色香蕉视频| 淫揉BBB揉揉揉BBBBB| 青草在线视频| 8x8x黄色| 欧美区在线观看| 大香蕉在线伊人| 蜜桃视频一区二区三区| AV大片在线观看| 亚洲成人无码电影| 足交在线播放| 97超碰在| 欧美性猛交| 丰满人妻精品一区二区在线| 九色九一| 国产一级AV片| 中文字幕免费视频在线播放| 开心激情网五月天| 国产午夜无码福利视频| 亚洲无码高清在线观看视频| 香蕉91视频| 亚洲中文第一页| 粉嫩av懂色av蜜臀av分享| 免费中文字幕视频| 少妇bbb| 中文字幕无码视频| 亚洲精品成人一二三区| 综合激情网| 国产成人无码一区二区在线观看 | 欧美日韩免费在线播放电影在线播放电影在线播放电影免费 | 在线免费观看黄色小视频| 国产亚洲视频完整在线观看| 亚洲欧美不卡| 在线看片a| 九七精品| 91AV在线播放| 99热99re6国产线播放| 视色网| 黄色小视频在线观看| 无码国产传媒精品一区| 超碰女人| 波多野结衣vs黑人巨大| 神马影院午夜福利| 欧美h| 91成人无码看片在线观看网址| 亚洲欧美美国产| 日韩AV一级| 91亚洲精品久久久久蜜桃| a片免费在线| 殴美色色网| 久久久成人网站| 福利视频网亚洲| 91九色91蝌蚪91成人| 色逼五月| 在线无码一区二区三区| 六月天av| 极品久久久| 一级乱伦网站| 国产精品网站在线观看| 亚洲欧美在线成人| 亚洲的天堂的αⅴ| 成人视频A片| 国产av影院| 91九色TS另类国产人妖| 人人操人人色| 亚洲熟女av中文字幕| 翔田千里高潮90分钟| 亚洲天堂精品视频| 六月婷婷在线观看| JiZZjiZZ亚洲成熟熟妇| 久久亚洲AV无码午夜麻豆| 天堂成人网| 97超碰人人摸| 最好看的MV中文字幕国语电影| 亚洲白浆| 日韩性爱网站| 亚洲午夜免费视频| 美日韩综合| 国产综合久久777777麻豆| www.啪| 日韩中文字幕AV| 蜜臀AV一区二区| 免费看无码网站成人A片| 久草视频免费看| 美女视频黄a视频全免费不卡| 成人黄色免费观看| 特一级黄A片| 17c精品麻豆一区二区免费| 久久另类TS人妖一区二区免费| 18XXX亚洲HD护士JD| 亚洲高清超级无码在线视频观看| A亚洲天堂| 国产精品视频网站| 亚洲一区黄色| 中日韩一级片| 国产精品久久毛片| 丁香婷婷色五月激情综合三级三级片欧美日韩国 | 亚洲欧美精品在线| 99操逼视频| 操逼导航| av777777| 精品人妻一区二区乱码一区二区| 亚洲欧美日韩久久| 亚洲AV无码久久久| 国产又爽又黄A片免费观看| 一区二区三区四区精品视频| 成人A片在线播放| 天天操狠狠操| 男人操女人免费网站| 日日夜夜精品| 奇米一区| 国产又粗又长又硬又大毛苴茸图片| 欧美视频在线观看免费| 大香蕉免费网站| 黄色福利网址| 日韩中文欧美| 亚洲欧美另类色图| 国产午夜男女性爱| 精品视频免费观看| 一区二区免费在线观看| 色婷婷精品国产一区二区三区| 一级片a片| 精品久久久999| 亚洲免费成人| 国产三级免费观看| 亚洲无码1| 丁香五月激情网| 久久国产乱子伦精品免费午夜... 国产毛片精品一区二区色欲黄A片 | 亚洲天堂av在线观看| 手机看片1204| 99精品视频免费在线观看| 天天干夜夜操| www.精品视频| 国产小视频在线免费观看| 东京热在线观看| 日韩性爱视频在线观看| 日韩一级片在线| 国产一区二区做爱| 亚洲加勒比在线| 亚洲三级无码在线| 国产精品久久久久久久免牛肉蒲| 就要干就要操| 韩国三级AV| 亚洲三级在线播放| 日韩精品成人av| 欧美爱| 囯产精品久久久久久久久久| 91蜜桃传媒在线观看| 人人操成人| 成人黄色电影在线观看| 加勒比日韩| 一级乱伦网站| 国产91在线视频| 午夜性爱网站| 999热视频| 大香蕉大香蕉大香蕉| 91人妻人人爽人人爽| 日韩免费小视频| 成人黄色导航| 午夜天堂精品久久久久| 微熟女导航| 成人免费啪啪视频| 日本高清版色视频| 精品欧美一区二区精品久久| 亚洲日韩在线免费观看| 天天日天天操天天日| 欧美三级网| 91精品无码视频| 国产永久在线| 草久美女| 乱伦视频网站| 成人爱爱免费视频| 婷婷另类小说| 大a片| 日韩免费黄色电影| 另类Av| 成人在线看片| www黄片| 婷婷色网站| 欧美国产综合在线| 久久成人在线视频| 欧美浮力| 精品人妻午夜一区二区三区四区| 操操综合| 丁香五月一区二区| 大香蕉久草| 久久久无码视频| 日韩中文字幕视频在线观看| 无码人妻精品一区二区50| 欧美成人无码片免费看A片秀色| 日韩高清在线播放| 荫蒂添到高潮免费视频| 肏逼视频免费看| AV在线免费播放| 北岛玲在线视频| 我爱大香蕉| 婷婷在线影院| 日本三级片视频不卡| 国产视频99| 国产经典午夜福利视频合集| 人人操狠狠操| 在线免费小黄片| 中文无码在线播放| 97人妻人人揉人人躁人人| 狠狠躁日日躁夜夜躁A片男男视频| 久久国产偷拍| 人人色人人色| 91超碰在线免费观看| 囯产精品99久久久久久WWW| AV电影一区| 色伊人网| 在线无码免费| 人妻一区| 亚洲天堂网在线视频| 日韩欧美大片在线观看| 欧美aaa| 亚洲精品电影| 日本不卡中文字幕| 91吴梦梦一区二区传媒| 欧美成人性爱在线| 国产极品久久久| 偷偷操穴| 国产91在线播放| 超碰在线观看99| 色婷婷六月| 欧美日韩人妻高清中文| 国产乱婬片视频| 亚洲女人被黑人巨大的原因| 3D动漫啪啪精品一区二区中文字幕 | 黄色大片AV在线| 精品乱子伦一区二区三区| 黄片无码在线观看| 人人上人人摸| 波多野结衣在线无码视频| 国产性爱图| 中文字幕av在线播放| 五月婷婷色色| 亚洲性爱影院| h亚洲| 美女裸身18禁| 五月天婷婷在线观看视频| 蜜臀伊人| 亚洲无码第一页| 北条麻妃高清无码| 免费人成网站| 欧美BBWBBWBBWBBWBBwBBW| 91视频首页| 亚洲激情成人| 国产精品国产自产拍高清AV| 二区视频| 天天日天天干天天干| 黄色电影一级片| 国产美女精品视频| 日韩av无码电影| 亚洲天堂AV2025| 久久亚洲日韩天天做日日做综合亚洲| 五月天操逼| 内射无码专区久久亚洲| 91成人国产| 亚洲综合中文字幕在线| 色哟哟无码精品一区二区三区| 91白丝喷水自慰网站| 色五月国产| 久久嫩草在线影院| 美女被操网站| 暗呦网一区二区三区| 无码777| 超碰2022| 色小说在线| 91精品国产一区三一| 亚洲一级一级黄色| 无码人妻精品一区二区50| 欧美日本成人网站入口| 91视频观看| 大香蕉精品视频在线| 草草网站| 九九热精| 亚洲午夜在线| 无码人妻一区二区三区免水牛视频| 黄色永久免费| 高清不卡一区二区| 亚洲中文字幕无码爆乳av| 久久精品国产亚洲AV麻豆痴男| 99热精品在线| 国产久久久久| 在线天堂网| 青娱乐91| 91人妻在线视频| 日本高清无码视频| www.日韩无码| A黄色视频| 国产免费福利| 波多野结衣视频免费在线观看| 久久久久久久久久久久国产精品| 黄频在线免费观看| 青青草做爱视频| 秋霞精品一区二区三区| 国产福利在线| 国产成人Av| 成人做爰A片一区二区| 悠悠色综合| 韩国精品一区二区| 在线免费观看黄色片| 国产精品va| 色汉综合| 午夜操逼网| 伦理被部长侵犯HD中字| 久久国产精品免费视频| 日韩成人免费在线观看| 亚洲AV无码成人精品区久| 无码人妻久久一区二区三区蜜桃| 双腿张开被9个男人调教| 熟女3p| 无码人妻精品一区二区三区温州 | 黄色免费av| 国产在线一区二区三区四区| 天天干天天干天天操| 亚洲成人网站在线观看| 黄色成人视频在线观看| 91无码人妻传媒tv| 尤物视频网址| 国产精品天天干| 蜜桃久久99精品久久久酒店| 久久无码一区| 91爱爱视频| 人人爽人人澡| 在线观看黄片视频| 国产精品黄色电影| 不卡免费视频| 超碰少妇| 成人福利网站| 亚洲在线无码视频| 7777av| 国产h在线观看| 国产传媒在线| 狼友视频在线播放| 日韩免费毛片| 欧美视频在线观看免费| 国产黄片在线免费观看| 爱爱视频免费看| www.91爱爱,com| 成人性爱在线观看| 超碰AV在线| 美女天天操| 伊人网大香蕉| www.操逼| 日韩理论片| 成人网站在线免费观看| 黄网国产手机在线观看| 成人片成人网久久蜜桃臀| 91大长腿美女花外围在线观看| 麻豆免费福利视频| 91爱爱com| 午夜操一操一级| 大鸡巴影院| 操逼视频国产91| 大香蕉在线99| 黄色A片网址| 操逼视频看看| 蜜桃久久精品成人无码AV| 中文字幕AV在线免费观看| 日屄电影| 久久久久久久网| 美日韩精品| 亚洲婷婷网| 天天爽天天日| 久久久久一| 五月婷亚洲精品AV天堂| 亚洲人妻在线观看| 中文字幕有码在线视频| 午夜香蕉| 爱爱动态图| 在线看片a| 欧美日韩有码视频网址大全| 日韩黄色免费视频| 丁香激情视频| 天堂中文在线a| 国产一区二区波多野结衣| 手机AV在线观看| 99re在线观看观看这里只有精品 | 91视频18| 亚洲性爱自拍| 黄色片在线看| 超碰在线| 欧洲毛片基地c区| 黄色视频在线| 日韩色爱| 狠狠插网站| 成人小视频在线| 日韩AV小电影| 日韩一区二区免费视频| 成人区精品一区二区婷婷| 成人精品三级AV在线看| 天天操夜夜爽| 国产A片录制现场妹子都很多 | 国产热| 国产三级片无码| 欧美在线v| 日韩综合另类| 天干天干天夜夜爽| 四川BBBB擦BBBB| 伊人狼人香蕉| 国产九九精品| 日韩免费看片| 在线se| 台湾精品无码| 国产成人精品123区免费视频| 欧美理论片在线观看| 18禁www| 亚洲一级黄色片| 成人性爱毛片| 国产SUV精品一区二区| 亚洲一区2区| 激情久久av| 欧美日韩v| 国产婷婷色一区二区在线观看| 婷婷日韩中文字幕| 国产日韩欧美在线| 国产AV久| 亚洲香蕉视频网站| 亚洲精品国产精品国自产| 十八禁视频在线观看网站.www| 不卡的av在线| 精品人妻一区二区三区-国产精品 无码人妻av黄色一区二区三区 | 人妻无码人妻| 特级欧美AAAAAA| 黑人大荫蒂女同互磨| 中文字幕性爱| 精品视频一区二区三区四区| 欧美久久国产精品| 人妻无码精品蜜桃| 一区二区三区www污污污网站| 国产无遮挡又黄又爽又色| 久久精品成人| 丁香色婷婷| 人人妻人人澡人人爽久久con | 人妻FrXXeeXXee护士| 97精品国产| 偷拍92| 国产又粗又大又爽| 校园春色av| 在线观看国产一区| 51黄片库| 三级乱伦86丝袜无码| 成人尤物网站| 高清无码视频免费| 熟女综合网| 韩日一区| 大香蕉伊人久久| 在线国产黄色| 午夜激情毛片| 无码日韩人妻精品久久蜜桃 | 亚洲日韩中文字幕在线观看| 国产三级日本三级国产三级| 国产精品乱码一区二区三区| 欧美日韩一区二区三区四区 | 无码人妻一区二区| 99视频色| 久久免费成人电影| 久久精品秘一区二区三免费| 成人a视频| www.婷婷五月天| 约操少妇| 操b视频免费| 久久中文娱乐网| A级毛片在线观看| 91精品久久久久久| 国产在线一二三| 日韩成人AV毛片| 毛片操逼视频| 99re热| ⅴA日本成人| 国产欧美精品一区二区三区| 99精品国自产在线| 婷婷久久亚洲| 91免费视频网站| 人妻人人干| 亚洲A∨无码无在线观看| 91麻豆精品传媒| 免费av大全| 天天添夜夜添| 一区无码高清| 嫰BBB槡BBBB槡BBBB| 香蕉成人电影| 亚洲色逼图片| 国产又爽又黄网站免费观看| 黄色免费看视频| 亚洲性爱视频在线观看| 亚洲成人一区二区在线观看| 九热视频| 成人AV中文字幕| A片在线观看视频| 91亚洲精品久久久久蜜桃| 欧美一区二区三区四| 青在线视频| 欧美一级婬片A片免费软件| AAAA毛片视频| 免费无码国产在线| 亚洲日韩精品在线观看| 亚洲综合图区| 亚洲色在线播放| 大香蕉色视频| 91久久精品一区二区三| 日韩毛片在线播放| 人人操人人干人人看| 色综合综合色| 99热在线免费观看| 怡红院成人AV| 乱子伦国产精品视频一级毛| 一区高清无码| 九九r在线精品观看视频| 五月天操逼网站| 中文字幕在线国产| 日日干天天干| 99色亚洲| 黄色工厂这里只有精品| 加勒比在线| 伊人在综合| 玖玖爱这里只有精品| 国产在线视频导航| 欧美日韩一区二区三区| 无码在线视频播放| 国产多人搡BBBB槡BBBB| 搡BBBB搡BBB搡五十| 婷婷五月天在线电影| 国产主播第一页| 秋霞午夜| 91大神免费在线观看| 在线观看无码高清视频| 日本中文字幕在线播放| 色色网站| 国产精品中文字幕在线观看| 欧美性少妇| 乱伦天堂| V片免费看| 欧美成人黄色小说| 蜜臀久久99精品久久久久久酒店| 青青草在线观看免费| 免费视频久久| 日韩高清无码一区| 亚洲在线观看网站| 黄片视频国产| 黄色视频网站免费观看| 四川少妇搡BBw搡BBBB搡| 亚洲免费毛片| 日本黄色电影网址| 一区二区中文| 日本黄色录像| a√天堂中文8| 高清免费在线中文Av| 一级黄色毛片视频| 尤物在线播放| 97伊人大香蕉| 国产成人精品免高潮在线人与禽一| 国产精品久久| 国产A级毛片久久久久久| 亚洲欧美精品在线| 亚洲视频中文字母| www.199麻豆在线观看网站| 91精品网站| 免费的一级A片| 嫩草久久99www亚洲红桃| 四虎视频| 熟妇精品| 天堂在线www| 久久无码电影| 亚洲天天在线| 老熟女-ThePorn| 日韩操大屌| 熟女人妻在线观看| 亚洲中文字| 影音先锋AV天堂| 农村一级婬片A片AAA毛片古装| 2025精品精品视频|