1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        如此“爬蟲”?代碼全省了

        共 1737字,需瀏覽 4分鐘

         ·

        2024-04-27 10:40

        大家好,我是章北海

        Jina AI 開源了 RAG 數(shù)據(jù)處理中的關(guān)鍵組件:“網(wǎng)頁(yè)數(shù)據(jù)爬取” ——Reader,目前 3300+ Star??

        項(xiàng)目地址:https://github.com/jina-ai/reader

        Jina AI Reader 特征:

        1. 免費(fèi)使用
        2. 開源
        3. 延遲大概 2S 內(nèi),復(fù)雜的內(nèi)容可能需要更多時(shí)間
        4. 提供 stream 模式,方便緩解復(fù)雜內(nèi)容等待
        5. 不支持多語(yǔ)
        6. 能夠處理 PDF 如 arXiv,但是不是一個(gè)通用的 PDF 抽取器
        7. 未來(lái)會(huì)支持處理圖片或視頻總結(jié)
        8. 支持在線網(wǎng)頁(yè)
        9. 5 分鐘之內(nèi)上傳的內(nèi)容會(huì)緩存

        說(shuō)它是爬取其實(shí)有點(diǎn)“過(guò)”了,因?yàn)檫@個(gè)工具主要服務(wù)于將任何 url 轉(zhuǎn)化為 LLM 友好的格式(比如 markdown),然后可以再針對(duì)這些內(nèi)容集成不同的模型。

        用法很簡(jiǎn)單:在 https://r.jina.ai 中填入任何 Url 即可獲取到 LLM 友好的 Parsed Content( Markdown) 比如我公眾號(hào)這篇文章

        網(wǎng)址復(fù)制進(jìn)去:https://r.jina.ai/https://mp.weixin.qq.com/s/z0H_5eEF3hGSIayYLEMO1A

        它可以免費(fèi)使用,提供 Stream 模式可流式讀內(nèi)容(簡(jiǎn)單內(nèi)容2s內(nèi)可獲取)

        curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

        也可以訪問(wèn) https://jina.ai/reader/,嘗試在線 Demo。

        填入鏈接,點(diǎn)擊 FETCH CONTENT 即可獲取到內(nèi)容,甚至提供了基于獲取的內(nèi)容直接提問(wèn),結(jié)合 Jina AI 的 Embedding 召回 + LLM 組合輸出。

        如你所見(jiàn),arxiv的論文也能獲取到

        Jina AI Reader 原理是通過(guò) puppeteer 抓取網(wǎng)頁(yè)內(nèi)容,然后解析再保存成 markdown,這樣的方法對(duì)于抓取靜態(tài)的網(wǎng)頁(yè)內(nèi)容還可以,如果抓取更復(fù)雜的頁(yè)面就無(wú)能為力,還是需要更專業(yè)的爬蟲解析工具。

        其實(shí)抓取url,將正文轉(zhuǎn)換為良好的markdown格式的工具還有很多,比如:

        • https://markdowndown.vercel.app

        • web-scraper(open source): https://github.com/zzzgydi/webscraper

        • code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown (偏向于更好地處理代碼塊)

        可能是全網(wǎng)最全的速查表:Python Numpy Pandas Matplotlib 機(jī)器學(xué)習(xí) ChatGPT等

        ChatGPT 系列研究報(bào)告(50個(gè)PDF),建了一個(gè)資料分享微信群
        搭建完美的技術(shù)寫作環(huán)境,第1-8章
        數(shù)據(jù)分析入門:統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)總結(jié)
        ChatGPT、大模型、AI資料分享群

        瀏覽 121
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            男女啪啪在线观看 | 免费人成视频在线播放 | 国产51精品入口豆花 | 久久久国产精品免费A | 口爆人妻| 欧美性爱不卡 | 亚洲第1页 | 99热在线观看 | 亚洲性爱第一页 | 国产成人精品一区二区三区四区 |