日本成人一级特黄视频,国产伦精品一区二区三区88AV,国产一级毛片精品A片在线美传媒,黄色电影视,无码人妻一级毛片免费影院嫩草,又黄又爽的视频,亚洲AV首页,久久无码电影

大家好，我是章北海

Jina AI 開源了 RAG 數(shù)據(jù)處理中的關(guān)鍵組件：“網(wǎng)頁(yè)數(shù)據(jù)爬取” ——Reader，目前 3300+ Star??

項(xiàng)目地址：https://github.com/jina-ai/reader

Jina AI Reader 特征：

免費(fèi)使用
開源
延遲大概 2S 內(nèi)，復(fù)雜的內(nèi)容可能需要更多時(shí)間
提供 stream 模式，方便緩解復(fù)雜內(nèi)容等待
不支持多語(yǔ)
能夠處理 PDF 如 arXiv，但是不是一個(gè)通用的 PDF 抽取器
未來(lái)會(huì)支持處理圖片或視頻總結(jié)
支持在線網(wǎng)頁(yè)
5 分鐘之內(nèi)上傳的內(nèi)容會(huì)緩存

說(shuō)它是爬取其實(shí)有點(diǎn)“過(guò)”了，因?yàn)檫@個(gè)工具主要服務(wù)于將任何 url 轉(zhuǎn)化為 LLM 友好的格式（比如 markdown），然后可以再針對(duì)這些內(nèi)容集成不同的模型。

用法很簡(jiǎn)單：在 https://r.jina.ai 中填入任何 Url 即可獲取到 LLM 友好的 Parsed Content（ Markdown）比如我公眾號(hào)這篇文章

網(wǎng)址復(fù)制進(jìn)去：https://r.jina.ai/https://mp.weixin.qq.com/s/z0H_5eEF3hGSIayYLEMO1A

它可以免費(fèi)使用，提供 Stream 模式可流式讀內(nèi)容（簡(jiǎn)單內(nèi)容2s內(nèi)可獲取）

curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

也可以訪問(wèn) https://jina.ai/reader/，嘗試在線 Demo。

填入鏈接，點(diǎn)擊 FETCH CONTENT 即可獲取到內(nèi)容，甚至提供了基于獲取的內(nèi)容直接提問(wèn)，結(jié)合 Jina AI 的 Embedding 召回 + LLM 組合輸出。

如你所見(jiàn)，arxiv的論文也能獲取到

Jina AI Reader 原理是通過(guò) puppeteer 抓取網(wǎng)頁(yè)內(nèi)容，然后解析再保存成 markdown，這樣的方法對(duì)于抓取靜態(tài)的網(wǎng)頁(yè)內(nèi)容還可以，如果抓取更復(fù)雜的頁(yè)面就無(wú)能為力，還是需要更專業(yè)的爬蟲解析工具。

其實(shí)抓取url，將正文轉(zhuǎn)換為良好的markdown格式的工具還有很多，比如：

https://markdowndown.vercel.app
web-scraper(open source): https://github.com/zzzgydi/webscraper
code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown （偏向于更好地處理代碼塊）

可能是全網(wǎng)最全的速查表：Python Numpy Pandas Matplotlib 機(jī)器學(xué)習(xí) ChatGPT等

   ChatGPT 系列研究報(bào)告（50個(gè)PDF），建了一個(gè)資料分享微信群

  

   搭建完美的技術(shù)寫作環(huán)境，第1-8章

   數(shù)據(jù)分析入門：統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)總結(jié)

   ChatGPT、大模型、AI資料分享群
  

如此“爬蟲”？代碼全省了

可能是全網(wǎng)最全的速查表：Python Numpy Pandas Matplotlib 機(jī)器學(xué)習(xí) ChatGPT等

如此“爬蟲”？代碼全省了