1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        新聞聚源集成 BBC News

        共 1274字,需瀏覽 3分鐘

         ·

        2022-01-24 07:22

        idea of startproject

        1. 對(duì)于 web 開發(fā)者而言,目前各大新聞門戶網(wǎng)站,新浪新聞,百度新聞,騰訊新聞,澎湃新聞,頭條新聞并沒有提供穩(wěn)定可用的 feed api。

        2. 對(duì)于 nlper,缺乏足夠的新聞?wù)Z料數(shù)據(jù)集來供訓(xùn)練。

        3. 對(duì)于新聞傳播/社會(huì)學(xué)/心理學(xué)等從業(yè)者,缺乏獲取新聞數(shù)據(jù)的簡(jiǎn)單易用途徑來供分析。

        4. 如果上面三點(diǎn)是某見識(shí)所限,其實(shí)并不存在的話,第 4 點(diǎn),則是某的私心,某以為互聯(lián)網(wǎng)的記憶太短了,熱搜一浪蓋過一浪,所以試圖定格互聯(lián)網(wǎng)新聞的某些瞬間,最后會(huì)以網(wǎng)站的形式發(fā)布出來。

        https://github.com/Python3Spiders/AllNewsSpider

        項(xiàng)目的 github 地址如上,于 2021 年跨年時(shí)發(fā)布了這個(gè)項(xiàng)目,一年間陸續(xù)發(fā)布了新浪,百度,騰訊,澎湃,泰晤士報(bào),紐約時(shí)報(bào)等主流新聞媒體。
        期間也上線過聚源新聞網(wǎng)站,集成了上述 feed 數(shù)據(jù),可惜服務(wù)器過期導(dǎo)致網(wǎng)站下線。

        restart

        2022 年新的一年,又將這個(gè)項(xiàng)目拾掇起來了,并且順帶發(fā)布了新加入的 BBC News。
        pyd 文件在:
        https://github.com/Python3Spiders/AllNewsSpider/tree/master/bbc
        點(diǎn)擊文末閱讀原文直達(dá)。
        這個(gè) bbc_news_spider 能按照指定的關(guān)鍵詞(s)抓取 BBC 新聞網(wǎng)站上的數(shù)據(jù),輸出字段格式如下。
        字段說明
        title新聞標(biāo)題
        link新聞鏈接
        summary新聞概述
        head_img頭圖
        publish_time發(fā)布時(shí)間
        tags標(biāo)簽
        content正文

        single keyword

        from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()search_worker.setKeyword("mykeyword")search_worker.crawl()

        batch keyword

        from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()keywords = ['mykeword1', 'mykeyword2', 'mykeyword3']search_worker.setKeywordListandRun(keywords)

        todo

        第一,bbc_bews_spider 只是打印到控制臺(tái),驗(yàn)證可行性,沒有輸出到 csv 文件,原來的幾個(gè)爬蟲可能由于某些原因失效了,可能需要重來。
        第二,新聞網(wǎng)站重新上線。
        第三,忙死,感慨時(shí)間太短,想做什么事情卻也什么都做不了…
        第四,以上三條不具有并列和先后關(guān)系…
        瀏覽 64
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            国产精品久久久久久久久免费桃花 | 国产色噜噜噜在线观看精品 | 探花在线视频 | 青娱乐色 | 女人被两根一起进 | 国产精品麻豆99久久久久久 | 国产欧美一区二区三区精品秋霞影院 | 午夜爱爱爱视频 | 看全色黄大色大片 | 中文字幕抽插 |