1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        pyrailgun網(wǎng)頁(yè)抓取工具

        聯(lián)合創(chuàng)作 · 2023-09-29 13:16

        這是一個(gè)非常簡(jiǎn)單易用的抓取工具

        怎么使用? 首先你需要?jiǎng)?chuàng)建一個(gè)對(duì)應(yīng)站點(diǎn)的規(guī)則文件 比如test.json

        {
            "name": "bing searcher",
            "action": "main",
            "subaction": [
                {
                    "action": "fetcher",
                    "url": "http://www.bing.com/search?q=${@q}",
                    "timeout": 1,
                    "subaction": [
                        {
                            "action": "parser",
                            "subaction": [
                                {
                                    "action": "shell",
                                    "subaction": [
                                        {
                                            "action": "parser",
                                            "setField": "title",
                                            "pos": 0,
                                            "rule": "a",
                                            "strip": "true"
                                        },
                                        {
                                            "action": "parser",
                                            "setField": "description",
                                            "pos": 0,
                                            "rule": "p"
                                        }
                                    ],
                                    "group": "default"
                                }
                            ],
                            "rule": "#results .sa_wr"
                        }
                    ]
                }
            ]
        }


        然后在代碼里面把它作為一個(gè)任務(wù)加入到railgun

        from railgun import RailGun
        
        railgun = RailGun()
        railgun.setTask(file("testsite.yaml"));
        railgun.fire();
        nodes = railgun.getShells('default')
        print nodes

        然后你就可以得到一個(gè)包含了所有解析后數(shù)據(jù)的節(jié)點(diǎn)列表 [{img:xxx,src:xxx,score:xxx,dest:xxx,description:xxx},{img:xxx,src:xxx,score:xxx,dest:xxx,description:xxx}]

        同時(shí)支持用webkit內(nèi)核運(yùn)行javascript抓取網(wǎng)頁(yè),css方式的dom選擇方式

        跨平臺(tái) 支持windows


        瀏覽 20
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        編輯 分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            国产午夜禁区精品视频 | 欧美性爱亚洲激情 | 高清无码免费 | 一二三四日本高清社区5 | 日逼逼视频 | 巨肉黄暴辣文高h公主 | 国产精品毛片va一区二区三区 | 精灵高辣h文乱乳h文 | 美日韩一级 | 极品久久|