<source id="gksis"><optgroup id="gksis"></optgroup></source>
  • <source id="gksis"><bdo id="gksis"></bdo></source>
  • <button id="gksis"></button>
  • 技術研究 | 零編程數據爬取之:火車頭數據爬取(二)

    時間:2019-06-28
    技術研究 | 零編程數據爬取之:火車頭數據爬取(二)
    零編程數據爬取之:火車頭數據爬取(二)

    上一期蕾奧技術研究文章中,介紹了網址規則,并利用網址規則采集了南山區所有二手房住宅小區頁面的網址。本期將繼續在已獲取的網址上,借助網頁源代碼中的標簽,提取頁面中的目標數據。


    2.   通過源代碼中的標簽截取頁面中的信息

    在測試網址采集結果正常后,點擊上方標簽“第二步:采集內容規則”。在左上部的“頁面內容標簽定義”中,刪除軟件已有的默認標簽。

    這一步是用頁面標簽來定位數據。原理是在源代碼中找到數據前后出現的兩段代碼,且保證第一段代碼在網頁中是唯一存在的,則軟件會自動采集兩段代碼之間的數據。

    接下來開始分析網頁元素,本篇以Google Chrome瀏覽器為例。在頁面空白處單擊右鍵,單擊“查看網頁源代碼”和“檢查”,會在新標簽頁中打開網頁源代碼,并在瀏覽器右側會顯示開發者工具。

    單擊開發者工具左上角的選擇元素按鍵,點擊頁面上的標簽,即可在開發者工具中看到對應代碼。

    此處以價格為例,當鼠標指到價格標簽時,開發者模式中可以看到對應代碼。

    展開該代碼塊可見,average是二手房均價標簽,unit是單位標簽。

    于是在網頁源代碼的頁面中Ctrl+F搜索這兩個標簽,顯示結果為

    說明該網站在此處將價格隱藏。于是換一個思路,既然搜不到標簽,直接搜價格“80233”,可以看到這次的結果變成了

    這段數據為頁面中歷史售價曲線圖的數據,而comm_midprice則為當前均價的標簽。通過頁面搜索顯示,comm_midprice在這段代碼中是唯一的。

    因此復制該標簽到價格前的所有內容,即"comm_midprice":",作為前段標簽。

    在火車采集器的“頁面內容標簽定義”部分,點擊“添加”,設置標簽名為“均價”,提取數據方式默認為“前后截取”,粘貼上文復制的開始字符串,再從代碼中復制價格后的引號作為結束字符串。單擊“確定”保存。

    同樣的方法,提取物業類型數據。選擇頁面上的物業類型數據后,可以看到開發者模式中顯示的對應標簽為:

    在網頁源代碼中搜索該標簽,顯示結果僅有一個:

    回到火車編輯器中添加該標簽為:

    以同樣的方式,添加物業費、總建面積、總戶數、建造年代、停車位、容積率、綠化率、開發商、物業公司等標簽。

    激情国产一区二区三区四区,亚州一页,欧美区日韩区,午夜福利一区二区三区