上一期蕾奧技術研究文章中,介紹了網址規則,并利用網址規則采集了南山區所有二手房住宅小區頁面的網址。本期將繼續在已獲取的網址上,借助網頁源代碼中的標簽,提取頁面中的目標數據。
2. 通過源代碼中的標簽截取頁面中的信息
在測試網址采集結果正常后,點擊上方標簽“第二步:采集內容規則”。在左上部的“頁面內容標簽定義”中,刪除軟件已有的默認標簽。
這一步是用頁面標簽來定位數據。原理是在源代碼中找到數據前后出現的兩段代碼,且保證第一段代碼在網頁中是唯一存在的,則軟件會自動采集兩段代碼之間的數據。
接下來開始分析網頁元素,本篇以Google Chrome瀏覽器為例。在頁面空白處單擊右鍵,單擊“查看網頁源代碼”和“檢查”,會在新標簽頁中打開網頁源代碼,并在瀏覽器右側會顯示開發者工具。
單擊開發者工具左上角的選擇元素按鍵,點擊頁面上的標簽,即可在開發者工具中看到對應代碼。
此處以價格為例,當鼠標指到價格標簽時,開發者模式中可以看到對應代碼。
展開該代碼塊可見,average是二手房均價標簽,unit是單位標簽。
于是在網頁源代碼的頁面中Ctrl+F搜索這兩個標簽,顯示結果為
說明該網站在此處將價格隱藏。于是換一個思路,既然搜不到標簽,直接搜價格“80233”,可以看到這次的結果變成了
這段數據為頁面中歷史售價曲線圖的數據,而comm_midprice則為當前均價的標簽。通過頁面搜索顯示,comm_midprice在這段代碼中是唯一的。
因此復制該標簽到價格前的所有內容,即"comm_midprice":",作為前段標簽。
在火車采集器的“頁面內容標簽定義”部分,點擊“添加”,設置標簽名為“均價”,提取數據方式默認為“前后截取”,粘貼上文復制的開始字符串,再從代碼中復制價格后的引號作為結束字符串。單擊“確定”保存。
同樣的方法,提取物業類型數據。選擇頁面上的物業類型數據后,可以看到開發者模式中顯示的對應標簽為:
在網頁源代碼中搜索該標簽,顯示結果僅有一個:
回到火車編輯器中添加該標簽為:
以同樣的方式,添加物業費、總建面積、總戶數、建造年代、停車位、容積率、綠化率、開發商、物業公司等標簽。