Home
Posts
Categories
Series
Tags
About
ReadMoo 電子書爬蟲
postedOn: 2025-1-27   updatedOn: 2025-1-27   includedIn: 程式
wordsCount: 531   readingTime: 2 mins   viewers:

緣由

因閱讀電子書,一直有畫重點的習慣,但官方提供的匯出csv或html,沒有排序,也有輸出總量的限制,html版面也呈現不出重點, 所以自己從爬蟲開始做了專案,將個人重點整理成html匯出。

關於爬蟲

現代網站大多是動態網站,不是靜態,已經不是python request就能取得資料

解法通常是

  1. 透過API取得資料
  2. 透過模擬瀏覽器行為取得資料(selenium)

比較

抓取速度 開發複雜度 受前端版面影響 破解速度 debug 方便性 js 加密混淆影響
API取資料 沒有 難度提高
模擬瀏覽器 簡單 不好 沒有

從api取得資料,要去追蹤一個api所需的參數有哪些? 從哪裡可找到? 開發者工具是必須要熟練的, 而模擬瀏覽器,就是模擬人的操作行為,但速度慢,debug也不方便(不像api可以有response可直接觀察), 其實還是有其技術經驗門檻,但卻是最暴力直接的方式,但前端只有小改一個tag,就可能讓爬蟲失效(看定位的依據)。

個人觀點

從selenium出發,幾乎可以不用了解網站就能開始做爬蟲,但自己能寫過網站前後端後,才開始善用另一種方式, 爬蟲開發者如果要往上走,還是要了解網站的運作,才能更有效率的開發。

Github專案

用分析Api,獲取資料(login未實作,簡單從cookie拿取就可)

https://github.com/hanksky12/EBooks