緣由

因閱讀電子書，一直有畫重點的習慣，但官方提供的匯出csv或html，沒有排序，也有輸出總量的限制，html版面也呈現不出重點，所以自己從爬蟲開始做了專案，將個人重點整理成html匯出。

關於爬蟲

現代網站大多是動態網站，不是靜態，已經不是python request就能取得資料

解法通常是

透過API取得資料
透過模擬瀏覽器行為取得資料(selenium)

比較

	抓取速度	開發複雜度	受前端版面影響	破解速度	debug 方便性	js 加密混淆影響
API取資料	快	高	沒有	慢	好	難度提高
模擬瀏覽器	慢	簡單	有	快	不好	沒有

從api取得資料，要去追蹤一個api所需的參數有哪些? 從哪裡可找到? 開發者工具是必須要熟練的，而模擬瀏覽器，就是模擬人的操作行為，但速度慢，debug也不方便(不像api可以有response可直接觀察)，其實還是有其技術經驗門檻，但卻是最暴力直接的方式，但前端只有小改一個tag，就可能讓爬蟲失效(看定位的依據)。

個人觀點

從selenium出發，幾乎可以不用了解網站就能開始做爬蟲，但自己能寫過網站前後端後，才開始善用另一種方式，爬蟲開發者如果要往上走，還是要了解網站的運作，才能更有效率的開發。

Github專案

用分析Api，獲取資料(login未實作，簡單從cookie拿取就可)

https://github.com/hanksky12/EBooks

爬蟲

電子書重點整理

優雅停止程式

HankSky

Hello This World!

posts