|
您好 1.2. 這個問題大多都是 ajax 非同步載入造成的. 3. 用 requests 模組讀回的內容, 用.text 讀取會是原始文字, 但內容不一定是網頁, 有時可能是 json 或 csv 等資料, 那就必須用這些格式拆解的方式進行讀取. 你要先看看檔案的內容格式是什麼, 書上都有各種格式文字的處理方法. 4. 基礎的爬蟲技巧不是能處理所有狀況, 如果是非同步載入可能就要花更多精神去找相關來源, 如, 觀察他載入的網址, 觸發的方式, 甚至是用其他的模組, 如 selenium。每個爬蟲都是要量身訂作, 您可以用這些關鍵字進行相關的資料收集。 |