New Ribbon
Office 2021高效實用範例必修16課(附500分鐘影音教學/範例檔) Excel自學聖經(第二版):從完整入門到職場活用的技巧與實例大全 網路開店×拍賣王:蝦皮來了(第二版) 專家都在用的Google最強實戰:表單、文件、試算、簡報、遠距與線上會議 超人氣 Instagram 視覺行銷力(第二版):小編不敗,經營 IG 品牌人氣王的 120 個秘技! 翻倍效率工作術 - 不會就太可惜的Excel必學函數(第三版) 翻倍效率工作術:詢問度破表的Office最強職人技(加量增訂版) 超人氣FB+IG+LINE社群經營與行銷力:用225招快速聚粉,飆升流量變業績! 翻倍效率工作術:不會就太可惜的Excel必學圖表(第二版) (大數據時代必備的圖表視覺分析術!) Python自學聖經:從程式素人到開發強者的技術與實戰大全! 快快樂樂學威力導演18:影音/MV剪輯活用創意特蒐 Excel+PowerPI大數據視覺圖表設計與分析(第二版) 不會就太可惜的Google超極限應用 Office 2019高效實用範例必修16課 翻倍效率工作術:Excel職場最強急救包 我也要當 YouTuber!百萬粉絲網紅不能說的秘密

 

  爬蟲

孫廷

孫廷
更新時間:2022/6/14 下午 10:40:08

 


您好我想要問python bible自學聖經第11章爬蟲我後來自己去嘗試遇到的問題
我想問:
1.requests.get().text他是返回網頁原始檔內容嗎?因為我發現他返回的內容大致相同但有些地方不一樣,像是有些東西在原始檔裡找的到,但.text裡卻找不到,然後會返回空列表(用.find_all時偶而會遇到返回空列表的問題,明明原始檔有東西)
2.上訴原因是因為ajax所導致的嗎?
3.如果.text不是返回原始檔,那他是返回甚麼東西(我在網路上都只找到'資料'、'內容')
4.要怎麼處理這類問題

文淵閣工作室

文淵閣工作室
更新時間:2022/6/15 上午 08:42:38

 

您好
1.2. 這個問題大多都是 ajax 非同步載入造成的.
3. 用 requests 模組讀回的內容, 用.text 讀取會是原始文字, 但內容不一定是網頁, 有時可能是 json 或 csv 等資料, 那就必須用這些格式拆解的方式進行讀取. 你要先看看檔案的內容格式是什麼, 書上都有各種格式文字的處理方法.
4. 基礎的爬蟲技巧不是能處理所有狀況, 如果是非同步載入可能就要花更多精神去找相關來源, 如, 觀察他載入的網址, 觸發的方式, 甚至是用其他的模組, 如 selenium。每個爬蟲都是要量身訂作, 您可以用這些關鍵字進行相關的資料收集。




 

 

Re:爬蟲

請輸入姓名。

已超出字元數目的最大值。


請輸入電子郵件。

格式無效。


請輸入內容。