New Ribbon
快快樂樂學威力導演2024.影音剪輯與AI精彩創作 文淵閣工作室祝福大家新年快樂.龍年吉祥 Power Automate自動化超效率工作術 Midjourney AI圖像魔導書:搭配ChatGPT魔法加倍 超人氣FB+IG+LINE社群經營與行銷力(第二版) 翻倍效率工作術:不會就太可惜的 Excel × ChatGPT 自動化應用 AppInventor2零基礎入門班中文版(第六版) Python零基礎入門班(第四版) C語言學習聖經 用Canva設計超快超質感:平面、網頁、電子書、簡報、影片製作與AI繪圖最速技 PHP8/MySQL網頁程式設計自學聖經 翻倍效率工作術 - 不會就太可惜的Power BI大數據視覺圖表設計與分析(第三版) 社群經營一定要會的影音剪輯與動畫製作術 Notion高效管理250招:筆記×資料庫×團隊協作,數位生活與工作最佳幫手 Office 2021高效實用範例必修16課(附500分鐘影音教學/範例檔) Excel自學聖經(第二版):從完整入門到職場活用的技巧與實例大全 網路開店×拍賣王:蝦皮來了(第二版) 專家都在用的Google最強實戰:表單、文件、試算、簡報、遠距與線上會議 超人氣 Instagram 視覺行銷力(第二版):小編不敗,經營 IG 品牌人氣王的 120 個秘技!

 

  爬蟲requests.get().text

Weiting

Weiting
更新時間:2022/6/14 上午 10:19:54

 

您好我想要問python bible自學聖經第11章爬蟲我後來自己去嘗試遇到的問題
我想問:
1.requests.get().text他是返回網頁原始檔內容嗎?因為我發現他返回的內容大致相同但有些地方不一樣,像是有些東西在原始檔裡找的到,但.text裡卻找不到,然後會返回空列表
2.上訴原因是因為ajax所導致的嗎?
3.如果.text不是返回原始檔,那他是返回甚麼東西(我在網路上都只找到'資料'、'內容')
4.要怎麼處理這類問題

Weiting

Weiting
更新時間:2022/6/14 上午 10:25:46

 

補訴問題1:用.find_all時偶而會遇到返回空列表的問題(明明原始檔有東西)

孫廷

孫廷
更新時間:2022/6/14 下午 10:39:18

 

您好我想要問python bible自學聖經第11章爬蟲我後來自己去嘗試遇到的問題
我想問:
1.requests.get().text他是返回網頁原始檔內容嗎?因為我發現他返回的內容大致相同但有些地方不一樣,像是有些東西在原始檔裡找的到,但.text裡卻找不到,然後會返回空列表(用.find_all時偶而會遇到返回空列表的問題,明明原始檔有東西)
2.上訴原因是因為ajax所導致的嗎?
3.如果.text不是返回原始檔,那他是返回甚麼東西(我在網路上都只找到'資料'、'內容')
4.要怎麼處理這類問題

Weiting

Weiting
更新時間:2022/6/14 下午 10:39:20

 

您好我想要問python bible自學聖經第11章爬蟲我後來自己去嘗試遇到的問題
我想問:
1.requests.get().text他是返回網頁原始檔內容嗎?因為我發現他返回的內容大致相同但有些地方不一樣,像是有些東西在原始檔裡找的到,但.text裡卻找不到,然後會返回空列表(用.find_all時偶而會遇到返回空列表的問題,明明原始檔有東西)
2.上訴原因是因為ajax所導致的嗎?
3.如果.text不是返回原始檔,那他是返回甚麼東西(我在網路上都只找到'資料'、'內容')
4.要怎麼處理這類問題

文淵閣工作室

文淵閣工作室
更新時間:2022/6/15 上午 08:43:03

 

您好
1.2. 這個問題大多都是 ajax 非同步載入造成的.
3. 用 requests 模組讀回的內容, 用.text 讀取會是原始文字, 但內容不一定是網頁, 有時可能是 json 或 csv 等資料, 那就必須用這些格式拆解的方式進行讀取. 你要先看看檔案的內容格式是什麼, 書上都有各種格式文字的處理方法.
4. 基礎的爬蟲技巧不是能處理所有狀況, 如果是非同步載入可能就要花更多精神去找相關來源, 如, 觀察他載入的網址, 觸發的方式, 甚至是用其他的模組, 如 selenium。每個爬蟲都是要量身訂作, 您可以用這些關鍵字進行相關的資料收集。

文淵閣工作室

文淵閣工作室
更新時間:2022/6/15 上午 08:45:12

 

原始檔有資料, 不等於瀏覽器最終取回的結果, 很多時候是網站運用了非同步載入的技巧, 或是伺服器的設定會擋下爬蟲的動作, 這些攻防不一定都會有解, 要多方嚐試。




 

 

Re:爬蟲requests.get().text

請輸入姓名。

已超出字元數目的最大值。


請輸入電子郵件。

格式無效。


請輸入內容。