爬蟲

【Python 網頁爬蟲入門實戰】ch1 HW

2018-12-192019-07-15 Jumping發表留言

目標

1. 取出範例網頁的標題 (title) 與段落 (p) 文字
2. 讓程式試著取出範例網頁中不存在的標籤文字 (如 button.text), 並且在標籤不存在時, 程式能正常結束

程式碼

import requests
from bs4 import BeautifulSoup

def get_text(url, tag):
    resp = requests.get(url)
    soup = BeautifulSoup(resp.text, "html5lib")
    try:
        if resp.status_code == 200:
            return soup.find(tag).text
    except:
        return None

def main():
    t = get_text("http://blog.castman.net/web-crawler-tutorial/ch1/connect.html", "title")
    print(t)
    p = get_text("http://blog.castman.net/web-crawler-tutorial/ch1/connect.html", "p")
    print(p)
    b = get_text("http://blog.castman.net/web-crawler-tutorial/ch1/connect.html", "botton")
    print(b)

main()

Output如下

Pycone 松果城市
Python是非常強的的程式語言, 簡潔友好的語法特別容易上手, 又有許多第三方函式庫的支援。Python是完全物件導向的語言, 有益於減少程式碼的重複性。Python的設計哲學是優雅, 明確, 簡單。 Python的設計風格, 使其成為易讀, 易維護且具有廣泛用途的程式語言。Python的應用範圍相當廣泛, 例如web後端開發, 機器學習, 資料分析, 自然語言處理, 網頁爬蟲與遊戲等等。如果自己常常翻閱書籍卻無法掌握重點, 上網收集資料卻覺得太過片段, 想要自己動手寫寫看卻不知道如何開始。這們課會從最基本的環境架設開始教起, 讓所有同學都可以深入淺出一窺Python的奧妙,更透過實務專題練習的方式,使學生可以應用課堂所學來完成一個Python軟體。
None

若沒有try的話(line 7~11)，發生例外情況

None
None
None

發表留言取消回覆