ium中安装这两个库。可以使用pip命令进行安装,命令如下
stall requestsstall beautifulsoup4
第二步编写代码
程序,用于循环爬取一个网页的多个页面
port requestsport BeautifulSoup
循环爬取5页ge(1, 6)
构造URLple/page/” + str(i)
发送请求se = requests.get(url)
解析网页sel.parser”)
提取所需信息
…
在上述代码中,大家使用for循环来循环爬取5页的网页数据。在每次循环中,大家首先构造出当前要爬取的页面的URL,然后使用Requests库发送请求,获取网页数据。接着,大家使用BeautifulSoup库对网页数据进行解析,提取出大家需要的信息。
第三步处理异常
在实际的网页爬取中,大家经常会遇到一些异常情况,比如网络请求失败、网页解析失败等。为了保证程序的稳定性,大家需要对这些异常情况进行处理。下面是一个处理网络请求失败异常的代码示例
port requestsport BeautifulSoup
循环爬取5页ge(1, 6)
构造URLple/page/” + str(i)
发送请求
tryse = requests.get(url)s as et(“网络请求失败”, e)tinue
解析网页
trysel.parser”) as et(“网页解析失败”, e)tinue
提取所需信息
…
在上述代码中,大家使用try…except语句来捕获网络请求失败的异常情况。如果网络请求失败,程序会输出“网络请求失败”的提示信息,并继续循环下一个页面。同样地,大家也可以使用try…except语句来处理网页解析失败的异常情况。
爬虫的技巧。