当前标签 / Requests / 总共2篇

Python 多线程和多进程爬虫

前面的 《Python 的网络请求 Requests 模块使用》 我们已经对爬虫的基本过程有了了解,而且整个过程比较顺畅,容易理解,但是很多情况下我们的爬取工作并不是如此轻松的,我们可能会面临一些特殊情况,例如今天要说的速度问题,如果有大量的页面需要爬取,我们还使用单一线程就很慢了。

多线程爬虫

我们先不考虑特别大型的爬取,本文所有的思路都是基于满足个人需求的中型爬取需要。我们可以使用多线程来并行爬取,这样就可以成倍的提高爬取速度。

我们先来感受一下如何使用多线程:

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import _thread
import time

def print_time(threadName, delay):
    count = 0
    while count < 3:
        time.sleep(delay)
        count += 1
        print(threadName, time.ctime())

_thread.start_new_thread(print_time, ("Thread-1", 1))
_thread.start_new_thread(print_time, ("Thread-2", 2))

阅读更多

Python 的网络请求 Requests 模块使用

Request 是一个简答优雅的 python HTTP 库,相较于 python 标准库中的 urllib 和 urllib2 的库,Requests 更加的便于理解使用, 本篇文章将带你详细了解 Requests 的基本用法。

Requests 模块

安装

pip install requests

注意:在 python 3.8 中的安装包中默认安装了 pip 工具,只需要我们配置一下环境变量即可

PAHT = 'C:\Users\Administrator\AppData\Local\Programs\Python\Python38\Scripts'

阅读更多