Scrapy 是一个快速的高级 Web 爬虫和网页抓取框架,用于爬取网站并从其页面中提取结构化数据。它可用于从数据挖掘到监控和自动化测试等各种用途。
Scrapy 需要 Python 3.9 及以上版本,可以是 CPython 实现(默认)或 PyPy 实现(参见 :ref:python:implementations
)。
如果您使用的是 Anaconda 或 Miniconda,您可以从 conda-forge 频道安装软件包,该频道提供适用于 Linux、Windows 和 macOS 的最新软件包。
要使用 conda 安装 Scrapy,请运行:
conda install -c conda-forge scrapy
或者,如果您已经熟悉 Python 软件包的安装,
您可以使用以下命令从 PyPI 安装 Scrapy 及其依赖项:
pip install Scrapy
我们强烈建议您在专用虚拟环境中安装 Scrapy,
以避免与系统软件包冲突。
请注意,有时这可能需要根据您的操作系统解决某些 Scrapy 依赖项的编译问题,因此请务必查看
:ref:intro-install-platform-notes
。
如需更详细、特定于平台的说明以及故障排除信息,请继续阅读。
Scrapy 纯 Python 编写,并依赖于一些关键的 Python 包(以及其他一些包):
lxml
_,一个高效的 XML 和 HTML 解析器parsel
_,一个基于 lxml 编写的 HTML/XML 数据提取库w3lib
_,一个用于处理 URL 和网页编码的多用途辅助工具twisted
_,一个异步网络框架cryptography
_ 和 pyOpenSSL
_,用于处理各种网络级安全需求其中一些包本身依赖于非 Python 包,这些包可能需要根据您的平台进行额外的安装步骤。