简单但绝不简陋的 Python3 爬虫项目。
参考「建立完美的 Python 项目」 创建
Hydra 力求用最简单的代码实现聚合 HG 多平台的数据。
从本项目中你可以看到:熟悉的 Python 基础语法、如何编写爬虫、操作数据库、常用第三库、分析网页、解析接口、编写单元测试、mock 请求、异常监控和管理、保证代码质量的自动化、GitHub Action 等实战应用。
此项目是汇集「HelloGitHub」在每个平台的账号和内容数据,方便我们的作者们看到自己作品的数据(投稿吗?)。支持平台:博客园、头条、知乎、掘金、即刻 等。
你要加入我们吗?
基于 Python 3.9.1 实现,理论上支持 3.7.5+
首先,下载项目:git clone
or 点击下载 zip 包
然后,在项目根目录创建配置文件,.local_env.yaml。
最后,把玩起来吧!
-
安装 poetry:
pip install poetry
-
安装依赖:在项目根目录执行
poetry install --no-root
-
运行单个爬虫:
poetry run python main.py wechat|cnblogs|toutiao|csdn|zhihu|juejin|jike
比如:查看某一日发布的原创文章数据
SELECT
summary ,
clicks_count ,
platform ,
publish_date
FROM
hydra_content
WHERE
content_type = "article"
AND publish_date = "2021-03-01"
AND(
is_original = 1
OR is_original IS NULL
);
+-----------------------------------------+----------------+------------+----------------+
| summary | clicks_count | platform | publish_date |
|-----------------------------------------+----------------+------------+----------------|
| 更新啦!第 59 期《HelloGitHub》开源月刊 | 77 | csdn | 2021-03-01 |
| 更新啦!第 59 期《HelloGitHub》月刊 | 5133 | wechat | 2021-03-01 |
| 更新啦!第 59 期《HelloGitHub》开源月刊 | 1022 | cnblogs | 2021-03-01 |
| 更新啦!第 59 期《HelloGitHub》开源月刊 | 1053 | toutiao | 2021-03-01 |
| 更新啦!第 59 期《HelloGitHub》开源月刊 | 1879 | zhihu | 2021-03-01 |
| 更新啦!第 59 期《HelloGitHub》开源月刊 | 931 | juejin | 2021-03-01 |
+-----------------------------------------+----------------+------------+----------------+
6 rows in set
Time: 0.050s
本作品采用 署名-非商业性使用-禁止演绎 4.0 国际 进行许可。