爬虫抓取中国企业新闻监控平台:github.com

 唐家桃园小编   2020-06-21 08:37   600 views 人阅读  0 条评论

爬虫抓取中国企业新闻监控平台:https://github.com/NolanZhao/news_feed/

中国企业新闻监控平台是一个免费开源的项目,此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在最短2分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。

爬虫抓取中国企业新闻监控平台:github.com

国家:中国

类型:网络

中文网站:https://github.com/NolanZhao/news_feed/

中国企业新闻监控平台

所需要的环境:系统需安装MySQL和Redis数据库以及Python3. 建议安装Python3虚拟环境之后运行。后台提供了界面化管理,支持用户注册和订阅,能够实现定期收到邮件推送,在公司栏可以查看公司列表和添加公司,点击公司进入公司Profile页可以编辑。

实现原理: 定期抓取网站html, 使用difflib比对新旧页面源码,发现增加的部分,提取url和text,过滤筛选,保存MySQL数据库。 定期把更新的url和text,通过邮件发送给订阅者。

美院书法高考培训班(有需要了解的扫码加微信)

杭州望崖阁书法高考培训班招生简章
本文地址:http://tangjiataoyuan.com/16740.html
版权声明:本文为网友投稿发布,版权归原作者所有。本站小编: 唐家桃园小编 编辑。欢迎分享本文,转载请保留出处!

 发表评论


表情