爬虫抓取中国企业新闻监控平台:https://github.com/NolanZhao/news_feed/
中国企业新闻监控平台是一个免费开源的项目,此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在最短2分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。
国家:中国
类型:网络
中文网站:https://github.com/NolanZhao/news_feed/
中国企业新闻监控平台
所需要的环境:系统需安装MySQL和Redis数据库以及Python3. 建议安装Python3虚拟环境之后运行。后台提供了界面化管理,支持用户注册和订阅,能够实现定期收到邮件推送,在公司栏可以查看公司列表和添加公司,点击公司进入公司Profile页可以编辑。
实现原理: 定期抓取网站html, 使用difflib比对新旧页面源码,发现增加的部分,提取url和text,过滤筛选,保存MySQL数据库。 定期把更新的url和text,通过邮件发送给订阅者。