基于Scrapy的关键词式新闻爬虫

网络数据采集与存储

网络访问工具

  • 访问工具:浏览器
  • 测试工具:postman
  • 编程实现:apache httpclient
  • 响应返回的也买你数据解析
    • jsoup实时页面数据解析
    • document对象数据抽取
  • 抓包工具:Charles
  • :warning:注意
    • 多线程
    • 无间断

实现功能

  • httpclient发送请求访问豆瓣电影Top250
  • html, jsoup, 字符串
阅读更多

人生第一桶金GET!!!

在闲鱼上挂自己近一个月了,终于接到一笔比较大的生意,写一个今日头条的爬虫。我报价1000竟然直接给我砍到650。哎,现在想想还是有点亏啊。不过比起第一单爬微博数据的生意还是好多了。(当时真的是太naive了,我竟然只要了80?!)不过,这毕竟是我人生中第一次接触社会,做生意,有些吃亏也是正常的,至少现在我有些了解行情了,下次报价不会再这么保守了,谈判时也不会这么学生气了。应当要学会握住自己手上的筹码,守住自己的价格底线。现在想想,这是他求我写软件,而不是我想着要赚钱,不过话又说回来,能凭自己的实力花两天时间挣到这笔小钱,也挺有自豪感的。
下面就来说说这项任务本身吧。

阅读更多

百度搜索API

最近需要做一个爬取新闻网站的项目,但考虑到各个网站的搜索api都不同,且准确性较低,所以我想到了百度的高级搜索功能,于是就对其搜索api探索了一番。

以下就是我整理的百度api参数列表,可能不够全面,欢迎补充.

阅读更多