2020-09-20发布生活点滴

基于Scrapy的关键词式新闻爬虫

这是我闲鱼上接的第二个单子，既然做完了，那就干脆把项目开源吧。其实主要就是把之前写过的百度搜索爬虫改成了谷歌，又添加了几个新闻站点的解析。

GitHub项目地址

2020-07-22发布笔记随写

网络数据采集与存储

网络访问工具

访问工具：浏览器
测试工具：postman
编程实现：apache httpclient
响应返回的也买你数据解析
- jsoup实时页面数据解析
- document对象数据抽取
抓包工具：Charles
:warning:注意
- 多线程
- 无间断

实现功能

httpclient发送请求访问豆瓣电影Top250
html, jsoup, 字符串

2020-02-23发布生活点滴

人生第一桶金GET！！！

在闲鱼上挂自己近一个月了，终于接到一笔比较大的生意，写一个今日头条的爬虫。我报价1000竟然直接给我砍到650。哎，现在想想还是有点亏啊。不过比起第一单爬微博数据的生意还是好多了。（当时真的是太naive了，我竟然只要了80？！)不过，这毕竟是我人生中第一次接触社会，做生意，有些吃亏也是正常的，至少现在我有些了解行情了，下次报价不会再这么保守了，谈判时也不会这么学生气了。应当要学会握住自己手上的筹码，守住自己的价格底线。现在想想，这是他求我写软件，而不是我想着要赚钱，不过话又说回来，能凭自己的实力花两天时间挣到这笔小钱，也挺有自豪感的。
下面就来说说这项任务本身吧。

2020-02-08发布笔记随写

微博API汇总及 mid和url的转换算法

微博API 汇总

1. 搜索

m端

[GET]

https://m.weibo.cn/api/container/getIndex?containerid=100103type%3D1%26q%3D关键词&page_type=searchall&page=2
weibo.cn（简版）

[POST]高级搜索（须登录）

http://weibo.cn/search/mblog?

keyword=关键词

&advancedfilter=1（高级搜索）

&starttime=20200201（开始日期）

&endtime=20200210（结束日期）

&sort=time或hot（实时or热门）

&page=1

2020-01-20发布笔记随写

百度搜索API

最近需要做一个爬取新闻网站的项目，但考虑到各个网站的搜索api都不同，且准确性较低，所以我想到了百度的高级搜索功能，于是就对其搜索api探索了一番。

以下就是我整理的百度api参数列表，可能不够全面，欢迎补充.

基于Scrapy的关键词式新闻爬虫

网络数据采集与存储

网络访问工具

实现功能

人生第一桶金GET！！！

微博API汇总及 mid和url的转换算法

微博API 汇总

1. 搜索

百度搜索API

链接

最新文章

分类

归档

标签