网络爬虫原理

#1、网络爬虫原理网络爬虫指按照一定的规则（模拟人工登录网页的方式），自动抓取网络上的程序。简单的说，就是讲你上网所看到页面上的内容获取下来，并进行存储。网络爬虫的爬行策略分为深度优先和广度优先。如下图是深度优先的一种遍历方式是A到B到D 到E 到C到 F（ABDECF）而宽度优先的遍历方式ABCDEF。

#2、写网络爬虫的原因我将为什么写网络爬虫的原因总结为3点，分别是：（1）互联网中的数据量大，我们不能人工的去收集数据，这样会很浪费时间与金钱。而爬虫有个特点就是能批量、自动化的获取和处理数据。本人写过各大汽车论坛上的爬虫以及大众点评网，tripadvisor（国外网站）的爬虫，爬取的数据已有几千万之多，可想你如果一条条去复制，到老死也完不成吧。（2）爬虫很酷。前段日子，看到有人利用爬到了腾讯3000万QQ数据，包含（QQ号，昵称，空间名称，会员级别，头像，最新一条说说内容，最新说说的发表时间，空间简介，性别，生日，所在省份，城市，婚姻状况）的详细数据，并绘制了各种有趣的图表。（3）对于读研、读博，做数据挖掘、数据分析的人而言，没有数据做实验，是一件很蛋疼的事情。你可能每天在各种论坛问这个问那个要数据，是不是很烦呢。

#3、网络爬虫的流程

简单的网络爬虫，通过上述图便可完成。首先是给定一个待爬取的URL队列，然后通过抓包的方式，获取数据的真实请求地址。接着采用httpclient模拟浏览器将相应的数据抓取下来（一般是html文件或者是json数据）。由于网页中的内容很多，很复杂，很多内容并不是我们需要的，所以我们需要对其进行解析。针对html的解析很简单，通过Jsoup(Dom解析工具)、正则表达式便可完成。针对Json数据的解析，这里我建议一款快速解析工具fastjson（阿里开源的一个工具）

#4、网络抓包，（packet capture）就是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作，经常被用来进行数据截取等。在针对数据响应为Json或者需要针对需要用户名、密码登陆的网站，抓包显得尤为重要，抓包也是编写网络爬虫的第一步。

DataLearner 官方微信

热门博客