(一)网络爬虫——熟悉而陌生新技术
“网络爬虫”这一词汇于我们而言即熟悉又陌生,实际上早在1993年12月首个基于爬虫的网络搜索引擎—JumpStation诞生,人们已经适用网络爬虫这一技术近30年了,随着互联网的普及,网络爬虫的使用在我们的生活中也并不罕见。例如,经常被我们使用的搜索引擎,如百度、谷歌、必应、搜狗等,就属于网络爬虫中的一种,这类网络爬虫被我们称之为搜索引擎网络爬虫。事实上网络爬虫可以分为很多种,从技术层面出发,将网络爬虫根据其结构和实现技术的不同,可分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫以及深层网络爬虫四种。当下行业惯例中又依据被抓取信息数据的网站对网络爬虫的态度以及网络爬虫是否违背Robots协议出发,将网络爬虫分为善意爬虫与恶意爬虫。无可厚非,网络爬虫已经成为当下信息科技时代互联网领域的常用科技手段之一,在搜索引擎、大数据分析、风险防控、政策制定、犯罪预测等方面的运用所取得的成绩有目共睹,其蕴含的巨大价值与发挥的积极作用也使之成为当下人们的焦点。