一、文献综述
- 微博爬虫技术的研究
1国内外研究现状
在大数据时代下,新浪微博的出现为人们获取和参与信息数据及其传播提供了全新的途径。而面对新浪微博不断增加的信息数据,人们对于提高微博获取的精确性和时效性也提出了更高的要求[1]。怎样快速有效地从互联网中获取生产生活中所需的数据信息成为互联网企业及广大网络用户热切关注的重点内容。
网络爬虫又被称呼为网络蜘蛛或网络机器人,其实际上是一个程序,能够遵循特定的规范规则以及给定的URL自动收集的互联网信息及数据,供人们使用[2]。
新浪微博的爬取方式有两种[3]:第一种是调用新浪微博提供的部分数据访问编程接口,即API接口;第二种则是自行开发网络爬虫程序,通过模拟登录微博,抓取并分析微博网页,从而获取预期想要得到的数据。但是对于个人来说,第一种方法存在不少的限制,主要包括以下几个方面:第一,只有微博授权的开发者才能用这一接口,一旦授权过期就无法继续使用;第二,接口限制了访问的频率,每个应用只能最多访问1000次;第三,大部分有价值的数据需要通过付费的高级接口才能访问。因此大多数人都是选择自行开发网络爬虫程序,以便于更高效地爬取微博数据。
2研究主要成果
现阶段业内爬虫技术主要编程语言选用的是Python,Python在互联网引擎中应用十分广泛,其能广泛应用的重要原因是其自身具备的应用优势特征,主要有如下几方面的体现:首先,爬虫技术的语言十分简洁,其操作过程相对简单、便捷、易于操作,所以基于Python的爬虫程序编写过程中,会耗费较少的时间与精力。Python能够为程序编写提供较为实用的框架,进而有利于爬虫迅速获取网页中数据信息提供保障[4]。
爬虫通过request获取页面html文本,然后通过beautifulsoup解析html获取所需信息。beautifulsoup库是一个优秀的python第三方库,主要用于HTML或XML格式数据的解析,使其更具结构化和格式化,并且可以从解析后的HTML或XML数据中查找、提取和修改目标信息,因此也被广泛应用于网络爬虫。beautifulsoup库支持4种HTML或XML的解析器,它们可以将HTML或XML数据转化为一个besutifulSoup类型,然后beautifulsoup库就可以对数据中的信息进行查找和获取等操作。下表[5]为4种解析器的使用方法及其说明。
图1.Beautifulsoup库解析器
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。