1、选定一个主题和业务方向。你要抓哪些数据?是通用网页搜索还是定向抓取某个数据。比如排行榜、资料库、热点资讯。
2、分析特定网站HTML结构,最好找到数据API。直接定向从API抓取。
3、对方网站是否需要登录,是否需要执行脚本才能得到渲染结果。分别注册并得到登录的cookie信息以及通过模拟浏览起抓取数据。
4、抓过来的数据要格式化处理,统一入库存放。这个根据业务场景来。比如你想要app排名数据,就提前建好数据的视图和字段,包括名称、类型、日活、装机量等等。
5、在抓取过程中容易被封禁。那需要租各地以及国外的vps来抓取,这样ip就是普通用户的。根据对方站点特点来设置。总之只要能让用户看到那就可以抓到。
6、抓取要尽可能模拟用户行为,而且要顾及对方的服务器压力。你抓取只是为了减少人工逐个去筛数据,是为了提升效率和准确率,不能把人家服务器当试验田随便乱抓。
数据是为了整理成信息服务的,不只是多,还要注重有效性。提前规划好就能抓到你想要的数据了。