1、严格禁止通过技术手段绕过服务器的访问限制,或破解被爬网站为保护数据而采取的加密算法及技术保护措施,从而对被爬网站受保护的计算机信息系统中的数据进行爬取。
2、若被爬网站设定了获取数据信息的措施(包括实名认证、账号密码、内部权限等),爬虫企业应避免通过伪造实名认证或窃取账号密码、内部权限的形式获取数据。
3、避免或谨慎抓取身份认证信息。
4、对大数据公司,特别是大数据风控企业来说,获取“裁判文书网”“执行信息公开网”等网站的数据非常普遍且重要,但爬取这类国家事务网站的信息时应当尤为审慎,特别是在网站已采取相关“反爬措施”的情况下,仍强行恶意突破防护措施爬取数据,对网站运行造成影响的,均可能构成犯罪。