可以实现,先说一下思路。首先大家要通过爬虫把这些冷门行业的相关数据都爬下来,然后把这个行业相关的数据库存储到数据库,做一个分类,之后在数据库这边做一个查询。
在开始之前需要了解的一些东西:搜索引擎主要有两部分:
1.爬虫:也就是离线以获取数据
2.检索系统:在线查询数据,完成用户交互
开源工具:
Python爬虫Scrapy
Java检索系统:Elasticsearch/Solr
Python相关知识点:如果只是用Python实现爬虫的这样的项目的话,需要学习的内容是上图当中的Python基础知识,python高级,前端开发以及爬虫开发。Python爬虫的重点是不在于Python,而是网络爬虫。
下面说该问题原理:向浏览器请求文档
分析分类大家所返回的文档
从中提取中自己想要的信息
针对上述上个步骤:
首先要了解HTTP,这里可以用Python的requests库,要知道GET和POST请求页面
对响应的文档做分析,所以必须要知道的是HTML,这个很简单;在处理HTML文档可以用库有BesutifulSoup和lxml等等,搜索一下这些库的DOC
学习BesutifulSoup等库,用select等方法提取你要的信息,在这中间可能会碰到编码问题或者要学习正则表达式。
python机器人编程,python 获取屏幕,微型计算机二级python,python中设置页面,python经典一百道题,python便签,python plusone,python歌词词频,python 提交github,python 复数abs,python xmlhttppython机器人编程,python 获取屏幕,微型计算机二级python,python中设置页面,python经典一百道题,python便签,python plusone,python歌词词频,python 提交github,python 复数abs,python xmlhttppython机器人编程,python 获取屏幕,微型计算机二级python,python中设置页面,python经典一百道题,python便签,python plusone,python歌词词频,python 提交github,python 复数abs,python xmlhttpcss span是什么意思,中文css程序,css 多列子菜单,css可以识别的颜色,概述css盒子模型,css浮动后文字不环绕,css文本元素连写