GitHub上有哪些优异的Java爬虫项目

GitHub上有以下优异的Java爬虫项目：1、Gecco；2、XueQiuSuperSpider；3、WebCollector；4、Movie_Recommend；5、SeimiCrawler。Gecco是一款基于java语言的轻量化易用的网络爬虫。整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等多个框架，只需配置一些jquery风格选择器，可以快速写出爬虫。

1、Gecco

Gecco是一款基于java语言的轻量化易用的网络爬虫。整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等多个框架，只需配置一些jquery风格选择器，可以快速写出爬虫。Gecco框架具有优异的可扩展性，框架设计基于开关原则，对扩展开放。

2、XueQiuSuperSpider

雪球超级爬虫是基于雪球网、东方财富和同花顺实现的股票数据爬虫程序。通过它你可以根据个人操作风格重新定义各个股票的筛选方式。本项目高扩展，可以实现任何股票数据的搜集和分析，对于炒股的小伙伴，可以尝试了解一下。

3、WebCollector

WebCollector无需配置，便于二次开发JAVA爬虫框架(内核)，提供简化API，实现强大的爬虫只需要少量代码。WebCollector-Hadoop是WebCollector的Hadoop支持分布式爬行的版本。

4、Movie_Recommend

这是一个基于spark的电影推荐系统，通过大数据过滤引擎实现了电影推荐功能，包含了爬虫、网站前后端，管理后台以及推荐系统。

5、SeimiCrawler

这是一个简单、敏捷、分布式的爬虫架构，支持SpringBoot的Java爬虫框架。通过SeimiCrawler，你只需要专注于爬虫的业务逻辑即可，大大提高了开发爬虫系统的开发效率。

延伸阅读：

什么是爬虫？

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。