nutch/hbase/solr/elasticsearch/hadoop
2016-09-18 12:38:43 0 举报
Nutch是一个开源的网络爬虫项目,用于抓取网页数据。HBase是一个分布式的、面向列的开源数据库,用于存储大规模结构化数据。Solr是一个高性能的、基于Lucene的搜索服务器,用于实现全文搜索功能。Elasticsearch是一个分布式的、RESTful风格的搜索和分析引擎,具有快速、实时和可扩展的特点。Hadoop是一个开源的分布式计算框架,用于处理大规模数据集。这些技术可以结合使用,构建一个完整的搜索引擎系统,实现对海量数据的高效存储、检索和分析。