给@dudu 一个idea

好长时间没写文章了,因为我最近一直在琢磨博客园如何才能成为一家上市公司,上市前我在博客园买点原始股,说不定就发了。

 

现在遇到错误总是先谷歌,谷歌背墙,在百度,百度不到在到博客园找 找看看

因为找找看的数据都是博客园的,数据量太少,我想找找看这个功能能不能升级都全网搜索,主要搜索和代码相关的网页,

这个搜索分英文版和中文版,中文错误 走中文版国内采集,英文错误 走国外采集的网页

当然,要上市,必须要有概念性的功能,我觉得

1指定关键词全网抓取和指定域名全网抓取 ,用户可以自己指定 要抓取的内容

(这个主要用于查找各种错误等等)

2 抓取算法的开源和透明是必须

3展示算法的开源和透明也是必须

大家补充下其他功能

============================================================

ps:idea 开源与我最近在折腾自己的小站(http://www.unknownerror.org/) ,主要练习ASP.NET MVC3,各种开源orm,基于Html Agility Pack和ScapySharp的数据采集,

外加lucenenet

发现一个一个网站的采集是在太郁闷了

后来找到 Nutch 这个东西,一看是做搜索引擎用,怎奈是java的,俺不会。。SO,这个想法交给dudu和看到园友们,最合适了

原文地址:https://www.cnblogs.com/qqloving/p/3182657.html