大时代之巅

设置

第768章爬虫(第2/3页)

    ，还需要时间。”

    周不器笑着说“我知道搜索技术很高端，可随着时间的推移，搜索技术就会走下神坛，变为比较大众的技术。最根本的技术，还是大数据处理。”

    在大方向的理论上，周大老板比一些专业人士还强。

    王小船深以为然，“是啊，大数据的处理。百度和谷歌的差距，微点和百度的差距，最主要的就是体现在我们在数据处理时的效率问题。按理来说，通过爬虫技术，可以抓取到互联网上所有信息。可相关信息太多了，数据量太大了。怎么才能在短时间内把想要的信息抓取并展示出来，是搜索引擎最大的技术难题。”

    周不器打了个响指，笑道“巧了，我这次过来，就是想问问你爬虫的事。”

    王小船有些费解。

    周大老板这个技术外行，怎么还关心起技术细节来了

    就缓缓的解释道“爬虫是搜索的基础工具，爬虫搜信息嗯，就跟使用浏览器上网差不多，都是先向服务器发送请求，获得返回的页面，然后筛选出有价值的内容。如果时间足够长计算量足够大，使用爬虫工具，就可以把互联网上的所有信息都搜索一遍。”

    见周大老板似乎很感兴趣的样子。

    王小船就拿过纸笔，很快速的写下了一行代码，“假如说我们要爬取微知网的信息，用这行代码就可以实现了。”

    周不器拿过代码一看，嗯，是很简单。

    heders

    rs

    难怪说3月份的时候，北科有两个计算机系的大学生被开除了。

    这技术好像是不太难。

    因为大四写论文，可用谷歌、百度、微点等搜索引擎，却搜不到别人写的相关论文。怎么办就有计算机系的学生，自己写了段爬虫算法。

    然后成功的爬取到了几百篇相关论文。

    接下来就好办了，摘抄、重组、整合。

    如果查重不过关，也简单，用谷歌翻译，先汉译英、再英译汉。再人工地把句子整理通顺，查重就顺利通过。

    可能是北科的创业环境被周不器给带起来了，那俩大学生就有了通过技术牟利的心思，玩起了帮同学写论文的生意。

    被发现后，俩人都被开除了。

    要不是周不器出面力保，上缴了非法所得，并安排到了校内网工作，他俩说不定就要蹲监狱了，前程就全毁了。

    王小船接着说“这是静态网站的爬取，如果是优酷、朋友网的这种动态页面，算法会相对复杂。可不管怎样，这都是很基础的工具。我们做搜索引擎，难点已经从复杂性变为规模量了。”

    周不器皱皱眉，“老马就是阿里的那位。他跟我说，要屏蔽百度对淘宝的爬虫，怎么回事”

    王小船笑道“这事也简单，爬虫和网站之间有一个爬取协议，业内叫bt协议。这个协议会声明，该网站的哪些内容可以爬取，哪些内容不能爬取，并规定白名单里的爬虫可以爬取主页内容。淘宝如果要屏蔽百度，只需要把百度的爬虫加到黑名单里就行了。”

    “嗯”

    周不器点了点头。

    这就是他想要的答案。

    爬虫黑名单

    王小船似乎看出了什么，试探着说“老板，你你要对百度下手吗”

    周不器道“我看了一下微知网的数据，过去3个月，有超过11亿的访问量，是来自百度。”

    王小船没有惊喜，
    （本章未完，请翻页）

大时代之巅

第768章 爬虫(第2/3页)

第768章爬虫(第2/3页)