搜索引擎 – 李运德的博客

Web的十大可疑顶级域名，你知道么？

就像所有城市一样，互联网也有一些频繁发生可疑活动的地区，比如垃圾邮件、网络诈骗、有潜在威胁的软件、恶意软件、僵尸网络、网络钓鱼等。

企业安全公司Blue Coat System定期分析来自1万5千家企业和7500万用户的Web请求，跟踪互联网上的可疑活动。该公司在上个月发布了与恶意网站有所联系的十大顶级域名。

Web的十大可疑顶级域名，你知道么？
主流的顶级域名以前有在过去的几年中数量激增，从.com、.net和.org扩展出了更多种类。新兴的顶级域通常会吸引大量威胁源，因为使用它们进行注册的成本比起著名的顶级域名要低得多。

Blue Coat建议组织采取措施进行防护，比如屏蔽高风险顶级域名，或者在用户连接到托管在这些顶级域名上的网站时发出警告。Blue Coat还建议用户在不确定目标链接的具体地址时将光标移到超链接对象上，查看目标的具体地址。如果使用移动设备，可以通过点击并长按执行相同的操作。以下是十大最可疑的顶级域名：

1 .zip

这份名单的内容变化很快。.zip域名在Blue Coat于九月份发布报告时还高居榜首，但其排位之后大幅下滑。Blue Coat公司恶意软件研究小组负责人克里斯·拉尔森指出，让.zip高居榜首的原因在于它其实仅有一个活跃域nic.zip，ta是Google的预注册页面，会将用户中继到google.com下属的一个页面，其中介绍了他们新的顶级域名。

拉尔森说：“来自.zip的URL的确出现在了我们的流量日志中，根据公司的WebPulse系统记录，每天我们的客户都会发出10亿匿名访问Web的请求。如果你仔细研究，记录中的大多数都是文件名，而不是URL，但它们最终肯定是以某种方式作为URL出现在了某人的浏览器上，并且被判定成了可疑链接。”

大多数请求都是看上去很搞笑的URL，它们并不能解析，因此被标记为可疑。但拉尔森补充称很多客户雇佣的安全公司都发现.zip域名和Cryptowall、MiniDionis和CozyBear等恶意软件家族间存在联系。

2 .review

尽管.zip从第一的位置上跌落，顶级域名.review仍稳坐全网第二大可疑域名。拉尔森解释称这主要是由于它托管的诈骗网站。

“只要看一看域列表，你就会发现前15个都是诈骗网站，其中至少12个都与中国某保健品诈骗网站同属一个家族。.review可能并没有对驱逐坏人们作出任何努力。”

3 .country

顶级域名.country最近已经在Blue Coat公司的排名中获得了第一，但在报告9月份发布时它还位居第三。

“.country并不像是.click、.link和.rock这些顶级域名，为了弄清它究竟托管了多少恶意网站，我开始时查看了公司的日志。我发现所有近期注册的.country域名都是可疑的。因此如果你想在Web网关上完全屏蔽该域名，我不会怪你。如果有心情的话，你还可以屏蔽.click域名，尽管它并没有像.country这么糟糕。”

该顶级域名似乎已经完全成为了以有奖游戏/调查为名进行钓鱼的诈骗网站殖民地。拉尔森提示，Blue Coat没有直接发现任何与此网络相关的恶意软件，但有些它的配套广告网络与可疑软件存在密切联系。

4 .kim

.kim顶级域名在Blue Coat报告中排位第四。但拉尔森提示称.kim和.xyz(并不属于排名前十)的域名注册商都已经联系了Blue Coat公司，以消除他们顶级域名下的一些可疑活动。

“我们在最近的流量中发现了改变。他们做得更好了，这理应得到称赞。”

该顶级域名确实托管了一些合法的域，最著名的是韩国的某科技博客和土耳其的几家网站(Kim在土耳其语里是“谁”的意思)。但该域名与可疑软件和诈骗网站间存在联系，而且至少有一个域上托管了域名生成算法，该算法能够生成可被恶意软件利用的域名。因此，.kim理应榜上有名。

5 .cricket

.cricket取名自世界上第二大流行的运动：板球。该顶级域名被列为全网第五大可疑顶级域名。

拉尔森指出，尽管它也托管了一些合法网站，但其中存在大量搜索引擎毒化的实例。例如，StarWarsMovie.cricket从其它地方拉来了大量星球大战相关周边的图片，以获取流量，其中有些图片显然就是从其它地方盗取的。如果在页面上点击，将跳转到销售蓝光《星球大战第六部：绝地归来》的网站。

6 .science

第六大可疑顶级域名很大程度上成了其营销策略的牺牲品。为了提升顶级域名的名气，域名注册商曾免费开放.science域的注册。

“他们以低价倾销，基本可以肯定会遇上麻烦。如果花一块钱就能注册一个域名，坏人将蜂拥而至。”

拉尔森说，相比可疑软件和诈骗，.science域和sao’rao的关系最紧密。他指出，可疑活动包括一个大型电子书网站，它的下载页面曾存在可疑软件活动。另一个网站则销售定制的学术论文。

7 .work

顶级域名.work看上去和骚扰及诈骗离得更近，离恶意软件比较远。然而拉尔森的小组找到了一些指向可疑软件分发网络的尝试性链接。拉尔森指出，虽然存在一些合法网站，它仍旧值得屏蔽。举例而言，它托管了一家土耳其色情网站和巴基斯坦的一家视频剪辑网站，这两个网站极其相似。

8 .party

.party位列第八。这里的很多网站乍一看都是合法的。比如排名第一位的FashionOnly.party，页面上展示了女性婚纱礼服和休闲服装。

拉尔森说：“有一些小黄旗，这些图片都有点烂，所有都像是从原格式转换出来的。很多照片的背景中都有其他网站的水印。这是一个没有意义的网站。在评论中也没有任何内容”

这些都是搜索引擎毒化的标志。该顶级域名还托管了一大堆MP3网站，它们有可能是盗版或者恶意软件传播平台。另有一家网站托管了可疑的Tracker。

9 .gq

.gq是赤道几内亚的国家代码。Blue Coat的报告公布以来，.gq已经滑出前10位。但拉尔森指出，它在许多方面能够获得终身成就奖。

“如果翻看数据库中所有与.gq相关的评分，超过7500条的的评价中有99%是可疑的。”

Blue Coat报告中称，大多数对.gq的滥用都属于搜索引擎毒化，一大部分作为Cookie截取器的可疑视频都和恶意软件相关。它还托管了一些自称“震撼视频”的骚扰/诈骗网站，以及少量的其它恶意软件、钓鱼和色情网站。

10 .link

.link是Blue Coat名单的最后一位。该顶级域名充斥着色情内容分发网络和盗版网站，但这都不是Blue Coat标记为可疑的对象。有一家日本网站专门提供关于橄榄球的体育内容，另一家网站则转发美国一些广播电台的新闻内容。但在这些合法域之外还存在很多诈骗网站。

“根据历史来看，这是一个滋生骚扰网站的顶级域。”拉尔森说。

人名与术语

克里斯·拉尔森(Chris Larsen)

顶级域名(Top Level Domain，TLD)

域名生成算法(Domain Generation Algorithm，DGA)

搜索引擎毒化(Search Engine Poisoning)

本文业界资讯相关术语:网络安全论文网络安全密钥网络安全工程师网络安全技术与应用网络安全概念股网络安全知识网络安全宣传周网络安全知识竞赛网络安全事件

百度站长工具拒绝外链工具内测

百度站长工具拒绝外链

今天打开站长平台发现站长工具第一个上面出现了一个拒绝外链内测中的项目，这是百度在打击连接买卖中出的新功能。

百度的说明是：

我们建议您仅在以下情况拒绝外链：您认为指向您网站的垃圾链接、虚假或低质量链接数量可观，同时确定这些链接会给您的网站造成负面影响，否则请勿使用该工具。
链接拒绝后不能撤销或删除，请谨慎使用。

但是有个限制提示：

每个站点每月可拒绝的链接次数为500次，超出500次则无法成功拒绝链接。
我们需要一段时间来处理您提交的信息，拒绝链接生效周期为数周。

原文:http://www.liyunde.com/zhanzhanghome/baidu/20130301/036386.htm

百度大规模反制360：双方趁夜上演攻防战

用户在360浏览器中使用360综合搜索时，点击来自百度相关服务，会被直接带至“网页快照”页面。

新浪科技讯 8月28日晚间消息，百度今晚悄然对360搜索业务展开反制，用户通过360综合搜索访问百度知道、百科、贴吧等服务时，将会强行跳转至百度首页。这也是360本月中旬发力搜索服务以来，百度首次展开相应的反制行动。

已经承平太久的互联网搜索行业，今晚悄然展开攻防暗战。交锋的双方则是行业老大百度，以及近日在搜索业务上风头正劲的360。

这场意料之中的较量，开始于今晚9时左右，百度选择这个时刻开始在小范围进行测试：用户通过360综合搜索访问百度知道、百科、贴吧等服务时，将会强行跳转至百度首页。不过在一段时间内，不同的浏览器下使用这一服务，百度处理的方式略有差异。

根据新浪科技得到的反馈，在Firefox、360浏览器以及IE中，百度均采取上述强行跳转的策略。而谷歌Chrome浏览器似乎并未受到影响。更进一步，是在360综合搜索中默认为百度的新闻、图片、MP3、地图等服务中，进行任何搜索都会跳转至百度首页。

360随后展开对攻，用户在360浏览器中使用360综合搜索时，点击来自百度相关服务的搜索结果，会被直接带至“网页快照”页面。根据新浪科技测试的一个关键词，相应的“网页快照”上清晰的提示，这个页面是360存储于傍晚六时。

双方的攻防的涉及面积越来越大，百度知道、百科、贴吧等分别占据百度整体流量超过10%以上的重要服务，都对来自360综合搜索的请求采取限制措施。

一个小时之后，360浏览器逐渐改变了提供百度网页快照的对策。

本月中旬，360悄然推出综合搜索业务。来自Hitwise的数据显示，在360浏览器、网址导航等产品的推动下，360综合搜索的流量份额快速攀升至10%左右；与此同时，360还在搜索结果中有意降低百度相关服务的权重，而此前百度仅有轻微回应。

至截稿时，百度今晚股价上涨近3%，而360股价下跌超过5%。而百度和360官方均未针对今晚的事件作出回应。(孟鸿)

编写百度ueditor编辑器自定义插件

参考：http://ueditor.baidu.com/
最近，认真阅读了百度UEditor在线编辑器相关说明和源代码，结合前几篇博文，实现了一个UEditor插件。UEditor插件同样大量使用了匿名函数，实现UEditor自定义插件并不容易，关键要把握五点，这里以自定义插件“Mycard”为例：

在editor-config.js中，

1、在toolbars: []数组中，添加 ‘Mycard’,’|’,//自定义插件，我的名片

2、labelMap: []数组中，添加’mycard’:’自定义插件，我的名片’,其中首字母要小写 //自定义插件

3、在ui/editorui.js中，添加’Mycard’/*自定义按钮*/,

4、在样式文件ueditor.css中，为新增命添加按钮的样式类

.edui-for-mycard .edui-icon {
background-position: -400px -40px;
/*自定义命令按钮的样式*/
}

5、实现自定义命令的功能，如：

//实现插件的功能代码
baidu.editor.commands[‘mycard’] = { execCommand : function() { this.execCommand(‘insertHtml’,”
自定义插件，我的名片
“); return true; }, queryCommandState : function(){ } };

使用开发版实现UEditor

<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”
“http://www.w3.org/TR/html4/loose.dtd”>
<html>
<head>

<!–使用版–>
<!–
<script type=”text/javascript” charset=”utf-8″ src=”res/ueditor/editor_all.js”></script>
–>

<!–开发版–>
<script type=”text/javascript” charset=”utf-8″ src=”res/ueditor/_examples/editor_api.js”>
paths = [
‘editor.js’,
‘core/browser.js’,
‘core/utils.js’,
‘core/EventBase.js’,
‘core/dom/dom.js’,
‘core/dom/dtd.js’,
‘core/dom/domUtils.js’,
‘core/dom/Range.js’,
‘core/dom/Selection.js’,
‘core/Editor.js’,
‘commands/inserthtml.js’,
‘commands/image.js’,
‘commands/justify.js’,
‘commands/font.js’,
‘commands/link.js’,
‘commands/map.js’,
‘commands/iframe.js’,
‘commands/removeformat.js’,
‘commands/blockquote.js’,
‘commands/indent.js’,
‘commands/print.js’,
‘commands/preview.js’,
‘commands/spechars.js’,
‘commands/emotion.js’,
‘commands/selectall.js’,
‘commands/paragraph.js’,
‘commands/directionality.js’,
‘commands/horizontal.js’,
‘commands/time.js’,
‘commands/rowspacing.js’,
‘commands/cleardoc.js’,
‘commands/anchor.js’,
‘commands/delete.js’,
‘commands/wordcount.js’,
‘commands/image.js’,
‘plugins/pagebreak/pagebreak.js’,
‘plugins/checkimage/checkimage.js’,
‘plugins/undo/undo.js’,
‘plugins/paste/paste.js’, //粘贴时候的提示依赖了UI
‘plugins/list/list.js’,
‘plugins/source/source.js’,
‘plugins/shortcutkeys/shortcutkeys.js’,
‘plugins/enterkey/enterkey.js’,
‘plugins/keystrokes/keystrokes.js’,
‘plugins/fiximgclick/fiximgclick.js’,
‘plugins/autolink/autolink.js’,
‘plugins/autoheight/autoheight.js’,
‘plugins/autofloat/autofloat.js’, //依赖UEditor UI,在IE6中，会覆盖掉body的背景图属性
‘plugins/highlight/highlight.js’,
‘plugins/serialize/serialize.js’,
‘plugins/video/video.js’,
‘plugins/table/table.js’,
‘plugins/mycard/mycard.js’,//自定义插件
‘plugins/contextmenu/contextmenu.js’,
‘plugins/pagebreak/pagebreak.js’,
‘plugins/basestyle/basestyle.js’,
‘plugins/elementpath/elementpath.js’,
‘plugins/formatmatch/formatmatch.js’,
‘plugins/searchreplace/searchreplace.js’,
‘ui/ui.js’,
‘ui/uiutils.js’,
‘ui/uibase.js’,
‘ui/separator.js’,
‘ui/mask.js’,
‘ui/popup.js’,
‘ui/colorpicker.js’,
‘ui/tablepicker.js’,
‘ui/stateful.js’,
‘ui/button.js’,
‘ui/splitbutton.js’,
‘ui/colorbutton.js’,
‘ui/tablebutton.js’,
‘ui/toolbar.js’,
‘ui/menu.js’,
‘ui/combox.js’,
‘ui/dialog.js’,
‘ui/menubutton.js’,
‘ui/datebutton.js’,
‘ui/editorui.js’,
‘ui/editor.js’,
‘ui/multiMenu.js’
];
</script>

}
};
</script>

</style>
</head>
<body>
<h1>编写百度ueditor编辑器自定义插件</h1>
<script type=”text/plain” id=”myEditor” class=”myEditor”></script>

</body>
</html>

点击自定义按钮后，在编辑器插入文字“自定义插件，我的名片”，效果图如下：

url:http://greatverve.cnblogs.com/archive/2011/12/01/baidu-ueditor-plugin.html

百度站长平台新版上线

百度站长社区于5月29日晚试运行测试上线，新版站长平台分为工具区、资料区和讨论区，工具区就是之前的站长工具，资料区主要以一些SEO知识、建议内容为主，而讨论区则采用Discuz!建站。

目前百度站长论坛建立当天发帖量就过万，注册会员超过13000人，可见其大家对百度SEO的关注度。而之前采用百度贴吧系统的“百度站长俱乐部”，已经停止更新了。

按照公告：本次试运行测试将于6月1日凌晨0点截止，届时我们将对试运行阶段收到的反馈与数据进行梳理，同时将关闭会员注册。

百度站长平台地址：http://zhanzhang.baidu.com/

百度发展历程：百度历年首页大图集锦

“网络可能不好时，你会输入什么网址?”几乎所有中国网民的回答都是“百度”。一路走来，你还记得百度当初“青涩”模样吗?你开始上网时的百度首页是哪一版?想看百度03年以前的模样么?

百度发展历程：

2000年1月创立于北京中关村，是全球最大的中文搜索引擎。

2000年1月1日，公司创始人李彦宏、徐勇携120万美元风险投资，从美国硅谷回国，创建了百度公司。创立之初，百度就将自己的目标定位于打造中国人自己的中文搜索引擎，并愿为此目标不懈的努力奋斗。

2000年5月，百度首次为门户网站——硅谷动力提供搜索技术服务，之后迅速占领中国搜索引擎市场，成为最主要的搜索技术提供商。一些事

2001年8月，发布Baidu.com搜索引擎Beta版，从后台服务转向独立提供搜索服务，并且在中国首创了竞价排名商业模式。

2001年10月22日正式发布Baidu搜索引擎。

2005年8月5日，百度在美国纳斯达克上市，成为2005年全球资本市场上最为引人注目的上市公司，百度由此进入一个崭新的发展阶段。

百度发展历程：百度历年首页大图集锦

1999-2001百度首页，没看过吧

百度发展历程：百度历年首页大图集锦

2002年百度首页

百度发展历程：百度历年首页大图集锦

2003年百度首页

2003——增加了新闻和图片

2003_百度贴吧来了

百度发展历程：百度历年首页大图集锦

2004年的

2004-2005

百度发展历程：百度历年首页大图集锦

2006年百度首页

百度发展历程：百度历年首页大图集锦

2007年

百度发展历程：百度历年首页大图集锦

2008年的，百度收购hao123，首页多了个hao123的外链

百度发展历程：百度历年首页大图集锦

2009年

百度发展历程：百度历年首页大图集锦

2010年

百度发展历程：百度历年首页大图集锦

2011年

2012 百度首页

文章来源：互联网一些事

百度用心良苦搜索页面惊现2012世界末日特效

2012-4-20 17:52| 发布者: Arthur-K| 来自: 驱动之家

2012年是传说中的世界末日，恰逢周日（4月22日）就是世界地球日（World Earth Day），百度借此良机发起了一项有趣的活动：2012拯救地球。

在百度中搜索“拯救地球”或“2012世界末日”（支持IE9、Firefox、Chrome、Opera浏览器），就会出现一个小小的惊喜。搜索页面就会呈现2012特效，如地壳般崩裂，然后飘落一张“百度2012拯救地球号登船卡”，点击即可进入活动页面。

活动页面中央有一个受污染的地球，你可以点击想拯救的地区，选择拯救项目和拯救宣言。只需50万人参与，就能让地球变成美好的绿色。参与人数越多，2012特效也会随之产生变化，地球也会变得越来越美丽。感兴趣的用户不妨体验一下。

开源搜索引擎程序代码

国外开发的相关程序

1、Nutch

官方网站 http://www.nutch.org/
中文站点 http://www.nutchchina.com/
最新版本：Nutch 0.7.2 Released

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具，可以建立自己内部网的搜索引擎，也可以针对整个网络建立搜索引擎。自由(Free)而免费(Free)。

2、Lucene

官方网站 http://lucene.apache.org
中文站点 http://www.lucene.com.cn/

Lucene是apache软件基金会 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包[用Java写的]，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

3、Larbin: http://larbin.sourceforge.net/index-eng.html

larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。

国内开发的相关程序

1、SQLET – 开放源码的中文搜索引擎

官方网站 http://www.sqlet.com/

SQLET，是Search & Query &Link, 加后缀 let，表示小的，小型的意思.打算建立一个能搜上亿张网页的基于主题功能的中文搜索引擎.支持3种索引方式：MySql_table_Index，Lucene_Index，SQLET_Index.网页抓取可以保存在文件系统及数据库里。自带WebServer.

2、菲度垂直搜索引擎代码

菲度http://www.faydu.net 为一个垂直在线搜索的演示版，主要对国内一些购物站点进行搜索整理，
语言：VB.net(c#)

二、中文分词程序代码

1、计算所汉语词法分析系统 ICTCLAS

中国科学院计算技术研究所在多年研究基础上，耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，该系统的功能有：中文分词；词性标注；未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果)，基于角色标注的未登录词识别能取得高于90%召回率，其中中国人名的识别召回率接近98%，分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道，国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

下载页面：http://www.nlp.org.cn/project/project.php?proj_id=6

由于 ICTCLAS 是由 C 语言写成的，现在主流的开发工具用起来不太方便，于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。

（1）fenci，Java 的 ICTCLAS，下载页面：http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

（2）AutoSplit，另一个 Java 的 ICTCLAS，已经找不到下载页面，点击本地下载

（3）小叮咚中文分词，曾经有下载页面，现在找不到了。据作者介绍，从 ICTCLAS 中改进，有 Java，C# 和 C++ 三个版本，介绍页面：http://www.donews.net/accesine

2、海量智能分词研究版

海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果，共同提高中文信息处理水平，特此发布《海量智能分词研究版》，供专家、学者和爱好者进行研究。

下载页面：http://www.hylanda.com/cgi-bin/download/download.asp?id=8

3、其他

（1）CSW中文智能分词组件

运行环境：Windows NT、2000、XP 或更高，可以在 ASP，VB 等微软的开发语言中调用。

简介: CSW中文智能分词DLL组件，可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔，且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面：http://www.vgoogle.net/

（2） C# 写的中文分词组件

据作者介绍，一个 DLL 文件，可以做中英文分词组件。完全C#托管代码编写，独立开发。

下载页面：http://www.rainsts.net/article.asp?id=48

三、开源spider一览

spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.

第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目

Spier定义(关于Spider的定义,有广义和狭义两种).

狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序.
广义:所有能利用http协议检索web文档的软件都称之为spider.

其中Protocol Gives Sites Way To Keep Out The ‘Bots Jeremy Carl, Web Week, Volume 1, Issue 7, November 1995 是和spider息息相关的协议,大家有兴趣参考robotstxt.org.

Heritrix

Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web crawler project.

Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/heretix/heratix) is an archaic word for heiress (woman who inherits). Since our crawler seeks to collect and preserve the digital artifacts of our culture for the benefit of future researchers and generations, this name seemed apt.

语言:JAVA, (下载地址)

WebLech URL Spider

WebLech is a fully featured web site download/mirror tool in Java, which supports many features required to download websites and emulate standard web-browser behaviour as much as possible. WebLech is multithreaded and comes with a GUI console.

语言:JAVA, (下载地址)

JSpider

A Java implementation of a flexible and extensible web spider engine. Optional modules allow functionality to be added (searching dead links, testing the performance and scalability of a site, creating a sitemap, etc ..

语言:JAVA, (下载地址)

WebSPHINX

WebSPHINX is a web crawler (robot, spider) Java class library, originally developed by Robert Miller of Carnegie Mellon University. Multithreaded, tollerant HTML parsing, URL filtering and page classification, pattern matching, mirroring, and more.

语言:JAVA, (下载地址)

PySolitaire

PySolitaire is a fork of PySol Solitaire that runs correctly on Windows and has a nice clean installer. PySolitaire (Python Solitaire) is a collection of more than 300 solitaire and Mahjongg games like Klondike and Spider.

语言:Python , (下载地址)

The Spider Web Network Xoops Mod Team

The Spider Web Network Xoops Module Team provides modules for the Xoops community written in the PHP coding language. We develop mods and or take existing php script and port it into the Xoops format. High quality mods is our goal.

语言:php , (下载地址)

Fetchgals

A multi-threaded web spider that finds free porn thumbnail galleries by visiting a list of known TGPs (Thumbnail Gallery Posts). It optionally downloads the located pictures and movies. TGP list is included. Public domain perl script running on Linux.

语言:perl , (下载地址)

Where Spider

The purpose of the Where Spider software is to provide a database system for storing URL addresses. The software is used for both ripping links and browsing them offline. The software uses a pure XML database which is easy to export and import.

语言:XML , (下载地址)

Sperowider Website Archiving Suite is a set of Java applications, the primary purpose of which is to spider dynamic websites, and to create static distributable archives with a full text search index usable by an associated Java applet.

语言:Java , (下载地址)

SpiderPy is a web crawling spider program written in Python that allows users to collect files and search web sites through a configurable interface.

语言:Python , (下载地址)

Spider is a complete standalone Java application designed to easily integrate varied datasources. * XML driven framework * Scheduled pulling * Highly extensible * Provides hooks for custom post-processing and configuration

语言:Java , (下载地址)

WebLoupe is a java-based tool for analysis, interactive visualization (sitemap), and exploration of the information architecture and specific properties of local or publicly accessible websites. Based on web spider (or web crawler) technology.

语言:java , (下载地址)

ASpider

Robust featureful multi-threaded CLI web spider using apache commons httpclient v3.0 written in java. ASpider downloads any files matching your given mime-types from a website. Tries to reg.exp. match emails by default, logging all results using log4j.

语言:java , (下载地址)

larbin

Larbin is an HTTP Web crawler with an easy interface that runs under Linux. It can fetch more than 5 million pages a day on a standard PC (with a good network).

语言:C++, (下载地址)

webloupeSpidered Data RetrievalSpiderPySperowider

三、SEO相关资源

1、域名信息查询

★ 查询国际顶级域名的信息(.aero, .arpa, .biz, .com, .coop, .edu, .info, .int, .museum, .net, .org)，可以通过ICANN授权的域名注册商来查询，也可以直接到INTERNIC网站查询，网址是

http://www.internic.com/whois.html

http://www.iwhois.com/

★ 查询全球各个地理顶级域名是否已经被注册可以到下列网址查询（其中也包括国内域名.cn）：

http://www.uwhois.com/cgi/domains.cgi?User=NoAds

★ 查询国内域名的注册情况，

http://ewhois.cnnic.net.cn/index.jsp

★ 万网的域名注册信息查询

http://www.net.cn/

2、alexa相关与搜索排行榜

★ 中文排名500强

http://www.alexa.com/site/ds/top_sites?ts_mode=lang&lang=zh_gb2312

★ Google Zeitgeist–Google搜索排行榜

http://www.google.com/press/intl-zeitgeist.html#cn

★ 百度中文搜索风云榜

http://top.baidu.com/

★ 搜狗搜索指数

http://www.sogou.com/top/

3、搜索关键词查询

★   google关键字查询   https://adwords.google.com/select/KeywordSandbox
★ 百度关键字查询   http://www2.baidu.com/inquire/dsquery.php
★ 搜狐关键词   http://db.sohu.com/regurl/pv_price/query_consumer.asp

4、seo项目/工具

★网页质量 http://category.booso.com/cgi-bin/category/category.cgi
★关键词密度 http://www.21ql.com/seo/keyword.asp
★搜索引擎蜘蛛模拟器 http://www.webconfs.com/search-engine-spider-simulator.php

★Google Dance查询工具：http://www.google-dance-tool.com/
5、seo网站

英文网站：

搜索观察 http://www.searchenginewatch.com/
seochat http://www.seochat.com

中文网站

1>美国尚奇公司 http://www.zunch.cn

全球领先的网站设计和搜索引擎优化服务公司 ,目前中国区负责人为–柳焕斌

尚奇博客社区 blog.zunch.cn

在这里可以获取最新的SEO行业信息

2>搜索引擎优化交流中心 http://www.seoonline.cn

SEO从业者网站

1>尚奇中国区负责人为–柳焕斌 http://blog.zunch.cn/category/robinliu/

2>seo专业人士–bianyue http://www.bianyue.com/

百度获上亿元云计算专项拨款：腾讯阿里在内

2011-10-19 23:13 比特网小光

10月19日，记者获悉，由国家发改委牵头，联合工信部、财政部拨出15亿元人民币，作为国家战略新兴产业云计算示范工程专项资金，重点推动国内云计算产业发展、扶持云计算领军企业。百度、阿里巴巴、腾讯等企业，成为国家首批云计算示范企业。

据悉，百度云计算获三部委上亿拨款额，是此次云计算专项支持所有企业中最高的。而据记者了解，百度自身计划投入数十亿元人民币，大力发展智能数据服务、典型行业应用和公共云计算平台。

百度的云计算在中国的领先优势明显。百度拥有国内最大规模的绿色数据中心集群，其云计算技术在超大规模海量数据存储与处理、高性能与实时计算、高性能服务架构和高可用服务平台等领域已相当成熟。作为工信部云计算标准委员会的主要成员，百度还参与了中国云计算的标准制定，并在科技部863云计算关键技术与系统(一期)重大项目中，承担了网络操作系统研制和互联网语言翻译系统研制两个重要课题。不久前，百度被中关村云计算联盟授牌，成为云平台提供商。

目前，百度正在积极推进“开放云”的计划，以帮助第三方企业有效降低研发和运营成本。先期开放的百度云存储，将向每位申请通过的开发者免费提供高达1TB的存储空间，可说是国内第一家向业界免费开放云计算的企业。

据《中国云计算产业发展白皮书》预计，到2012年，中国云计算市场规模将达606.78亿元，并将高速增长。业内人士评价指出，随着国家扶持及企业投入力度的进一步加大，中国云计算从概念到大规模应用将指日可待。

百度迎来上市六周年股价增长52倍续写神话

8月5日消息，今日是百度登陆纳斯达克六周年纪念日。六年前，百度成功登陆纳斯达克，股价从发行价27美元起步，一路飙升。按拆股前价格计算，百度现在股价已经高达1439美元，成长超过52倍。对全球资本市场来说，市值超过500亿美金的百度，已成为名副其实的 “中国名片”。

过去52周，百度股价一度摸高至165.96美元，华尔街著名投行Jefferies将百度目标股价设定为200美元。

百度最新发布的Q2财报显示，百度第二季度总营收为人民币34.15亿元（约合5.284亿美元），同比增长78.4%;第二季度净利润为人民币16.33亿元（约合2.526亿美元），同比增长95.0%;继续保持了平均每年同比翻一番的强劲增长。华尔街著名投行Jefferies在报告中，重申了对百度的“买入”评级，并强调“百度的长期前景具有吸引力，中国中小企业电子商务增长将继续推动搜索市场业务发展。”

事实上，百度从IPO一开始就得到了全球投资者的热烈追捧。上市当天，百度就创造了纳斯达克市场股价当日涨幅最高的纪录。此后，百度由于杰出表现，受邀加入纳斯达克百强成分股，成为全球高科技公司业绩表现的风向标，在去年上市五周年纪念日当天，百度更是受邀成为首个为纳斯达克远程敲响开市钟的中国企业，李彦宏本人也获得纳斯达克副董事长Sandy Frucher亲自授予的“纳斯达克全球杰出企业家”荣誉称号。按目前市值计算，百度已经成为全球股市市值最高的三家互联网公司之一。

在国内互联网行业，目前市值前三的公司分别为百度、腾讯和阿里巴巴。过去6年，中国互联网市值第一的宝座一直在这三家公司之间交替。2007 年，阿里巴巴上市时股价一路高开，市值相当于百度和腾讯的总和。现在这一情况已经发生逆转，按8月5日最新股价计算，百度市值几乎等于腾讯和阿里巴巴总和。（百度市值为502亿美元，腾讯为461亿美元，阿里巴巴为64亿美元）。某种程度上，这种戏剧性变化也显示出以百度为代表的搜索市场正成为中国互联网最具商业价值的领域。

alexa排名下降是什么原因？三招帮你解忧

对于大多数网站而言，当出现网站alexa排名下降的现象之后，需要提升网站alexa排名的问题，实际上也就是对处于稳定期的网站如何进行有效推广使之访问量重新进入新一轮增长的问题。

尽管ALEXA网站排名系统存在很多不合理之处，但作为唯一可以为全球网站做流量排名的机构，ALEXA排名数据仍然被看作判断一个网站价值的参考指标之一，因此当网站的排名出现明显下降时，往往会让网站经营者感到很大压力，并想尽一些办法提升网站的ALEXA排名。实际上，ALEXA网站排名的高低的确能说明一定的问题：虽然排名靠前的网站不一定访问量真的巨大（不排除某些网站采用作弊的手段获取高的排名），但排名非常落后的网站必定不会有很大的访问量。所以，实际情况是，大部分网站经营者，对于ALEXA网站排名还是基本认可并且在乎的，尤其作为同类网站的相对比较指标，ALEXA的数据有其自身的价值。

从网站推广的角度来看，一个网站从策划到稳定发展要经历四个基本阶段：网站策划与建设阶段、网站发布初期、网站增长期、网站稳定期。在这四个阶段中，一般来说，前三个阶段网站的访问量都会有明显的上升，相应地网站ALEXA排名也在不断上升。到了网站稳定期，访问量增长缓慢甚至出现一定的下降，ALEXA排名下降也通常出现在这个阶段。所以，对于大多数网站而言，当出现网站ALEXA排名下降的现象之后，需要提升网站ALEXA排名的问题，实际上也就是对处于稳定期的网站如何进行有效推广使之访问量重新进入新一轮增长的问题。

对稳定期网站的推广，显然要比新网站推广的其他阶段有更大的困难，因为常规的网站推广方法已经应用过了，采用新的网站推广策略无疑需要对现有经营活动做出较大的调整，这对很多网站来说并不是简单的事情，比如增加新的功能和服务、向新的业务领域拓展等。所以，当网站进入稳定期之后，如何制定有效的网站推广策略是网站运营的难题之一。

分析一些网站进入稳定期之后的访问统计数据可以发现，有时甚可以感觉到“可怕的稳定”：尽管每天的用户可能不同，但是不仅总的访问量保持稳定，甚至来自各个渠道的用户比例都保持稳定！在这种情况下，期望网站访问量获得自然的爆发性增长是不可能的，根据对部分网站运营的体会以及为一些网站提供咨询的经验，对于稳定期网站的推广可以从下面几个方面来考虑：

第一，分析自己的网站资源，是否可以通过对现有资源的整合，利用常规的推广方法（例如搜索引擎营销）获得更多的用户，或者用户的平均网页浏览数量。具体的分析方法包括：

（1）通过网站流量统计数据，分析用户来源比例是否合适，比如来自搜索引擎的用户比例是否有进一步提升的可能；

（2）通过网站的搜索引擎优化诊断，分析主要搜索引擎收录网页的数量和在检索结果中的表现，从中可能会发现一些没有被搜索引擎收录的网页，并对某些重要网页进行针对性的优化设计；

（3）通过ALEXA网站统计数据分析，与竞争对手相比，自己的网站在独立用户数量（Reach per million users）和页面平均浏览数（Page Views per user）的差距在什么地方，如果用户平均页面浏览数过低，则可以通过对内容资源的重新组织来增加用户的阅读量。尤其对一些信息资源为主的网站，早期发布的信息尽管仍有价值，但往往会被用户忽略，仅仅相当于一个新闻网站，用户只关注最新的内容，这是对网站资源的浪费，有必要进行资源的重新整合。

一般来说，对现有网站资源的整合应用需要对网站进行全面的优化设计，这往往是网站经营者感到比较困难的事情。不过，实践经验表明，这项工作对稳定期网站访问量的提升很有效。

第二，有针对性的增加新的内容。通过对现有访问者需求特点的分析，提供更有吸引力的新的内容，尤其是当前的热点内容，是快速提升网站访问量的方法之一。

第三，增加网站互动性的功能，为现有用户提供扩展服务。

以上提到的仅仅是在没有多少额外资源投入的情况下的常规网站推广手段而已，如果有充裕的网站推广预算，当然可以加大广告投入的力度了，花钱买流量的事情，没有多少技术含量，谁都可以去操作。另外，如果希望更快获得网站排名的飞跃，利用流氓软件强迫用户访问或者不断弹出网站的内容，这种方式对网站排名可能任何时候都有效，只是这些手段不属于正规的网站运营方法，也不会为正规的网站所采用，作者也没有兴趣去实践体验。

最巧妙的刷Alexa排名方法

alexa排名是衡量一个网站流量的一个数据，关于alexa网站流量排名排名的原理本文略过，相信大部分站长都已经了解。本文重点讲讲一个全国首创刷Alexa排名技巧，和大家分享最巧妙的刷Alexa排名方法。

每个站长都有几个qq群，有的群人气很旺，每天大量的聊天内容。同时在群聊里除了解决一些问题，也有很多时候是在浪费时间。如果把聊天的场景换到自己网站的论坛或者微博是不是很强大？更加重要的是基本上安装alexa工具条的大多是站长。我上面提到的全国首创刷Alexa排名技巧就是把站长qq群聊移到网站的论坛或者微博，这样就可以实现alexa排名的突飞猛进。而且我们站长聊天每天都有不同的话题，都和网站有关，这样的聊天内容又是质量很高的原创文章。

把装alexa工具条的站长群聊移到论坛或者微博，既达到刷alexa的目的，又能为网站增加原创内容。活跃了论坛人气，又自然的刷alexa排名，一举多得。可以抛开qq，又能聊天，又能增加论坛或者微博人气，何乐而不为？

具体的实施方法是这样的：比如我们组织7个人的一个群，规定好从周一到周日哪天分别在哪个人的论坛或者微博聊天，循环了几周，大家就会习惯了，也记住了哪天该上哪个网站聊天，这样就能和qq一样的沟通自由。更重要的是为网站增加了人气增加了原创文章，刷alexa排名在不知不觉中完成了。

组织7个人，每周大家轮到一次，这样，每周都有一条超级长的聊天记录贴子，而且绝对的原创。有7个人在轮换着搞，就足够了，alexa排名，中国排名都没有问题。这样刷alexa排名就不纯粹是刷站了，聊天也不是白白浪费时间，而是每句聊天都是一种创作。

如果能组织这样一个群，那么，网站的更新机制就解决很大一部分。没有论坛讨论区的，我已经给你想好了，安装一个微博，可以不在首页导航出现，在根目录安装一个博客或者微博系统，很小，很强大，不影响网站排版，只增加网站权重。

还为alexa排名不好又担心刷alexa排名对网站不利，就安装我的方法行动起来，你要做的只需给你的论坛设置一个站长聊天版块，或者在网站根目录建一个微博系统，就好像在论坛建立一个alexa俱乐部。接下来就和平时一样轻松聊天，让alexa网站流量排名飞。

2026 年 4 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30