忙碌是偷懒的一种,比如懒得去思考我们为什么这样碌碌无为!
该日志由 Kevin 发表于 2006, June 22, 9:08 PM
<?
function get_naps_bot()
{
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);
if (strpos($useragent, 'googlebot') !== false){
return 'Googlebot';
}
if (strpos($useragent, 'msnbot') !== false){
return 'MSNbot';
}
if (strpos($useragent, 'slurp') !== false){
return 'Yahoobot';
}
if (strpos($useragent, 'baiduspider') !== false){
return 'Baiduspider';
}
if (strpos($useragent, 'sohu-search') !== false){
return 'Sohubot';
}
if (strpos($useragent, 'lycos') !== false){
return 'Lycos';
}
if (strpos($useragent, 'robozilla') !== false){
return 'Robozilla';
}
return false;
}
function nowtime(){
$date=date("Y-m-d.G:i:s");
return $date;
}
$searchbot = get_naps_bot();
if ($searchbot) {
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
$url=$_SERVER['HTTP_REFERER'];
$file="robotlog";
$time=nowtime();
$data=fopen($file,"a");
fwrite($data,"Time:$time robot:$searchbot URL:$urln");
fclose($data);
}
?>
以上代码保存为:robotcheck.php
在你网站每个页面任意位置加如下代码欺骗蜘蛛让其访问:
<a href=robotcheck.php><img src="robotcheck.php" width=12 height=12></a>
该日志由 Kevin 发表于 2006, June 22, 2:31 PM
转载
这两天研究Discuz 4.1,并成功地将原来一个Discuz 2.5的论坛升级到了最新版本,个人感觉这个论坛实在不错。
我的Discuz 4.1是在Apache+Php+Mysql下运行的,并开启了Url Rewrite,之后我发现整个论坛的大部分页面都可以使用html的静态地址方式来访问,感觉真不错,Apache实在太强大了,难怪现在用Apache的站点那么多。
IIS下能否也实现这种静态化功能呢,我知道Helicon开发了一个叫ISAPI_Rewrite的ISAPI程序,可以在IIS下实现Url Rewrite功能,不过我自己还没有尝试过,过两天按照下面的操作测试一下看看效果如何。另外,下文Discuz提供的ZIP文件里的Rewrite.dll实际上就是Helicon的ISAPI_Rewrite程序,我对Discuz做为软件开发商居然也盗版同行的软件感到遗憾。
参考文章:Discuz!4.1.0 IIS Rewrite配置方法(转自DISCUZ会员区)
Discuz! URL静态化功能受到论坛所在服务器环境的制约,在开启此功能之前,请根据你的Web服务器环境,选择相应的环境配置方法,以下提供的iis6下的服务器配置..其它服务器(如apache,zeus)你可以根据原理自行配置。
1、下载IIS Rewrite模块:http://download.discuz.net/4.1.0/discuz_iis_rewrite.zip;
2、将压缩包解压到任意目录,(如:C:\Rewrite)。然后打开“控制面板”-“管理工具”-“IIS信息服务管理器”-“网站”-“您的站点”-“属性”。在“ISAPI筛选器”项点击“添加”,筛选器名称填入Rewrite,可执行文件为C:\Rewrite\Rewrite.dll;
3、重新启动IIS就可以生效了。
通过上述配置后,您就可以在Discuz!4.1.0后台中根据需要开启影响的静态功能了。
无:不启用URL静态化功能。
Discuz!Archiver静态化:当论坛启用Archiver功能时,Archiver内的所有链接均采用*.html形式。
普通页面静态化:对论坛常用页面(如forumdisplay.php、viewthread.php、viewpro.php等)进行URL静态化转换。
Archiver和普通页面均静态化:对Archiver以及论坛常用页面(如forumdisplay.php、viewthread.php、viewpro.php等)进行URL静态化转换。
使用注意事项:
您可以通过系统设置中Discuz!选项来控制URL静态化的打开或关闭及其工作状态,本功能对服务器环境有特殊要求,独立主机用户需要对Web服务器增加相应的Rewrite规则,因此需要服务器权限才可使用;对于虚拟主机用户,您需要向您的空间服务商进行咨询:空间是否支持Rewrite以及是否支持对站点目录中.htaccess的文件解析,只有满足这两条件,URL静态化功能才会生效。打开URL静态化后,论坛一些常用链接会变成类似discuz/forum-1-1.html形式,如果您的服务器环境不支持或者尚未配置好,访问这些链接会出现“网页无法显示”的错误信息,论坛将无法正常访问。发生无法访问的现象时,请您进入管理后台,关闭URL静态化功能,论坛即可恢复正常状态。
本文提供的压缩包中还有一个httpd.ini文件,该文件是rewrite规则的配置文件。内容如下(无需修改):
[ISAPI_Rewrite]
# 3600 = 1 hour
CacheClockRate 3600
RepeatLimit 32
# Protect httpd.ini and httpd.parse.errors files
# from accessing through HTTP
RewriteRule ^(.*)/archiver/([a-z0-9\-]+\.html)$ $1/archiver/index\.php\?$2
RewriteRule ^(.*)/forum-([0-9]+)-([0-9]+)\.html$ $1/forumdisplay\.php\?fid=$2&page=$3
RewriteRule ^(.*)/thread-([0-9]+)-([0-9]+)-([0-9]+)\.html$$1/viewthread\.php\?tid=$2&extra=page\%3D$4&page=$3
RewriteRule ^(.*)/profile-(username|uid)-(.+)\.html$ $1/viewpro\.php\?$2=$3
该日志由 Kevin 发表于 2006, June 20, 2:11 AM
该日志由 Kevin 发表于 2006, June 20, 2:08 AM
2006年3月19日 南京讯 在搜索引擎战略大会的第二天上午,Google公司总部负责研发的李文飚(音)先生作了一场关于Google Sitemap的专题讲座。
他在演讲中称在互联网的今天,一个网站的成功与否很大程序取决于他是不是跟搜索引擎有一个很好的配合,所谓的网站可搜索性,其实有两个方面,一个方面就说他的相关性或者搜索结果的排序,另外一方面也是很重要,就是你的网页的覆盖率,Google专门设计一个产品Google Sitemap是专门来帮助提高网页的覆盖率,然后他并详细讲述了Google Sitemap的功能使用。以下是他的精彩发言的全文实录。
大家好,我是从Google的总部过来是负责研发的工作,今天我讲的主要是有关网站建造Google的产品,这个产品就叫做Google Sitemap,叫网站地图。
互联网的今天,一个网站的成功与否很大程序取决于他是不是跟搜索引擎有一个很好的配合,所谓的网站可搜索性,其实有两个方面,一个方面就说他的相关性或者搜索结果的排序,另外一方面也是很重要,就是你的网页的覆盖率,我们设计一个产品Google Sitemap是专门来帮助提高网页的覆盖率,Google Sitemap可以做什么事情呢?
Google Sitemap主要做三个事情,第一个可以主动提交网站里面的网页,还可以提供额外的信息,你网站更新的频率,以及上一次更新的时间,有了这些东西Google抓取引擎就更加智能化去抓取你的网页,第三个提供非常有用的统计信息,可以告诉你这个网站在我们搜索引擎上的效果是怎么样。我自己有一个领域是负责无线搜索的,我特别讲到Google Sitemap里的一个功能就是无线Sitemap,无线网页就像一个没有联系的小岛,对于抓取非常难,所以移动搜索非常重要,包括有一些比较特别于无线网页的内容,这个网页应该在怎么样终端上显示是诺基亚还是摩托罗拉,有很多无线特别的资料都可以在Google Sitemap表现出来,有一个问题说,我们为什么要提供Google Sitemap,我跟看一下冰山的地图,你看到的是网页上面其实有两种,一种是表面的网页他跟外围有很多的链接,是比较容易让网络爬虫或者抓取引擎抓到的,很多很高质量的网页都是在底层,这些包括很动态的网页,比如说你是一个大的网站里面有几千个产品,这些产品都是从数据库出来的,都是在HTML搜索户的后面,我们都不容易抓到。你首先是创建Sitemap,另外他更改的频率是多少这个很重要,还有一个是抓取的优先机,是从0到1,这个优先级有什么作用呢,主要是Google进行抓取网页的时候,特别是在你自己的网站你有些网页是很重要,有一些是次要,他就可以在资源有限的时候,抓取优先级比较高的网页。如果是无线网页这里面有更多的信息,包括终端资料和终端语言格式。下一步,你建立到了Sitemap以后,你可以添加一个Google Sitemap文件,这里我具体讲一下,主要是在你的Sitemap账户里面可以得到统计的信息,你这时候可以看到我们上面有每一个网站网址,他会告诉你这个Sitemap信息,这个Sitemap我们是不是已经处理了,还是有待确认。
我们提供一些很有用的统计的信息,包括在你网站上热门搜索的关键词,另外一个热门搜索的点击率,这些对于网站的优化是非常非常重要。另外我们还提供网页抓取的统计信息,包括抓取的成功率是多少,里面出现的错误是多少,你可以看这是HTML的错误等等,你可以点击里面具体的,知道里面那个网址是有错误,除此之外我们提供一些其他的资料,你的那个网页链接在你的网站是最高的。
另外一些,右边,就是外部的一些信息,作出链接一些关键词,就是人家的网站是怎么描述你的,这些对你的网站的优化都是非常非常重要的信息,还有一个是错误的报告,告诉你出现的错误是什么,你是不是有播放的错误。
还提供一个信息让你看到我们怎么解释你的错误,在下面你可以看到所有的Robots txt。
讲一下我们的一个成功案例,这是一个小型的网站,他是有关出租公寓里面住客的评价,这个网站的特点是这样的,他每天都要进行很频繁的更改,住客就有很多的意见,这个里面有很多新的出租的信息,这个网站利用Sitemap告诉我们他更新的频率,发现他对整个网站都有很好的提高,他们只有三个人管理网站,长期以来更新的网页就没办法很好的管理,用了Sitemap他们确实发现网页的更新可以自动化。
另外一个是有关内容管理的提供商,这个网站的特点,他是一个动态的网站他是管理所有的酒店、赌场还有度假胜地定房的信息,他的后台是一个数据库这对传统的网络爬虫和抓取引擎是比较困难找到信息的,他们的做法是建立一套他们自己的所谓内容管理软件,这个内容管理软件在数据库有更新资料的时候,他自动产生一个Sitemap,然后就有新的每一行针对数据库里的资料,这样可以保证所有的房间信息都可以在搜索引擎里面得到抓取,结果他们发现他们的网页点击增加了120%。
第三个是《美国时报》的网站,这是美国最好的35个网站之一,他们利用GoogleSitemap的格式,他们发现这个效果非常非常好。
这是我讲的一些用Sitemap成功的一些案例总的来讲,Sitemap可以让网站实时提交网页,这个是免费的,除此之外你还可以告诉Google你额外的网页信息。还有就是统计你网站的搜索资料,最终来讲Google还是希望提供这么一个平台让所有的网站有效提供网站的抓取质量,我的想法是这样,最理想的情况是,现在网站管理的软件假如他已经有一个建立的功能,当你增加新的网站创造新的网页的时候,你会主动提交数据,这样跟搜索引擎的配合天衣无缝,谢谢大家!
主持人:Stephen M. Norton他主要负责的工作就是关于,他也是首批通过Google广告专家的资格之一,他很多的专业只是都是来自于工作的理解,他也是非常著名的名人,
Stephen M. Norton:谢谢大家,可能大家在Google和其他的网站上都看到了怎么建站的消息,在我现在的过程当中,我主要希望把大家以前做的事更加好,我也希望向大家推荐即使非常小的网站也可以使用我们的网站建设经验。
首先我是SEO和SEM的资深顾问,我在不断的发展和吸取其他的经验,我首先跟大家说一下,刚才正如主持人介绍我,我们Google第一批专业的工程师,也是雅虎的大师,同时也在进行SEM的研究,我对一千多家公司都做了顾问和咨询的工作,我也希望以后能够更好帮助中国的企业进行工作。
昨天我讲了搜索引擎三个比较重要的方面,现在搜索引擎最热的网站首推Google这也是非常重要的一个方面,他通过IP地址和域名来进行抓取,这是搜索引擎工作的一个方面,他带来的结果也是相当满意,除此之外我们还使用标题栏,就是标题标签来搜索,直接判断搜索人的关键字,用他来搜索,还有我们在网站上放到了标签和栏目的标题时,可以让大家直接搜索这部分的内容。还有比较好的SEO这样的公司我也列出一些,ebay这样的公司,大家可以看到他们利用绝对和相对链接的时候,一个相对链接可能给出一个名字,但是他的绝对链接可能是更长的一点,这种绝对的链接全部的名称加上你页面的名称可以全部例出,一位Google资深的工作人员说,我推荐他们使用绝对链接。雅虎还有其他的一些公司也都是特别推荐大家不要使用相对链接的地址。
这种抓取的页面,他过来抓链接的时候,就说这个链接叫这个名字,这个链接到底是哪一个公司的呢,这样抓取软件他很难自己分清楚,究竟这是什么样的情况,这样的话你的页面不是很容易被抓取软件找到,给大家介绍一个公司,GKFA公司,大家可以看到他的代码,他们都是把绝对的地址非常全部的写上去。
大家发现,到底是用中间连结线,还是打全,大家都在想我是不是应该想把所有的词都拼在一起,是不是比较容易被搜索引擎抓到,还是我加了下滑线他会更智能一些,搜索引擎在判断的软件他的想法跟我们不一样,加中间连结线的时候,我们在英文的习惯里面是作为一个词来处理的。搜索引擎他读加下划线的文件名的时候,还是仍然连结在一起的读,所以他就会读到一个很长的词。
再往后面一个我们在中间加连结线的,这种命名的方式他就可以被绝大多数搜索引擎阅读出来,他可以判断这个文件名的意义到底是什么,可以从语言的角度来分析,这些显然比前两个好得多,这样你的文件名给他认出来的话,对你的访问是有帮助的。
我举一个例子,eBay.COM,大家在进行自己的网站建设的时候,在超级链接方面要特别注重超级链接的原则,这些非常小的地方可能会对我们的访问量有很大的影响,在产品页面上,我们要考虑一下,Google一直在强调在建设网站产品的这几个页面上,大家一开始有一个非常宏观的网站设计思维,最后落到细化,我们在想的时候,我们专著于页面需要大的方面,以前的这些问题是像产品介绍、照片、评价等等,还有产品的特性全部统统放到一个页面这些大家感觉比较困惑,我们现在用另外一种,扩展的产品页面是这样做,产品的描述是一页、产品的照片是一页、产品最后的特性,相关信息又一页,这样的四页,就要前面过去看一下,反过来又看,在浏览其做不断前进后退的工作,搜索引擎能不能做到这一点,也是非常困难的,这样用户的体验未必是非常好,Google也不希望人们这样前后不断看来看去,这样对于搜索引擎吸引用户继续保留在这个页面上的可能性有所下降,这样给出的信息很多但是能吸收多少也是另外一个问题,这也是我们不推荐的。
比如有一个统一的产品页面之后,每一个都可以下拉出来很多的页面,但是他的页面设计非常合理,但是他在进行链接的时候他设计的非常合理,而不会让用户在大量的信息中淹没,他们的排名非常好,这样可以让搜索引擎和用户非常清楚,这个页面有什么样的信息可以很快判断,绝对不会让客户在页面中不断的跳转,Google在Sitemap也是有非常成熟的一套技术,可以给我们很多的帮助,我这边可以给大家SEO方面有什么问题,可以寻找到帮助的网站,头一个是Google Sitemap,我不大家去这几个网站访问过没有,如果没有的话可以过去看一下,上面有很多值得大家借鉴的东西,我们可以一直不断上去看,Google经常会对这些页面进行升级,或者不断增加新的信息,我在Google在这产业方面一直引领行业的发展。而且他们的页面设计的格式也都是非常可爱的,我觉得实际上你在上面可以问一些Google技术专家的问题,可以得到很快的反馈,所以有什么问题可以上这些专家的页面去问一下他们的问题,我想他们讲了很多关于对于网站结构问题的诊断还有其他各方面提出的一些帮助,看大家有什么问题可以问我们,我也非常乐意给大家提供力所能及的帮助。谢谢大家!
该日志由 Kevin 发表于 2006, June 20, 2:04 AM
该日志由 Kevin 发表于 2006, June 20, 2:01 AM
该日志由 Kevin 发表于 2006, June 20, 1:55 AM
在浏览中文SEO站时,发现很多中国的网站设计者和推广者有一个很大的误区,就是惜链接如金,很怕从自己的网站链接到其他网站。
应该说这种担心是不必要的。在很多情况下,刻意不链接到其他网站上可能是有害的。当然我指的是有逻辑性的,符合用户需要的导出链接,而不是卖链接给其他不相关的网站,或者毫无逻辑,杂乱无章的链接到其他网站。
造成这个误区的很大一个原因似乎是,很多站长怕链接到其他网站会产生网页级别PR损耗。从理论上来说,导出链接不影响本网页的PR值。任何一个给定的URL的PR值,是由反向链接的数目及所投过来的PR值所决定的,与导出链接无关。
当然如果非要斤斤计较的话,导出链接也会在很小很小的程度上影响当前页的PR值。比如说页面上多了一个指向其他网站的链接,那么你的指向同一个网站的内部链接所传递的PR值,就会有所降低。而你自己的网站上其他这些网页再传递回当前网页的PR值也会相应降低。
但是,这里所损耗的PR值是相当相当小的。因为在一个网页上,通常都会有几十个链接,多一个链接所造成的损耗相当小。
还有更多的理由,你应该链接向其他网站:
1)互联网的本质就是超链接。没有了链接,就没有了互联网。如果大家都不链接出去,网站就成了一个个的孤岛,也就毫无意义了。这种精神和本质是永远不会消失的,也是会得到搜索引擎永远尊重的。如果你的网站没有导出链接,那是很奇怪的一件事,很可能也会被怀疑。
2)在搜索引擎排名因素中,链接的锚文字或链接文字也是排名的一个重要因素。在链接中包含关键词是网页内优化的重要因素之一。
3)指向权威性相关网站的导出链接本身就是搜索引擎排名中的重要因素之一。这一因素的重要性在两三年以前还很微弱,也不被人们所认识。现在这个因素是可以感觉到的,虽然搜索引擎并没有肯定这一点。
一个很明显的例子,在佛罗里达更新后,Google的搜索结果中,出现了大量的分类目录网站,包括雅虎和开放目录等。这些分类目录的本质,就是大量的链接指向其他网站。这些分类目录网站排名的提高,应该是Google把导出链接的重要性提高到一个过分地步的证据。
在佛罗里达更新后两三个月,Google做了一定的调整。大概就是把导出链接重要性调低,才使这些目录排到后面去。毕竟人们到搜索引擎搜索的是提供信息的网站,而不是搜索其他搜索引擎和目录。