查看: 4209|回复: 12

[卡盟优化杂谈] 卡盟更新内容到底是为了什么

[复制链接]
发表于 2014-6-15 10:13:52 | 显示全部楼层 |阅读模式
【导读】在互联网如此发达的今天,同一个资料会在多个卡盟发布,同一新闻会被大部分媒体卡盟报道,再加上小站长和卡盟人员孜孜不倦地网络采集,造成了网络上拥有大量的重复信息。然而当用户搜索某个关键词时,搜索引擎必定不想呈现给用户的搜索结果都是相同的内容。抓取这些重复的网页,在一定程度上就是对搜索引擎自身资源的浪费,因此去除重复内容的卡盟也成为了搜索引擎所面临的一大问题。

     在一般的搜索引擎架构中,网页去重一般在Spider抓取部分就存在了,“去重”步骤在整个搜索引擎架构中实施得越早,越可以节约后续处理系统的资源使用。搜索引擎一般会对已经抓取过的重复页面进行归类处理,比如,判断某个站点是否包含大量的重复页面,或者该站点是否完全采集其他站点的内容等,以决定以后对该站点的抓取情况或是否直接屏蔽抓取。

     去重的工作一般会在分词之后和索引之前进行(也有可能在分词之前),搜索引擎会在页面已经分出的关键词中,提取部分具有代表性的关键词,然后计算这些关键词的“指纹”。每一个网页都会有个这样的特征指纹,当新抓取的网页的关键词指纹和已索引网页的关键词指纹有重合时,那么该新网页就可能会被搜索引擎视为重复内容而放弃索引。

     实际工作中的搜索引擎,不仅仅使用分词步骤所分出的有意义的关键词,还会使用连续切割的方式提取关键词,并进行指纹计算。连续切割的方式提取关键词,并进行指纹计算,连切割就是以单个字向后移动的方式进行切割就是单个字向后移动的方式进行切词,比如,“百度开始打击买卖链接”会被切成“百度开”“度开始”“开始打”“始打击”“打击买”“击买卖”“买卖链”“卖链接”。然后从这些词中提取部分关键词进行指纹计算,参与是否重复内容的对比。这只是搜索引擎识别重复网页的基本算法,还有很多其他对付重复网页的算法。

     因此网络上流行的大部分伪原创工具,不是不能欺骗搜索引擎,就是把内容做的鬼都读不通,所以理论上使用普通伪原创工具不能得到搜索引擎的正常收录和排名。但是由于百度并不是对所有的重复页面都直接抛弃不索引,而是会根据重复网页所在卡盟的权重适当放宽索引标准,这样使得部分作弊者有机可乘,利用卡盟的高权重,大量采集其他站点的内容获取搜索流量。不过自2012年6月份以来,百度搜索多次升级算法,对采集重复信息、垃圾页面进行了多次重复级的打击。所以卡盟在面对卡盟内容时,不应该再以伪原创的角度去建设,而需要以对用户有用的角度去建设,虽然后者的内容不一定全部是原创,一般如果卡盟权重没有大问题,都会得到健康的发展。关于原创 我们一直在谈“内容为王,外链为皇 ”,所以作为一个基础的seo,不管你是刚进入这个行业,还是已经在这个行业做了有几年了,我们每天所做的事情中无外乎卡盟站内更新文章,找一些权重比较高的外链平台去发布。在这里我先不说外链的重要性,我想问大家也问自己一个问题“你每天更新站内文章到底是为了什么?”'
  做seo断断续续也有奖金快一年半了,在这个时间里面,我先是从网编开始做起,当然做网编的时候只知道每天写文章,上传文章,并没有想太多的东西,而作为seo就不同的,我们不但要给卡盟上传原创度比较高的文章,还要分析我们给卡盟更新文章到底是为了什么

  也许有人会给出三个答案:
  1、提高整个卡盟的权重
  2、整站质量提升
  3、解决收录,快照!
  这三个答案对不对?我想说的是这三个答案并不能说不对,而是不全面,我们给卡盟上传文章确实在间接见带来了卡盟的流量,提升了卡盟的权重,并且卡盟是需要文章来填充的,可以将整站的质量提升上去,并且解决了收录,快照问题,但是如果你仅仅从这个角度出发去更新文章的话,那么你的出发点至少是不对的。

  更新内容是为了解决问题。百度问答之所以受欢迎,是因为能解决客户的问题。搜索一些关键词的时候之所以会出现百度文库出现是因为这个关键词的企业没有没有满足客户需求,没有真正的做成功。所以我们虽然不能像百度问答一样做的那么专业,能够得到消费者的信赖,至少我们也应该多花些心思去写几篇文章,是为了顾客而写,是把自己当成消费者来写的。
  我每天写的文章不多,一个卡盟更新2篇,但是我在写之前会参考很多资料,所以量可以不多,但是质量不能不精,如果你都不愿意去看,还指望顾客去浏览你的卡盟你的文章吗?题,本书后续会在第12章进行详细讨论。

     另外,不仅仅是搜索引擎需要“网页去重”,自己做卡盟也需要对站内页面进行去重。比如分类信息、B2B平台等UGC类的卡盟,如果不加以限制,用户所发布的信息必然会有大量的重复,这样不仅在卡盟方面表现不好,站内用户体验也会降低很多。有如卡盟人员在设计流量产品常见的一般为以“聚合”为基础的索引页、专题页或目录页,“聚合”就必须有核心词,不加以过滤,海量核心词所扩展出来的页面就可能会有大量重复,从而导致该产品效果不佳,甚至会因此被搜索引擎降权。

     “去重”算法的大概原理一般就是如上所述,有兴趣的朋友可以了解一下I-Match、Shingle、SimHash及余弦去重具体算法。搜索引擎在做“网页去重”工作之前首先要分析网页,内容周围的“噪声”对去重结果多少会有影响,做这部分工作时只对内容部分操作就可以了,相对来说会简单很多,并且可以很有效地辅助产出高质量的“卡盟产品”。作为卡盟人员只要了解实现原理就可以了,具体在产品中的应用,需要技术人员来实现。此外还涉及效率、资源需求等问题,并且根据实际情况“去重”工作也可以在多个环节进行(比如对核心词的分词环节),卡盟人员只要稍微了解一些原理,能够为技术人员建议几个方向就很不错了(技术人员并不是万能的,也有不熟悉、不擅长的领域,在特定时刻也需要别人提供思路)。如果卡盟人员能在这些方面和技术人员进行深入的交流,技术人员也会对卡盟另眼相看,至少不会再认为“卡盟人员就只会修改标题、改链接、改文字之类‘无聊’的需求”了。

回复

使用道具 举报

发表于 2014-6-15 10:23:17 | 显示全部楼层
支持18卡盟导航!
回复 支持 反对

使用道具 举报

发表于 2014-6-15 11:41:00 | 显示全部楼层
支持楼主!支持18卡盟导航!
回复 支持 反对

使用道具 举报

发表于 2014-6-17 02:56:48 | 显示全部楼层
感谢您的无私精神...
回复 支持 反对

使用道具 举报

发表于 2014-6-18 18:12:35 | 显示全部楼层
必须支持。。。。。。。
回复 支持 反对

使用道具 举报

发表于 2014-7-6 02:53:53 | 显示全部楼层
好像还不错!
回复 支持 反对

使用道具 举报

发表于 2014-7-23 11:35:10 | 显示全部楼层
很不错的哦,支持,加油
回复 支持 反对

使用道具 举报

发表于 2014-7-27 03:31:52 | 显示全部楼层
谢谢楼主的辛苦分享
回复 支持 反对

使用道具 举报

发表于 2014-7-30 19:28:33 | 显示全部楼层
顶一个了
回复 支持 反对

使用道具 举报

发表于 2014-8-1 05:27:56 | 显示全部楼层
好像还不错!
回复 支持 反对

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies

本版积分规则

卡盟论坛(http://www.18kmw.com/bbs/)是18卡盟导航旗下的卡盟交流平台,是不是遇到卡盟相关问题没法解决?是不是遇到了卡盟骗子?是不是遇到卡盟搭建问题?一切的卡盟相关问题都可上卡盟论坛解决。
© 2001-2013 Comsenz Inc.Powered by Discuz!X3.4 
快速回复 返回顶部 返回列表