承德SEO杨帆的博客:致力于SEO、SEM、在线营销、企业网站SEO推广,承接企业网站、个人网站制作及SEO搜索引擎优化推广业务。
  • 首页 | 搜索 | 标签 | 订阅 | 留言
     
  •   重点推荐 蕾丝淑女 杜拉拉的私人鞋柜 淘宝客美容类目美丽节 大男人小童心 时尚泳装潮流show
    当前位置:承德SEO-杨帆的博客 - 承接企业网站、个人网站制作及搜索引擎优化推广业务。

    关于站长

    站长名称:杨帆
    联系邮箱:5kimo@163.com
    联系QQ: 9837196
    联系电话:13733344036
      本人常年承接企业网站、个人网站、Zblog主题、模板制作及搜索引擎优化推广业务。
      点击这里给我发消息

    定位宣传

    网站分类

    文章归档

    最新评论及回复

    最近留言

    站点统计

    文章列表

    上一篇 | 下一篇

    网站SEO优化必要了解的百度切词

      发布:杨帆 分类:seo攻略 评论:(0) 查看:

      百度是全球最大中文搜索引擎,最了解国内网民的搜索习惯,做为中国搜索引擎的老大,很多草根站长一直在研究的它的搜索技术和排名算法,还有不少站长兄弟姐姐还要靠它的流量吃饭,为此草根网站的站长们对它是又爱又恨,百度能带来很大的流量,又会无情的K站或降权。

      好的,那咱们说说百度的分词技术,可能有说的不对地方,请大家拍砖头,希望大家共同进步。没有研究百度分词前不明白百度为什么比google强大.其实分词也就是切词,百度是否拿来一句中文字符串拿来随便切一下呢,当然不会。那么怎么才满足被切割的条件呢?通过下面的实验就会发现如果字符串只包含小于等于3个中文字符的话,那就保留不动,比如:"流量计"这个词,前提是一个完整的词,百度是不会切分的,当字符串长度大于4个中文字符的时候,百度的分词程序就会启动了。例如"电磁流量计",看看返回结果中标为红字的地方,不难看出来,查询已经被切割成“电磁”,“流量计”两个单词了,再试着换一个词。例如:我们来看"承德流量计",百度里提交查询一下,发现标红的关键字都是每一个是"承德","流量计",连续出现的情况,可以看到将"流量计"与"承德"切分成两个词,如果我们搜"承德国诚流量计"呢,发现网页内容比较完整是"http://www.gohoe.cn",这个网站已经收录,这个长尾词被切成了"承德国诚"/"流量计". 如果这个网站没被收录的情况下,那么就会被切成“承德”“国诚”“流量计”。我们可以在相关搜索的内容里可以看到标红显示的词来验证。

      我们在来研究一下百度是分词算法,通过几年的发展,百度的分词算法已经算是相当成熟了,这其中也少不了SEOER 的功劳,有一位SEOER的前辈说过:"百度的算法有简单的有复杂的,有正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用百度去搜索一下以增加理解。
        让我们总结一下吧,这里面也是我个人的猜测, 百度拥有一个强大的词汇数据库,里面有我们通用所用的各种词语比如"人名,地名,产品的名称",举个例子"杨帆","承德","流量计",这些都是词库中有的,在切词时将专有名称切出,如"承德国诚"这个词,如果该公司网站在没有被收录的情况下,“国诚”这个词词库中就没有,下面的采用双向最大匹配分词算法,假如正向和反向匹配分词结果一致当然最好,就可直接输出即可;如果两者不一致,正向匹配一种结果,反向匹配一种结果.

      百度一直自称是全球最大中文搜索引擎,但分词技术也并无特殊,也许就是因为百度拥有一个超大的专用词典,这个专用词典登录了人名(比如流量计),厂家名称(比如流量计生产厂),部分地名(比如承德等),网址(http://www.gohoe.cn/),并且这个词典在不断的扩充一些新词,一些新词不断的被收录,这就比google强大的一个方面,google在于分词来说,及词库明显比不上百度,这正是google本身要加强的地方.

    标签:百度切词  切词  SEO优化  

    发表评论:

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。