<label id="wvq97"></label>

    <ol id="wvq97"><code id="wvq97"></code></ol>
    <rp id="wvq97"></rp>
    <s id="wvq97"><sub id="wvq97"><option id="wvq97"></option></sub></s>

    <strike id="wvq97"><u id="wvq97"></u></strike>
    1. 掌握自己熟知的 ? 探索未來(lái)需要的
      當前位置: 首頁(yè) >> seo優(yōu)化 >> 如何計算文章標題和內容相關(guān)度?

      如何計算文章標題和內容相關(guān)度?

      創(chuàng )建時(shí)間: 2020-07-04

      如何計算文章標題和內容相關(guān)度?資深站長(cháng)都知道,搜索引擎每天在爬蟲(chóng)的時(shí)候都是比較喜歡新鮮質(zhì)感的內容,而且內容與標題要有較高的相關(guān)性,如果只是一味的標題檔那是沒(méi)有效果的。搜索引擎是比厭煩這種東西的,它具有很高的智能性判斷,所以大家在以后的優(yōu)化過(guò)程中不用想著(zhù)蒙混過(guò)關(guān),那是不可行的。

      如果你不知道搜索引擎是如何計算文章與標題相關(guān)度的,那希望這篇文章能對你有幫助,耐心的學(xué)起來(lái)吧。

      如何計算文章標題和內容相關(guān)度


      做一個(gè)審核相關(guān)度的功能

      從seo出現以來(lái),一直有一個(gè)概念是整個(gè)seo優(yōu)化過(guò)程都需要知道的東西,那就是關(guān)鍵詞密度。很多的seo教程一直強調關(guān)鍵詞密度要在2%~8%之間是最好的,低于這個(gè)范圍就沒(méi)啥競爭力,主題不集中;而高于這個(gè)值就會(huì )導致關(guān)鍵詞堆砌,優(yōu)化過(guò)度了,容易受到搜索引擎的打擊。

      那是不是說(shuō)明這個(gè)關(guān)鍵詞密度是計算主題相關(guān)度的一個(gè)重要指標呢?但是這個(gè)關(guān)鍵詞的密度是完整的關(guān)鍵詞密度還是分詞后的關(guān)鍵詞密度呢?是正文部分的關(guān)鍵詞密度還是整個(gè)網(wǎng)頁(yè)文字內容部分的關(guān)鍵詞密度呢?這個(gè)不好說(shuō),但是我們能從搜索結果里面的百度快照看出點(diǎn)啥來(lái)。






      從搜索結果里面來(lái)看,其實(shí)是有分詞的,但是完整匹配的排名效果會(huì )更好。(這個(gè)顯然大伙都知道,哈哈) 于是就有很多做seo的,特別是做黑帽的,就直接往文章里面插入完整的關(guān)鍵詞,一般插入2-3次這樣,用以提高關(guān)鍵詞的密度和文章的相關(guān)性。

      好了,這些都不是本文的關(guān)注點(diǎn),我們來(lái)看看如果要實(shí)現一個(gè)關(guān)鍵詞密度計算的程序應該如何實(shí)現。

      如何實(shí)現關(guān)鍵詞密度計算

      首先說(shuō)下算法實(shí)現過(guò)程

      1、分別將關(guān)鍵詞和文章內容進(jìn)行分析

      2、統計文章中出現關(guān)鍵詞分詞結果的次數

      3、用2的結果除以文章分詞后的總次數

      4、優(yōu)化點(diǎn),可以先去除文章和關(guān)鍵詞中的停止詞之后再做計算,這樣可能更貼切一點(diǎn)。(留給大家實(shí)現了)


      代碼


      我拿了篇文章做了下計算,結果如下:

      計算的文章地址:https://game.china.com/industry/focus/11118308/20200630/38421717.html



      這篇文章的關(guān)鍵詞密度是11.4% 看起來(lái)有點(diǎn)優(yōu)化過(guò)度了?但實(shí)際上并沒(méi)有超出很多,而且目前這個(gè)是排名在第4的。而且我計算的只是正文內容的關(guān)鍵詞密度。

      當然了,我這個(gè)也只是一種粗略的計算方式,相信搜索引擎會(huì )有更加完善的計算。大家如果感興趣可以自己試試哦。

      那么這個(gè)關(guān)鍵詞密度是不是影響這個(gè)排名的重要因素呢?這個(gè)大家可以去驗證一下,這個(gè)不是本文的主題哈。

      回到正題,如果只是通過(guò)關(guān)鍵詞密度來(lái)計算文本的相關(guān)性似乎有點(diǎn)不太靠譜,還有沒(méi)有其它好的辦法來(lái)實(shí)現呢?這里我又想到了另外的一種思路:


      另一種計算文章主題相關(guān)性的方法

      思路如下:

      1、將標題和文章正文進(jìn)行分詞處理

      2、利用TF_IDF算法提取出文章的N個(gè)核心詞語(yǔ),這里的N可以是一個(gè)固定的數值,比如10個(gè),也可以是動(dòng)態(tài)的數值,比如跟關(guān)鍵詞分詞后的個(gè)數一樣

      3、去除標題分詞中字數少于2個(gè)字的,只有一個(gè)字的詞默認就認為文中是包含的。

      4、將3中的結果進(jìn)行去重然后拿去跟2中的詞做對比,得到3沒(méi)有包含在2中的詞語(yǔ)

      5、將4中沒(méi)有包含詞語(yǔ)的個(gè)數除以1中的總個(gè)數,再用1減去計算值就得到相似度 具體代碼實(shí)現如下:

      代碼

      跟關(guān)鍵詞密度一起來(lái)作對比,運行上次的文章,得到如下結果:



      這里可以看到,關(guān)鍵詞密度是11.4%,而相似度是80%,看起來(lái)還是可以的。當然了,沒(méi)有做大量的測試,感興趣的同學(xué)可以用下哦。

      如果你有更好的方法或者idea歡迎留言一起探討學(xué)習。我這個(gè)方法是比較簡(jiǎn)單的。當精度的要求沒(méi)那么高的時(shí)候,簡(jiǎn)單快速的方法是我們實(shí)現功能的首先。


      完整代碼

      article.txt 文件里面存放的就是該測試文章的純文本內容


      相關(guān)資訊
      微信咨詢(xún)
      微信在線(xiàn)客服
      7*10小時(shí)為您服務(wù)
      QQ在線(xiàn)
      歡迎QQ在線(xiàn)資訊
      工作時(shí)間: 8:00 - 21:00
      在線(xiàn)客服
      在線(xiàn)客服
      一级特黄aa大片免费,毛片无遮挡高清免费观看,韩国毛片视频,中文字幕亚韩 甘德县| 乐陵市| 望都县| 龙门县| 古交市| 光泽县| 宜兰县| 华容县| 景德镇市| 阿拉善右旗| 新昌县| 唐山市| 和顺县| 红原县| 西城区| 盖州市| 高密市| 大悟县| 武胜县| 普格县| 武城县| 长子县| 彩票| 台南市| 专栏| 美姑县| 睢宁县| 襄垣县| 舟曲县| 浦县| 嘉禾县| 武安市| 凤台县| 嘉义市| 社旗县| 长治市| 宣恩县| 和田市| 海南省| 新营市| 绥芬河市| http://444 http://444 http://444 http://444 http://444 http://444