網站為什麼沒出現在Google搜尋結果,如何增加被找到的機率
- Get link
- X
- Other Apps
網站沒出現在Google搜尋結果
首先了解兩個重要名詞
- 檢索(Crawl):Google的爬蟲看見/抓取你的網站
- 索引(Index):Google將你的頁面放進資料庫,並有機會出現在搜尋結果中
常見檢索問題
孤兒頁面(Orphan Pages)
所謂的孤兒頁面也就是「沒有任何連結連到的頁面」,Google是藉由網站內的連結(主要以< a href=”” >的原始碼呈現),如果沒有連結導向到該頁面,Google自然不會發現它的存在,因此形成孤兒頁面。
而這問題可能會發生在活動頁面、產品說明頁面等等,因為是臨時製作的頁面,系統沒有預設好頁面連結會出現在網站哪邊而造成,當然,粗心大意的話即便是文章頁面也有可能。
檢索預算(Crawl Budget)太低
所謂檢索預算也就是「Google會花多少資源爬取你的網站」,畢竟Google主機效能不是無限,在近乎無限的網路世界中,用有限的爬蟲資源收集資料,勢必會需要取捨才符合效益。通常對於一些大型網站它們可被分配到的資源就相當的多,而網站許久沒有更新、沒有良好內容的網站可以被分配的檢索預算就比較少,因此對於新架設的網站則需要更加努力優化SEO,才有可能慢慢增加檢索預算上限。
含有nofollow屬性
在網頁的連結中或是網站的meta中加入nofollow屬性,會直接告訴搜索引擎爬蟲不要檢索該頁面,這對於希望保護某些敏感內容,或者不希望被收錄的頁面但卻能在網站內看見的案例中非常有用。
nofollow範例
< meta content="noindex, nofollow" name="robots" >轉址設定
網頁的進行301轉址、302轉址設定,可以引導爬蟲並且檢索另一個頁面,然而這同時會使爬蟲停止爬取原始頁面。
當然轉址設定不全然是壞處,經常用在下架、內容合併等場合,因此對於轉址設定需要更加小心,才可以避免網站的檢索問題產生。
robots.txt禁止
robots.txt是一份指示爬蟲訪問網站時應該遵照哪些行為,其中有一項”disallow”指令,可以禁止爬蟲爬取特定頁面,經常會將會員登錄、購物車等網址設定其中。
robots.txt中的disallow範例
User-agent: * Disallow: Siitemap: https://ooxx.com/some_page.html
增加檢索機會
做好內部連結
內部連結是指在網站內不同網頁之間建立連結的方法。就像是蜘蛛網一樣,透過良好的連結設定可以增加爬蟲對網站內容的抓取效率。但如果只是一股腦地在頁面上胡亂增加連結,也可能導致Google判定故意操作而使評分下降,因此制定好內部連結策略可是關鍵步驟。
上傳Sitemap
Sitemap是一種XML檔案,可以說是專門寫給爬蟲的地圖,其中包含了網站內所有頁面連結及些許資訊,這可以幫助爬蟲更有效的爬取網站內容。而除了建立在網站之中,能夠將Sitemap放置在robots.txt以及提交給Google Search Console的話,對於Google爬蟲抓取Sitemap網址也會有幫助。
提交Google Search Console
Google Search Console中有一項「網址檢查」功能,可以確認網站目前是否被Google檢索或是索引,而在畫面上也有一個「要求建立索引」的按鈕,可以提醒Google這個頁面需要再被檢索一次。
然而根據說明及經驗,這個按鈕即便按下去,Google以僅是將檢索順序往前挪移一點,實際上被檢索並收錄仍然需要花一點時間。
常見索引問題
相較於檢索的無法知道哪邊出問題,索引的問題只需要從Google Search Console中的「產生索引」->「網頁」中的報表則可以知道。 以下舉出幾個常見的問題:
伺服器錯誤 (5xx錯誤)
當主機可以接受的容量到達上限,或是連線狀況出現問題時,就容易會發生伺服器錯誤,而伺服器錯誤除了會使頁面沒有被收錄之外,頻繁的出錯會讓Google避免資源浪費,而降低網站的檢索預算。
替代頁面 (有適當的標準標記)
有適當的標準標記其實就是「canonical」標記的意思,Google會索引canonical資料中填入的網址,而非當前的頁面。
在報表中出現該警示並不代表網站一定出問題,常見像是在商品的款式(紅色、白色),為了近乎重複內容的頁面集中到同一個頁面時,使用canonical標記則是一個正確的做法,
找不到(404錯誤)
當進入頁面時,如果頁面發生錯誤(如:頁面下架、網址錯誤)等狀況,頁面則會發出404錯誤告知爬蟲及使用者,而爬蟲也會根據這個回報而停止檢索、索引這個頁面。
會出現這個問題常見像是:頁面中含有錯誤網址、程式運行錯誤導致連結失敗等等。當然,出現404錯誤並不代表一定是網站發生問題,像是下架商品、文章,也會導致頁面消失而出現404錯誤,但這正是我們所期望的,讓Google停止索引這個頁面。
因此在動手修正該問題前,事先評估是否需要投資時間修正才是良好步驟。
修正索引問題
基本上從以上的範例可以隱約了解到,當發現到問題警告時並一定需要急著處理,可以先檢視是否真的需要修正。而每個問題都有很多變因導致索引問題產生,因此建議各位可以根據以下步驟一步步拆解,發現問題的根源。
檢視含有問題頁面
從Google Search Console中的「產生索引」->「網頁」->「點開問題報告」,這時就可以發現那些網址出現問題。
以我的作法,我會先確認右邊的「上次檢索時間」確定是不是同一個時間點爆發的問題,接著再點開報表中5~10個頁面準備進行下一步。
檢視原始碼及視覺化內容
這時可以根據問題尋找相關線索,例如網址含有「noindex」標記問題,則可以先確認原始碼,抓出代碼植入在哪個地方,或是確認視覺化內容,有時候有可能是因為頁面內容過少,太多無用、重複的資訊,又或是因為程式運行失敗,導致頁面區塊變成空白、使頁面出現404錯誤等問題。
將共通點抓出來
將上一步驟檢視到的問題全部整理起來,並且取出共通含有的問題點,就可以精準驗證出需要修正的地方。
- Get link
- X
- Other Apps