常見檢索問題

孤兒頁面(Orphan Pages)

所謂的孤兒頁面也就是「沒有任何連結連到的頁面」，Google是藉由網站內的連結(主要以< a href=”” >的原始碼呈現)，如果沒有連結導向到該頁面，Google自然不會發現它的存在，因此形成孤兒頁面。

而這問題可能會發生在活動頁面、產品說明頁面等等，因為是臨時製作的頁面，系統沒有預設好頁面連結會出現在網站哪邊而造成，當然，粗心大意的話即便是文章頁面也有可能。

檢索預算(Crawl Budget)太低

所謂檢索預算也就是「Google會花多少資源爬取你的網站」，畢竟Google主機效能不是無限，在近乎無限的網路世界中，用有限的爬蟲資源收集資料，勢必會需要取捨才符合效益。通常對於一些大型網站它們可被分配到的資源就相當的多，而網站許久沒有更新、沒有良好內容的網站可以被分配的檢索預算就比較少，因此對於新架設的網站則需要更加努力優化SEO，才有可能慢慢增加檢索預算上限。

含有nofollow屬性
在網頁的連結中或是網站的meta中加入nofollow屬性，會直接告訴搜索引擎爬蟲不要檢索該頁面，這對於希望保護某些敏感內容，或者不希望被收錄的頁面但卻能在網站內看見的案例中非常有用。

nofollow範例
< meta content="noindex, nofollow" name="robots" >
轉址設定

網頁的進行301轉址、302轉址設定，可以引導爬蟲並且檢索另一個頁面，然而這同時會使爬蟲停止爬取原始頁面。

當然轉址設定不全然是壞處，經常用在下架、內容合併等場合，因此對於轉址設定需要更加小心，才可以避免網站的檢索問題產生。

robots.txt禁止
robots.txt是一份指示爬蟲訪問網站時應該遵照哪些行為，其中有一項”disallow”指令，可以禁止爬蟲爬取特定頁面，經常會將會員登錄、購物車等網址設定其中。

robots.txt中的disallow範例
User-agent: *
Disallow:
Siitemap: https://ooxx.com/some_page.html

增加檢索機會

做好內部連結

內部連結是指在網站內不同網頁之間建立連結的方法。就像是蜘蛛網一樣，透過良好的連結設定可以增加爬蟲對網站內容的抓取效率。但如果只是一股腦地在頁面上胡亂增加連結，也可能導致Google判定故意操作而使評分下降，因此制定好內部連結策略可是關鍵步驟。

上傳Sitemap

Sitemap是一種XML檔案，可以說是專門寫給爬蟲的地圖，其中包含了網站內所有頁面連結及些許資訊，這可以幫助爬蟲更有效的爬取網站內容。而除了建立在網站之中，能夠將Sitemap放置在robots.txt以及提交給Google Search Console的話，對於Google爬蟲抓取Sitemap網址也會有幫助。

提交Google Search Console

Google Search Console中有一項「網址檢查」功能，可以確認網站目前是否被Google檢索或是索引，而在畫面上也有一個「要求建立索引」的按鈕，可以提醒Google這個頁面需要再被檢索一次。

然而根據說明及經驗，這個按鈕即便按下去，Google以僅是將檢索順序往前挪移一點，實際上被檢索並收錄仍然需要花一點時間。

常見索引問題

相較於檢索的無法知道哪邊出問題，索引的問題只需要從Google Search Console中的「產生索引」->「網頁」中的報表則可以知道。以下舉出幾個常見的問題：

伺服器錯誤 (5xx錯誤)

當主機可以接受的容量到達上限，或是連線狀況出現問題時，就容易會發生伺服器錯誤，而伺服器錯誤除了會使頁面沒有被收錄之外，頻繁的出錯會讓Google避免資源浪費，而降低網站的檢索預算。

替代頁面 (有適當的標準標記)

有適當的標準標記其實就是「canonical」標記的意思，Google會索引canonical資料中填入的網址，而非當前的頁面。

在報表中出現該警示並不代表網站一定出問題，常見像是在商品的款式(紅色、白色)，為了近乎重複內容的頁面集中到同一個頁面時，使用canonical標記則是一個正確的做法，

找不到(404錯誤)

當進入頁面時，如果頁面發生錯誤(如：頁面下架、網址錯誤)等狀況，頁面則會發出404錯誤告知爬蟲及使用者，而爬蟲也會根據這個回報而停止檢索、索引這個頁面。

會出現這個問題常見像是：頁面中含有錯誤網址、程式運行錯誤導致連結失敗等等。當然，出現404錯誤並不代表一定是網站發生問題，像是下架商品、文章，也會導致頁面消失而出現404錯誤，但這正是我們所期望的，讓Google停止索引這個頁面。

因此在動手修正該問題前，事先評估是否需要投資時間修正才是良好步驟。

修正索引問題

基本上從以上的範例可以隱約了解到，當發現到問題警告時並一定需要急著處理，可以先檢視是否真的需要修正。而每個問題都有很多變因導致索引問題產生，因此建議各位可以根據以下步驟一步步拆解，發現問題的根源。

檢視含有問題頁面

從Google Search Console中的「產生索引」->「網頁」->「點開問題報告」，這時就可以發現那些網址出現問題。

以我的作法，我會先確認右邊的「上次檢索時間」確定是不是同一個時間點爆發的問題，接著再點開報表中5~10個頁面準備進行下一步。

檢視原始碼及視覺化內容

這時可以根據問題尋找相關線索，例如網址含有「noindex」標記問題，則可以先確認原始碼，抓出代碼植入在哪個地方，或是確認視覺化內容，有時候有可能是因為頁面內容過少，太多無用、重複的資訊，又或是因為程式運行失敗，導致頁面區塊變成空白、使頁面出現404錯誤等問題。

將共通點抓出來

將上一步驟檢視到的問題全部整理起來，並且取出共通含有的問題點，就可以精準驗證出需要修正的地方。

Search This Blog

HowWow Marketing

網站為什麼沒出現在Google搜尋結果，如何增加被找到的機率

常見檢索問題

孤兒頁面(Orphan Pages)

檢索預算(Crawl Budget)太低

含有nofollow屬性

轉址設定

robots.txt禁止

增加檢索機會

做好內部連結

上傳Sitemap

提交Google Search Console

常見索引問題

伺服器錯誤 (5xx錯誤)

替代頁面 (有適當的標準標記)

找不到(404錯誤)

修正索引問題

檢視含有問題頁面

檢視原始碼及視覺化內容

將共通點抓出來

Comments

Post a Comment

Popular Posts

FB的熱衷粉絲和頭號粉絲是什麼？

新網站不花錢獲取流量的方法