你按下發布,三週過去了,那篇文章還是搜不到。換上完整標題去 Google 搜,連個影子都沒有;用 site: 指令查,也是一片空白。文章明明寫得不差,圖也配了,內鏈也補了,為什麼 Google 就是不收?
很多人這時候的第一反應,是懷疑自己內容寫得不夠好。但真正卡住索引的,往往不是內容品質,而是更前面、更技術性的一段路——Googlebot 連把整頁讀完都還沒做到,更別說判斷值不值得收錄了。Google 把新網頁放進搜尋結果,要先後跑完三道獨立關卡:檢索(crawling)、索引(indexing)、排名(ranking)。所謂的索引延遲,就是文章卡在「已經被檢索、卻遲遲沒進索引庫」這個中間地帶,可能拖上幾天,也可能拖上好幾週。
這段延遲不是命定的。它背後有幾個你看得到、也修得動的成因——伺服器回應太慢吃掉檢索配額、HTML 太肥讓 Googlebot 讀不到正文、新站權重不夠讓爬蟲懶得常來。先把這條因果鏈拆清楚,再用 Google Search Console 的兩個工具主動把爬蟲叫過來,比你乾等快得多。
新文章發布後,Google 多久才會收錄?
先給一個能直接拿去用的範圍。穩定更新的網站,新文章通常在發布後一到三天內被收錄;發文頻率低、權重不高的新站,可能要等上兩到四週,極端情況拖到數月也不算故障。Google 官方對「新網頁多久被索引」的說法一向保守——從數小時到數週都屬正常,時間長短受很多因素影響。
差距為什麼這麼大?關鍵在 Googlebot 對你這個網站的「來訪頻率」。它不是每秒盯著你的站看,而是依網站過往的更新節奏與健康度,決定多久回來巡一次。每週穩定發三篇的站,爬蟲可能一兩天就回來一趟;每月才發一篇的新站,爬蟲可能兩三週才晃過來一次。你的新文章再好,也得等到下一次爬蟲上門才有機會被讀到。
所以「多久收錄」這個問題,答案其實藏在另一個問題裡——Googlebot 多久來你家一次。而它來的頻率高不高,正是接下來幾個技術成因在決定的。
什麼是索引延遲?先分清檢索、索引、排名三道關
索引延遲指的是網頁已經被 Googlebot 抓取下來、卻還沒被放進 Google 索引庫的這段等待時間。它不等於「沒被收錄」,也不等於「排名不好」,是夾在兩者之間的一個狀態。要理解它,得先把 Google 處理一個網頁的三道獨立關卡分開看。
- 檢索(crawling):Googlebot 上門,把你的 HTML 下載回去。這一關沒過,等於 Google 根本沒看過這頁。
- 索引(indexing):Google 解析剛剛抓回去的內容,判斷值不值得存進索引庫。存進去了,這頁才有資格出現在搜尋結果。
- 排名(ranking):使用者下關鍵字時,Google 從索引庫裡挑出相關頁面、排出順序。
這三關各自獨立,一頁可能卡在任何一關。索引延遲,就是過了第一關、卡在第二關。它和「沒被收錄」的差別在於:沒被收錄通常是技術設定擋死了(noindex、robots.txt、canonical 指向別頁),Google 主動選擇不收;索引延遲則是 Google 還在排隊處理,或還在評估這頁的價值,給它一點時間多半會自己進去。
判斷自己卡在哪一關,唯一可靠的方法是去 Google Search Console 查,不是在搜尋框打 site:。site: 指令顯示的是索引庫的快照,更新有延遲,常常一頁其實已經收錄,site: 卻還搜不到——拿它當判斷依據,你會嚇自己。
為什麼伺服器回應太慢,會拖垮整站的收錄速度?
這是最被忽略、卻最關鍵的一條因果鏈——你的伺服器回應越慢,Googlebot 願意分給你的檢索量就越少,新文章被讀到的機會也跟著縮水。
中間的橋樑叫檢索配額(crawl budget),意思是 Googlebot 每次來訪,能花在你網站上的時間與抓取頁數都有上限。這個上限不是固定值,會隨你的伺服器表現浮動。Google 把伺服器的回應速度當成「這個站健不健康」的代理訊號。你回得越快,它判斷你扛得住,就放心多抓幾頁;你回得越慢,它怕把你的主機拖垮,就主動踩煞車、少抓幾頁。
這裡的回應速度,技術上看的是 TTFB(Time to First Byte,從發出請求到收到第一個位元組的時間)。Google 的 PageSpeed Insights/Lighthouse 會稽核伺服器回應時間,一旦超過 600 毫秒,就會被標記為需要改善;越接近、甚至低於 200 毫秒越理想。TTFB 一旦飆高,Googlebot 的單次抓取量會立刻縮水;反過來,回應穩定又快,爬蟲能抓的深頁(離首頁好幾層的頁面)也會更多。
對只有幾百頁的小型部落格,配額通常綽綽有餘,這條鏈感受不深。但只要你的站開始累積數千頁、或主機本身體質不好(共用主機塞太多站、沒開快取、資料庫沒優化),TTFB 一拉長,Googlebot 抓得少,新文章排在檢索佇列後面,三週沒被讀到就不奇怪了。把 TTFB 壓下來——開快取、用 CDN、升級主機——等於是替整站的爬蟲爭取更多配額,這是最划算的一筆技術投資。
Google 只讀前 15MB,你的 HTML 太肥了嗎?
Googlebot 抓取一個 HTML 檔時,預設只讀取前 15MB,超過這個上限的內容會被直接忽略——不抓取、不繪製、不索引。這是 Google 官方明載的規則,很多人第一次聽到都嚇一跳。
先別緊張,這裡有個關鍵要澄清——15MB 只算 HTML 檔本身的大小,網頁上的圖片(JPG、PNG 等)不計入。圖片是另外發請求抓的,再多張高解析圖也不會吃掉這 15MB。所以一般圖文並茂的文章,離上限還遠得很。
那什麼情況會撞到?問題幾乎都出在 HTML 原始碼塞太多東西。最常見的是把大量內容硬塞進同一個 HTML 檔——例如一頁灌進上千則留言、整份巨大的 JSON 資料直接寫死在頁面裡、或把本該外連的 CSS 與 JavaScript 全部內嵌寫進 HTML。當這些雜質把檔案撐過 15MB,Googlebot 會在 15MB 那一刀停住,後面的位元組全部捨棄。
這條規則真正的殺傷力,在於它會「砍頭砍到正文」。如果你的版型把一堆肥大的腳本、留言、側欄資料堆在 HTML 前段,真正的文章內容排在後面,那麼當檔案超標時,被砍掉的正好是你想被收錄的那段文字。Google 讀不到正文,自然無從判斷這頁有沒有價值,索引就卡住了。檢查方法很簡單,在瀏覽器對頁面按右鍵看原始碼,或用線上工具量一下 HTML 檔大小,只要遠低於 15MB 就不必擔心這一關。
文章三週沒被收錄,第一步該怎麼自我診斷?
新文章發布後超過三週還沒進索引,先別急著重寫內容,按順序跑一遍下面這份技術檢查,多數卡關的真正原因都藏在這裡。重點是先確認 Googlebot「進得來、讀得到」,再去煩惱內容。
- 第一,查 noindex 標籤有沒有誤掛。 頁面被
<meta name="robots" content="noindex">標記,等於明白告訴 Google 不要收這頁。WordPress 後台「設定 → 閱讀」若勾了「阻擋搜尋引擎建立索引」,全站文章都會掛上 noindex;SEO 外掛也可能把分類頁、標籤頁、甚至個別文章設成 noindex。這是最容易誤觸、也最該先排除的一條。 - 第二,查 robots.txt 有沒有擋住路徑。 robots.txt 寫了
Disallow規則的路徑,Googlebot 就不會去抓。確認你的文章網址不在被封鎖的路徑底下。 - 第三,查 canonical 有沒有指錯。 如果這頁的 canonical 標籤指向了另一個網址,等於你親口告訴 Google「正版是別頁,這頁別收」。確認新文章的 canonical 指向自己。
- 第四,查內部連結是不是孤兒頁。 Googlebot 主要靠連結在網站裡爬。一篇沒有任何其他頁面連向它的文章(孤兒頁),爬蟲很可能永遠找不到。最起碼從首頁、分類頁、或一兩篇舊文連過去。
- 第五,查伺服器有沒有回 5xx 錯誤,TTFB 是不是太慢。 Googlebot 上門時若碰到 500、502、503 這類錯誤,或等回應等到逾時,它會默默離開、改天再來,新頁就這樣被晾著。
這五項對照下來,多半就能定位問題出在「進不來」(robots.txt、TTFB、5xx)還是「不准收」(noindex、canonical)。技術面都乾淨、卻還是沒進索引,才輪到回頭檢視內容深度與原創性。
怎麼用 URL 檢查工具確認狀態?看懂兩種「未索引」差別
要知道一篇文章現在卡在哪,最準的工具是 Google Search Console 裡的網址審查(URL Inspection)工具。把完整網址貼進 GSC 上方的搜尋列,按 Enter,它會回給你這頁在 Google 眼中的真實狀態,比 site: 指令可靠得多。
它通常會回兩種「未索引」狀態,意思天差地遠,得分清楚:
| GSC 狀態 | Google 做到哪一步 | 真正原因 | 你該做什麼 |
|---|---|---|---|
| 已發現-目前尚未建立索引 | 知道這頁存在,但還沒去抓 | 檢索配額排不到、爬蟲還沒上門 | 補內部連結、提交 sitemap、按請求索引 |
| 已檢索-目前尚未建立索引 | 抓回去看過了,但決定先不收 | 內容深度不足、跟既有頁太相似、價值訊號不夠 | 加強內容、補獨家觀點,再請求重新檢索 |
兩者的分界,就在 Googlebot 到底抓了沒。「已發現」是還沒抓——問題多半在前面那條鏈,配額不夠或沒連結把爬蟲引過來,補連結、催 sitemap 通常就能推動。「已檢索」是抓了卻沒選——這時 Google 已經讀過你的內容、評估後覺得不夠格,再多按幾次請求索引也沒用,得實打實把內容做厚、做出別頁沒有的角度,才有機會翻盤。
網址審查工具還有一個常被忽略的好處,就是它顯示的資料往往比「網頁索引」總報告更即時。報告裡標成「已檢索未索引」的頁,拿來這裡查即時狀態,有時其實已經收錄了。動手修之前先查清楚,免得白忙。
確認沒收錄後,怎麼用 GSC 主動請求索引?
技術面都排查乾淨、頁面確實還沒進索引,這時候就輪到主動出手——在網址審查工具的結果頁,點下「要求建立索引(Request Indexing)」。
實際操作很單純:
- 打開 Google Search Console,確認你查的是文章所在的那個資源(網域)。
- 把要收錄的完整文章網址貼進上方搜尋列,按 Enter,等它跑完即時檢查。
- 看到「網址不在 Google 中」的結果後,點下方的「要求建立索引」。
- Google 會先跑一次即時測試,確認這頁沒有明顯的索引障礙,再把它排進優先檢索佇列。
- 排程通常會在 24 小時到數天內被處理,不是按下去就立刻收。
要先說清楚一個常見誤會——請求索引是「提示」,不是「保證」。按下去只是讓 Google 把這頁的檢索優先序往前挪,最終收不收、多久收,仍由 Google 的演算法判斷。如果這頁本身有 noindex、或內容被判定價值不足,按一百次也進不去——所以前面那道技術檢查才得先做。
還有一點別做,就是不要對同一個網址反覆猛按請求索引。Google 對單一網址的請求頻率有上限,連點不會讓它更快收,只是浪費額度。按一次,給它 24 小時到幾天消化,沒進去再回來查狀態就好。
比起手動一頁頁催,更治本的做法是把 sitemap.xml 提交到 GSC、並維持穩定的發文節奏。sitemap 等於主動遞給 Google 一份「我有哪些頁」的地圖;而連續幾個月每週至少發一篇,會讓爬蟲把你列為「值得常來看」的站,往後新文章一兩天內自己就被收了,根本不必每篇都手動請求。請求索引是救急用的,不是長久之計。
與其每篇催 Google,不如讓爬蟲養成來巡的習慣
回頭看這條從發布到被搜到的路,卡住新文章的,多半不是你以為的「內容寫得不夠好」,而是更前面那幾關——伺服器回得夠不夠快、HTML 有沒有肥到讓 Googlebot 讀不完正文、有沒有連結把爬蟲引到新頁、技術設定有沒有不小心擋死自己。把 TTFB 壓進 200 毫秒、把 HTML 留在 15MB 上限內、把 noindex 與 robots.txt 排查乾淨,這些做對了,索引速度會自己加快。
主動請求索引是好用的救急鈕,但它治標。真正讓索引延遲縮短的,是把整個站養成 Googlebot 願意常來的體質:快、乾淨、穩定更新、頁與頁之間連得好。當爬蟲開始三天兩頭來巡你的站,你會發現自己根本不必再盯著 Search Console 數日子——下一篇發出去,一兩天就在搜尋結果裡了。
