Lỗi 404 và 404 mềm: Sự khác biệt là gì & Cách khắc phục cả hai
Bài đăng này giải thích sự khác biệt giữa lỗi 404 và lỗi 404 mềm, cũng như cách bạn có thể khắc phục các vấn đề SEO có thể gây ra chúng.
Mỗi trang tải trong trình duyệt web đều có mã phản hồi được bao gồm trong tiêu đề HTTP, mã này có thể hiển thị hoặc không hiển thị trên chính trang web.
Có nhiều mã phản hồi khác nhau mà máy chủ cung cấp để thông báo trạng thái tải của trang; một trong những mã nổi tiếng nhất là mã phản hồi 404 .
Nói chung, bất kỳ mã nào trong phạm vi 400 đến 499 cho biết rằng trang không tải. Mã phản hồi 404 là mã duy nhất mang một ý nghĩa cụ thể – rằng trang thực sự đã biến mất và có thể sẽ không quay lại sớm.
Lỗi 404 mềm là gì?
Lỗi soft 404 không phải là mã phản hồi chính thức được gửi tới trình duyệt web. Nó chỉ là một nhãn mà Google thêm vào một trang trong chỉ mục của họ.
Khi Google thu thập dữ liệu các trang, nó phân bổ các tài nguyên một cách cẩn thận để đảm bảo rằng không lãng phí thời gian khi thu thập thông tin các trang bị thiếu không cần được lập chỉ mục.
Tuy nhiên, có một số máy chủ được định cấu hình kém và trang bị thiếu của chúng tải mã 200 khi nó hiển thị mã phản hồi 404. Nếu tiêu đề HTTP ẩn hiển thị mã 200 ngay cả khi trang web nói rõ rằng trang đó không được tìm thấy, trang có thể được lập chỉ mục, điều này gây lãng phí tài nguyên cho Google.
Để giải quyết vấn đề này, Google lưu ý các đặc điểm của trang 404 và cố gắng phân biệt xem trang 404 có thực sự là trang 404 hay không. Nói cách khác, Google đã biết được rằng nếu nó trông giống 404, có mùi giống 404 và hoạt động giống 404, thì đó có thể là một trang 404 chính hãng.
Có khả năng bị xác định nhầm là Soft 404
Cũng có những trường hợp trong đó trang không thực sự bị thiếu, nhưng một số đặc điểm nhất định đã kích hoạt Google phân loại nó là trang bị thiếu.
Một số đặc điểm này bao gồm một số lượng nhỏ hoặc thiếu nội dung trên trang và có quá nhiều trang tương tự trên trang.
Những đặc điểm này cũng tương tự như các yếu tố mà thuật toán Panda giải quyết. Bản cập nhật Panda coi nội dung mỏng và trùng lặp là yếu tố xếp hạng tiêu cực.
Do đó, việc khắc phục những sự cố này sẽ giúp tránh được cả vấn đề soft 404s và Panda.
Lỗi 404 có hai nguyên nhân chính:
Lỗi trong liên kết, hướng người dùng đến một trang không tồn tại.
Một liên kết dẫn đến một trang đã từng tồn tại và đột nhiên biến mất.
Lỗi liên kết
Nếu nguyên nhân của 404 là lỗi liên kết, bạn chỉ cần sửa các liên kết.
Phần khó khăn của nhiệm vụ này là tìm tất cả các liên kết bị hỏng trên một trang web.
Nó có thể khó khăn hơn đối với các trang web lớn, phức tạp có hàng nghìn hoặc hàng triệu trang. Trong những trường hợp như thế này, các công cụ thu thập thông tin rất hữu ích. Bạn có thể thử sử dụng phần mềm như Xenu, DeepCrawl, Screaming Frog hoặc Botify.
Một trang không còn tồn tại nữa
Khi một trang không còn tồn tại, bạn có hai tùy chọn:
Khôi phục trang nếu nó vô tình bị xóa.
301 chuyển hướng nó đến trang có liên quan gần nhất nếu nó bị xóa có chủ ý.
Đầu tiên, bạn phải xác định tất cả các lỗi liên kết trên trang web. Tương tự như việc tìm kiếm tất cả các lỗi trong liên kết cho một trang web quy mô lớn, bạn có thể sử dụng các công cụ thu thập thông tin. Tuy nhiên, các công cụ thu thập thông tin có thể không tìm thấy các trang mồ côi , là các trang không được liên kết từ bất kỳ đâu trong các liên kết điều hướng hoặc từ bất kỳ trang nào.
Các trang mồ côi có thể tồn tại nếu chúng từng là một phần của trang web, sau đó sau khi thiết kế lại trang web, liên kết đến trang cũ này sẽ biến mất, nhưng các liên kết bên ngoài từ các trang web khác vẫn có thể liên kết đến chúng. Để kiểm tra kỹ xem những loại trang này có tồn tại trên trang web của bạn hay không, bạn có thể sử dụng nhiều công cụ khác nhau.
Google Search Console
Bảng điều khiển tìm kiếm sẽ báo cáo 404 trang khi trình thu thập thông tin của Google đi qua tất cả các trang mà nó có thể tìm thấy. Điều này có thể bao gồm các liên kết từ các trang khác đến một trang đã từng tồn tại trên trang web của bạn.
Google Analytics
Bạn sẽ không tìm thấy báo cáo trang bị thiếu trong Google Analytics theo mặc định. Tuy nhiên, bạn có thể theo dõi chúng theo một số cách.
Đối với một, bạn có thể tạo báo cáo tùy chỉnh và phân đoạn các trang có tiêu đề trang đề cập đến Lỗi 404 – Không tìm thấy trang .
Một cách khác để tìm các trang không có trong Google Analytics là tạo các nhóm nội dung tùy chỉnh và gán tất cả các trang 404 cho một nhóm nội dung.
Trang web: Lệnh tìm kiếm toán tử
Tìm kiếm “site: example.com” trên Google sẽ liệt kê tất cả các trang của example.com được Google lập chỉ mục. Sau đó, bạn có thể kiểm tra riêng xem các trang đang tải hay chúng đang cho 404s.
Để làm điều này trên quy mô lớn, tôi thích sử dụng WebCEO, có tính năng để điều hành trang web: không chỉ trên Google mà còn trên Bing, Yahoo, Yandex, Naver, Baidu và Seznam.
Vì tất cả các công cụ tìm kiếm sẽ chỉ cung cấp cho bạn một tập hợp con, nên việc chạy nó trên nhiều công cụ tìm kiếm có thể giúp cung cấp danh sách các trang lớn hơn trên trang web của bạn. Danh sách này có thể được xuất và chạy trên các công cụ để kiểm tra 404 hàng loạt. Tôi chỉ đơn giản làm điều này bằng cách thêm tất cả các URL dưới dạng liên kết trong tệp HTML và tải nó trên Xenu để kiểm tra hàng loạt lỗi 404.
Các công cụ nghiên cứu liên kết ngược khác
Các công cụ nghiên cứu backlink như Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools và CognitiveSEO cũng có thể giúp ích.
Hầu hết các công cụ này sẽ xuất danh sách các liên kết ngược liên kết đến miền của bạn. Từ đó, bạn có thể kiểm tra tất cả các trang đang được liên kết và tìm lỗi 404.
Cách sửa lỗi Soft 404
Các công cụ thu thập thông tin sẽ không phát hiện ra soft 404 vì nó không thực sự là lỗi 404. Nhưng bạn có thể sử dụng các công cụ thu thập thông tin để phát hiện thứ gì đó khác. Dưới đây là một số điều cần tìm:
Nội dung mỏng: Một số công cụ thu thập thông tin không chỉ báo cáo các trang có nội dung mỏng mà còn hiển thị tổng số từ. Từ đó, bạn có thể sắp xếp các URL dựa trên số lượng từ trong nội dung của bạn. Bắt đầu với các trang có ít từ nhất và đánh giá xem trang đó có nội dung mỏng hay không.
Nội dung trùng lặp: Một số công cụ thu thập thông tin đủ tinh vi để phân biệt phần trăm trang là nội dung mẫu. Nếu nội dung chính gần giống với nhiều trang khác, bạn nên xem xét các trang này và xác định lý do tại sao nội dung trùng lặp tồn tại trên trang web của bạn.
Ngoài các công cụ thu thập thông tin, bạn cũng có thể sử dụng Google Search Console và kiểm tra lỗi thu thập thông tin để tìm các trang được liệt kê dưới soft 404.
Việc thu thập dữ liệu toàn bộ trang web để tìm các sự cố gây ra soft 404 cho phép bạn xác định vị trí và khắc phục sự cố trước khi Google thậm chí phát hiện ra chúng.
Sau khi phát hiện các vấn đề soft 404 này, bạn sẽ cần phải sửa chúng.
Hầu hết thời gian, các giải pháp dường như là lẽ thường. Điều này có thể bao gồm những việc đơn giản như mở rộng các trang có nội dung mỏng hoặc thay thế nội dung trùng lặp bằng những nội dung mới và độc đáo.
Trong suốt quá trình này, đây là một số điều cần xem xét:
Hợp nhất các trang: Đôi khi nội dung mỏng là do quá cụ thể với chủ đề của trang, điều này có thể khiến bạn không có nhiều điều để nói. Việc hợp nhất một số trang mỏng thành một trang có thể thích hợp hơn nếu các chủ đề có liên quan. Điều này không chỉ giải quyết các vấn đề về nội dung mỏng mà còn có thể khắc phục các vấn đề về nội dung trùng lặp. Ví dụ: một trang thương mại điện tử bán giày có nhiều màu sắc và kích cỡ khác nhau có thể có một URL khác nhau cho từng kích cỡ và sự kết hợp màu sắc. Điều này để lại một số lượng lớn các trang có nội dung mỏng và tương đối giống nhau. Cách tiếp cận hiệu quả hơn là đặt tất cả điều này trên một trang và liệt kê các tùy chọn có sẵn.
Tìm các vấn đề kỹ thuật gây ra nội dung trùng lặp: Sử dụng ngay cả công cụ thu thập thông tin web đơn giản nhất như Xenu (không xem xét nội dung mà chỉ xem URL, mã phản hồi và thẻ tiêu đề), bạn vẫn có thể tìm thấy các vấn đề về nội dung trùng lặp bằng cách xem URL. Điều này bao gồm những thứ như URL có www so với URL không phải www, http và https, có index.html và không có, có thông số theo dõi và không có, v.v. Có thể tìm thấy tóm tắt tốt về các vấn đề nội dung trùng lặp thường gặp trong các mẫu URL trên trang trình bày 6 của bài thuyết trình này .
Google xử lý các lỗi 404 và lỗi 404 mềm theo cùng một cách
Soft 404 không phải là lỗi 404 thực sự, nhưng Google sẽ hủy lập chỉ mục các trang đó nếu chúng không được khắc phục nhanh chóng. Tốt nhất bạn nên thường xuyên thu thập dữ liệu trang web của mình để xem có xảy ra lỗi 404 hoặc soft 404 hay không. Các công cụ thu thập thông tin phải là một thành phần chính trong kho vũ khí SEO của bạn.