Duplicate Content – Nội dung trùng lặp: Nguyên nhân và giải pháp

Các nội dung tương tự nhau (duplicate content) cùng xuất hiện ở nhiều vị trí trên website làm các công cụ tìm kiếm không biết sẽ hiển thị URL nào trên trang kết quả tìm kiếm. Nội dung trùng lặp là một vấn đề nhức nhối gây ảnh hưởng đến thứ hạng trên kết quả tìm kiếm. Nó có thể sẽ khiến Google xếp hạng cả hai URL thấp hơn và ưu tiên cho các website khác. Bài viết này sẽ giúp bạn hiểu đâu là nguyên nhân của nội dung trùng lặp và giải pháp cụ thể. Đừng bỏ lỡ nhé!

Nguyên nhân gây ra nội dung trùng lặp

Có nhiều lý do dẫn đến việc trùng lặp nội dung nhưng chủ yếu là do lỗi kỹ thuật. Đôi khi các admin website nghĩ http://www.example.com/keyword-x/ và http://www.example.com/article-category/keyword-x/ là hai bài khác nhau. 

Hai URL cùng một nội dung

Ví dụ trong cơ sở dữ liệu của một CMS chỉ lưu có một bài, nhưng trên website lại xuất hiện hai URL khác nhau cho cùng một nội dung. Điều này cũng sẽ gây trùng lặp trên công cụ tìm kiếm.

Session ID

Bạn theo dõi khách hàng truy cập, và cho phép họ lưu các mặt hàng muốn mua trong giỏ hàng. Để làm được điều đó, bạn phải cho họ một ‘session’. Session là một lịch sử ngắn gọn về những gì khách thao tác trên website của bạn, và có thể chứa những thứ như các mặt hàng trong giỏ hàng.

Để duy trì session đó, khi khách hàng click từ trang này sang trang khác, cần 1 mã định dạng duy nhất là Session ID được lưu trữ ở đâu đó. Giải pháp phổ biến nhất là sử dụng cookie. Khi sử dụng Session ID trong URL trong mọi Internal link trên website, nó tạo ra một URL mới và làm nội dung bị trùng lặp.

Tham số URL được sử dụng để theo dõi và sắp xếp

Một nguyên nhân khác của nội dung trùng lặp là sử dụng các tham số URL mà không thay đổi nội dung của trang. Chẳng hạn việc theo dõi các link như http://www.example.com/keyword-x/http://www.example.com/keyword-x/?source=rss được coi là 2 URL khác nhau, nhưng có chứa cùng 1 nội dung. Trong đó, URL thứ 2 cho phép theo dõi mọi người đến từ đâu, nhưng có thể ảnh hưởng đến thứ hạng hiển thị trên trang kết quả tìm kiếm.

Nguyên tắc đánh giá nội dung trùng lặp không chỉ dành cho các thông số theo dõi, mà còn phù hợp với mọi thông số được thêm vào một URL khi không thay đổi phần nội dung quan trọng.

Bị sao chép nội dung

Hầu hết các lý do cho nội dung trùng lặp là do ‘lỗi’ của người viết. Đôi khi, các website khác sử dụng lại nội dung được đăng tải trên website của bạn. Và không phải lúc nào nội dung sao chép cũng link đến bài viết gốc, do đó công cụ tìm kiếm không biết phải xử lý “một phiên bản khác” của cùng một bài viết. Website của bạn càng trở nên phổ biến, sẽ càng bị nhiều người sao chép nội dung. Điều này sẽ ảnh hưởng không nhỏ đến thứ hạng trên website của bạn.

Thứ tự các tham số

Một nguyên nhân phổ biến khác là CMS không sử dụng các URL ngắn gọn, mà là các URL như /?id=1&cat=2, trong đó ID đề cập đến bài viết và danh mục. URL /?cat=2&id=1 sẽ hiển thị các kết quả giống nhau trong hầu hết các hệ thống website, nhưng chúng hoàn toàn khác nhau đối với công cụ tìm kiếm.

Phân trang bình luận

Trong WordPress, và một vài nền tảng website cho phép phân trang các nhận xét của bạn. Điều này dẫn đến nội dung bị trùng lặp khi URL bài viết sẽ trùng với URL bài viết + / comment-page-1 /, / comment-page-2 / v.v.

WWW vs. non-WWW

Đôi khi các công cụ tìm kiếm vẫn hiểu sai: nội dung trùng lặp WWW vs. non-WWW, khi cả hai phiên bản website của bạn đều có thể truy cập được. Một tình huống khác, ít phổ biến hơn nhưng có thể gặp phải là trang HTTP trùng lặp với trang HTTPS.

Giải pháp: ‘canonical’ URL

Hình 1: URL chính xác

Hình 1: Tìm ra URL chính xác so với các URL khác

Xác định vấn đề

Để biết nội dung của bạn có bị trùng lặp hay không, hãy sử dụng công thức: site: example.com intitle: “Từ khoá X”.

Google sẽ hiển thị tất cả các trang trên example.com có ​​chứa từ khóa đó. Bạn thực hiện intitle phần từ khoá càng cụ thể thì càng dễ loại bỏ nội dung trùng lặp.

Có thể sử dụng phương pháp này để xác định những trang chứa nội dung trùng lặp với website của bạn. Giả sử tiêu đề đầy đủ của bài viết của bạn là ‘Từ khóa X – tại sao nó lại tuyệt vời’ , bạn sẽ tìm kiếm: intitle: “Từ khoá X – tại sao nó lại tuyệt vời”. 

Google sẽ cung cấp cho bạn tất cả các website phù hợp với tiêu đề đó. Đôi khi, bạn còn tìm thấy một hoặc hai câu sao chép hoàn toàn từ bài viết của bạn, vì một số người sửa bài có thể đã thay đổi tiêu đề.

Trong một số trường hợp, khi bạn thực hiện tìm kiếm như vậy, Google có thể hiển thị thông báo như thế này trên trang cuối cùng của kết quả:

Hình 2: Thông báo trên trang cuối cùng của kết quả

Hình 2: Thông báo trên trang cuối cùng của kết quả

Đây là dấu hiệu cho thấy Google đã ‘loại bỏ’ kết quả, hãy click vào link và xem tất cả các kết quả khác.

Các giải pháp thực tế cho nội dung trùng lặp

Khi đã quyết định URL chuẩn cho phần nội dung, bạn hãy tiến hành thông báo cho các công cụ tìm kiếm về phiên bản chuẩn của một trang. Có bốn phương pháp giải quyết vấn đề, theo thứ tự ưu tiên:

  1. Không tạo nội dung trùng lặp mới.
  2. Chuyển hướng nội dung trùng lặp đến URL chuẩn.
  3. Thêm phần tử link chuẩn rel=”canonical” vào trang trùng lặp.
  4. Link trở lại trang chuẩn.

Tránh nội dung trùng lặp

Một số nguyên nhân ở trên gây ra nội dung trùng lặp có cách khắc phục rất đơn giản:

  • Session ID trong URL => Vào phần cài đặt hệ thống để điều chỉnh.
  • Sử dụng phân trang bình luận trong WordPress => Tắt tính năng này trong cài đặt »thảo luận.
  • Các thông số trên URL theo thứ tự khác nhau => Yêu cầu lập trình viên xây dựng một tập lệnh nhằm đặt các tham số theo cùng một thứ tự.
  • Sử dụng tham số theo dõi => Trong hầu hết các trường hợp, bạn có thể. theo dõi chiến dịch dựa trên hashtag thay vì theo dõi chiến dịch dựa trên thông số.
  • Sự cố WWW và non-WWW => Chọn một cái và chuyển hướng cái còn lại sang. Vào Công cụ quản trị website của Google để cài đặt chọn WWW hay non-WWW, nhưng bạn sẽ cần phải xác nhận cả hai phiên bản của tên miền.

301 Chuyển hướng nội dung trùng lặp

Trong vài trường hợp, bạn không thể ngăn hệ thống tạo sai URL cho nội dung, lúc này bạn cần sử dụng lệnh 301.

Sử dụng rel=”canonical”

Trong phần <head> trên website của bạn, chèn: <link rel=”canonical” href=”http://example.com/wordpress/seo-plugin/” />

Sau. href là link chuẩn cho bài viết. Khi một công cụ tìm kiếm tìm thấy đoạn code này, nó sẽ thực hiện lệnh 301, chuyển phần lớn giá trị link được thu thập bởi trang đó sang trang chuẩn của bạn. Tuy nhiên, quá trình này chậm hơn một chút so với chuyển hướng 301. Vì vậy trong trường hợp này, nên ưu tiên sử dụng lệnh 301.

Link trở lại nội dung gốc

Một cách khác để xử lý nội dung trùng lặp là thêm một link bài viết gốc ở đầu hoặc bên dưới bài viết. Bạn có thể thực hiện việc cách thêm một link bài viết viết gốc trong nguồn cấp dữ liệu RSS. Một số người tìm kiếm sẽ lọc link đó ra, nhưng cũng có trường hợp copy nội dung và giữ nguyên link trong bài viết. Nếu Google gặp một số link trỏ đến bài viết gốc, Google sẽ sớm tìm ra đó là phiên bản chuẩn thực sự.

Kết luận

Nội dung trùng lặp xảy ra là vấn đề phổ biến nhưng có thể giải quyết được trong lúc tối ưu SEO cho website. Là một người đọc, họ thường không bận tâm nội dung có trùng lặp hay không vì mục đích chỉ cần nhận được nội dung thông tin họ muốn. Tuy nhiên, công cụ tìm kiếm phải chọn website nào để hiển thị trên kết quả Google, tránh hiển thị cùng một nội dung hai lần.