Cách Google đánh giá nội dung của một trang web

Tự đánh giá nội dung website giúp bạn chủ động điều chỉnh để tối ưu nội dung trang web nói riêng, và tối ưu SEO cho website nói chung. Hãy cùng tìm hiểu về cách mà Google đánh giá nội dung của một trang web. Đâu là những loại nội dung nào mà Google đánh giá cao? Đâu là những nội dung mà Google không thể “đọc” được? Tất cả câu trả lời sẽ có trong bài viết này.

Google đánh giá nội dung trang web của bạn như thế nào?

Google rất xem trọng nội dung trên mỗi trang. Trong khuôn khổ của 1 chiến dịch SEO, nội dung sẽ quyết định website thuộc chủ đề gì và hệ thống tìm kiếm sẽ phân tích kỹ nội dung này trong quá trình thu thập dữ liệu để đi tới kết luận chính xác.

Nói cách khác, Google sẽ phân tích chi tiết từng từ xuất hiện trên trang web. Sau đó, thiết lập một bản đồ cho phép hiển thị trang web nếu người dùng cần tìm kiếm một nội dung tương tự.

Bản đồ này, được gọi là semantic map, dùng để thể hiện mối quan hệ giữa các từ ngữ và thông tin nhằm cung cấp đúng trang web cho nhu cầu tìm kiếm của người dùng. Nếu không có sự liên hệ của trang tới câu hỏi được tìm kiếm, trang web của bạn sẽ có ít cơ hội hiển thị hơn. Vì vậy, việc lựa chọn từ ngữ xuất hiện trên trang và cả chủ đề mà nó thể hiện sẽ ảnh hưởng rất lớn đến thứ tự xuất hiện của nó trên trang kết quả.

Hình 1: Google đánh giá content trên website như thế nào?

Thanh định hướng nội dung của một trang web thường có các phần tương tự nhau. Các thanh định hướng này thường không giúp Google xác định được đâu là thông tin khác biệt của trang. Thông thường, Google sẽ tập trung vào các phần được đánh dấu màu đỏ.

Việc quyết định yếu tố khác biệt về mặt nội dung rất quan trọng, và tác động trực tiếp đến hoạt động tối ưu SEO cho website. Điều này giúp công cụ tìm kiếm xác định được loại nội dung nào sẽ phù hợp với từ khóa tìm kiếm. Bởi vì các thanh định hướng trên các trang web không có quá nhiều sự khác biệt, do đó nó không hỗ trợ quá nhiều cho việc phân tích nội dung trang.

Nhưng điều này không có nghĩa là các đường dẫn trên các thanh định hướng không quan trọng. Nó vẫn đóng vai trò chủ chốt, chỉ là nó không góp phần vào sự khác biệt nội dung mà Google đang tìm kiếm.

Một tác vụ khác mà công cụ tìm kiếm cần phải làm đó chính là đánh giá nội dung của trang. Bên việc đánh giá về phản ứng của người đọc về một nội dung bất kỳ, hệ thống còn có thể đưa ra một vài kết luận cụ thể về những gì nó thấy được trên trang web. Ví dụ như nó có thể trả lời các câu hỏi như: Nội dung tương tự có xuất hiện ở trang web khác hay không? Nội dung có bị lặp từ quá nhiều không? Sau đây là vài yếu tố mà hệ thống có thể căn cứ để đánh giá giá trị của một nội dung.

Những nội dung nào sẽ được hệ thống tìm kiếm đánh giá cao?

Hệ thống tìm kiếm trên thực tế chỉ là phần mềm, mặc dù chúng có thể “tìm kiếm” hàng tỷ tỷ trang web, phân tích nội dung trên từng trang và mối liên hệ của nó với từng trang khác, sau đó hệ thống tất cả thông tin đó vào cơ sở dữ liệu khổng lồ và phản hồi các yêu cầu tìm kiếm chỉ trong một phần mười giây.

Suy cho cùng, Google vẫn có những giới hạn nhất định. Vì là phần mềm nên đôi khi nó sẽ bị quá máy móc, dẫn tới việc không thể hiểu hết hoàn toàn nội dung của trang. Crawler của Google hoạt động dựa trên việc phân tích mã HTML. Bạn hoàn toàn có thể nhìn thấy mã HTML trông như thế nào bằng việc nhấn chuột phải, chọn “View page source” để xem mã nguồn.

Hình 2: Minh họa mã nguồn của website mangoads.vn

Ngay khi bạn nhấn vào “View the source”, bạn sẽ có thể thấy mã lập trình mà web server gửi đến trình duyệt của bạn. Đây chính là thứ mà crawler sẽ nhìn thấy khi phân tích trang web. Ngoài ra, cũng có rất nhiều phần mềm tiện ích (add-ons và extension) có sẵn ngay trên trình duyệt cũng như ứng dụng nghiên cứu trang web và thư viện JavaScript cũng sẽ giúp bạn có thể dễ dàng thấy mã lập trình của một website. Một công cụ hiện nay được rất nhiều người dùng là Web Developer. 

Thêm vào đó, thỉnh thoảng Google vẫn cho chạy Javascript trên trang web. Đó là lý do vì sao khi phân tích nội dung của trang web, Google thường bỏ qua phần thanh định hướng hay giao diện của trang bởi vì nó không tạo nên sự khác biệt về mặt nội dung.

Văn bản HTML của website Vnexpress

Hình 3: Văn bản HTML của website Vnexpress

Crawler của Google sẽ tập trung nhiều nhất vào văn bản HTML của trang web. Hình ảnh bên trên minh hoạ cho văn bản HTML của Vnexpress.

Mặc dù hình 2 thể hiện mã lập trình của page nhưng chúng ta vẫn có thể nhìn thấy đoạn văn bản thông thường trong mã lập trình. Đây là phần mà crawler tập trung tìm kiếm.

Thêm vào đó, crawler sẽ đọc thêm một vài yếu tố khác ví dụ như tựa đề của trang. Nó là một trong những yếu tố quan trọng nhất trong việc đánh giá thứ hạng của một trang web bất kỳ.

Hình 4: Các thẻ meta trong mã HTML

 

Hình 5: Kết quả tìm kiếm thể hiện thẻ title

Cùng với tựa đề của trang, trước đây, công cụ tìm kiếm còn sử dụng meta keywords. Đây là một danh sách các từ khoá mà bạn muốn gắn với trang. Nhưng do sự xuất hiện của các spammers (những người muốn thay đổi kết quả hiển thị của trang tìm kiếm bằng việc vi phạm các điều khoản của Google) đã phá hỏng giá trị của thẻ này. Bằng cách nhồi nhét quá nhiều từ khóa vào bài viết, họ muốn trang của mình được xuất hiện trên những kết quả đầu tiên. Vì thế, hiện tại các công cụ tìm kiếm không còn sử dụng thẻ này cho việc đánh giá của mình nữa. Việc quá tập trung quá vào meta keywords là không cần thiết vì nó không còn có giá trị về mặt tăng thứ hạng trang web.

Công cụ cũng tập trung vào thẻ description. Tuy nhiên, phần nội dung của thẻ này không được sử dụng vào thuật toán sắp xếp thứ hạng tìm kiếm của Google. Mặc dù vậy, thẻ description đóng vai trò then chốt trong việc thể hiện nội dung của website lên trang kết quả tìm kiếm. Do đó, một thẻ description được viết kỹ lưỡng sẽ ảnh hưởng đến việc bạn có bao nhiêu lượt nhấp vào. Và số lượng truy cập này (traffic) sẽ ảnh hưởng đến thứ hạng tìm kiếm của bạn.

Hình 6: Thẻ description được hiển thị trên trang kết quả tìm kiếm

Lưu ý: Các từ khóa giống với từ mà người dùng tìm kiếm thường sẽ được in đậm ở trang kết quả (thỉnh thoảng thì những từ đồng nghĩa cũng sẽ được in đậm). Những từ in đậm này này được gọi là keywords in context (KWIC).

Yếu tố thứ tư mà các công cụ tìm kiếm sẽ tập trung là thuộc tính alt (alternative – thay thế). Thuộc tính alt ban đầu được sử dụng nhằm cho phép các trang web thay thế hình ảnh cho những người không thể nhìn thấy hình ảnh. Có hai loại người xem như vậy:

  • Những người gặp vấn đề về thị lực.
  • Những người muốn tắt hình ảnh để có thể lướt web nhanh hơn, thường gặp ở những người không có đường truyền Internet đủ mạnh.

Tuy nhiên mục tiêu hỗ trợ những người có vấn đề về thị lực vẫn là lý do ưu tiên.