Nội Dung
1. Thu thập thông tin và lập chỉ mục:
Học viện Moz sẽ chỉ dẫn cho các bạn cách thu thập thông tin và lập chỉ mục 101. Vì vậy hãy bắt đầu với việc thu thập thông tin.
Đây là hình ảnh bản đồ xe lửa của Vương quốc Anh và đây là một phép tương tự tuyệt vời khi chúng ta nói về trình thu thập thông tin của Google vì nó khá giống với bản đồ trình thu thập thông tin của Google.
Hãy tưởng tượng rằng mỗi ga xe lửa là một trang web và các đường màu xanh lam là các liên kết để Google lập chỉ mục web bằng cách gửi các trình thu thập thông tin hoặc Google BOTS. Sau đó, gửi chúng đến các trang web đã biết hoặc các trang web đáng tin cậy.
Các trang web thu thập thông tin sẽ thu thập đường liên kết của các trang đã biết, đi theo các liên kết đó và sau đó đi qua các trang ở cuối các liên kết đó, thu thập thêm liên kết từ các trang đã biết và tiếp tục đi qua các trang khác, thu thập nhiều liên kết hơn nữa. Và cứ tiếp tục chu kỳ như vậy, chúng ta sẽ thu thập được tất cả các thông tin và lưu trữ chúng hoặc lập chỉ mục để có thể dễ dàng truy xuất.
Cho đến hiện tại, Google vẫn chưa thu thập được toàn bộ web, họ không chia sẻ số liệu chính xác nhưng chúng tôi nghĩ rằng họ đã thu thập khoảng 5 nghìn tỷ megabyte hoặc nhiều hơn thế nữa. Google đã thu thập và lưu trữ những dữ liệu này trong các trung tâm lưu trữ dữ liệu.
Vậy trung tâm lưu trữ dữ liệu trông như thế nào? Hay nói cách khác là trang web hoặc chỉ một trang trong trang web của bạn ở đâu? Chúng tôi có những số liệu để xác định cách mà trang web hoặc một trang trên trang web của bạn so sánh với mọi thứ trong trung tâm dữ liệu và những số liệu đó được gọi là Cơ quan miền và cơ quan trang.
Cơ quan miền là số liệu của Moz dựa trên thang điểm từ 1 đến 100 và nó dự đoán mức độ xếp hạng của một trang web.
Bây giờ, dựa vào chất lượng và số lượng của các liên kết ngược đến một trang web. Mặc dù nó trên thang điểm từ 1 đến 100 mà bạn không cố gắng để đạt được 100 điểm, đây thực sự không phải là số liệu mà bạn muốn sử dụng để làm cơ sở so sánh và đo lường mức độ cạnh tranh của mình với các trang web tương tự đang xếp hạng cho các từ khóa mong muốn của bạn.
Cơ quan trang tương tự ở chỗ nó cũng là thước đo Moz, cũng có thang điểm từ 1 đến 100 nhưng nó xem xét mức độ nặng của một trang có liên kết. Nó xem xét cả liên kết bên ngoài và liên kết bên trong để có thể trở thành một thước đo thực sự tốt để sử dụng nội bộ và xác định tầm quan trọng hoặc so sánh nó với các trang trên trang web của bạn.
Cả hai số liệu này đều là logarit chứ không phải tuyến tính, nghĩa là bạn đạt được điểm cao từ thang điểm 1 đến 100, bạn sẽ càng khó trong việc tăng cơ quan quản lý miền dù chỉ một điểm. Ví dụ như khi bạn ở thang điểm 55 lên 60, nó sẽ khó hơn rất nhiều so với việc tăng điểm từ 15 lên 20. Vì vậy rất ít trang web có thể đạt được điểm cao và Google coi những trang web đó có thẩm quyền cao.
Chúng tôi nói đến những điều này vì chúng tôi nghĩ về URL, về quyền hạn của trang. Chúng ta có thể thấy trên biểu đồ này sự phân bố của cơ quan trang. Dọc theo trục hoành là cơ quan trang và theo trục tung là số lượng URL có cơ quan trang đó. Hầu hết các URL trên Internet đều có cơ quan trang trong phạm vi từ 0 đến 30, con số này khá thấp so với thang điểm 1 đến 100. Điểm cao nhất trên biểu đồ này vào khoảng 10 hoặc 11. Bạn có thể thấy số lượng các trang web có cơ quan quản lý cao, thực ra các con số này rất thấp và vì rất khó để có thể đạt được các cơ quan quản lý trang cao hơn.
Hiện tại, Google chứa hơn một trăm ba mươi nghìn tỷ trang và hầu hết chúng đều nằm trong phạm vi này khi nói đến cơ quan quản lý. Tuy Google chứa tất cả các trang nhưng không nhất thiết phải xếp hạng tất cả các trang đó hoặc thậm chí lập chỉ mục chúng.
Google có ngân sách thu thập dữ liệu các trang web với ít hơn vài nghìn URL thường được thu thập thông tin một cách hiệu quả và không phải thận trọng chú ý về ngân sách thu thập thông tin. Các trang web lớn hơn có hai yếu tố cân nhắc về vấn đề này:
- Giới hạn tốc độ thu thập thông tin, đây là tần suất GoogleBot tự cho phép thu thập dữ liệu các trang của bạn để không làm quá tải máy chủ và gây hại, ảnh hưởng đến trải nghiệm của người dùng theo bất kỳ hình thức nào. Giới hạn tốc độ thu thập thông tin bị ảnh hưởng bởi tình trạng thu thập thông tin và tình trạng thu thập thông tin kém có thể là do trang web bạn tải chậm, lỗi máy chủ.
- Nhu cầu thu thập thông tin, đây là nhu cầu của Google để thu thập dữ liệu mới và cũ trên các trang của bạn, xác định dựa trên sự phổ biến trang web của bạn và các trang trên trang web của bạn. Sau đó, Google ngăn các URL trong chỉ mục của họ trở nên cũ. Do đó, ngay cả khi tốc độ thu thập dữ liệu của bạn lớn mà không có nhu cầu thu thập thêm thông tin thì GoogleBot sẽ không thu thập dữ liệu.
Hai yếu tố này tạo nên ngân sách thu thập dữ liệu và như đã đề cập, các trang web nhỏ hơn sẽ không bị ảnh hưởng bởi yếu tố này. bạn sẽ hiểu tại sao thu thập dữ liệu trang web của bạn sẽ tốn thời gian và tiền bạc. Google muốn hiệu quả nên họ sẽ lược bớt các trang web có chất lượng thấp hoặc không gia tăng giá trị những URL có giá trị thấp, điều này sẽ ảnh hưởng tiêu cực đến ngân sách thu thập thông tin của bạn.
Vì vậy, hãy nghĩ rằng chỉ có một vài trang trên trang web của bạn sẽ vào tầm ngắm. Ví dụ như bạn thưởng cho mình một tách cà phê 4 đô la mỗi tháng, nó không phải là vấn đề kể cả khi bạn có ngân sách thấp; nhưng nếu bạn mua một tách cà phê 4 đô la mỗi ngày, bạn sẽ tiêu đến 1500 đô la một năm cho cà phê, nó khá cao. Vì vậy nếu bạn có ngân sách và bạn cố gắng tối đa hóa nó, bạn có thể cắt giảm nó.
Google cũng có ngân sách, nên họ cũng phải chú ý đến những loại này vì họ muốn tối đa hóa trình thu thập thông tin của mình, Google muốn mọi thứ hiệu quả nhất có thể.
Google đã thảo luận về ngân sách thu thập thông tin trong blog quản trị trang web. Những URL giá trị thấp sẽ lãng phí ngân sách thu thập. Google đã lập danh sách một số yếu tố ảnh hưởng đến ngân sách:
- Điều hướng nhiều mặt là khi URL được tạo ra bằng cách lọc và do đó nếu bạn có khả năng lọc theo màu sắc hoặc theo phạm vi giá, các bộ lọc đó sẽ tạo thêm URL, ngay cả khi URL hơi khác, nó vẫn là một URL mới. Đây là điều hướng nhiều mặt mà Google xem là lãng phí thời gian.
- Số nhận dạng phiên: Khi thông tin theo dõi được lưu trữ thông qua các tham số URL, chúng tạo ra các URL bổ sung.
- Nội dung trùng lặp
- Trang lỗi mềm: Soft 404 xảy ra khi máy chủ phản hồi với 200 mã phản hồi nhưng trang không thực sự tồn tại.
- Trang bị tấn công
- Không gian vô tận là một số lượng rất lớn URL cung cấp ít hoặc không có nội dung mới để Google lập chỉ mục. Ví dụ điển hình như lịch có liên kết tháng tới, bạn chỉ cần nhấp vào tháng tiếp theo liên tục và nó tạo ra các URL bổ sung.
- Chất lượng thấp, nội dung spam
Tất cả những yếu tố này được Google xem là lãng phí thời gian của họ và chắc chắn bạn không muốn trở thành một người lãng phí thời gian của Google.
Cách bạn có thể cải thiện ngân sách thu thập thông tin đó là chặn những blog của bạn làm lãng phí thời gian của Google để giảm bị lỗi và tăng tốc độ. Mục tiêu cuối cùng đó là làm cho các công cụ tìm kiếm yêu thích trang của bạn.
Chúng tôi mong rằng bạn đã có thể xác định và ưu tiên một số vấn đề kỹ thuật chưa rõ. Nếu bạn giải quyết và tối ưu hóa những vấn đề đó, các công cụ tìm kiếm sẽ dễ dàng tìm thấy và hiểu trang web của bạn hơn.
2. Cấu trúc trang web
Cấu trúc trang web là cách trang web của bạn được tổ chức, kiến trúc của trang web giống như một cấu trúc kim tự tháp. Cấu trúc rất quan trọng vì một trang có kiến trúc càng cao thì càng quan trọng, nhưng trang phải luôn có một hệ thống phân cấp hợp lý, nếu không các công cụ tìm kiếm sẽ mất nhiều thời gian trong việc xác định các trang quan trọng.
Sẽ rất khó để tạo điều hướng trực quan nhưng những trang web lớn đã giải quyết tốt vấn đề này. Ví dụ, Amazon mỗi danh mục sản phẩm như một trang top-level nên rất dễ để tìm những trang danh mục sản phẩm này với một cú nhấp chuột.
Chúng ta cũng muốn tận dụng sự quen thuộc để giữ điều hướng ở đầu màn hình hoặc ở phía bên trái, đặt giỏ hàng ở phía góc trên bên phải, đặt thông tin tài khoản ở phía trên bên phải hoặc góc trên bên trái giúp người dùng dễ dàng tìm thấy các trang đó. Các trang quan trọng nhất của bạn phải thật dễ tìm thấy và được tổ chức theo cách rất ngắn gọn và hợp lý giúp cho công cụ tìm kiếm và người dùng tìm ra chỉ trong vài cú nhấp chuột vào trang chủ.
Kiến trúc giúp hiển thị mối quan hệ giữa các nội dung, cho thấy các trang và nội dung của bạn được kết nối theo những cách có ý nghĩa. Vì vậy cấu trúc không chỉ là yếu tố để thu thập thông tin của Bot mà nó còn thiết lập hệ thống phân cấp nội dung của bạn. Đối với công cụ tìm kiếm, phân cấp cũng quan trọng tương tự.
Nếu bạn chú trọng và các trang nằm sâu trong kiến trúc của trang web, trang web của bạn sẽ có kết quả hạn chế với SEO. Một điều quan trọng cần ghi nhớ là phương pháp hay nhất mà bạn muốn hiển thị và hỗ trợ các trang cốt lõi của mình thông qua đường dẫn cấu trúc URL điều hướng và liên kết nội bộ Google sẽ đánh dấu các trang có cơ quan hàng đầu thông qua tìm kiếm không trả tiền để cấu trúc trang web của bạn được hỗ trợ bởi các liên kết nội bộ. Khi máy thu thập đến trang chủ của bạn, chúng sẽ tìm kiếm các liên kết nội bộ, đi theo những liên kết đó và thu thập thông tin từ các trang bổ sung.
Các vấn đề về cấu trúc phổ biến có liên quan:
- Nếu chúng ta ẩn các liên kết, Google hay bất kỳ trình thu thập thông tin nào khác sẽ không tìm thấy chúng; vì vậy nếu bạn có thể tránh những cạm bẫy như làm cho những liên kết dễ dàng truy cập và tìm thấy.
- Các liên kết chỉ có thể truy cập được thông qua các hộp tìm kiếm nội bộ, bất kỳ liên kết nào mà bạn có bên trong một số JavaScript hoặc Flash hoặc bất kỳ loại trang bổ trợ nào khác.
- Trang có hàng trăm, thậm chí hàng nghìn liên kết, chúng có thể không bị ẩn nhưng sẽ gây khó khăn cho công cụ tìm kiếm cũng như người dùng.
- Liên kết bị chôn vùi trong I-frames, giờ đây việc đánh giá cấu trúc của trang web bao gồm các liên kết nội bộ điều hướng cấu trúc thư mục cũng như dữ liệu từ Google và bất kỳ loại trình thu thập thông tin của bên thứ ba nào khác.
Vậy làm cách nào để đánh giá tốt cấu trúc trang web?
Có nhiều cách khác nhau để thực hiện, một trong số đó là thông qua phần mềm Creamingfrog, đây là một công cụ tuyệt vời, hoàn toàn miễn phí và miễn phí thu thập dữ liệu lên đến 500 URL. Nếu bạn muốn công cụ thu thập nhiều thông tin hơn, bạn phải trả tiền có thêm quyền truy cập. Việc bạn cần làm đó là mở ứng dụng, nhập một URL như moz.com (tất nhiên Moz có hơn 500 trang), sau đó nhấp vào biểu tượng phân cấp ở trên cùng, bạn sẽ thấy được cấu trúc và hiểu được hệ thống phân cấp của mình. Trong cột bên trái, bạn sẽ thấy đường dẫn cấu trúc thư mục của bạn; và bên phải bạn sẽ thấy URL.
Và đó là cách bạn có thể đánh giá trang web của mình.
3. Liên kết bị hỏng
Hiện nay, các liên kết bị hỏng hoặc lỗi 404 không giải quyết được URL đang hoạt động và chúng không cung cấp trang web dự kiến mà chúng thường là kết quả của việc thay đổi URL hoặc việc di chuyển trang trên trang web.
Khi có nhiều liên kết bị hỏng sẽ ngăn trình thu thập thông tin của công cụ tìm kiếm lập chỉ mục các trang bởi GoogleBot chỉ truy cập vào các liên kết bị hỏng trên trang web của bạn và điều hướng nội bộ của bạn bị hỏng. Tôi có thể gặp sự cố khi lập chỉ mục và xếp hạng trang web của bạn, nó giống như việc lái xe qua một khu phố có nhiều ngõ cụt, nó sẽ gây khó khăn cho việc tìm kiếm, lãng phí thời gian, xăng xe và bạn sẽ không quay đầu lại, lái xe qua khu vực đó quá thường xuyên.
Tại sao các liên kết bị hỏng có ảnh hưởng xấu tới SEO?
- Không tích cực tối ưu hóa trang web của mình. Nếu bạn có nhiều và bạn không sửa chúng, nó có thể báo hiệu cho Google rằng bạn đang bỏ quên một phần, toàn bộ trang web hoặc thậm chí bỏ luôn trang web của mình.
- Ẩn nội dung quan trọng khỏi trình thu thập thông tin. Nếu có liên kết đến các trang tồn tại sau trang 404, trình thu thập thông tin sẽ không bao giờ tìm thấy các trang đó, thật lãng phí tài nguyên của trình thu thập thông tin và bạn có thể mất khách hàng. Bây giờ bạn luôn có thể quay lại và giải quyết lỗi 404.
- Lí do quan trọng nhất khiến liên kết bị hỏng là làm mất khách hàng. cách giải quyết đó là bạn có thể tạo trang bẫy lỗi 404, trang bẫy lỗi là trang lỗi mà người dùng gặp phải khi truy cập vào một liên kết bị hỏng. các trang 404 có thể được tùy chỉnh để cung cấp trải nghiệm tốt hơn cho người dùng. Tương tự với Esty, bạn có biết lỗi 404 luôn xuất hiện ngoài ý muốn, có thể có thứ gì đó đã được di chuyển và không được chuyển hướng nhưng trong một số trường hợp, cần phải có URL đích được trả về là 404, đó là cách để nó không bị các công cụ tìm kiếm lập chỉ mục và liên tục thu thập thông tin.
Bất kỳ lí do tại sao trang web của bạn trả lại lỗi này, là do vô tình hay cố ý, bạn nên đảm bảo rằng những 404 đó thực sự được tối ưu hóa chứ không phải ngõ cụt, không phải là một màn hình báo lỗi 404. Thay vào đó, chúng ta có thể tạo cơ hội cho người dùng ở lại trang web của mình dễ dàng nhất có thể và để các công cụ tìm kiếm có thể tiếp tục điều hướng qua trang web của bạn.
Điều đó nghĩa là các trang 404 có thể bao gồm những thứ như:
- Rất tiếc, trang bạn đang tìm kiếm không tồn tại
- Hộp tìm kiếm: Để người dùng có thể nhập vào thông tin mà họ đang tìm kiếm
- Hệ thống điều hướng dễ hiểu ở bên trái màn hình hoặc phía dưới để người dùng ít nhất có thể tìm thấy những gì ban đầu họ tìm.
- Liên kết tới trang chủ
Có một số cách để bạn tối ưu hóa trang 404. Một ví dụ khác là cung cấp mã quà tặng, chúng ta có thể thấy ở các trang mỹ phẩm, mã quà tặng sẽ xuất hiện khi gặp lỗi 404. Mã quà tặng 2015SUMMER hoặc giống như một phiếu mua hàng. Ở trang 404, họ đã để một chút hài hước, một chút thương hiệu, trang này không thể tìm thấy để khách hàng biết rằng những gì họ đang tìm kiếm không còn tồn tại nữa. “Xin lỗi vì không tìm thấy trang đó”.
Một liên kết khác là kiss.com, chúng tôi thấy một 404 và họ đã để một bảng để có thể thu thập thông tin của khách hàng. Họ có thể tiếp cận với khách hàng và cố gắng giúp họ tìm thấy những gì họ đang tìm.
Cách đánh giá hoặc phân tích tốt các liên kết bị hỏng.
Bạn có thể sử dụng một số công cụ như:
- Chiến dịch Moz Pro
- Screaming Frog
- Internet Marketing Ninjas
- Botify
- DeepCrawl
- SEOCrawler
Chiến dịch Moz Pro
Một trong những công cụ thân thiện với người dùng trong việc xác định các liên kết. Chiến dịch này theo dõi SEO cho một trang web theo thời gian. Khi bạn tạo một chiến dịch, bạn sẽ tạo ra một chiến dịch cho một tên miền, đôi khi chỉ là một tên miền phụ hoặc một thư mục con nhưng trong hầu hết các trường hợp, bạn sẽ tạo ra chiến dịch cho từng trang web mà bạn đang làm việc. Moz thu thập dữ liệu trang web đó mỗi tuần 1 lần và cung cấp một số thông tin. Chúng tôi cung cấp lỗi thu thập dữ liệu trang web mà chúng tôi theo dõi cách bạn xếp hạng cho các từ khóa và theo dõi các liên kết ngược của bạn.
Trong chiến dịch Moz Pro để xác định lỗi 404, những gì bạn có thể làm là nhấp vào trang thu thập. Chúng tôi chia thành 5 thể loại:
- Vấn đề nghiêm trọng về trình thu thập thông tin
- Cảnh báo trình thu thập thông tin
- Vấn đề chuyển hướng
- Vấn đề siêu dữ liệu
- Vấn đề nội dung
Việc bạn cần làm khi sửa lỗi 404 là nhấp chuột vào Vấn đề nghiêm trọng về trình thu thập thông tin, sẽ xuất hiện 400 chuỗi lỗi. Sau khi nhấp vào 4xx lỗi hoặc 400 chuỗi lỗi. Chúng tôi muốn thấy hai điều:
Đầu tiên, những đồ thị sẽ xuất hiện nơi chúng ta thấy tất cả những vấn đề và cả những vấn đề mới. Hãy nhìn vào những điểm tăng đột biến lớn, trong những lần thu thập thông tin, chúng tôi sẽ đi từ từ 20 đến 120 vấn đề. Đó không phải ngẫu nhiên mà 120 trang gặp phải vấn đề tương tự, có thể là một nguyên nhân sâu xa nào đó, và chúng tôi đã giải quyết chúng vì thế mức tăng đột biến đã hạ thấp xuống.
Tuy nhiên không phải mỗi khi URL bị lỗi thì bạn đều phải truy cập và sửa nó, bạn không thể sửa cho mỗi một trong 120 URL đó.
Tiếp theo là những trang nhỏ lẻ thường bị ảnh hưởng bởi vấn đề này, vì vậy nếu chúng tôi cuộn xuống chúng tôi có thể nhìn thấy tất cả những trang bị lỗi 404 và cả những URL giới thiệu. URL giới thiệu là trang mà liên kết đó vẫn tồn tại. Hãy giả sử một số trang trong số 404 này là liên kết bị hỏng, có thể chúng tôi đã xóa các trang sản phẩm cũ của họ hoặc vì lí do nào đó mà chúng tôi đã chuyển các trang trên trang web của họ. Lí do mà trình thu thập thông tin Moz vẫn tìm được những trang này là vì liên kết đến trang đó vẫn còn tồn tại trên trang URL giới thiệu.
Screaming Frog
Bạn có thể nhập URL đến trang của mình ngay góc bên trái màn hình, sau đó dưới mã phản hồi, bạn sẽ nhấp vào lỗi khách hàng (4xx), chúng sẽ hiện lên danh sách tất cả những URL đang trả về lỗi 404.
Dưới đây là một số cách giải quyết lỗi 404 cho các trang đơn lẻ:
- Xóa liên kết khỏi URL giới thiệu. Đây là cách tốt nhất để giải quyết tình trạng lưu lượng truy cập thấp, cơ quan trang thấp, các trang có chất lượng thấp. Cơ quan quản lý tên miền của bạn sẽ không ảnh hưởng quá nhiều đến trang web của bạn.
- Chuyển hướng liên kết 301. Điều này tốt cho DA và PA vì có thể tốt cho cơ quan quản lý miền của bạn để chuyển hướng các liên kết đó. Khi bạn chuyển hướng liên kết, Google sẽ phải kiểm tra xem liên kết mới và liên kết ban đầu liệu có liên quan với nhau hay không để người dùng có những trải nghiệm tốt nhất. Điều này có thể gây ra nhầm lẫn với khách hàng nếu trang đích không hiển thị nội dung liên quan đến điều mà người dùng cần.
- Tạo ra trang bẫy 404. Việc này tốt cho bất kỳ loại cơ quan trang nào có lưu lượng truy cập thấp, trang PA thấp. Nó sẽ tốt khi không có giải pháp chuyển hướng dễ dàng hay không có điểm đến cuối cùng có liên quan, đơn giản họ muốn cho người dùng biết trang mà họ đang tìm kiếm không hề tồn tại.
4. Nội dung không thể thu thập thông tin
Kể từ năm 2014, Google đã tuyên bố rằng họ ổn với việc truy cập thông tin và hiển thị JavaScript, nhưng cũng có rất nhiều lời khuyên về việc thận trọng đối với javaScript. Đôi khi JavaScript khá phức tạp và nó gây ra một chút thách thức, đây là một chủ đề tranh luận sôi nổi và điều đó đáng được xem xét.
Tác giả của bài viết này trên ElifEight.com đã kiểm tra lý thuyết này, những gì anh ấy làm là tạo ra hai trang web khác nhau. Một trang sử dụng HTML, một trang sử dụng JavaScript, mỗi trang web có 6 trang. Anh ấy đã theo dõi xem trang JavaScript có thu thập thông tin hay không, bây giờ trang web HTML đã được lập chỉ mục ngay lập tức còn trang JavaScript thì không được lập sau sáu tuần. Qua thử nghiệm này, ông kết luận rằng JavaScript gây khó khăn cho các công cụ tìm kiếm trong việc thu thập thông tin và lập chỉ mục.
Sau đó anh ấy đã liên hệ với John Mueller về kết quả thu được và John Mueller đã trả lời rằng có thể JavaScript không phải là nguyên nhân chính mà còn rất nhiều lí do sâu xa khác nữa. John Mueller cũng đã chạy một chương trình tương tự nhưng anh ấy không chia sẻ kết quả, như vậy kết quả về việc này đáng được xem xét.
Nếu bạn lo lắng về JavaScript là một vấn đề, bạn có thể tắt JavaScript trong trình duyệt của mình và lưu ý bất kỳ yếu tố nào còn thiếu và đảm bảo rằng các liên kết điều hướng đó vẫn hiển thị và hoạt động khi bạn nhấp vào chúng để bạn có thể thực hiện điều đó trong cài đặt trình duyệt của mình hoặc bạn có thể sử dụng plugin như thanh công cụ dành cho nhà phát triển web. Vì vậy hãy xét hai cách để bạn có thể tắt JavaScript:
- Tải xuống một tiện ích mở rộng của Chrome, như thanh công cụ dành cho nhà phát triển web, cho phép bạn tắt JavaScript trên bất kỳ trang web nào chỉ cần một lần nhấp chuột. Tất cả những gì bạn làm là truy cập một trang web, nhấp vào tiện ích mở rộng của Chrome và bạn sẽ thấy khay này mở, bạn có thể nhấp vào ô vô hiệu hóa JavaScript. Sau đó nó sẽ hiển thị cho bạn trang web không có JavaScript, một lần nữa bạn có thể tìm kiếm các liên kết, nhấp vào chúng để đảm bảo rằng chúng vẫn hoạt động.
- Xem trong phần cài đặt trình duyệt của mình, bạn sẽ thấy ở bên phải một video Youtube hiển thị cho bạn quá trình. Về cơ bản, trên bất kỳ trang web nào, bạn sẽ nhấp chuột phải và sau đó chọn kiểm tra ngay bây giờ. Sau khi bạn kiểm tra, nó sẽ xuất hiện một màn hình mới, bạn hãy nhấp vào ba dấu chấm ở góc trên bên phải và chọn cài đặt. Bây giờ bạn cuộn xuống trình gỡ lỗi và nhấp vào tắt JavaScript.
Bạn sẽ chỉ làm những điều này nếu bạn không tải xuống phần mềm Browser Attention. Đó cũng là một cách để tắt JavaScript và hãy đảm bảo rằng tất cả các liên kết của bạn vẫn hiển thị và chúng vẫn hoạt động.
Nếu trang web của bạn sử dụng các đối tượng flash, bạn có thể sử dụng flash test khi kiểm tra trang web SEO để đánh giá hiệu suất của trang web. Flash content đôi khi không hoạt động quá tốt vì thế chúng gây khó khăn cho trình thu thập thông tin để dịch.
Cách xác định nội dung không thể thu thập thông tin để trang web tốt hơn
Bạn có thể sử dụng Screaming Frog. Ví dụ tôi nhập tìm kiếm một trang web Filippo – nghệ sĩ người Ý. Tôi đã vào trang Filippo.com, ở bên phải bạn nhấp vào Internal rồi nhấp vào JavaScript, nó cung cấp cho tôi tất cả URL chứa JavaScript thì điều đó không nhất thiết có nghĩa rằng chúng tôi phải truy cập vào và loại bỏ tất cả những JavaScript đó, bạn có thể đo lường giám sát và quản lý kỳ vọng cho các trang đó. Bạn có thể so sánh các trang đó với những trang trên trang web của bạn mà không có JavaScript xem có sự khác biệt nào hay không. JavaScript có thể ảnh hưởng đến hiệu suất trang web cũng như xếp hạng trang web của tôi…
5. Tỷ lệ bao gồm
Việc đầu tiên cần làm là xác định tỷ lệ bao gồm, nói cách khác là có bao nhiêu trang được công cụ tìm kiếm lập chỉ mục so với tổng số trang thực sự tồn tại trên trang web.
Chúng tôi có ba tình huống bao gồm:
Lý tưởng: số trang lập chỉ mục bằng hoặc tương đương với số trang thực tế
Số trang được lập chỉ mục lớn hơn số trang thực tế. Một trong số những lý do là có nội dung trùng lặp trên trang web.
Số trang được lập chỉ mục nhỏ hơn số trang thực tế. Lý do có thể là chúng tôi đang chặn các trang.
Cách xác định tốt tỷ lệ bao gồm:
Cách tốt nhất để tìm số trang mà Google đã lập chỉ mục là thực hiện lệnh trang web. Bạn hãy đi tới Google, nhập site:yourdomain.com. Ví dụ sử dụng trang web thương mại điện tử, nhập MichaelKors.com, Google sẽ đưa bạn đến trang công cụ tìm kiếm với số lượng kết quả được hiển thị phía trên cùng. Câu hỏi ở đây là liệu có bao nhiêu trang được Google lập chỉ mục? với ví dụ này, Google đã lập chỉ mục được 22100 trang cho miền MichaelsKors.com. Đây là con số mà Michaels Kors muốn lập chỉ mục, bạn có thể xem và phân tích số liệu này.
Cách khác là sử dụng bảng điều khiển tìm kiếm của Google, nếu bạn không quen thuộc với bảng này thì có một công cụ miễn phí giúp bạn theo dõi và duy trì sự hiện diện trang web của mình trong kết quả tìm kiếm của Google. Bận có thể có được con số rõ ràng và chính xác hơn trong bảng điều khiển tìm kiếm, bạn có thể sử dụng Sitemap. Với khóa học Sitemap, bạn sẽ học cách tạo một sơ đồ trang, gửi nó đến bảng tìm kiếm của Google, trong đó bạn sẽ thấy số lượng trang được gửi so với số trang đã được lập chỉ mục.
6. Sơ đồ trang
Cách tốt nhất để Google tìm ra và lập chỉ mục cho trang web của bạn đó là gửi một sơ đồ trang đến Google. Sơ đồ trang là một tệp trên trang web của bạn thông báo cho các công cụ tìm kiếm về các trang mới hoặc đã thay đổi tên trang web.
Sơ đồ trang XML – sơ đồ biểu thị hai mạng lưới công cụ tìm kiếm biểu thị trang nào thực sự tồn tại, chúng liệt kê URL cùng với một vài siêu dữ liệu về mỗi URL, siêu dữ liệu thông báo những thông tin được cập nhật lần cuối, tần suất thay đổi hay mức độ quan trọng của nó và cách mà các công cụ tìm kiếm có thể thu thập dữ liệu trang web của bạn một cách thông minh hơn.
Vậy tại sao bạn phải tạo và gửi sơ đồ trang cho Google, thật ra các công cụ tìm kiếm vẫn có thể tìm thấy trang của bạn nhưng nếu bạn làm điều này thì Google sẽ tìm thấy trang của bạn một cách dễ dàng hơn thông qua liên kết nội bộ. Hoặc khi bạn muốn thêm các trang hoặc tạo một trang web hoàn toàn mới chưa có nhiều liên kết nhưng sơ đồ trang web sẽ giúp công cụ tìm kiếm thu thập dữ liệu trang web của bạn một cách thông minh hơn. Vì thế khi bạn gửi sơ đồ trang, bạn đang tạo cơ hội cho các trang của mình gần hơn với trình thu thập thông tin.
Một ví dụ về sơ đồ trang XML trên một trang web thương mại điện tử. Trang này gọi là Anastasia Beverly Hills.com, đây là một thương hiệu mỹ phẩm lớn. Khi chúng ta nhấp vào một liên kết bất kỳ, đầu tiên là vị trí của trang mà bạn luôn sử dụng thống nhất các URL tuyệt đối trong sơ đồ trang web của mình.
URL tuyệt đối bao gồm HTTP, www, HTML, và toàn bộ bit của URL của bạn. Sau đó bạn sẽ thấy ngày và giờ cập nhật cuối cùng, sau đó là tần suất thay đổi của trang, cuối cùng là mức độ ưu tiên. Kể từ năm 2014 hoặc lâu hơn John Mueller từ Google đã nói rằng tần suất và mức độ ưu tiên không ảnh hưởng quá lớn đến mức độ xếp hạng trang web của bạn, ngày và giwof cập nhật cuối cùng cũng không cần thiết. Mức độ ưu tiên nằm trong khoảng từ 0 đến 1, tầm 0.5 là mức độ ưu tiên mặc định của bạn.
Phương pháp hay nhất về sơ đồ trang XML
vì lợi ích của kỹ thuật SEO, bạn luôn muốn sơ đồ trang web của mình tuân theo giao thức và bạn có thể tìm thấy giao thứ đó tại sitemaps.org/protocol.html. Bạn muốn đảm bảo rằng bạn chỉ gửi các URL chuẩn trên sơ đồ trang web của bạn và bạn có thể cho các công cụ tìm kiếm biết vị trí sơ đồ trang web XML bằng cách chỉ định vị trí trong tệp robots.txt.
Google sẽ giới hạn một sơ đồ trang web trong khoảng 50000 URL, nếu bạn vượt quá số lượng này, nó sẽ chia sơ đồ trang của bạn ra thành những sơ đồ nhỏ, sau đó tạo tệp chỉ mục sơ đồ trang web và gửi nó cho Google. Vì vậy hoàn toàn bình thường nếu bạn có nhiều hơn 50000 URL, mỗi khi bạn xóa hay thêm một trang, bận chỉ cần sửa lại sơ đồ trang và gửi lại cho Google.
Giờ đây, các sơ đồ trang web chỉ nên có các URL phân giải thành 200 mã trạng thái, những mã này chỉ ra rằng các URL hợp lệ, đó là một trang đang hoạt động và sơ đồ trang web của bạn cũng không nên bao gồm các trang chất lượng thấp hoặc chỉ là các trang về cơ bản mà bạn không muốn xếp hạng trong kết quả của công cụ tìm kiếm. Những thứ như trang kết quả tìm kiếm có thể giống như mua sắm xe thông tin cũng như phân trang những loại mà bạn có thể sẽ không đưa vào sơ đồ trang web của mình.
Vậy làm sao để chúng ta tạo ra sơ đồ trang?
Một cách hay đó là sử dụng Screaming Frog, bạn hãy nhập URL trang web của mình ở ô trên cùng, sau đó chọn các sơ đồ trang web và chọn tạo sơ đồ trang XML.
Sau khi bạn tạo tệp sơ đồ trang, bạn cần đặt chúng vào máy chủ web và thông báo cho các công cụ tìm kiếm, bạn có thể làm việc này bằng cách gửi tệp đó cho Google thông qua bảng điều khiển tìm kiếm của Google. Trong bảng điều khiển tìm kiếm, bạn sẽ thu thập thông tin và sau đó chọn sơ đồ trang web và kiểm tra chúng.
Khi bạn thêm sơ đồ trang web của mình, bạn sẽ thấy số lượng trang web đã được gửi, đây là số trang thực sự có trên sơ đồ trang so với số trang đã được lập chỉ mục.
Ở giai đoạn này, chúng tôi cần thu thập dữ liệu trang web của mình và kiểm tra sơ đồ trang web XML. bạn cũng có thể thực hiện điều này trong bảng điều khiển tìm kiếm của Google và cả trong Screaming Frog bằng cách mở ứng dụng, chọn chế độ Mode và chọn List, sau đó nhấp chuột vào Upload và chọn Download Sitemap. Đây là nơi bạn sẽ nhập URL của vị trí sơ đồ trang XML của mình ở đây chúng tôi sẽ kiểm tra sơ đồ trang web XML cho Anastasia Beverly Hills.com. Từ đó, Screaming Frog sẽ kéo tất cả các URL được liệt kê và bắt đầu thu thập thông tin, chúng ta sẽ nhìn thấy một bản tóm tắt thu thập thông tin bên phía tay phải. Chúng ta có thể thấy số lượng của các thành phần kĩ thuật như thẻ tiêu đề, phần mô tả, thẻ h1, mã phản hồi máy chủ cho mỗi URL. Nếu bạn xem qua dữ liệu, bạn có thể biết được trang nào bị lỗi và cần cải thiện.
7. Các trang bị chặn
Hiện nay các trang bị chặn có thể là nguyên nhân tại sao số lượng chỉ mục của bạn ít hơn số lượng thực tế trong tỷ lệ bao gồm của bạn.
Ví dụ nếu bạn nhập lên Google moz.com, Google sẽ trả lại kết quả số trang mà học đã lập chỉ mục, có khoảng 53000 trang. Thực ra Moz có hơn 100000 trang, lí do mà số trang lập chỉ mục ít hơn số trang thực tế là do Moz đang chặn các trang qua robots.txt.
Robots.txt là một phần mềm thông báo cho công cụ tìm kiếm rằng họ nên hay không nên thu thập thông tin và lập chỉ mục. Bạn có thể xem điều này bằng cách nhập tên miền của bạn.com/robots.txt và bạn cũng có thể xem bất kỳ trang nào theo cách này.
Khi trang web của bạn được lập chỉ mục, bạn có thể cung cấp hướng dẫn cho trình thu thập thông tin với robots.txt. Khi công cụ tìm kiếm đến trang của bạn, đầu tiên chúng sẽ vào robots.txt và sau đó vào sơ đồ trang web.
Bạn có thể tạo tệp robots.txt riêng biệt cho từng miền phụ trên trang web của mình.
Đầu tiên, những gì đặt ở sau dấu # có nghĩa đây không phải là hướng dẫn cho trình thu thập thông tin, đây là hướng dẫn để người dùng đọc.
Tiếp theo là tác nhân người dùng
8. Nội dung trùng lặp
Nội dung trùng lặp là một vấn đề khá quan trọng được thấy trên khắp các trang web và chúng tôi chắc chắn thấy chúng rất nhiều trong các chiến dịch khác nhau.
Thử thách là bạn có thể có nhiều trang giống hệt nhau hoặc có vể giống nhau và công cụ tìm kiếm cố gắng xếp hạng chúng sẽ gặp khó khăn tỏng việc chọn ra trang nào thích hợp hơn để xếp hạng cho một truy vấn tìm kiếm nhất định.
9. Kiểm tra trang web di động
10. Giới thiệu khả năng tiếp cận
Thuộc tính thay thế hình ảnh
Thẻ tiêu đề
Thẻ tiêu đề đoạn h1 h2 h3
- h1: tiêu đề chính
- h2, h3… tiêu đề phụ
Anchor Text
Văn bản có thể nhấp được hiển thị trong một siêu liên kết trong trình duyệt, nó thường có màu xanh và được gạch chân
Internal link
inside the domain
Trả lời