Cách thức hoạt động của file Robot.txt WordPress là gì? Và tạo file robot.txt như thế nào?

robot.txt Wordpress

Để chắc là website của bạn xuất hiện trên Trang kết quả tìm kiếm – Search Engine Result Pages (SERPs), bạn cần để “bots” truy cập vào những trang quan trọng trên website. File robots.txt được viết tốt có thể dùng để quản lý truy cập của những bots này tới trang bạn muốn (để tránh nó quét những nơi không cần thiết). Trong bài này, chúng tôi sẽ hướng dẫn tạo file robot.txt WordPress.

Robot.txt WordPress là gì?

Robots.txt là một tệp tin văn bản nằm trong thư mục gốc của trang web và cung cấp hướng dẫn cho các công cụ tìm kiếm thu thập thông tin về các trang mà họ có thể thu thập thông tin để lập chỉ mục.

Nếu bạn đã đọc bài trước của tôi về cách các công cụ tìm kiếm hoạt động, thì bạn sẽ biết rằng trong giai đoạn thu thập thông tin và lập chỉ mục, các công cụ tìm kiếm cố gắng tìm các trang có sẵn công khai trên web, mà chúng có thể đưa vào trong chỉ mục của chúng.

Khi truy cập trang web, điều đầu tiên công cụ tìm kiếm làm là tìm kiếm và kiểm tra nội dung của tệp robots.txt. Tùy thuộc vào các quy tắc được chỉ định trong tệp, chúng tạo ra một danh sách các URLS có thể thu thập dữ liệu và sau đó lập chỉ mục cụ thể cho trang web.

Nội dung của tệp robot.txt WordPress được công khai trên Internet. Trừ khi được bảo vệ bằng cách khác (tôi cũng chưa biết bảo vệ bằng cách nào), bất kỳ ai cũng có thể xem nội dung tệp robots.txt của bạn vì vậy đây không phải là nơi để thêm nội dung mà bạn không muốn người khác xem.

Hai điều quan trọng cần biết về robots.txt

  • Điều đầu tiên là bất kỳ quy tắc nào bạn thêm vào robots.txt thì đó là chỉ thị. Điều này có nghĩa là công cụ tìm kiếm phải tuân theo và tuân theo các quy tắc bạn đã đưa vào. Trong hầu hết các trường hợp công cụ tìm kiếm đều mò vào công việc thu thâp -> lập chỉ mục, nhưng nếu bạn có nội dung mà bạn không muốn nằm trong chỉ mục của họ thì cách tốt nhất là để mật khẩu bảo vệ thư mục hoặc trang cụ thể.
  • Điều thứ hai là ngay cả khi bạn chặn trang hoặc thư mục trong robots.txt, nó vẫn có thể xuất hiện trong kết quả tìm kiếm nếu nó có liên kết từ các trang khác đã được lập chỉ mục. Nói cách khác, thêm trang bạn muốn chặn vào robots.txt không đảm bảo rằng nó sẽ bị xóa hoặc không xuất hiện trên web. Trước đây tôi có thường xuyên nhìn thấy các kết quả với mô tả “Không có mô tả cho kết quả tìm kiếm hoặc bị chặn”.
Bạn sẽ quan tâm  Nghệ thuật viết content là gì? Cấu trúc của một bài viết content là gì?

Cú pháp của File Robot.txt WordPress

robot.txt WordPress

Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots.txt. Có 5 thuật ngữ phổ biến mà bạn sẽ bắt gặp trong một file robot.txt WordPress là gì? Chúng bao gồm:

  • User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Được sử dụng để thông báo cho các user-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng disallow.
  • Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh thự hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Crawl-delay: Thông báo cho các web crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.

Định dạng cơ bản của File Robots.txt

Tuy nhiên, bạn vẫn có thể lược bỏ các phần “Crawl-Delays” và “Sitemap”. Đây là định dạng cơ bản để tạo robots.txt WordPress hoàn chỉnh. Tuy nhiên trên thực tế thì file robots.txt là gì chứa nhiều dòng User-agent và nhiều chỉ thị của người dùng.

Chẳng hạn như các dòng lệnh: Disallows, Allows, Crawl-Delays, … Trong file robots.txt là gì chuẩn nhất, bạn chỉ định cho nhiều con Bot khác nhau. Mỗi lệnh thường được viết riêng biệt cách nhau bởi 1 dòng.

Trong một file robots.txt wordpress bạn có thể chỉ định nhiều lệnh cho các con Bot bằng cách viết liên tục không cách dòng. Tuy nhiên trong trường hợp một file robots.txt là gì có nhiều lệnh đối với 1 loại Bot thì mặc định Bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.

Lưu ý về File Robot.txt WordPress chuẩn

  • Để chặn tất cả các Website Crawler không được thu thập bất kì dữ liệu nào trên Website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent: *

Disallow: /

  • Để cho phép tất cả các trình thu thập thông tin truy cập vào tất cả các nội dung trên Website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent: *

Disallow:

  • Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất kì trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Chúng ta hãy sử dụng cú pháp sau:
Bạn sẽ quan tâm  Link juice là gì?

User-agent: Googlebot

Disallow: /example-subfolder/

  • Để chặn trình thu thập thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang cụ thể tại www.example.com/example-subfolder/blocked-page. Chúng ta hãy sử dụng cú pháp sau:

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Robot.txt WordPress hoạt động như thế nào?

Tệp robot có một cấu trúc rất đơn giản. Có một số kết hợp từ khóa / giá trị được xác định trước mà bạn có thể sử dụng.

Phổ biến nhất là: User-agent, Disallow, Allow, Crawl-delay, Sitemap.

User-agent:

Chỉ định trình thu thập dữ liệu nào được đưa vào các chỉ thị. Bạn có thể sử dụng một * để cho tất cả các trình thu thập thông tin hoặc nếu không thích thì bạn có thể chỉ định tên của trình thu thập thông tin, xem ví dụ dưới đây.

  • User-agent: * – bao gồm tất cả trình thu thập thông tin.
  • User-agent: Googlebot – chỉ dành cho Google bot.

Disallow:

Chỉ thị hướng dẫn các bot (được chỉ định ở trên) không thu thập dữ liệu URL hoặc một phần của trang web. Giá trị của disallow có thể là một tệp, URL hoặc thư mục cụ thể. Xem ví dụ dưới đây được thực hiện từ bộ phận hỗ trợ kỹ thuật của Google.

Allow:

Chỉ thị cho biết rõ các trang hoặc thư mục con nào có thể được truy cập. Điều này chỉ áp dụng cho Googlebot.

Bạn có thể sử dụng Allow để cho phép truy cập vào một thư mục con cụ thể trên trang web của bạn, mặc dù thư mục gốc là không được phép.

Ở ví dụ dưới đây tôi chặn thư mục photo nhưng tôi tại cho phép lập chỉ mục trong photos/vietnetgroup

  • User-agent: *
  • Disallow: /photos
  • Allow: /photos/vietnetgroup/

Crawl-delay:

Bạn có thể để cụ thể một giá trị để buộc trình thu thập dữ liệu thu thập thông tin của công cụ tìm kiếm đợi một khoảng thời gian cụ thể trước khi thu thập thông tin trang tiếp theo từ trang web của bạn. Giá trị bạn nhập đơn vị là mili giây. Cần lưu ý rằng Googlebot không tính đến độ Crawl-delay này.

Bạn có thể sử dụng Google Search Console để kiểm soát tốc độ thu thập thông tin cho Google (tùy chọn này ở trong Cài đặt trang web) tôi chụp ảnh màn hình dưới đây. Bạn có thể sử dụng Crawl-delay trong trường hợp bạn có trang web với hàng ngàn trang và bạn không muốn quá tải máy chủ của mình với các yêu cầu liên tục. Trong phần lớn các trường hợp, bạn không nên sử dụng chỉ thị thu thập dữ liệu trễ này làm gì.

Sitemap:

Chỉ thị sitemap được hỗ trợ bởi các công cụ tìm kiếm chính bao gồm Google và nó được sử dụng để chỉ định vị trí của Sơ đồ trang web XML của bạn. (Nếu muốn xem bài sơ đồ trang XML thì nhấp vào link bên cạnh đó nhé) Ngay cả khi bạn không chỉ định vị trí của sơ đồ trang XML trong robot.txt, các công cụ tìm kiếm vẫn có thể tìm thấy nó.

Bạn sẽ quan tâm  Bài viết chuẩn SEO là gì? Viết bài chuẩn SEO cùng EMG Online

Một điều lưu ý quan trọng cho bạn đó là robots có phân biệt chữ hoa và chữ thường. Ví dụ: Disallow: /File.html thì sẽ không khóa được file.html

robot.txt WordPress

Cách tạo file robots.txt

Tạo tệp robots.txt rất dễ dàng. Tất cả bạn cần là một trình soạn thảo văn bản (tôi thường xùng notepad) và truy cập các tệp của trang web của bạn (qua FTP hoặc bảng điều khiển quản lý hosting). Trước khi tham gia quá trình tạo tệp tin robot, điều đầu tiên cần làm là kiểm tra xem nó đã có chưa. Cách dễ nhất để làm việc này là mở một cửa sổ trình duyệt mới và truy cập đến https://www.tênmiền.com/robots.txt

Nếu bạn thấy một thứ tương tự như dưới đây, có nghĩa là bạn đã có tệp robots.txt và bạn có thể chỉnh sửa tệp hiện tại thay vì tạo tệp mới.

  • User-agent: *
  • Allow: /

Cách chỉnh sửa robots.txt

Sử dụng ứng dụng khách FTP và kết nối với thư mục gốc của trang web của bạn. Robots.txt luôn nằm trong thư mục gốc (www hoặc public_html, tùy thuộc vào máy chủ của bạn). Tải tập tin về máy tính của bạn và mở nó bằng một trình soạn thảo văn bản. Thực hiện các thay đổi cần thiết và tải tệp lên máy chủ của bạn.

Ví dụ về tệp tin robots.txt

  • User-agent: *
  • Allow: /
  • Sitemap:

Điều này cho phép tất cả các chương trình truy cập trang web của bạn mà không chặn bất kỳ thư mục, url nào. Nó cũng xác định vị trí sơ đồ trang web để làm cho các công cụ tìm kiếm dễ tìm nó hơn.

 

EMG Online Co,.LTD

  • Hotline: 098-300-9285
  • Email: info@emg.com.vn
  • Website: www.emg.com.vn | www.EMG Online.vn

Các tìm kiếm liên quan

  • Plugin robots txt wordpress
  • robot.txt là gì
  • Edit robots txt WordPress
  • Webmaster tools robots txt
  • file robots.txt chuẩn cho wordpress
  • Add robots txt to WordPress
  • Add robot txt
  • Mẫu file robot txt

Nguồn: https://www.emg.com.vn/:

Bài viết liên quan

kiểm tra thứ hạng từ khóa
Tìm hiểu các công cụ kiểm tra thứ hạng từ khóa google phổ biến hiện nay
yoast seo
Yoast Seo là gì? Cách sử dụng và các tính năng của plugin này
Backlink là gì
Backlink là gì? Những yếu tố quan trọng xây dựng backlink chất lượng
SEO tu khoa
SEO tu khoa là gì? SEO hiệu quả, nhanh chóng cùng EMG Online
SEO Onpage
SEO Onpage là gì? Tối ưu SEO Onpage cùng EMG Online 
Cách viết bài chuẩn SEO
EMG Online hướng dẫn cách viết bài chuẩn SEO
thuật ngữ seo
7 thuật ngữ SEO cơ bản cần biết
bai viet chuan seo
Bài viết chuẩn SEO là gì? Viết bài chuẩn SEO cùng EMG Online

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *