Bạn đang thiếu thông tin gì ? Hãy nhập ngay từ khóa tìm cho mình bài viết phù hợp

Tệp robots.txt là gì?

Robots.txt là một tệp văn bản mà quản trị viên web tạo ra để hướng dẫn rô bốt web (thường là rô bốt công cụ tìm kiếm) cách thu thập dữ liệu các trang trên trang web của họ. Tệp robots.txt là một phần của giao thức loại trừ rô bốt (REP), một nhóm tiêu chuẩn web quy định cách rô bốt thu thập dữ liệu web, truy cập và lập chỉ mục nội dung cũng như phân phát nội dung đó cho người dùng. REP cũng bao gồm các chỉ thị như meta rô bốt , cũng như các hướng dẫn trên toàn trang, thư mục con hoặc trên toàn trang về cách các công cụ tìm kiếm xử lý các liên kết (chẳng hạn như “theo dõi” hoặc “nofollow”).
 
Trên thực tế, tệp robots.txt cho biết liệu một số tác nhân người dùng (phần mềm thu thập thông tin web) có thể hay không thể thu thập thông tin các phần của trang web. Các hướng dẫn thu thập thông tin này được chỉ định bằng cách “không cho phép” hoặc “cho phép” hành vi của một số tác nhân người dùng (hoặc tất cả).
Định dạng cơ bản:
Tác nhân người dùng: [tên tác nhân người dùng] Không cho phép: [chuỗi URL không được thu thập thông tin]
Cùng với nhau, hai dòng này được coi là một tệp robots.txt hoàn chỉnh - mặc dù một tệp rô bốt có thể chứa nhiều dòng tác nhân người dùng và chỉ thị (ví dụ: không cho phép, cho phép, trì hoãn thu thập thông tin, v.v.).  
 
Trong tệp robots.txt, mỗi bộ chỉ thị tác nhân người dùng xuất hiện dưới dạng một bộ rời rạc , được phân tách bằng dấu ngắt dòng:
 
Trong tệp robots.txt có nhiều lệnh tác nhân người dùng, mỗi quy tắc không cho phép hoặc cho phép chỉ áp dụng cho (các) phương pháp sử dụng được chỉ định trong bộ phân tách bằng dấu ngắt dòng cụ thể đó. Nếu tệp chứa quy tắc áp dụng cho nhiều tác nhân người dùng , trình thu thập thông tin sẽ chỉ chú ý đến (và thực hiện theo các chỉ thị trong) nhóm hướng dẫn cụ thể nhất .
 
 Đây là một ví dụ:
Msnbot, discobot và Slurp đều được gọi cụ thể, vì vậy những tác nhân người dùng đó sẽ chỉ chú ý đến các lệnh trong các phần của tệp robots.txt. Tất cả các tác nhân người dùng khác sẽ tuân theo các chỉ thị trong nhóm tác nhân người dùng: *.
 
Robots.txt mẫu:
Dưới đây là một số ví dụ về robots.txt đang hoạt động cho trang web www.example.com :
 
URL của tệp Robots.txt: www.example.com/robots.txt
Chặn tất cả trình thu thập dữ liệu web khỏi tất cả nội dung
Tác nhân người dùng: * Không cho phép: /
Sử dụng cú pháp này trong tệp robots.txt sẽ yêu cầu tất cả trình thu thập thông tin web không thu thập thông tin bất kỳ trang nào trên www.example.com , bao gồm cả trang chủ.
 
Cho phép tất cả các trình thu thập thông tin web truy cập vào tất cả nội dung
Tác nhân người dùng: * Không cho phép: 
Việc sử dụng cú pháp này trong tệp robots.txt yêu cầu trình thu thập thông tin web thu thập thông tin tất cả các trang trên  www.example.com , bao gồm cả trang chủ.
 
Chặn một trình thu thập thông tin web cụ thể khỏi một thư mục cụ thể
Tác nhân người dùng: Googlebot Disallow: / example-subfolder /
Cú pháp này chỉ cho trình thu thập thông tin của Google (tên tác nhân người dùng Googlebot) không thu thập thông tin bất kỳ trang nào có chứa chuỗi URL www.example.com/example-subfolder/ .
 
Chặn một trình thu thập thông tin web cụ thể khỏi một trang web cụ thể
Tác nhân người dùng: Bingbot Disallow: /example-subfolder/blocked-page.html
Cú pháp này chỉ cho trình thu thập thông tin của Bing (tên tác nhân người dùng Bing) tránh thu thập thông tin trang cụ thể tại www.example.com/example-subfolder/blocked-page.html. 

Robots.txt hoạt động như thế nào?

Công cụ tìm kiếm có hai công việc chính:
Thu thập thông tin trên web để khám phá nội dung;
Lập chỉ mục nội dung đó để nó có thể được cung cấp cho những người tìm kiếm đang tìm kiếm thông tin.
Để thu thập dữ liệu các trang web, các công cụ tìm kiếm đi theo các liên kết để đi từ trang này sang trang khác - cuối cùng là thu thập thông tin trên nhiều tỷ liên kết và trang web. Hành vi thu thập thông tin này đôi khi được gọi là "thêu thùa".
 
Sau khi đến một trang web nhưng trước khi xem xét nó, trình thu thập thông tin tìm kiếm sẽ tìm kiếm tệp robots.txt. Nếu tìm thấy tệp đó, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang. Vì tệp robots.txt chứa thông tin về cách công cụ tìm kiếm sẽ thu thập thông tin, thông tin tìm thấy ở đó sẽ hướng dẫn trình thu thập thông tin hành động thêm trên trang web cụ thể này. Nếu tệp robots.txt không chứa bất kỳ lệnh nào không cho phép hoạt động của tác nhân người dùng (hoặc nếu trang web không có tệp robots.txt), nó sẽ tiến hành thu thập thông tin khác trên trang web.
 
Các tệp robots.txt nhanh chóng khác phải biết:
(thảo luận chi tiết hơn bên dưới)
 
Để được tìm thấy, tệp robots.txt phải được đặt trong thư mục cấp cao nhất của trang web.
 
Robots.txt phân biệt chữ hoa chữ thường: tệp phải được đặt tên là “robots.txt” (không phải Robots.txt, robots.TXT, hoặc các tên khác).
 
Một số tác nhân người dùng (rô bốt) có thể chọn bỏ qua tệp robots.txt của bạn. Điều này đặc biệt phổ biến với nhiều trình thu thập thông tin bất chính hơn như rô bốt phần mềm độc hại hoặc trình thu thập địa chỉ email.
 
Tệp /robots.txt có sẵn công khai: chỉ cần thêm /robots.txt vào cuối miền gốc bất kỳ để xem các chỉ thị của trang web đó (nếu trang web đó có tệp robots.txt!). Điều này có nghĩa là bất kỳ ai cũng có thể thấy những trang bạn làm hoặc không muốn được thu thập thông tin, vì vậy đừng sử dụng chúng để ẩn thông tin người dùng riêng tư.
 
Mỗi miền phụ trên miền gốc sử dụng các tệp robots.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com đều phải có tệp robots.txt của riêng chúng (tại blog.example.com/robots.txt và example.com/robots.txt).
 
Thông thường, cách tốt nhất là chỉ ra vị trí của bất kỳ sơ đồ trang web nào được liên kết với miền này ở cuối tệp robots.txt. Đây là một ví dụ:

Cú pháp robots.txt kỹ thuật

Cú pháp robots.txt có thể được coi là "ngôn ngữ" của tệp robots.txt. Có năm thuật ngữ phổ biến mà bạn có thể gặp trong tệp rô bốt. Chúng bao gồm:
 
Tác nhân người dùng: Trình thu thập thông tin web cụ thể mà bạn đang cung cấp hướng dẫn thu thập thông tin (thường là công cụ tìm kiếm). Danh sách của hầu hết các tác nhân người dùng có thể được tìm thấy ở đây.
 
Disallow: Lệnh được sử dụng để yêu cầu tác nhân người dùng không thu thập dữ liệu URL cụ thể. Chỉ cho phép một dòng "Không cho phép:" cho mỗi URL.
 
Cho phép (Chỉ áp dụng cho Googlebot): Lệnh cho Googlebot biết nó có thể truy cập một trang hoặc thư mục con mặc dù trang mẹ hoặc thư mục con của nó có thể không được phép.
 
Độ trễ thu thập thông tin: Trình thu thập thông tin phải đợi bao nhiêu giây trước khi tải và thu thập thông tin nội dung trang. Lưu ý rằng Googlebot không thừa nhận lệnh này, nhưng tốc độ thu thập dữ liệu có thể được đặt trong Google Search Console .
 
Sơ đồ trang web: Được sử dụng để gọi ra vị trí của bất kỳ (các) sơ đồ trang web XML nào được liên kết với URL này. Lưu ý rằng lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.
 
Khi nói đến các URL thực tế để chặn hoặc cho phép, các tệp robots.txt có thể khá phức tạp vì chúng cho phép sử dụng đối sánh mẫu để bao gồm một loạt các tùy chọn URL có thể có. Google và Bing đều tôn vinh hai cụm từ thông dụng có thể được sử dụng để xác định các trang hoặc thư mục con mà SEO muốn loại trừ. Hai ký tự này là dấu hoa thị (*) và dấu đô la ($).
 
* là một ký tự đại diện đại diện cho bất kỳ chuỗi ký tự nào
$ khớp với phần cuối của URL
Google cung cấp một danh sách tuyệt vời về các ví dụ và cú pháp đối sánh mẫu có thể có tại đây .

Robots.txt đi đâu trên một trang web?

Bất cứ khi nào họ truy cập vào một trang web, các công cụ tìm kiếm và các rô bốt thu thập thông tin web khác (như trình thu thập thông tin của Facebook , Facebot) đều biết tìm kiếm tệp robots.txt. Tuy nhiên, họ sẽ chỉ tìm kiếm tệp đó ở một nơi cụ thể: thư mục chính (thường là tên miền gốc hoặc trang chủ của bạn). Nếu tác nhân người dùng truy cập www.example.com/robots.txt và không tìm thấy tệp rô bốt ở đó, nó sẽ cho rằng trang web không có tệp đó và tiến hành thu thập thông tin mọi thứ trên trang (và thậm chí có thể trên toàn bộ trang web). Ngay cả khi trang robots.txt đã tồn tại, chẳng hạn như example.com/index/robots.txt hoặc www.example.com/homepage/robots.txt, nó sẽ không bị tác nhân người dùng phát hiện và do đó trang web sẽ được xử lý như thể nó không có tệp robot nào cả.
 
Để đảm bảo tìm thấy tệp robots.txt của bạn, hãy luôn đưa tệp đó vào thư mục chính hoặc miền gốc của bạn.

Tại sao bạn cần robots.txt?

Tệp Robots.txt kiểm soát quyền truy cập của trình thu thập thông tin vào các khu vực nhất định trên trang web của bạn. Mặc dù điều này có thể rất nguy hiểm nếu bạn vô tình không cho phép Googlebot thu thập dữ liệu toàn bộ trang web của mình (!!), nhưng có một số trường hợp mà tệp robots.txt có thể rất hữu ích.
 
Một số trường hợp sử dụng phổ biến bao gồm:
 
Ngăn nội dung trùng lặp xuất hiện trong SERP (lưu ý rằng meta rô bốt thường là lựa chọn tốt hơn cho việc này)
Giữ toàn bộ các phần của trang web ở chế độ riêng tư (ví dụ: trang web dàn dựng của nhóm kỹ sư của bạn)
Giữ cho các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP công khai
Chỉ định vị trí của (các) sơ đồ trang web
Ngăn các công cụ tìm kiếm lập chỉ mục các tệp nhất định trên trang web của bạn (hình ảnh, PDF, v.v.)
Chỉ định độ trễ thu thập thông tin để ngăn máy chủ của bạn bị quá tải khi trình thu thập thông tin tải nhiều phần nội dung cùng một lúc
Nếu không có khu vực nào trên trang web của bạn mà bạn muốn kiểm soát quyền truy cập của tác nhân người dùng, bạn có thể không cần tệp robots.txt.

Kiểm tra xem bạn có tệp robots.txt không

Bạn không chắc mình có tệp robots.txt không? Chỉ cần nhập tên miền gốc của bạn, sau đó thêm /robots.txt vào cuối URL. Ví dụ: tệp rô bốt của Moz được đặt tại moz.com/robots.txt.
 
Nếu không có trang .txt nào xuất hiện, bạn hiện không có trang robots.txt (trực tiếp).

Cách tạo tệp robots.txt

Nếu bạn thấy mình không có tệp robots.txt hoặc muốn thay đổi tệp của bạn, thì việc tạo tệp là một quá trình đơn giản. Bài viết này của Google hướng dẫn về quy trình tạo tệp robots.txt và công cụ này cho phép bạn kiểm tra xem tệp của mình có được thiết lập chính xác hay không.
 
Tìm kiếm một số thực hành tạo tệp rô bốt? Bài đăng trên blog này đi qua một số ví dụ tương tác.

Các phương pháp hay nhất về SEO

Đảm bảo rằng bạn không chặn bất kỳ nội dung hoặc phần nào của trang web mà bạn muốn thu thập thông tin.
 
Các liên kết trên các trang bị robots.txt chặn sẽ không được theo dõi. Điều này có nghĩa là 1.) Trừ khi chúng cũng được liên kết từ các trang khác mà công cụ tìm kiếm có thể truy cập (tức là các trang không bị chặn qua robots.txt, meta rô bốt hoặc cách khác), các tài nguyên được liên kết sẽ không được thu thập thông tin và có thể không được lập chỉ mục. 2.) Không có liên kết nào có thể được chuyển từ trang bị chặn đến đích liên kết. Nếu bạn có các trang mà bạn muốn chuyển quyền sở hữu, hãy sử dụng một cơ chế chặn khác ngoài robots.txt.
 
Không sử dụng robots.txt để ngăn dữ liệu nhạy cảm (như thông tin người dùng riêng tư) xuất hiện trong kết quả SERP. Vì các trang khác có thể liên kết trực tiếp đến trang chứa thông tin cá nhân (do đó bỏ qua chỉ thị robots.txt trên miền gốc hoặc trang chủ của bạn), trang đó vẫn có thể được lập chỉ mục. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ bằng mật khẩu hoặc chỉ thị meta ngăn lập chỉ mục .
 
Một số công cụ tìm kiếm có nhiều tác nhân người dùng. Ví dụ: Google sử dụng Googlebot cho tìm kiếm không phải trả tiền và Googlebot-Image để tìm kiếm hình ảnh. Hầu hết các tác nhân người dùng từ cùng một công cụ tìm kiếm tuân theo các quy tắc giống nhau, do đó không cần chỉ định chỉ thị cho mỗi trình thu thập thông tin của công cụ tìm kiếm, nhưng khả năng làm như vậy cho phép bạn tinh chỉnh cách thu thập thông tin nội dung trang web của bạn.
 
Công cụ tìm kiếm sẽ lưu nội dung robots.txt vào bộ nhớ cache, nhưng thường cập nhật nội dung được lưu trong bộ nhớ cache ít nhất một lần mỗi ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp nhanh hơn hiện tại, bạn có thể gửi url robots.txt của mình cho Google .

Robots.txt so với meta robot và x-robot

Rất nhiều người máy! Sự khác biệt giữa ba loại hướng dẫn robot này là gì? Trước hết, robots.txt là một tệp văn bản thực, trong khi meta và x-robot là các lệnh meta . Ngoài những gì chúng thực sự là, cả ba đều phục vụ các chức năng khác nhau. Robots.txt ra lệnh cho hành vi thu thập thông tin trên toàn bộ trang web hoặc thư mục, trong khi meta và x-rô bốt có thể ra lệnh cho hành vi lập chỉ mục ở cấp trang riêng lẻ (hoặc phần tử trang).

Xem thêm bài viết:

⇒ Tại sao nội dung trùng lặp lại quan trọng?

⇒ Các yếu tố xếp hạng trên trang cho SEO

Chúc bạn thành công !

Hải Nguyên Web chuyên thiết kế website Uy Tín