Roboty txt Hosting Joomla
o /robots.txt
W skrócie
Właściciele witryn sieci Web użyć pliku /robots.txt dać instrukcje dotyczące ich strony do robotów internetowych; To się nazywa Robots Exclusion Protocol.
Działa to lubi: robot chce vists URL witryny sieci Web, powiedzmy www.example.com/welcome.html. Zanim to uczyni, to gorące sprawdza www.example.com/robots.txt, i stwierdza:
„User-agent: *” oznacza ta sekcja ma zastosowanie do wszystkich robotów. W „Disallow: /” mówi robotowi, że nie powinni odwiedzić żadnych stron w witrynie.
Istnieją dwa ważne względy przy użyciu /robots.txt:
- roboty mogą ignorować robots.txt. Szczególnie szkodliwe oprogramowanie robotów, które skanują w internecie w poszukiwaniu luk bezpieczeństwa i kombajny adres e-mail używane przez spamerów będzie nie zwracają uwagi.
- plik /robots.txt jest publicznie dostępny plik. Każdy może zobaczyć, jakie sekcje z serwerem nie chcesz roboty w użyciu.
Więc nie próbuj używać /robots.txt aby ukryć informacje.
Szczegóły
/robots.txt jest de facto standardem, a nie jest w posiadaniu żadnych norm ciała. Istnieją dwa opisy historyczne:
Ponadto istnieją środki zewnętrzne:
Średnia /robots.txt nie jest aktywnie rozwijany. Zobacz co o dalszym rozwoju /robots.txt? więcej dyskusji.
Reszta tej strony daje przegląd sposobu korzystania /robots.txt na serwerze, z kilku prostych receptur. Aby dowiedzieć się więcej zobacz także FAQ.
Jak utworzyć plik /robots.txt
Krótka odpowiedź: w katalogu najwyższego poziomu serwera WWW.
Dłuższa odpowiedź:
Kiedy robot wygląda na „/robots.txt” pliku na adres URL, to pozbawia składnik ścieżki z URL (wszystko od pierwszego pojedynczy ukośnik), i umieszcza „robots.txt” na swoim miejscu.
Na przykład, dla „www.example.com/shop/index.html. Będzie usunąć«/shop/index.html»i zastąpienie go«/robots.txt», a kończy się z” www.example com / robots.txt”.
Tak, jako właściciel witryny internetowej trzeba umieścić go w odpowiednim miejscu na serwerze WWW dla wynikający URL do pracy. Zazwyczaj jest to samo miejsce, w którym można umieścić na swojej stronie internetowej „index.html” główną stronę powitalną. Gdzie dokładnie to znaczy, i jak umieścić plik istnieje, zależy od oprogramowania serwera WWW.
Pamiętaj, aby wykorzystać wszystkie małe litery w nazwie pliku: „robots.txt”, a nie „robots.txt.
W „/robots.txt” plik jest plikiem tekstowym, z jednym lub więcej rekordów. Zwykle zawiera pojedynczy zapis wygląda tak:
W tym przykładzie, trzy katalogi są wykluczone.
Należy pamiętać, że trzeba osobną linię „Disallow” Dla każdego adresu URL prefiksu chcesz wykluczyć - nie można powiedzieć „Disallow: / cgi-bin / / tmp /” na jednej linii. Ponadto, nie mogą mieć puste wiersze w rekordzie, jak są one wykorzystywane w celu wyznaczenia wielu rekordów.
Należy również zauważyć, że masek i wyrażenie regularne nie są obsługiwane w obu User-agent lub zezwalaj na linie. Znak „*” w polu User-Agent jest specjalna wartość oznacza „jakąkolwiek robota”. W szczególności, nie można mieć linie jak "User-agent: * *" bot "Disallow: / tmp / *" lub "Disallow: * .jpg".
Co chcesz wykluczyć zależy od serwera. Wszystko nie jest wyraźnie zabronione jest uważane za sprawiedliwe gry do pobrania. Tutaj wykonaj kilka przykładów:
(Lub po prostu utworzyć pusty „/robots.txt” plik, lub nie używać w ogóle)
Obecnie jest to trochę niewygodne, ponieważ nie ma pola „Zezwalaj”. Najłatwiej umieścić wszystkie pliki do niedozwolonych do osobnego katalogu, powiedzmy „rzeczy”, i zostawić jeden plik na poziomie powyżej katalogu: Alternatywnie można jawnie nie pozwolić na wszelkie niedozwolone strony: