El archivo de texto robots o Cómo llegar a su sitio correctamente indexado, se arrastró, indexadas por los robots de
Así que has oído sobre alguien haciendo hincapié en la importancia del archivo robots.txt, o notado en los registros de su sitio web que el archivo robots.txt está causando un error, o de alguna manera está en la parte superior de las páginas de Internet más visitados, o leer algún artículo sobre la muerte de el archivo robots.txt y la manera en que usted no debe molestarse con ella nunca más. O tal vez nunca has oído hablar de el archivo robots.txt, pero están intrigados por hablar todo lo que sobre las arañas, robots y rastreadores. En este artículo, yo espero que hagaalgún sentido a todo lo anterior.
Hay mucha gente allá afuera que vehementemente insisten en la inutilidad del archivo robots.txt, la proclamación obsoleto, una cosa del pasado muerto, liso. No estoy de acuerdo. El archivo robots.txt no es probablemente en los primeros diez métodos para promocionar tus hacerse rico rápido sitio web afiliado en 24 horas o menos, pero sigue desempeñando un papel importante en el largo plazo.
En primer lugar, el archivo robots.txt es todavía un factor muy importante en la promoción y el mantenimiento de un sitio, y yote mostrará por qué. En segundo lugar, el archivo robots.txt es uno de los medios simples con los que puedes proteger tu privacidad y / o propiedad intelectual. Yo te mostraré cómo.
Vamos a tratar de entender algunos de la jerga.
¿Qué es este archivo robots.txt?
El archivo robots.txt es simplemente un archivo de texto muy simple (o un archivo ASCII, como algunos les gusta decir), con un conjunto muy simple de las instrucciones que damos a un robot web, de modo que el robot sabe que necesitamos páginas escaneadas ( o rastrear, o indexado, o indexado –todos los términos se refieren a lo mismo en este contexto) y las páginas que nos gustaría mantener fuera de los motores de búsqueda.
¿Qué es un robot WWW?
Un robot es un programa de computadora que lee automáticamente las páginas web y pasa por todos los enlaces que encuentra. El propósito de los robots es recopilar la información. Algunos de los robots más famosos mencionados en este artículo de trabajo para los motores de búsqueda, indexación de toda la información disponible en la web.
El primer robot fue desarrollado por el MIT y lanzado en1993. Se le llamó la World Wide Web Wander y su propósito inicial era de carácter puramente científico, su misión era la de medir el crecimiento de la web. El índice generada a partir de los resultados del experimento demostró ser una herramienta impresionante y efectivamente se convirtió en el primer motor de búsqueda. La mayoría de las cosas que consideramos hoy en día como herramientas indispensables en línea nació como un efecto secundario de un experimento científico.
¿Qué es un motor de búsqueda?
Genéricamente, un motor de búsqueda es un programa que buscaa través de una base de datos. En el sentido popular, que se refiere a la web, un motor de búsqueda se considera un sistema que tiene una forma de búsqueda del usuario, que puede buscar a través de un repositorio de páginas web seleccionada por un robot.
¿Cuáles son las arañas y los rastreadores?
Las arañas y los rastreadores son robots, sólo los nombres de sonido más fresco en la prensa y en círculos de metro-geek.
¿Cuáles son los robots más populares? ¿Hay una lista?
Algunos de los robots más conocidos son Google, Googlebot, MSNBot MSN, AskTeoma Jeeves, Yahoo! 'S Slurp (divertido). Uno de los lugares más populares para buscar información robot activo es la lista que mantiene en http://www.robots.org.
¿Por qué necesito este archivo robots.txt de todos modos?
Una gran razón para utilizar un archivo robots.txt en realidad es el hecho de que muchos motores de búsqueda, como Google, sugerencias de puestos para el público a hacer uso de esta herramienta. ¿Por qué es tan importante que Google enseña a la gente sobre el robots.txt? Bueno, porque hoy en día, los motores de búsqueda no son unaZona de juegos para los científicos y los geeks más, pero las grandes empresas corporativas. Google es uno de los motores de búsqueda más secreto que hay. Se sabe muy poco al público sobre cómo funciona, cómo los índices, cómo se busca, cómo se crea su ranking, etc De hecho, si usted hace una búsqueda minuciosa en los foros especializados, o donde sea que estos temas se discuten, nadie realmente está de acuerdo sobre si Google pone más énfasis en este o aquel elemento para crear su clasificación. Y cuando la gente noestán de acuerdo en cosas tan precisa como un algoritmo de clasificación, significa dos cosas: que Google cambia constantemente sus métodos, y que no tiene muy claro o muy público. Sólo hay una cosa que creo que es muy claro. Si recomendamos que utilice un archivo robots.txt ( "Hacer uso del archivo robots.txt en su servidor web" – Google Directrices Técnicas), y luego hacerlo. Es posible que no ayudan a su ranking, pero no definitivamente daño.
Hay otras razones para utilizar el archivo robots.txt.Si usted utiliza su registros de error para ajustar y mantener su sitio libre de errores, te darás cuenta de que la mayoría de los errores se refieren a algo o alguien no encuentra el archivo robots.txt. Todo lo que tienes que hacer es crear una página en blanco básicos (uso el Bloc de notas en Windows, o el editor de texto más sencillo en Linux o en Mac), nombre que robots.txt y subirlo a la raíz del servidor (que es donde su casa página).
En una nota diferente, hoy en día, todos los motores de búsqueda para buscar el archivo robots.txt en cuanto a sus robotsllegar en su sitio. Hay rumores no confirmados de que algunos robots incluso 'enfadarse' y dejar, si no lo encuentra. No estoy seguro qué tan cierto es, pero bueno, ¿por qué no estar en el lado seguro?
Una vez más, incluso si no tiene intención de bloquear cualquier cosa o simplemente no quiere preocuparse por estas cosas en todos, con un archivo robots.txt en blanco es una buena idea, ya que puede actuar como una invitación en su sitio.
No quiero que mi sitio indexado? ¿Por qué dejar de robots?
Algunos robots están bien diseñados,profesional funcionado, no causan ningún daño y proporcionar un valioso servicio a la humanidad (no a todos nos gusta "google"). Algunos robots están escritos por aficionados (recuerde, un robot es sólo un programa). Robots mal escrita puede causar sobrecarga de la red, problemas de seguridad, etc El punto aquí es que los robots son concebidos y gestionados por los seres humanos y son propensas al factor de error humano. En consecuencia, los robots son intrínsecamente malos, ni por sí brillante, y necesitan una atención cuidadosa. Este es otro caso en queel archivo robots.txt viene muy bien – el control de robots.
Ahora, estoy seguro de su meta principal en la vida, como webmaster o propietario del sitio es lograr que en la primera página de Google. Entonces, ¿por qué en el mundo que desea bloquear a los robots?
Éstos son algunos de los escenarios:
1. Inacabado sitio
Usted sigue siendo la construcción de su sitio, o partes de ella, y no quieren que las páginas sin terminar de aparecer en los motores de búsqueda. Se dice que algunos motores de búsqueda, incluso penalizar a los sitios con páginas que han sido "en construcción"durante mucho tiempo.
2. Seguridad
Siempre bloquear su directorio cgi-bin de los robots. En la mayoría de los casos, cgi-bin contiene aplicaciones, archivos de configuración para las aplicaciones (que en realidad podrían tener información sensible), etc Incluso si usted actualmente no utiliza todos los scripts CGI o programas, bloqueo de todas formas, más vale prevenir que lamentar.
3. Privacidad
Es posible que tenga algunos directorios en su sitio web donde usted guarda cosas que usted no desea que la galaxia entera para ver, tales como imágenes de unamigo que se olvidó de ponerse la ropa, etc
4. Páginas puerta
Además de los intentos ilícitos para aumentar la Clasificación por chorro de entradas en todo el Internet, páginas de entrada en realidad, tienen un uso muy moralmente sólida. Páginas que son similares, pero cada uno está optimizado para un motor de búsqueda específico. En este caso, usted debe asegurarse de que cada robot no tienen acceso a todos ellos. Esto es muy importante, a fin de evitar ser penalizado por spam de un motor de búsqueda con una serie demuy páginas similares.
5. Bad bot, bot mal, what'cha va a hacer …
Es posible que desee excluir robots, cuya finalidad es conocido para recolectar direcciones de correo electrónico, o de otros robots, cuya actividad no está de acuerdo con sus creencias en el mundo.
6. Su sitio se siente abrumado de
En raras ocasiones, un robot pasa a través de su sitio demasiado rápido, comer de su ancho de banda o ralentizar el servidor. Esto se llama "rápido-fuego" y se dará cuenta de que si usted está leyendo el archivo de registro de acceso. Un medioel rendimiento del servidor no debe reducir la velocidad. Sin embargo, puede tener problemas si usted tiene un sitio de bajo rendimiento, como uno de funcionamiento de su ordenador personal o Mac, si ejecuta software de servidor de los pobres, o si tiene secuencias de comandos pesados o documentos grandes. Es estos casos, verás caída de las conexiones, reducciones de velocidad pesados, en los extremos, incluso una caída del sistema. Si esto nunca sucede a usted, leer sus registros, trate de obtener la IP o el nombre del robot, lee la lista de los robots activa y tratar de identificar y bloquear elello.
¿Qué hay en un archivo robots.txt de todos modos?
Sólo hay dos líneas para cada entrada en un archivo robots.txt, el User-Agent, que tiene el nombre del robot que quiere dar órdenes o el "*" símbolo de comodín que significa 'todo', y la línea "Disallow", que le dice a un robot de todos los lugares que no debe tocar. Los dos entrada de línea se puede repetir para cada archivo o directorio que no desea el índice, o por cada robot que quiere excluir. Si deja la línea Disallow vacío, esto significa que estáno rechazar la nada, en otras palabras, usted está permitiendo que el robot en particular al índice de su sitio. Algunos ejemplos y algunas situaciones debe dejar claro:
A. Excluir un archivo de robot principal de Google (Googlebot):
User-Agent: Googlebot
Disallow: / private / privatefile.htm
B. Excluir una sección del sitio de todos los robots:
User-agent: *
Disallow: / underconstruction /
Tenga en cuenta que el directorio está encerrado entre dos barras inclinadas. A pesar de que seprobablemente se utiliza para ver las direcciones URL, enlaces y referencias carpeta que no terminan con una barra, tenga en cuenta que un servidor web siempre necesita una barra al final. Incluso cuando usted ver los enlaces en los sitios web que no terminen con una barra, cuando ese vínculo se hace clic, el servidor web tiene que hacer y paso adicional antes de servir la página, que está añadiendo la barra a través de lo que llamamos un redireccionamiento. Siempre use la barra final.
C. Dejar todo (robots.txt en blanco):
User-agent: *
Disallow:
Tenga en cuenta que cuando un "blancorobots.txt "es mencionado, no es un archivo completamente en blanco, pero contiene las dos líneas anteriores.
D. No permita que el robot en su sitio:
User-agent: *
Disallow: /
Tenga en cuenta que la barra hacia adelante significa "raíz", que es la entrada principal de su sitio.
E. No permitir a Google indexar cualquier de sus imágenes (Google utiliza Googlebot-Image para imágenes):
User-Agent: Googlebot-Image
Disallow: /
F. No permitir que Google indexe algunos de susImágenes:
User-Agent: Googlebot-Image
Disallow: / images_main /
Disallow: / images_girlfriend /
Disallow: / downloaded_pix /
Observe el uso de múltiples no permite. Esto está permitido, ningún retruécano previsto.
G. Crear un portal de Google y Lycos (el robot de Lycos se llama T-Rex) – No juegues con esto a menos que esté 100% seguro de que sabes lo que estás haciendo:
User-Agent: T-Rex
Disallow: / index1.htm
User-Agent: Googlebot
Disallow: / index2.htm
H. PermitirGooglebot sólo ..
User-Agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Tenga en cuenta que los comandos son secuenciales. El ejemplo de arriba dice en Inglés: Googlebot a través de, a continuación, detenga todos los demás.
Si el fichero es realmente grande, o simplemente ganas de escribir notas para usted mismo o para los espectadores potenciales (recuerde, robots.txt es un archivo público, cualquier persona puede ver), lo puede hacer por tu comentario anterior con un signo #. Aunque de acuerdo con la norma, puedetiene un comentario en la misma línea con un comando, te recomiendo que empieces cada comando y cada comentario de una nueva línea, de esta manera, los robots no serán confundidos por un error de formato en potencia. Ejemplos:
Esto es correcto, según la norma, pero no es recomendable (un nuevo robot o un mal escrita se podría leer lo siguiente como "no permitir el # Nosotros … Directorio" y no cumplir con el "Disallow all"):
User-agent: * Disallow: / # Decidimos parar todos los robots, pero estábamos muytonto en escribir un comentario largo que se trunca e hizo inservible el robots.txt
La forma te recomiendo que este formato es el siguiente:
# Decidimos parar todos los robots y nos aseguramos de
# Que nuestros comentarios no se trunca
# En el proceso de
User-agent: *
Disallow: /
Aunque en teoría, cada robot debe cumplir con las normas introducidas alrededor de 1994 y reforzada en 1996, cada robot actos un poco diferente. Se le aconseja que verifique la documentaciónproporcionado por los propietarios de los robots, se sorprenderá de descubrir un mundo de hechos y técnicas útiles. Por ejemplo, desde el sitio de Google nos enteramos de que Googlebot ignora por completo cualquier URL que contenga "& id =".
Éstos son algunos de los sitios para comprobar:
Google: http://www.google.com/bot.html
Yahoo: http://help.yahoo.com/help/us/ysearch/slurp/
MSN: http://search.msn.com/docs/siteowner.aspx
Una base de datos de los robots se mantiene enhttp://www.robotstxt.org/wc/active/html/contact.html
Una herramienta de validación de robots.txt – invaluable en la búsqueda de posibles errores tipográficos que puede cambiar completamente la manera de los motores de búsqueda ven su sitio, se puede encontrar en: [http://searchengineworld.com/cgi-bin/robotcheck.cgi]
Hay también algunas extensiones a la norma. Por ejemplo, algunos robots permiten comodines en la línea Disallow, algunos incluso permiten los diferentes comandos. Mi consejo es: no se moleste con algo fuera de la norma y no se leuna desagradable sorpresa.
Una última palabra de precaución:
En este artículo mostramos cómo las cosas deben trabajar en un mundo perfecto. En algún lugar a lo largo de este artículo he mencionado que hay robots buenos y robots malos. Detengámonos por un momento y pensar desde la perspectiva de una persona trastornada. ¿Hay algo para evitar que uno de escribir un programa robot que lee un archivo robots.txt y específicamente vistazo a las páginas que se han marcado como "rechazado"? La respuesta es absolutamente no, se basa esta norma todaen el sistema de honor y se basa en el concepto de que cada uno debe trabajar duro para hacer de Internet un lugar mejor. Básicamente, no se basan en esto para una verdadera seguridad o la privacidad. Utilice contraseñas cuando sea necesario.
En conclusión, no se olvide de que los robots de indexación son tus mejores amigos. Aunque no debe construir su sitio para los robots, sino para sus visitantes humanos, no subestime el poder de los rastreadores sin sentido – Asegúrese de que las páginas que desea indexar se ve claramente por robots, hacerAsegúrese de tener enlaces regulares que los robots pueden seguir sin obstáculos (los robots no pueden seguir los sistemas de navegación basados en Flash, por ejemplo). Para mantener su sitio en la punta de máximo rendimiento, para mantener su registro limpio, sus aplicaciones, scripts y los datos privados de seguridad, utilice siempre un archivo robots.txt y asegúrese de leer los registros para controlar todas las actividades de robótica.



















