¿Cómo funciona “No Captcha reCaptcha” de Google?

58

Google ha lanzado una nueva forma de identificación de bots captcha, que le pide al usuario que haga clic en una sola casilla de verificación. Utiliza la verificación basada en imágenes solo si es necesario.

¿Podría alguien explicarme cómo un programa de este tipo diferencia a un humano de un bot?

Aquí hay un programa que puede realizar clics del mouse en su computadora. Un programa basado en la web no puede detectarlo sin acceso a los archivos de su programa. Debería ser posible escribir un ejecutable de Windows no detectable que pueda marcar la casilla de verificación. También se podría aleatorizar el tiempo de respuesta del programa.

Luego de algunos intentos (exitosos), el captcha solicitará la verificación de la imagen. Tal vez eso pueda resolverse mediante una IA que busque las imágenes utilizando la Búsqueda de imágenes de Google (por imagen) y haga suposiciones basadas en los nombres de los archivos de imágenes "visualmente similares". Si las imágenes utilizadas no son de la red, entonces tendrían un número limitado y se podría crear una base de datos de ellas.

¿Podría alguien aclarar si estos enfoques podrían funcionar realmente?

    
pregunta ghosts_in_the_code 09.01.2015 - 18:37
fuente

4 respuestas

45

Esta no es realmente una gran pregunta para stackexchange, ya que Google mantiene sus algoritmos en secreto, por lo que todo lo que podemos hacer es adivinar cómo funciona, pero tengo entendido que el nuevo sistema analizará su actividad en todos los sitios de Google. servicios (y posiblemente otros sitios sobre los que Google tiene algún control, como sitios web que tienen anuncios de Google).

Por lo tanto, es probable que las comprobaciones no se limiten solo a la página que tiene la casilla de verificación. Por ejemplo, si detectan que su computadora / dirección IP que está usando también se usó en el pasado para hacer cosas que haría un ser humano normal, como revisar Gmail, buscar en Google, cargar archivos en Drive, compartir fotos, navegar la web, etc. - entonces es probable que pueda estar razonablemente seguro de que es un ser humano y le permita omitir la verificación de la imagen. Por otro lado, si no puede asociar su computadora con ninguna actividad similar a la humana, entonces sería más sospechoso y le daría la verificación de la imagen. Si bien el comportamiento del mouse al hacer clic en la casilla de verificación puede ser un factor que analiza, es casi seguro que hay mucho más.

Una vez más, no sabemos con certeza cómo funciona. Esta es mi mejor estimación basada en lo que Google ha dicho:

  

Si bien la nueva API reCAPTCHA puede parecer simple, hay un alto grado   de sofisticación detrás de esa modesta casilla de verificación. CAPTCHAs tienen mucho tiempo   Se basó en la incapacidad de los robots para resolver texto distorsionado. Sin embargo,   Nuestra investigación recientemente mostró que la Inteligencia Artificial de hoy   La tecnología puede resolver incluso la variante más difícil de texto distorsionado   con 99.8% de precisión. Así, el texto distorsionado, por sí solo, ya no es un   prueba confiable.

     

Para contrarrestar esto, el año pasado desarrollamos un Análisis de Riesgo Avanzado   backend para reCAPTCHA que considera activamente la totalidad de un usuario   compromiso con el CAPTCHA — antes, durante y después — para determinar   Si ese usuario es un humano. Esto nos permite confiar menos en escribir   Texto distorsionado y, a su vez, ofrece una mejor experiencia para los usuarios. Nosotros   hablé de esto en nuestro post de San Valentín a principios de este año.

Para mí, el punto acerca de "antes, durante y después de su uso" es un fuerte indicio de que analizan el comportamiento de navegación anterior, pero mi interpretación podría ser incorrecta.

Aquí hay una cita de WIRED:

  

En lugar de depender de la tradicional prueba de palabras distorsionadas,   El "reCaptcha" de Google examina las señales que cada usuario proporciona sin querer: IP   Las direcciones y las cookies proporcionan evidencia de que el usuario es el mismo.   Google humano amigable recuerda de otros sitios en la web. Y shet   dice que incluso los pequeños movimientos que hace el ratón de un usuario mientras se desplaza y   los enfoques de una casilla de verificación pueden ayudar a revelar un bot automatizado.

Hay otro hilo en stackoverflow que también discute esto: enlace

En cuanto a la verificación de imágenes, no podrá encontrar esas imágenes con la búsqueda inversa de imágenes ni compilar una base de datos de ellas. Por lo general, son carteles callejeros o números de casas al azar capturados por los autos de Street View de Google, o palabras de libros que se escanearon para el proyecto de Google Books. Hay un buen propósito detrás de esto: Google realmente utiliza lo que la gente escribe en reCaptcha para mejorar sus propias bases de datos y entrenar algoritmos de OCR. reCaptcha proporciona la misma imagen a varios usuarios, y si todos están de acuerdo con lo que dice, entonces la imagen se convierte en datos de entrenamiento para la IA de Google.

De wikipedia:

  

El servicio reCAPTCHA proporciona a los sitios web suscriptores imágenes de   palabras que el software de reconocimiento óptico de caracteres (OCR) ha sido   incapaz de leer Los sitios web de suscripción (cuyos propósitos son generalmente   no relacionado con el proyecto de digitalización de libros) presente estas imágenes para   humanos para descifrar como palabras CAPTCHA, como parte de su normalidad   Procedimientos de validación. Luego devuelven los resultados al reCAPTCHA.   Servicio, que envía los resultados a los proyectos de digitalización.

     

reCAPTCHA ha trabajado en la digitalización de los archivos de The New York Times   y libros de Google Books. [3] A partir de 2012, treinta años de The New.   York Times había sido digitalizado y el proyecto tenía previsto tener   completado los años restantes a finales de 2013. El ahora completado   archivo de The New York Times se puede buscar en el New York Times   Archivo de artículos, donde más de 13 millones de artículos en total han   Se ha archivado, desde 1851 hasta nuestros días.

    
respondido por el tlng05 09.01.2015 - 19:11
fuente
11

También me sorprende esto. Entonces, lo que hice, en Chrome, abra el modo de incógnito, luego navegue por un sitio que tenga el nuevo CAPTCHA de Google y marque la casilla. Bueno, no me ayudó a entender, en cambio muestra una serie de imágenes y me pidió que seleccionara imágenes relacionadas con una imagen.

Esto muestra que Google está constantemente rastreando nuestro comportamiento para determinar si somos humanos o no.

    
respondido por el fdiengdoh 05.10.2015 - 12:36
fuente
4

Al hacer clic en No soy un robot , se envía una solicitud HTTP a Google con toda la información útil, como por ejemplo

  • Su dirección IP
  • tu país
  • marca de tiempo

La información de su navegador, como la forma en que mueve el cursor justo antes de ingresar a la casilla de verificación. Cómo estás desplazando la página antes del clic. El intervalo de tiempo entre diferentes eventos del navegador y muchas otras variables que Google mantiene en secreto.

Todos estos criterios se procesan mediante el análisis de riesgos de aprendizaje automático en Google y, en la mayoría de los casos, la información puede indicar la diferencia entre un humano y un bot, pero si el motor de análisis de riesgos aún no está seguro, entonces el pequeño porcentaje de usuarios suele completar Un reto adicional.

Ahí es donde entra Reconocimiento de imagen CAPTCHA . Si demuestras que eres humano de esta manera, es probable que el motor de Google recuerde y la próxima vez que hagas clic en esa casilla de verificación, podrás pasar a través de estos.

    
respondido por el defalt 11.03.2017 - 20:57
fuente
0

Hace varias cosas. Comprueba tu dirección IP y cookies. Mira cómo haces clic y tu ratón se mueve antes de hacer clic. El uso de una herramienta de clic automático hace que Google te dé una imagen.

    
respondido por el skyler 11.03.2017 - 03:10
fuente

Lea otras preguntas en las etiquetas