reCAPTCHA: Ayudando a digitalizar libros antiguos.

La idea de reCAPTCHA, es hacer algo util con la cantidad de CAPTCHAS que los usuarios ingresan a diario en Internet (unas 150.000 horas de trabajo diarios, de 60 millones de ingresos al dia).
En esta, presentan palabras de un texto escaneado de un libro antiguo al cual el OCR (Optical Character Recognition) no pudo capturar todas las palabras en forma correcta. Utilizando este Captcha, estamos ayudando a que los libros digitalizados de Internet Archive, sean mas exactos.


Example of OCR errors

reCAPTCHA improves the process of digitizing books by sending words that cannot be read by computers to the Web in the form of CAPTCHAs for humans to decipher. More specifically, each word that cannot be read correctly by OCR is placed on an image and used as a CAPTCHA. This is possible because most OCR programs alert you when a word cannot be read correctly.





Comentarios

  1. No me cierra del todo.
    Si el OCR no pudo obtener la palabra... quién o qué verifica que el usuario colocó el captcha correcto y así darle acceso para el cual ingresar el captcha era requerido ?
    Se podría asumir que si el captcha lo repiten para varios usuarios, lo que la mayoría coloque sería la palabra correcta, pero hasta no tener una cantidad 'suficiente' de usuarios, no tenes manera de decirle al usuario 'ok, la verificación de la palabra fue correcta'...

    ResponderBorrar
  2. Gustavo:
    Como andas?. Es bueno ver en tu blog que estas por la Madre Patria.

    En el sitio ellos dicen...

    "But if a computer can't read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here's how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct."

    ResponderBorrar

Publicar un comentario

1) Lee el post
2) Poné tu opinión sobre el mismo.
Todos los comentarios serán leidos y la mayoría son publicados.

Entradas más populares de este blog

Aplicación monolítica o distribuida?

La nefasta influencia del golero de Cacho Bochinche en el fútbol uruguayo

Funcionalidades de GeneXus que vale la pena conocer: DATE Constants.