¿Qué son los datos de entrenamiento?:
Los datos de entrenamiento son la información que las computadoras necesitan para aprender. Aunque parezca raro, las máquinas no nacen sabiendo nada: no saben qué es un gato, un árbol o una pelota. Por eso, para que puedan aprender a reconocer cosas tenemos que «alimentarlas» con muchos ejemplos. En este vídeo se explica que a las máquinas les gusta «comer» datos, y es una buena manera imaginarlo así: cuanto más comen, más aprenden.
Imagina que queremos que una computadora sepa reconocer un gato. No basta con mostrarle uno solo, porque hay gatos de muchos tipos: grandes, pequeños, peludos, sin pelo, negros, blancos, con manchas… Así que le damos miles de fotos diferentes de gatos para que pueda ver todas las variaciones posibles. Cada foto es como una pieza de información que la máquina va guardando en la memoria.
Con todos los ejemplos, la computadora empieza a notar patrones: las orejas suelen ser puntiagudas, tienen cola, tienen bigotes largos, el cuerpo es flexible y otras muchas características. Poco a poco va aprendiendo a cómo suelen ser los gatos y qué los hace diferentes a un perro, un conejo o cualquier otro animal. No es magia, es práctica, igual que tú cuando aprendes algo repitiendolo muchas veces.
Al final, después de entrenar mucho, le mostraremos una foto nueva de un gato que nunca ha visto. Si los datos de entrenamiento eran buenos y variados la computadora sabrá reconocerlo como «gato». Y este es el objetivo: que las máquinas puedan aprender las cosas que nos rodean mediante la información que les damos.
Puedes ver el vídeo pulsando el enlace:



