Tecnología / Inteligencia Artificial
Auriculares con cámara: la IA ya puede hablar sobre lo que ves
El sistema incluye visión artificial integrada en el oído, con respuesta rápida, menor consumo y más control sobre la privacidad

Los auriculares integran visión artificial y conversación en tiempo real. / Crédito: Kim et al./CHI ‘26.
Pablo Javier Piacente / T21
Investigadores estadounidenses desarrollaron un sistema que utiliza pequeñas cámaras en auriculares inalámbricos disponibles en el mercado, para permitir a los usuarios hablar con un modelo de IA sobre la escena frente a sus ojos.
Un equipo de especialistas de la Universidad de Washington, en Estados Unidos, ha desarrollado un sistema llamado VueBuds, que integra cámaras diminutas en auriculares inalámbricos comunes para que el usuario pueda preguntarle a una IA qué tiene delante, traducir un texto o identificar objetos en tiempo real. La propuesta fue presentada en la conferencia de informática CHI 2026, definiéndose como el primer sistema de este tipo en auriculares de consumo.
El principio técnico es el siguiente: cada auricular incorpora una microcámara que captura imágenes en blanco y negro, de baja resolución, y las envía por Bluetooth a un teléfono móvil u otro dispositivo cercano. Luego, un modelo de visión continúa con el trabajo, de modo que el procesamiento se realiza en el propio aparato y no en la nube.
Inteligencia visual en tiempo real
Según una nota de prensa, el sistema responde en alrededor de un segundo: la captura es bajo demanda y el consumo cae por debajo de 5 mW. Los autores sostienen que los auriculares ya son un objeto masivo y cotidiano, mientras que las gafas inteligentes o los cascos de realidad virtual todavía enfrentan resistencias por comodidad y por privacidad.
En ese contexto, VueBuds intenta llevar “inteligencia visual” a un formato menos intrusivo. Frente a un dispositivo visible como unas gafas, el auricular promete una adopción más natural, pero también obliga a resolver una dificultad central: mirar sin que la propia oreja de la persona tape la escena.
Esa limitación fue precisamente una de las preguntas que guiaron el diseño. El equipo comprobó que una ligera orientación hacia afuera, de entre 5 y 10 grados, permite un campo de visión de entre 98 y 108 grados. También detectó un punto ciego: cuando un objeto se sostiene a menos de 20 centímetros, la cara puede obstruir parte de la imagen.
Más allá de esto, los investigadores concluyen que ese problema no afecta demasiado el uso habitual, porque en pocas ocasiones una persona examina algo tan cerca del rostro. Además, el sistema “pega” las imágenes de ambos auriculares, para ganar velocidad y pasar de unos dos segundos a aproximadamente un segundo en la respuesta.
Elevados porcentajes de precisión y el problema del color
En las pruebas realizadas, 74 participantes compararon salidas grabadas con este sistema y con unas gafas de realidad virtual disponibles en el mercado: pese a usar imágenes de menor resolución y mayores controles de privacidad, el desempeño fue similar. Incluso, VueBuds rindió mejor en traducciones, mientras que las gafas obtuvieron mejores resultados en conteo de objetos.
Referencia
VueBuds: Visual Intelligence with Wireless Earbuds. Maruchi Kim et al. CHI '26: Proceedings of the 2026 CHI Conference on Human Factors in Computing Systems (2026). DOI:https://doi.org/10.1145/3772318.3791322
En otro conjunto de ensayos, 16 personas usaron VueBuds directamente y el sistema alcanzó entre 83 % y 84 % de precisión en traducción o identificación de objetos, y 93 % al reconocer autor y título de un libro. Al mismo tiempo, en estudios en línea y presenciales con 90 participantes, el sistema igualó la calidad de respuesta de las gafas Ray-Ban Meta en 17 tareas visuales.
La privacidad es otro eje de esta innovación tecnológica: el procesamiento ocurre en el dispositivo, se enciende una luz cuando el sistema está grabando y el usuario puede borrar imágenes de inmediato. Sin embargo, al trabajar solo con escala de grises el sistema no puede responder preguntas sobre colores, y el propio equipo reconoce que el siguiente paso sería incorporar color o entrenar modelos específicos para tareas como lectura o traducción.
- El metal de Pontevedra cierra un preacuerdo «histórico» con un alza salarial del 15%
- Cómo construir un nido artificial para aves urbanas: la recomendación de la la Sociedad Española de Ornitología para convivir con los pájaros
- Los sindicatos analizan la «nueva propuesta» de las patronales: se abre la puerta a un acuerdo en el metal
- La Comisión Europea plantea que los aeropuertos de Oporto y Santiago no puedan ofrecer ayudas a las aerolíneas
- Buscan a una mujer de 53 años desaparecida este pasado martes en Vigo
- Vuelve la Farola y vuelve el Acrópolis
- Muere un conductor de 27 años en una salida de vía en Sandiás
- El talento sobresale en las comarcas con catorce matrículas