TL;DR
- Un viejo portátil gaming de 2019 se convirtió en servidor doméstico para un agente personal de IA. Puede encargarse de tareas cotidianas, pero su papel principal para mí es acompañar mi estado físico y emocional a largo plazo.
- Por Telegram recibe entradas del diario, resultados de análisis, documentos y entrenamientos, recuerda eventos importantes y convierte mensajes dispersos en una historia conectada en Markdown.
- Hermes Agent orquesta el proceso, DeepSeek procesa el texto rutinario, el habla se reconoce localmente y las imágenes pasan por una capa de visión aparte.
- Es una herramienta de observación y autorreflexión, no un médico ni un psicólogo: ayuda a detectar patrones y formular preguntas, pero no sustituye la ayuda profesional.
Las 21:00 de un martes: cómo funciona mi diario de bienestar con IA
Una tarde cálida en la Costa Blanca. El teléfono vibra un instante. No es un mensajero del trabajo ni una noticia. Es mi propio bot, y pregunta lo mismo que ayer y que anteayer: qué tal el día, cómo el sueño, la energía, el ánimo, el estrés, si hubo entrenamiento.
No abro ninguna aplicación con formularios y deslizadores. Mantengo pulsado el botón de grabar en Telegram y durante cuarenta segundos hablo tal cual: dormí unas siete horas, por la mañana hice fuerza, hacia la tarde se me bajó la energía, el día en general bien. Suelto el botón y vuelvo a lo mío.
Después ocurre lo que motivó todo esto. En otra habitación zumba en voz baja, con sus ventiladores, el portátil con el que un día jugué. Recibe el mensaje de voz, convierte el habla en texto localmente, ordena lo dicho en una entrada estructurada en Markdown, guarda el original junto al resultado, hace un commit y lo envía a un repositorio privado. A los pocos segundos el bot manda una breve confirmación y una pregunta de aclaración si me olvidé de mencionar algo.
Toda mi «entrada en el diario» ha llevado menos de un minuto. Pero el diario es solo uno de los papeles de un agente personal más universal. Puedo pedirle que busque billetes, analice un documento, escriba un correo, ayude con código o recuerde una cita. El uso más valioso que encontré fue otro: acompañar mi estado físico y emocional a largo plazo.
Llamo a este papel conserje personal de bienestar con IA. Recibe texto, voz y fotos; guarda resultados de análisis y documentos médicos; registra entrenamientos y progreso; y reúne mis observaciones sobre sueño, energía, estrés y ánimo. Después lo devuelve no como una pila de mensajes, sino como una historia conectada en mis propios archivos Markdown.
Esto no es un producto médico
El sistema está pensado para llevar un diario personal y preparar preguntas para un especialista. No es un dispositivo médico, no diagnostica, no prescribe tratamientos y no sustituye a un médico ni a la atención de urgencias.
El portátil que esperó cinco años un nuevo trabajo
En 2019 compré un Xiaomi Mi Gaming Laptop y estaba sinceramente contento con él. Buen hardware, tarjeta gráfica dedicada, tardes de juego. La compra se justificaba del todo mientras tuve tiempo para justificarla.
Desde 2021 prácticamente dejé de jugar. No por principio, sencillamente dejó de darme el tiempo para los juegos. En 2022 comenzó la guerra a gran escala en Ucrania, y ese mismo año nació mi hija. Las prioridades se reorganizaron por completo, y el portátil se cerró por última vez durante varios años. Estaba en una estantería, caro e inútil, y cada vez que la vista caía sobre él daba un poco de pena: dentro seguía habiendo buen hardware, incluida una GPU a la que nadie le daba trabajo.
A principios de 2026, la ola de interés por los agentes personales de IA me sugirió una idea obvia en retrospectiva: un agente always-on necesita una máquina siempre encendida, y yo ya tengo una máquina así. Un viejo portátil gaming sirve para el papel de servidor doméstico mejor de lo que parece: es más silencioso que un rack de servidores, tiene un «SAI integrado gratis» en forma de batería, y su GPU puede ejecutar localmente modelos de reconocimiento de voz.
Hoy está en mi oficina doméstica, en una estantería de pared abierta, un poco por encima de la altura de la cabeza. La altura no es una decisión de diseño: en casa vive un gato que considera suya cualquier tecnología caliente, y la estantería sigue siendo el único sitio al que de momento no ha llegado de un salto. Así, el que fue buque insignia gaming se convirtió en el servidor más raro que he visto: está entre los libros, conectado al enchufe y al router, y hace en silencio git push mientras el gato lo mira con descontento desde abajo.
De este episodio surgió el primer principio de ingeniería de todo el sistema: no comprar hardware nuevo para un experimento, sino dar una segunda vida a lo que ya tienes. Si el experimento fracasa, solo pierdo tiempo.
Mi Jarvis, todavía muy joven
Cuando se habla de un agente personal de IA, es fácil imaginar un asistente universal: buscar billetes, escribir un correo, analizar un documento, ayudar con código o poner un recordatorio. Mi agente también puede hacerlo. Pero enseguida entendí que su papel más valioso para mí estaba fuera del trabajo. Ya tengo bastantes agentes de IA en mi flujo de desarrollo. Quería ayuda para esa parte de la vida que suele caer entre el calendario, las notas, los PDF médicos, una aplicación de entrenamiento y mi propia memoria.
Algo entre diario, secretario, archivero, interlocutor atento y entrenador que no grita sobre disciplina. Lo llamo conserje personal de bienestar con IA. Guarda análisis, registra entrenamientos y progreso, reúne observaciones sobre sueño, energía, alimentación, estrés y ánimo, y recuerda médicos y otros eventos importantes.
Un recordatorio corriente diría: «Cita con el cirujano, martes a las 9:45». El agente puede añadir contexto: «Ahora estás en España; piensa con tiempo en un intérprete para la visita». Sigue siendo una tarea cron sencilla, no magia, pero utiliza contexto guardado y habla con el tono que elegí.
Quizá algún día los agentes personales se parezcan de verdad a Jarvis o a un familiar digital que acompaña a una persona durante años. El mío es mucho más joven: vive en un portátil viejo, escribe archivos Markdown y a veces me recuerda preparar un intérprete para el médico. Pero ya sabe hacer lo principal: conservar el contexto de mi vida durante más tiempo que mi memoria.
Desde fuera, todo esto se parece sospechosamente a un diario normal. El valor aparece con el tiempo. La memoria suaviza detalles, el estado de ánimo reescribe el pasado y un mal día aislado parece casual. Los registros constantes permiten ver relaciones repetidas entre sueño, carga, entrenamientos, acontecimientos y estado emocional.
El agente no me conoce mejor que un médico o un psicólogo, y no debe fingirlo. Su tarea es más modesta: ayudarme a observarme con más atención, formular pensamientos y preguntas, y no perder detalles importantes entre consultas.
He empezado muchas veces diarios y trackers. Todos morían igual: a la tercera semana rellenar formularios da pereza, las omisiones se acumulan y el hábito se deshace. Un mensaje de voz en Telegram resiste mejor: cuarenta segundos de voz en lugar de cinco campos.
La pregunta era quién convertiría ese flujo de conciencia y los adjuntos dispersos en datos estructurados. Así apareció el requisito central: el agente debe aceptar texto, voz e imágenes, conservar el contexto en registros explícitos, ejecutar encargos programados y producir un formato que sobreviva a cualquier servicio. Es decir, archivos Markdown bajo control de versiones.
Un mes con OpenClaw: impresionante, pero no para mí
El primer intento fue OpenClaw, que se posiciona como un personal AI assistant en tus propios dispositivos. Sonaba como un acierto exacto para mi tarea, y las posibilidades de verdad impresionaban: múltiples canales, aplicaciones companion, multi-agent routing, un ecosistema amplio de automatizaciones.
Lo configuré y lo usé alrededor de un mes, hasta que entendí algo incómodo: utilizaba quizá un diez por ciento de la plataforma, pero mantenía el cien por cien. Esa escala puede estar justificada para un sistema multicanal amplio, pero mi escenario era un usuario, un canal de Telegram y un workflow diario. No es un veredicto sobre la fiabilidad general de OpenClaw, sino el resultado de mi experiencia con una configuración.
De ahí el segundo principio: para una tarea concreta, la simplicidad operativa importa más que la amplitud de posibilidades. Cada componente que no uso reclama igualmente mi atención cuando se rompe.
Por qué las suscripciones no llegaron a ser infraestructura
En paralelo me topé con la pregunta de sobre qué debía pensar todo esto. La primera idea era obvia: ya tengo pagadas suscripciones a modelos potentes, ¿por qué no iba a usarlas el agente? Experimenté con el acceso a través de productos de suscripción y herramientas afines, pero rápido entendí que no se puede construir una infraestructura personal sobre eso: las políticas de acceso para agentes de terceros cambiaban en los proveedores, y el acceso subscription-backed resultó una base inestable, dependiente de las reglas vigentes y no de mis decisiones.
Bien, entonces llamadas honestas a la API. Y aquí me esperaba la segunda verdad incómoda: un agente siempre encendido con heartbeat, tareas cron y tool calls consume tokens de una forma muy distinta a un chat al que entras un par de veces al día. Pagando directamente modelos premium, el fondo rutinario sale bastante más caro de lo que parece por la experiencia de un chat normal.
Tercer principio: para la carga rutinaria hace falta un modelo barato, y dejar el potente para tareas complejas y poco frecuentes. Normalizar el mensaje de voz de la tarde en una entrada estructurada no requiere inteligencia de buque insignia. Es trabajo en cadena: clasificar, extraer, formatear.
Requisitos del sistema: un usuario, Telegram y Markdown
Tras un mes con OpenClaw y los experimentos con proveedores, la lista de requisitos se comprimió hasta un mínimo honesto:
- un usuario: yo;
- una interfaz: Telegram, porque ya lo tengo siempre a mano;
- tres formatos de entrada: texto, mensajes de voz, imágenes;
- un diario del estado físico y emocional sin formularios obligatorios;
- entrenamientos, resultados de análisis y documentos en una cronología común;
- un check-in diario y recordatorios personalizados;
- contexto guardado en archivos explícitos, no en la promesa de que el modelo «lo recuerda todo»;
- salida: Markdown estructurado en mi sistema de archivos;
- versionado y backup: un repositorio Git privado;
- coste predecible del procesamiento rutinario;
- el habla se reconoce localmente tras la entrega por Telegram, sin un proveedor de STT en la nube aparte.
En esencia son requisitos de una solución self-hosted: un agente de IA local en mi propia máquina allí donde sea práctico, y servicios en la nube solo donde aportan desproporcionadamente mucho a cambio de sus concesiones.
Con esta lista volví a elegir desde cero.
Por qué Hermes Agent y DeepSeek
Tras investigar, me pasé a Hermes Agent. Aquí conviene separar dos roles que a menudo se mezclan: el orquestador y el modelo. Hermes no «piensa» nada por sí mismo, gestiona el proceso: recibe mensajes a través del gateway de Telegram, lanza el reconocimiento de voz, llama al modelo, ejecuta skills, trabaja con archivos y ejecuta tareas cron. Y quien piensa es el modelo conectado, que se puede cambiar.
Para el texto rutinario elegí DeepSeek: Hermes lo soporta como proveedor directo, y el coste de la normalización masiva de texto en él es bajo. Para clasificar, extraer hechos y resumir las entradas diarias, con eso basta. El modelo potente se puede conectar de forma puntual, por ejemplo para una retrospectiva mensual, como una capa opcional y no un default obligatorio.
La comparación con OpenClaw según mis criterios quedó así:
| Criterio de mi proyecto | OpenClaw | Hermes Agent | Por qué me importa |
|---|---|---|---|
| Personal always-on assistant | Soportado | Soportado | Requisito básico |
| Telegram | Soportado | Soportado | Interfaz principal |
| Skills + cron | Soportados | Soportados | Check-in diario |
| Plataforma multicanal amplia | Punto fuerte | Tiene gateway, pero mi setup es más estrecho | No necesito decenas de integraciones |
| Modelo routine barato | Muchas opciones de proveedor | Proveedor DeepSeek directo | Coste predecible |
| Reconocimiento de voz local | Requiere un enlace aparte a la documentación actual de OpenClaw | faster-whisper | Tras Telegram, el audio no va además a una STT API externa |
| Workspace en Markdown | Se puede configurar | Se usa directamente | Flujo de Obsidian y Git |
| Resultado para mí | Más potente que mis requisitos | Suficiente para un pipeline estrecho | Elección personal, no un benchmark universal |
Lo subrayo una vez más: esto no es un veredicto de «Hermes es mejor que OpenClaw». Es una conclusión para un escenario single-user concreto, el mío. Tras el cambio, la métrica principal dejó de ser «cuántas integraciones hay potencialmente disponibles» y pasó a ser «cuántas tardes no dedico a mantener el sistema». En mi pipeline estrecho, esa métrica mejoró drásticamente: dejé de mantener la plataforma y empecé a usar el diario.
Sobre las imágenes: cómo es la ruta de las fotos
DeepSeek, en mi configuración, se encarga del texto. Las capturas de entrenamientos y las fotos de documentos pasan por una capa de visión auxiliar aparte: en mi caso es un pequeño presupuesto de la API de OpenAI que conecto cuando quiero y que uso bastante poco. Así que el texto y las imágenes siguen dos rutas distintas, y en el segundo artículo configuro la capa de visión como un paso aparte.
Qué funciona realmente en mi caso ahora mismo
Antes de instalar el agente, limpié los discos, eliminé Windows e instalé Ubuntu. Nada de dual boot: la máquina ya no es de juegos y no necesita su pasado. Para un servicio que funciona las veinticuatro horas, un sistema limpio significa menos programas innecesarios, procesos en segundo plano y sorpresas durante las actualizaciones.
Esto no es un concepto ni un fin de semana con un prototipo. El sistema funciona a diario desde febrero de 2026; a principios de junio de 2026 había en el private workflow unas 80 daily notes. Configuración en el momento de escribir (verificado: 2026-06-07):
Hardware: Xiaomi Mi Gaming Laptop (2019), GPU: GTX 1060 Mobile 6 GB + Intel UHD 630
OS: Ubuntu 24.04.4 LTS, kernel 6.17.0-22-generic, x86_64
Role: servidor doméstico con IA always-on
Orquestador: Hermes Agent v0.12.0 (2026.4.30), commit 4f3766917
Main model: DeepSeek (deepseek-v4-flash), API directa
Gateway: Telegram mediante systemd user service
STT: faster-whisper 1.2.1, medium, CUDA, int8_float32
Vision/OCR: pequeño presupuesto de la API de OpenAI como auxiliary vision layer
TTS: Edge TTS
Workspace: repositorio Markdown local + remoto Git privado
Instantánea fechada del gateway a 2026-06-07: 35 días de uptime, unos 5.7 GB de RAM, CPU time 6h27min. El consumo energético no está confirmado: la máquina no tiene un sensor fiable, hace falta un vatímetro externo.
Voice path verificado en la GPU
A fecha de 2026-06-07 el STT local vuelve a funcionar de extremo a extremo: faster-whisper 1.2.1, modelo medium, GTX 1060 6 GB mediante CUDA 12.2, compute type int8_float32. Un audio de prueba de 22 segundos se transcribió en 2.17 segundos.
Cómo transcurre un día normal
Por la mañana, entrenamiento de fuerza en el gimnasio. Lo registro, como antes, en Hevy, hago una captura de los resultados y la envío al bot. La capa de visión extrae los ejercicios, las series y los pesos; el skill guarda la captura original como attachment y los campos estructurados del entrenamiento al lado, en la misma fecha. Las calorías las cuento en YAZIO y al bot solo le mando el resumen diario: duplicar cada comida no tiene sentido. En teoría, tanto los entrenamientos como la alimentación se podrían llevar enteros a través del bot, sin servicios de terceros, pero eso ya es el siguiente nivel, que dejé para más adelante.
Durante el día el sistema calla. Es una propiedad importante: un buen diario no mendiga atención.
A las 21:00 llega el recordatorio. Respondo de viva voz: sueño, energía, ánimo, estrés, sucesos del día. Mi mujer ya se ha acostumbrado y ni se vuelve cuando por la noche le dicto algo al teléfono. Mi hija tiene cuatro años, y para ella el bot todavía no existe. El faster-whisper local hace el transcript, el skill extrae solo los hechos dichos de forma explícita y normaliza las escalas. Si olvidé algo obligatorio, el bot hace una única pregunta de aclaración compacta, no un cuestionario de cinco mensajes. La experiencia me ha enseñado que una aclaración breve conserva el hábito, un cuestionario lo mata.
Al final, para esa fecha aparece una entrada en Markdown: el transcript en bruto por un lado, el resumen normalizado por otro, las métricas en el YAML frontmatter (sleep_hours, sleep_quality, energy, mood, stress, training), enlaces a las fuentes. El commit de Git fija la versión. Un mensaje repetido para la misma fecha actualiza la entrada existente, no genera duplicados.
Y a cambio el bot manda un breve resumen de lo que entendió de mi dictado. Tiene más o menos este aspecto (el ejemplo es sintético, todos los detalles están cambiados, pero la entonación es real):
🛌 Sueño: me prometí acostarme a las 22:00, pero la serie volvió a ganar. Me acosté a medianoche, me levanté a las 7: en total 7 horas en vez de las nueve previstas.
🏋️ Gimnasio: piernas y abdomen, el entrenamiento costó tras una noche corta.
💼 Trabajo: dos releases y un par de bugfixes, día intenso, sin comer.
🚶 10 000 pasos cerrados, pero no empezaron hasta las cinco de la tarde: la falta de sueño se nota.
⚡ Energía 4/10: aguantas bastante bien para una noche así.
El tono de este feedback lo marcan las instrucciones del skill: lo blando o mordaz que es el asistente, si elogia o pincha, si da minirecomendaciones a petición. En el ejemplo público esto queda como un ajuste seguro de texto, no como una interpretación médica. El mío ahora está en modo «amigo con ligera ironía», y leer el resumen de la tarde se ha vuelto un pequeño ritual: da gusto que alguien recoja tu día con cuidado en tres líneas, aunque ese alguien trabaje en una estantería para que el gato no lo alcance.
Y al cabo de semanas, las entradas acumuladas empiezan a trabajar a mi favor: puedo pedir una retrospectiva semanal o mensual del sueño, la carga, el estrés y el ánimo. Cómo está montado exactamente eso sin la ilusión de que «el agente lo recuerda todo» lo contaré en el tercer artículo.
Patrones que encontró el diario: series, sueño y melatonina
Cualquier tracker vive hasta el primer «¿para qué hago esto?». En mi caso esa pregunta se cerró al cabo de un par de meses, cuando las entradas se acumularon y en ellas se hicieron visibles patrones que de memoria nunca habría reunido.
El primer patrón es banal, pero en cifras pega más fuerte que en sensaciones. La tarde, «un capítulo más», la pantalla se apaga hacia la una de la madrugada, levantarse a las siete. Ya sabía que no dormiría lo suficiente. Pero el diario mostró el cuadro completo: al día siguiente de una tarde así no solo estoy hecho polvo hasta el mediodía, sino que el peso no baja, sube, aunque la alimentación no cambió. Una cosa es sospecharlo vagamente y otra ver cómo el mismo vínculo se repite en las entradas una y otra vez. Las series entre semana no las dejé del todo después de eso, pero negociar conmigo mismo se volvió mucho más difícil.
El segundo patrón me resultó inesperado. Durante un tiempo tomé melatonina antes de dormir y la consideraba un ayudante inofensivo. Las entradas mostraron lo contrario: los días después de la melatonina me despertaba a duras penas y me pasaba media mañana volviendo en mí, y ese vínculo se repetía de forma demasiado estable como para achacarlo a una coincidencia. En mi caso funcionaba como un freno de mano toda la mañana. Dejé de usarla y las mañanas se enderezaron.
Esto es una observación, no una recomendación
Los dos ejemplos son correlaciones personales mías sacadas de mi diario, no conclusiones médicas. La reacción a la melatonina es individual, y las decisiones sobre tomar suplementos conviene comentarlas con un especialista. El valor del diario está justo en que a la consulta llegas no con un «no me encuentro muy bien», sino con un cuadro concreto de un mes.
En eso está para mí el sentido de todo el sistema. No en que «la IA vigile la salud», sino en una recogida de observaciones barata en esfuerzo, en la que después se ven regularidades y de las que salen preguntas concretas en vez de quejas vagas.
Qué cambió, aparte del número de archivos Markdown
El cambio más visible no fue técnico. Antes, un mal día solía terminar con un veredicto breve: «estoy cansado», «no hice nada», «mañana tengo que espabilar». Ahora la entrada nocturna me obliga a separar esa sensación en partes. Puede resultar que el trabajo fuera bien, pero dormí poco, me salté la comida y al final del día ya no podía valorar la jornada con justicia. Esa descomposición sencilla no resuelve el problema, pero le devuelve su tamaño real.
A veces el agente no me cuenta nada nuevo. Solo formula algo que ya sabía, pero que no me había parado a nombrar. También me sirve: la reflexión queda integrada en el mismo ritual breve que el registro de los hechos.
También apareció un beneficio práctico antes de las consultas. En vez de intentar reconstruir varias semanas de memoria, puedo abrir la cronología: cuándo cambió el sueño, cómo varió la carga, qué tomaba, qué valores llegaron en los análisis y qué anoté entonces. Los registros no dan una respuesta médica, pero ayudan a llevar una pregunta más precisa al especialista.
Además, el agente se está convirtiendo poco a poco en una interfaz para mi propia historia. Puedo preguntar no solo «cómo dormí esta semana», sino «cuándo me dolió por última vez la rodilla después de las sentadillas», «qué peso levantaba en press hace un mes» o «qué quería comentar con el médico». La respuesta vale no porque el modelo sea inteligente, sino porque debajo hay fuentes fechadas que puedo abrir y comprobar.
Principio central: cada respuesta debe llevar a la fuente
Si el agente extrae una conclusión del historial, debe indicar las fechas y entradas en las que se basa. De lo contrario, es fácil confundir un texto seguro de sí mismo con memoria del sistema, aunque solo sea una generación verosímil.
Arquitectura: quién hace qué
Yo / teléfono
├─ check-in de texto
├─ nota de voz
├─ captura del entrenamiento
└─ foto de documento
│
▼
Telegram Bot (allowlist estricto: solo yo)
│
▼
Hermes Gateway (portátil viejo, Ubuntu, systemd)
├─ STT: faster-whisper local
├─ Main LLM: DeepSeek (normalización de texto)
├─ Auxiliary vision: proveedor aparte para imágenes
├─ wellbeing skills (journal + reflection)
└─ cron: recordatorio a las 21:00, reflexión periódica
│
▼
Markdown vault local (entradas + attachments)
│
├─ Obsidian para visualizar y dashboards (Dataview)
└─ Git commit → repositorio GitHub privado
(backup versionado, no almacén E2EE)
Cada bloque de este esquema no apareció por amor a la arquitectura, sino a partir de un episodio concreto de la historia de arriba: el portátil dio local inference, OpenClaw enseñó a estrechar el scope, los precios de la API llevaron a DeepSeek, la falta de ganas de enviar la voz a la nube llevó al Whisper local, y el miedo a perder años de entradas llevó a Git. Las entradas, mientras tanto, están en YAML frontmatter más texto libre, y Obsidian las lee como un vault normal: las métricas para los dashboards, el texto para la persona.
Dónde están los límites de confianza
«Está en Obsidian» no significa «está en local». Una tabla honesta de quién ve qué:
| Participante | Qué recibe | Con qué se controla |
|---|---|---|
| Telegram | El contenido de todos los mensajes al bot | Es una concesión consciente de comodidad |
| STT local | No recibe una copia externa aparte: el reconocimiento se hace en el portátil | faster-whisper en mi GPU; el mensaje original ya pasó por Telegram |
| DeepSeek | El texto de los mensajes y el derived text | Solo lo que yo mismo envié |
| Proveedor de visión | Las imágenes enviadas | Una clave y un presupuesto aparte |
| GitHub | El contenido del vault al hacer push | Private repo: control de acceso, no cifrado |
| Disco local | Todo | Cifrado del disco y acceso físico |
Un repositorio privado no equivale a cifrado
Un private GitHub repository limita el acceso, pero no es un almacén médico end-to-end encrypted y no convierte automáticamente la solución en HIPAA/GDPR-compliant. Si los datos pasaron por Telegram, un modelo en la nube o GitHub, esos servicios entran en el modelo de amenazas. Un análisis detallado: en el tercer artículo.
Qué sabe hacer este sistema y qué no
Sabe:
- aceptar texto, voz e imágenes sin abrir formularios;
- convertir el flujo de conciencia en entradas estructuradas con un esquema único;
- mantener una cronología de entrenamientos, indicadores, análisis y documentos;
- guardar la entrada en bruto aparte de la interpretación del modelo;
- enviar recordatorios personalizados con contexto guardado relevante;
- preguntar por el día y hacer una sola aclaración en vez de un cuestionario;
- versionar todo en Git, incluido el historial de correcciones;
- preparar retrospectivas semanales y mensuales como hipótesis para la autorreflexión.
No sabe, y no debe:
- diagnosticar e interpretar síntomas como sustituto del médico;
- aconsejar cambiar medicamentos o dosis;
- sacar conclusiones de causalidad a partir de correlaciones;
- «saber» la precisión del OCR: los datos reconocidos de una foto siempre se marcan para revisión manual;
- garantizar la confidencialidad más allá de los límites de la tabla de arriba.
Si una entrada contiene síntomas alarmantes, la acción correcta del sistema es una sola: aconsejar buscar ayuda, no intentar «analizar».
Limitaciones honestas: lo que conviene saber de antemano
A propósito no publico un repositorio con código listo para usar. El vault guarda datos personales: entrenamientos, síntomas, documentos. Publicarlo como plantilla no tiene sentido, y un esqueleto sin datos ni skills no aporta ningún valor. Hermes Agent es un framework abierto, y cada uno escribe su propia capa de integración según sus necesidades. Para un desarrollador senior es trabajo de un par de tardes; para quienes apenas empiezan con los agentes, el segundo manual de esta serie será un buen punto de partida.
El sistema no es del todo gratuito. El faster-whisper local y DeepSeek a través de OpenRouter son realmente baratos: mi uso de fondo rutinario sale por unos pocos dólares al mes. Pero si recurres mucho a la capa de visión para hacer OCR de documentos y analizar capturas de pantalla, el gasto crece. Yo la uso poco y de forma puntual, así que para mí no es un problema. El desglose detallado de costes por capa está en el tercer artículo.
El portátil viejo es un único punto de fallo. Un corte de luz en casa, un Wi-Fi colgado, una batería sobrecalentada bajo carga: el diario queda inaccesible. Para mí es un compromiso aceptable, quedarme sin la entrada de una tarde no es una catástrofe. Si construyes un sistema para un seguimiento médico crítico, conviene pensar en un canal de respaldo o en redundancia en la nube. Yo decidí a propósito no hacerlo: la privacidad me importa más que un 99,9% de tiempo activo de un diario personal.
En lugar de una conclusión: un asistente empieza por la memoria
Cuando saqué el portátil de la estantería, solo quería dar un trabajo nuevo al hardware viejo y comprobar hasta dónde se puede llegar hoy con un agente personal de IA. El resultado no fue un Jarvis doméstico ni un médico digital. Fue algo menos fantástico, pero ya útil: un asistente al que puedo contarle el día, enviarle un documento, encargarle un recordatorio y preguntarle un mes después qué me estaba ocurriendo de verdad.
Quizá un agente personal no empieza por saber pedir un taxi o encender las luces. Empieza por una memoria en la que se puede confiar: explícita, fechada, verificable y propiedad de su dueño. Mi agente todavía no gobierna la casa ni toma decisiones importantes. Hace otra cosa: me ayuda a no perder el contexto de mi propia vida.
Para mí, eso ya basta para que el viejo portátil gaming deje de parecer viejo.
Qué hay en el segundo y el tercer artículo: instalación y operación
En el segundo artículo monto este sistema desde cero sobre un Ubuntu limpio: instalación de Hermes Agent, conexión de DeepSeek, bot de Telegram con acceso cerrado, faster-whisper local, capa de visión aparte, estructura del vault, ambos skills, Git privado y el recordatorio de las 21:00. Cada paso con su verificación y su apartado de «si no funcionó».
En el tercer artículo: la vida con el diario después de la instalación. Corrección de errores de reconocimiento, trabajo con capturas y documentos, resúmenes semanales, una reflexión mensual honesta sin un RAG inventado, dashboards en Obsidian, el coste real por capas y la privacidad.
FAQ
¿Es un sustituto del médico o una aplicación médica?
No. Es un diario personal de observaciones. Su máximo: ayudar a notar patrones y preparar preguntas más estructuradas para un especialista.
¿Por qué no una aplicación de salud ya hecha?
Las aplicaciones exigen rellenar sus formularios y guardan los datos en sus propios formatos. Aquí la entrada es libre (voz, texto, foto), y la salida: mis propios archivos Markdown, que sobrevivirán a cualquier servicio.
¿Es obligatorio el viejo portátil gaming?
No, sirve cualquier máquina siempre encendida con Ubuntu. La GPU acelera el reconocimiento de voz local, pero faster-whisper también funciona en CPU, más despacio.
¿DeepSeek entiende las imágenes?
En mi configuración, DeepSeek se ocupa del texto, y de las imágenes se encarga una capa de visión auxiliar aparte a través de la API de OpenAI. Son dos presupuestos distintos y dos pasos de configuración distintos. La visión la conecto cuando quiero y la uso bastante poco, así que sin ella el texto y la voz siguen funcionando del todo.
¿Hasta qué punto es privado?
El mensaje de voz pasa por Telegram, pero tras la entrega se reconoce localmente y no se envía a un proveedor de STT aparte. El texto lo ve DeepSeek, las imágenes las ve el proveedor de visión, y el vault se guarda en un GitHub privado. Son concesiones conscientes, y en el tercer artículo las analizaré por capas.
¿Cuánto cuesta al mes?
El procesamiento de texto rutinario en DeepSeek cuesta poco, la capa de visión se paga aparte, y el reconocimiento de voz local solo cuesta electricidad. La fórmula exacta y una instantánea fechada de precios las doy en el tercer artículo.
¿En qué idioma dictar las notas?
Yo dicto en ruso, y faster-whisper se desenvuelve con soltura. Tengo planeado pasarme al inglés: dictar a diario sobre el propio día parece la práctica de conversación perfecta camino del C1, y el diario, mientras tanto, seguirá funcionando como antes.




