Adapté el tutorial de RAG de langchain con mi dataset de las conferencias de prensa de la presidencia de México. Aunque fue un proceso sencillo no estoy conforme aún con los resultados.
Hay que tomar en cuanto que hice solo adapté el tutorial sin hacer grandes cambios. Una de las cosas que podría mejorar el resultado es el prompt con el que se le dice cómo quieres la respuesta de la LLM.
https://github.com/keogh/ml-notebooks/blob/main/langchain-rag-presidencia.ipynb
Por ejemplo cuando le pregunté: “¿Cómo se asegura la justicia con la elección de jueces?”, la respuesta fue un poco corta para mi gusto y sin mucha mas información.
La justicia se asegura con la elección de jueces a través de un proceso abierto, transparente y público, donde la ciudadanía decide quiénes ocuparán estos cargos. Esta reforma permitirá que se elijan no solo jueces, sino también magistrados y ministros, promoviendo la probidad y el cumplimiento de requisitos específicos. Al involucrar al pueblo en la selección, se espera mejorar el Estado de derecho en el país.
Es obvio que me falta darle más detalles a la LLM para obtener resultados mejores y más de detallados. También la etapa de indexar, es probable que haya otros y mejores indexadores para los documentos.
One Reply to “Primer RAG para las conferencias de prensa matutinas”