WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild

arXiv - CS - Information Retrieval Pub Date : 2024-09-05 DOI:arxiv-2409.03753

Yuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi

引用次数: 0

Abstract

The increasing availability of real-world conversation data offers exciting opportunities for researchers to study user-chatbot interactions. However, the sheer volume of this data makes manually examining individual conversations impractical. To overcome this challenge, we introduce WildVis, an interactive tool that enables fast, versatile, and large-scale conversation analysis. WildVis provides search and visualization capabilities in the text and embedding spaces based on a list of criteria. To manage million-scale datasets, we implemented optimizations including search index construction, embedding precomputation and compression, and caching to ensure responsive user interactions within seconds. We demonstrate WildVis's utility through three case studies: facilitating chatbot misuse research, visualizing and comparing topic distributions across datasets, and characterizing user-specific conversation patterns. WildVis is open-source and designed to be extendable, supporting additional datasets and customized search and visualization functionalities.

查看原文本刊更多论文

WildVis：野外百万级聊天记录开源可视化工具

真实世界对话数据的可用性越来越高，这为研究人员研究用户与聊天机器人的交互提供了令人兴奋的机会。然而，由于数据量巨大，手动检查单个对话并不现实。为了克服这一挑战，我们引入了 WildVis，这是一种交互式工具，可实现快速、多功能和大规模的对话分析。WildVis 可根据一系列标准在文本和嵌入空间中提供搜索和可视化功能。为了管理百万规模的数据集，我们进行了优化，包括搜索索引构建、嵌入式预计算和压缩以及缓存，以确保在数秒内响应用户交互。我们通过三个案例研究展示了 WildVis 的实用性：促进聊天机器人滥用研究、可视化和比较跨数据集的主题分布，以及描述特定用户的对话模式。WildVis 是开源的，旨在进行扩展，支持额外的数据集以及定制的搜索和可视化功能。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

arXiv - CS - Information Retrieval

自引率

0.00%

发文量