Synth Daily

我分析了自己 20 年的聊天记录

受“人生周历”启发,作者决定将自己 20 年的数字足迹,包括数百万条聊天记录、日记和社交数据,构建成一个“个人 CRM”系统。通过数据清洗和大型语言模型(LLM)的分析,他从海量信息中提取了人物、地点、事件和情感变化,揭示了关系亲疏、话题演变、回应模式以及社交圈收缩等长期趋势。最终发现,许多宝贵的关系细节虽被记忆遗忘,却完整地保存在数字记录中。这个过程让他重新理解了自己的社交生活,并意识到自己的人生并非空白,只是记忆过于挑剔。

为什么要分析聊天记录?

项目的起因是对人生有限性的焦虑,源于一张名为“人生周历”的图表,它将生命可视化为一格格的周数。作者发现,无论是记录生理指标还是日记,都无法真正捕捉生活的质感——那些与人相处时的感受和状态。

  • 生物数据太空洞: 记录的步数或心率并不能代表生活的充实度。
  • 重大事件太表面: 标记工作、旅行或婚姻等事件,却无法体现期间的情感体验。
  • 日记记录有局限: 日记只能捕捉作者当下认为重要的事,容易遗漏被遗忘的对话或难以察觉的长期模式。

为了弥补记忆的不足,并克服自己在维系关系上的拖延症,作者决定从自己过去几十年在互联网上留下的数字痕迹中,构建一个基于客观记录而非主观记忆的“个人 CRM”。

数据从何而来,又如何处理?

作者收集了自己从 2000 年代至今在不同平台上的数字档案,包括 ICQ、VK、Facebook、Twitter、Instagram 和 Telegram。这些数据格式各异,解析过程充满挑战。

最大的问题在于 噪音过滤。以作者与伴侣十年间超过 48 万条消息的对话为例:

  • 链接占 2.4%
  • 媒体文件占 9.1%
  • 纯表情符号消息占 1.5%
  • 简短的填充词(如“哈哈”、“好的”)占 28.4%
  • 实质性文本仅占 58.7%

这意味着近 41% 的内容对于分析是噪音。简单的按长度过滤或建立黑名单效果不佳,最终通过对高频词进行人工审查和标记才有效解决了问题。

一个有趣的发现是,作者的词汇量在 20 岁出头就基本定型。自 2008 年以来,他在聊天中使用新词的比例一直在下降,并在六年前稳定在 6% 左右。

识别身份与事件:技术挑战

数据清洗后,更大的挑战是如何让机器理解内容的含义。

  • 身份识别难题(“哪个 Sasha?”): 同一个人在不同平台使用不同昵称,甚至在不同语境下,同一个名字(如 Sasha)也可能指代不同的人。传统的命名实体识别(NER)模型难以处理这种情况。
  • 事件分类难题: 同一句话在不同对话背景下含义完全不同。例如,“我搬家了”在与母亲的对话中是地理搬迁,在朋友群里可能是指室内设计,在分手后则可能是一个情感里程碑。

传统的分类器准确率有限,且容易产生大量误报。因此,作者最终选择使用 大型语言模型(LLM) 来同时解决身份识别和事件分类问题。

处理流程如下:

  1. LLM 读取一小段消息。
  2. 生成一个结构化的 JSON 文件,其中包含笔记要点、人物信息、时间线事件和地点更新等。
  3. 一个确定性的脚本读取该 JSON 文件,并将信息注入数据库。
  4. 所有信息都带有来源标记,可以追溯到原始消息,确保任何错误都可以精确回滚。

数据揭示了什么?

通过对结构化数据的分析,作者发现了一系列关于人际关系和自我认知的深刻洞见。

关系的冷暖:情感与互动模式

传统的情感分析只判断消息是积极还是消极,但作者采用了 方向性情感分析,关注对话双方的情感温差。

  • 关系的转变: 友谊可能会随着时间从 “玩乐型”转变为“事务型”,这种变化在单次对话中很难察preceive。
  • 互动模式的变化: 消息数量的减少不一定代表关系变淡。如果消息的 平均长度增加,可能意味着关系从频繁的短消息互动转变为更深入、更有思想的交流。
  • 回复速度的误区: 回复时间更多地反映了一个人的手机使用习惯,而非情感投入程度。

共同语言的消逝:词汇重叠度

衡量两个人词汇的重叠度(Jaccard 相似性)可以有效地追踪关系的冷却。

在作者的一段关系中,双方高频词的重叠度从 69.5% 下降到 8.7%。这意味着他们几乎不再讨论同样的事情,兴趣点出现了巨大分歧。

提问率:关系远近的指标

数据显示,随着浪漫关系的成熟,提问的频率会下降,因为双方已经足够了解彼此。然而,对于逐渐疏远的关系,情况恰恰相反。

  • 关系越疏远,提问率越高。当人们不常联系时,更多的对话内容变成了信息获取。
  • 提问率可以作为关系带宽的反向指标

社交圈的演变:邓巴数与联系人流失

根据人类学家罗宾·邓巴的理论,人类可以维持大约 150 个稳定的社会关系。作者的数据显示:

  • 社交圈在萎缩: 随着年龄增长,核心社交圈(约 5-15 人)和活跃网络都在缩小。在“午夜活跃”的青年时期,他有约 300 个活跃联系人;而在“午间活跃”的成年时期,这一数字降至 60 个。
  • 社交精力是恒定的: 尽管失去了 75% 的社交网络,作者每年投入到对话中的总天数几乎保持不变。他只是 将相同的社交精力重新分配给了更少的人
  • 搬家是友谊的“灭绝事件”: 在 20 多岁时搬家导致的朋友流失,远比 30 多岁时严重。

自我认知的新维度

这个项目带来的最大价值,是让作者对自己有了全新的认识。

我本以为自己是“支持型朋友”。但数据显示,我同等程度上也是“建议型朋友”。当别人需要我时,我的本能是解释,而不是倾听。这一点我以前并不知道。

其他发现包括:

  • 旅行时更快乐: 在旅行期间,所有对话都变得更温暖、更少事务性。
  • 工作影响社交节奏: 从事朝九晚五的工作后,他的消息高峰时间从午夜转移到了中午。

最终,作者意识到,他之所以感到生活“空虚”,并非因为生活本身缺乏内容,而是因为 记忆的选择性过滤。那些被遗忘的、微小而珍贵的互动,都忠实地记录在数字档案中,证明了生活曾经的丰满与温暖。这个项目没有改变他的社交方式,但让他有机会重新审视那些被时间掩埋的宝贵瞬间。