Synth Daily

一天开发不出来一个GIS产品,但5000+A股财报桑基图,用AI全自动搞定

这个项目旨在通过AI自动化流程,将A股上市公司的半年财务报告转化为桑基图,以增强人们对AI的掌控感和自我效能感。在经历了初步尝试的失败后,作者通过分解任务——获取报告、解析数据、整理格式和可视化——最终成功实现了批量生成。实践证明,Gemini 1.5 Pro 在准确提取PDF财报数据方面表现最佳。这个过程不仅直观地展示了各公司的资金流向,也为投资者提供了新的分析视角,并最终证明了普通人通过与AI协作,能够完成以往难以想象的复杂工作。

为什么用桑基图展示财报?

传统的财务报表充满了精确但枯燥的数字,只有专业人士或极为认真的投资者才会深入研究。桑基图则将这些抽象数字转化为有形的“流”,完美地讲述了一个“钱从哪里来,到哪里去,最后剩下多少”的故事,让非专业人士也能快速看懂。

桑基图的核心优势在于其独特的视觉语言:

  • 直观展示流量与构成: 箭头的方向和分支清晰地展示了资金从收入到成本,再到利润的完整路径。
  • 清晰呈现比例关系: “流”的宽度与数值大小成正比,让人一眼就能看出收入和成本的主要构成部分,例如“汽车销售”是特斯拉收入的绝对主力。
  • 揭示关键损耗环节: 资金流在每个环节的“变窄”都代表着成本或费用的消耗,帮助管理者和投资者迅速定位影响利润的关键因素。
  • 高信息密度: 一张图可以同时整合绝对值、结构百分比和同比变化等多个维度的数据,却不显得杂乱。
  • 强大的故事性: 它生动地描绘了公司在一个经营周期内的全貌,比冷冰冰的数字更有吸引力。

从失败尝试到分解任务

作者最初尝试用最“偷懒”的方式,直接让AI智能体完成整个任务,但结果并不理想。

  • 初步尝试的挫折:
    • Perplexity: 表面上在工作,但最终提供的下载链接是伪造的。
    • Gemini (Deep Research): 搜集到的报告年份混乱,无法准确获取指定的2024年半年报。
    • Manus: 试图通过编写复杂程序来解析PDF,不仅过程出错,还很快耗尽了免费积分,连一家公司的数据都没能提炼出来。

在几个明星智能体接连失败后,作者意识到,不能指望AI一步到位解决所有问题。

重新规划:分解任务是关键

放弃“一键生成”的幻想后,作者将整个工作流程分解为四个清晰的步骤:

  1. 获取A股上市公司半年报PDF文件。
  2. 使用大模型解析PDF,提取关键财务数据。
  3. 整理数据,构建桑基图所需的数据结构。
  4. 使用可视化库生成桑基图。

作者分享了一个心得:

我通常是找个自己认为简单的子任务开始,而不是拘泥于按顺序展开行动。这样的话,你就不会拖延。

  • 第一步:先做出图。 作者首先让GPT-4编写代码生成一个桑基图模板。这个任务非常成功,AI甚至贴心地增加了“切换主题”和“导出图片”的功能。这为后续工作提供了巨大的动力。

  • 第二步:批量下载报告。 最初尝试从交易所网站下载时遇到了困难,许多报告与公司对不上。后来改为从新浪财经爬取,通过简单的规则(如跳过“退市”公司)很快就完成了数据采集。

  • 第三步:核心挑战——解析PDF。 这是最困难的环节。由于每家公司的财报格式千差万别,加上多数模型存在严重的“幻觉”问题(多次提取同一份报告,数据却不一致),导致结果不可靠。

    • 最终选择: 经过反复测试,Gemini 1.5 Pro 表现最好。它不仅能保证数据的高度一致性,而且成本较低。本地小模型则完全无法胜任。
    • 一个技巧: 为了确保大模型完整阅读报告而非只看摘要,可以先用本地向量化模型处理PDF文件。

总结:AI时代的自我效能感

通过将复杂任务分解,并与AI持续沟通、调整,作者最终成功搭建了一个自动化流程,为5000多家A股公司生成了财报桑基图。整个过程从试验到自动化执行,只花了大半天时间。

这趟与AI深度协作的旅程,其核心价值不仅在于提供了一个新颖的财务数据洞察视角,更在于它所带来的自我效能感

我没有被这个时代抛弃,还能做点什么有意思的,我可以为这个世界提供些信息增量。

这个项目证明,在AI的辅助下,普通人也能完成过去不敢想象的庞大工程。这份信手拈来的成就感,是这个时代给予每个愿意动手尝试的人最好的回馈。