博客星系图开发记录：聚类与可视化实践

这次把博客的文章列表从「线性列表」扩展成一个可探索的二维“星系图”。核心思路是先在本地完成向量化、聚类与降维，再把结果作为静态 JSON 输出给 Astro 前端渲染，最终实现“本地预计算 → 静态部署”的完整链路。

目标与约束

这次的逻辑拆成独立工具目录，方便维护和扩展：

tools/blog-clustering/
  ├─ generate_embeddings.py
  ├─ requirements.txt
  └─ README.md

模型下载缓存统一放在仓库根目录 model/（已在 .gitignore 中忽略）。

流程大致分为四步：

最终 JSON 结构如下：

[
  {
    "title": "Post Title",
    "slug": "post-slug-url",
    "date": "YYYY-MM-DD",
    "cluster": 0,
    "x": 12.34,
    "y": -5.67
  }
]

前端通过 src/components/BlogGalaxy.astro 读取 JSON，使用 ECharts 绘制散点图：

星系图页面入口在：

/blog/galaxy

并且做了全屏展示（保留顶部导航）。

我的显卡只有 8GB 显存，所以脚本默认做了“轻量化”参数设置：

如果显存仍然吃紧，可以进一步降到：

python tools/blog-clustering/generate_embeddings.py --batch-size 2 --max-length 512

或者干脆走 CPU：

python tools/blog-clustering/generate_embeddings.py --device cpu

生成与渲染的完整流程：

pip install -r tools/blog-clustering/requirements.txt
npm install
npm run update-graph
npm run dev

然后访问：

http://localhost:4321/blog/galaxy

星系图把文章集合从“列表”变成“空间”，让内容探索更有趣。接下来可以继续扩展，比如：

如果你也在做内容可视化，希望这次记录能带来一些灵感。