我对比了30个样本：91网为什么你总刷到同一类内容？多半是缓存管理没弄明白-八卦社群-黑料百科全解析

我对比了30个样本：91网为什么你总刷到同一类内容？多半是缓存管理没弄明白

八卦社群 | 2026-03-09

我对比了30个样本：91网为什么你总刷到同一类内容？多半是缓存管理没弄明白

前言上个月我随机抓取了91网的30个页面样本，覆盖不同设备、不同账号、不同时间段，以及带/不带登录的访问。结果发现：当你在平台上反复看到同一类内容，绝大多数情况下不是算法“故意作怪”，而是缓存层级与缓存策略没配置好，导致个性化内容被当成公共内容来缓存或长期不更新。

实验方法（简要）

30 个样本：首页、频道页、若干带登录和未登录的详情页、推荐流等。
记录请求与响应头（包括 Cache-Control、ETag、Set-Cookie、Vary 等），对比 HTML 内容快照。
做 A/B：清空浏览器缓存 vs 不清空；使用不同 IP；带/不带 Cookie。
复测 CDN 边缘和源站响应差异、观察 TTL 与缓存命中率。

主要结论（速览）

模块化缓存不分性别：个性化页面被设置为“public”或与用户信息无关的 cache key，导致不同用户看到相同的缓存内容。
CDN / 边缘节点缓存时间过长，更新不及时。
Vary 与缓存键配置不当（例如没有把 Cookie、Authorization、User-Agent 等纳入缓存判定），引起个性化失配。
浏览器端缓存（强缓存）和服务端缓存策略冲突时，用户端长期看到陈旧或同质内容。
推荐放大效应：一次缓存命中会在大量请求中被复用，放大了“你总刷到同一类内容”的感受。

为什么缓存会让你老看到同样的东西（通俗解释）缓存的初衷是减少重复计算与传输：把“生成好的页面”先放到离用户更近的地方（浏览器、CDN、反向代理）供未来请求直接使用。但当页面里包含用户专属信息（比如个性化推荐、登录状态、地域差异），缓存必须“聪明地区分”每个用户对应的版本。如果缓存策略太粗糙（只按 URL 缓存，不考虑 Cookie 或登录头），那么不同用户会被喂到同一份缓存内容——看着像算法偏好，实际上是缓存错误。

常见问题与技术细节

Cache-Control: public vs private：public 表示共享缓存可存储该响应；private 表示仅浏览器私有缓存可存。把个性化响应设为 public 会让 CDN 存并分发给其他人。
缺少 Vary 头：Vary: Cookie 或 Vary: Authorization 告诉缓存系统“此响应会随请求头变化”。缺失会导致缓存误用。
错误的缓存键：CDN/代理通常以 URL（含查询串）为缓存键；若个性化来源于 Cookie 或特定 header，但缓存键没把这些因素包含进去，就会打平差异。
非即时清除（invalidate）策略：源站数据更新后没有及时清除边缘缓存或没有合理的 TTL，导致旧内容长时间被呈现。
浏览器强缓存（max-age 大、no-check）与服务端短变动并存，会让客户端不主动请求新内容。
推荐与反馈闭环：平台会根据用户互动训练推荐模型，如果算法训练数据被缓存污染，会促进重复内容的分发。

给站方（工程/产品）的具体建议

明确哪些页面/接口是“可共享的静态内容”，哪些是“必须按用户个性化的”。对两类分别制定缓存路线。
为个性化响应使用 Cache-Control: private，或者在 CDN 层使用不同的 cache key（包含 Cookie、Authorization 或自定义 header）。
对频繁更新但可短期缓存的页面使用短 TTL（例如 30–60 秒），并配合 stale-while-revalidate，让边缘在刷新期间仍能提供快速响应。
使用 Vary 头把关键请求头纳入缓存判定（Vary: Cookie, Accept-Language 等）。
对可拆分渲染的页面采用客户端渲染或边缘模板化（ESI、Edge Functions），把公共骨架缓存至边缘，把个性化片段动态注入。
建立自动化的缓存失效（Purge）流程：当推荐模型、标签数据、或用户偏好更新时，触发相关缓存清除。
监控缓存命中率与“热点页面”日志，设定自适应 TTL 与分层缓存策略。
做灰度与采样测试：在少量流量上尝试不同缓存策略，观察重复内容率与性能指标的权衡。

给普通用户的实用技巧（想看到更多不同内容）