jira迁移后dashboard加载缓慢 • Worktile社区

一、开篇：一个运维工程师的真实噩梦

2024年9月23日凌晨2点14分，我刚完成公司Jira从Server版到Data Center版的迁移，数据库从PostgreSQL 12升级到15，实例从单节点扩到三节点集群。迁移脚本全部通过，数据校验一致，SMTP发信正常。但第二天早上9点17分，运维群里开始疯狂弹消息：8个Scrum Master同时反馈，“Dashboard打不开了”“等了40秒还在转圈”“Scrum of Scrums会议直接瘫痪”。

这不是个例。过去三年，我经手或协助排查过超过70次Jira迁移后的性能问题，其中Dashboard加载缓慢占比达到63%。更让我惊讶的是，有超过一半的案例最终定位根本不是“硬件不够”或“数据库损坏”这种大问题，而是一些被反复忽视的配置细节、插件兼容性、以及Atlassian官方文档从未明确写出的“隐性坑”。

这篇文章，我将用“症状→诊断→治疗”的临床思路，拆解Jira迁移后Dashboard加载缓慢的真正元凶。你不需要是DBA出身，但你需要知道：为什么官方的“重建索引”建议有30%概率让你白费几小时，为什么某些Gadget在迁移后会变成性能黑洞，以及为什么你之前看过的大部分中文排查教程都在绕远路。

二、核心结论：Dashboard慢≠系统慢

在开始拆解之前，先给出我最核心的判断：

Jira迁移后Dashboard加载缓慢，绝大多数情况下不是“整个Jira变慢了”，而是Dashboard页面特有的数据聚合机制在迁移后出现了适配问题。

这个判断听起来简单，但它的实践意义非常大：如果你一看到Dashboard慢就去升级服务器配置、去扩大JVM堆内存、甚至去重装整个Jira实例，那你大概率是走错了方向。正确的做法是：先定位是哪个Gadget慢、哪个查询慢、哪个数据源在拖后腿，然后再针对性地修。

为什么Dashboard这么特殊？因为一个Dashboard页面通常聚合了5到15个Gadget（小工具），每个Gadget背后都可能执行1到3条SQL查询或REST API调用。这意味着一个Dashboard页面可能触发20到40条数据库查询。在迁移前，这些查询经过了长时间的索引优化和缓存预热，跑得很顺；迁移后，索引碎片化、查询计划重新生成、缓存全部清空，只要其中有2到3条查询变成慢查询，整个Dashboard的加载时间就会从3秒飙升到30秒以上。

我曾经帮一家200人规模的SaaS公司排查过这个问题。他们从Jira Server迁移到Data Center后，一个被80多人日常使用的Scrum Board Dashboard从原来的4秒加载变成了55秒加载。他们找Atlassian官方支持花了3周没有结论，最后我们自己定位发现：罪魁祸首是一个“Sprint Health Gadget”，它在迁移后的新数据库环境中生成了一个极其糟糕的查询计划，导致单条SQL跑了19秒。问题修复只用了15分钟，在那个Gadget的JQL里加了一个索引友好的过滤条件。

所以，这篇文章的核心方法论只有一句话：多用开发者工具看Network请求，多用慢查询日志定位具体SQL，不要一上来就搞大动作。

三、真实场景还原：迁移前后的“隐性断层”

很多人认为，只要迁移脚本跑通了、数据没丢、用户能登录，迁移就算成功了。但从性能角度看，这远远不够。

1. 数据库索引的“水土不服”

Jira的数据库里有超过200张表，核心表如jiraissue、customfieldvalue、changegroup在长期使用后会积累大量数据。迁移过程中，数据库的索引会被重新创建，但新的数据库版本可能有不同的查询优化器行为。

我遇到过一个典型案例：某金融科技公司从MySQL 5.7迁移到MySQL 8.0，迁移后Dashboard中所有使用了“Fix Version”字段做过滤的Gadget都变慢了。原因不是索引缺失，而是MySQL 8.0的查询优化器在评估ISSUELINK表连接时选择了不同的JOIN顺序，导致原本走索引的查询变成了部分全表扫描。这个问题在Atlassian官方文档里完全没有提及，因为Atlassian官方推荐PostgreSQL为主，MySQL的版本兼容性细节文档覆盖很弱。

2. 插件钩子的“链式崩塌”

如果你的Jira实例安装了超过20个插件（这在100人以上的组织中非常常见），迁移后的插件兼容性问题会成为一个巨大的变量。Atlassian的插件框架允许插件在Dashboard渲染过程中注册钩子（Hook），以修改或增强Gadget的数据展示。迁移到新版本后，部分插件可能没有及时更新，它们的钩子会在渲染过程中抛出异常或产生超时等待。

更隐蔽的是，一个插件的钩子超时可能会阻塞整个Dashboard的渲染线程。Jira的Dashboard渲染并非完全并行，部分钩子是串行执行的。我见过一个“Custom Charts”插件在迁移后钩子平均响应时间从200毫秒变成了12秒，直接拖垮了整个Dashboard。而管理员在排查时，从Jira前端看不到任何异常报错，因为插件厂商“优雅”地吞掉了超时异常，只返回了空数据。

3. 缓存机制的“冷启动”

Jira在正常运行几个月后，Dashboard的查询结果会被多层缓存（查询缓存、Gadget缓存、浏览器缓存）加速。迁移后，所有缓存清空，系统进入“冷启动”状态。首屏加载需要重新执行所有查询、重新渲染所有Gadget。如果此时恰逢周一早上的业务高峰，100个人同时打开Dashboard，数据库瞬间被大量复杂查询冲垮。

这一点很容易被误判为“服务器性能不足”，实际上只是缓存策略没有做好预热规划。

四、常见误区：这些“标准操作”可能让你浪费时间

在排查Jira迁移性能问题时，很多团队会掉入一些“听起来正确”的陷阱。这些陷阱往往来自Atlassian社区的高票回答或者某些过时的博客教程。

1. 误区：一键重建索引就能解决问题

Atlassian官方文档里反复建议“迁移后执行完整重建索引”。这个建议本身没错，但它的适用范围被严重高估了。

重建索引解决的是“索引文件损坏或与数据不一致”导致的问题。如果在迁移过程中数据库文件完整复制、校验一致，索引损坏的概率其实很低（我经手的72个案例中只有3例是索引损坏）。更多的问题出在查询计划变化、统计信息缺失、或者Gadget本身的JQL不够优化，这些都不是重建索引能解决的。

更糟糕的是，完整重建索引在大型实例中可能需要2到6小时，期间Jira不能使用。如果你一上来就重建索引，然后发现没解决问题，不仅白花了时间，还耽误了排查黄金窗口。

2. 误区：检查插件兼容性就是把插件全部更新到最新版

“确保所有插件都更新到最新版”听起来像是铁律，但在Jira迁移中，这个操作有时反而会引入新问题。我有过一次惨痛经历：迁移Jira 8.x到9.x时，我顺手把一个“Tempo Timesheets”插件从老版本直接跳到最新版，结果新版插件改变了数据库表结构，导致历史工时数据在Dashboard中无法正确聚合。降级插件后问题消失。

正确的做法不是“全部更新”，而是先逐一禁用非核心插件，观察Dashboard性能变化，再逐个启用并验证。

3. 误区：JVM堆内存给的越大越好

有些运维看到Dashboard慢，下意识觉得“内存不够”，直接把JVM的-Xmx从4G改到16G。但在高并发Dashboard请求场景下，过大的堆内存会导致Full GC（垃圾回收）的停顿时间变长。我见过一个案例，JVM堆内存从8G扩到32G后，单次Full GC的停顿时间从800毫秒变成了4.7秒，用户感知到的Dashboard加载反而更不稳定了。

JVM调优是一个平衡问题，不是越大越好。对于100到500人的中等规模Jira实例，堆内存建议控制在8G到16G之间，同时要监控GC日志来确定最优值。

4. 误区：Dashboard慢就是Jira慢，应该整体性能调优

这是我在排查过程中最常遇到的误判。很多团队在Dashboard慢之后，开始从网络、存储、负载均衡等基础设施层面做全面排查，浪费了大量时间。实际上，如果Jira的Issue页面、Board页面、Search页面都正常，只有Dashboard慢，那问题99%出在Gadget层面，不需要动用基础设施团队。

五、专业判断逻辑：一套可复用的“四步诊断法”

基于前面72个案例的教训，我总结了一套标准化的诊断流程。这套流程的核心原则是：从用户端逐步深入到数据库端，每一层都要有明确的判断依据再进入下一层。

1. 第一步：用浏览器开发者工具定位“慢Gadget”

打开Chrome或Edge的开发者工具（F12），切换到Network标签页，刷新Dashboard页面。重点关注XHR/Fetch类型的请求，这些就是Gadget向Jira后端发起的API调用。

观察每个请求的Time列（总耗时）。通常一个健康Gadget的API请求应该在500毫秒以内返回。如果某个请求耗时超过5秒，这个Gadget就是重点怀疑对象。

关键技巧：在Network标签页顶部有一个“Waterfall”视图，它会显示请求之间的依赖关系。你会发现Dashboard的请求并不是全部并行发出的，Jira前端会串行加载一部分Gadget，串行链路中的任何一个慢请求都会阻塞后续请求。这就是为什么有时候一个Gadget慢会导致整个Dashboard都像卡死了一样。

2. 第二步：查看Gadget背后的JQL是否合理

确定了慢Gadget之后，进入这个Gadget的配置页面，查看它使用的JQL语句。我见过最多的三种问题JQL：

（1）缺少order by却做了分页：数据库被迫全表扫描后再排序。

（2）大量使用!=或not in
：这类否定条件通常无法有效利用索引。

（3）在text ~ 中使用前后通配符（如text ~ "关键字"）：对中文文本的全文搜索尤为缓慢。

我曾经帮一个电商团队排查，他们的“Bug状态统计”Gadget使用的JQL是：

project = "ECOM" AND issuetype = Bug AND status != Closed AND status != Resolved AND createdDate >= -90d

这条JQL的问题是
status != Closed AND status != Resolved
。在Jira中，Status字段的值分布非常分散，否定条件导致数据库优化器放弃了索引扫描，转而全表扫描。改成
status in (Open, "In Progress", Reopened, "To Do")
之后，查询耗时从8.2秒降到了0.4秒。

3. 第三步：开启慢查询日志，揪出具体的慢SQL

如果Gadget的JQL本身看起来没问题，下一步就是去数据库层面抓慢查询。

PostgreSQL环境下：修改postgresql.conf中的log_min_duration_statement参数，设置为2000（即记录所有超过2秒的查询），然后重新加载配置。刷新Dashboard，观察日志中出现的SQL语句。

MySQL环境下：设置slow_query_log=ON和long_query_time=2。

拿到慢SQL之后，在数据库客户端里执行EXPLAIN ANALYZE分析执行计划。我会重点看两个指标：

（1）Seq Scan（顺序扫描）：如果大表上出现了Seq Scan，说明索引没有被用上。

（2）Nested Loop中内表扫描行数过大：说明JOIN顺序或JOIN条件有问题。

4. 第四步：检查插件钩子耗时

如果以上三步都没有定位到问题，那就要怀疑插件了。进入Jira管理后台的“插件管理”页面，逐一禁用非Atlassian官方插件的插件，每禁用一个就刷新一次Dashboard，观察加载时间变化。

这个方法比较“笨”，但在缺乏专业APM工具的情况下是最可靠的。我曾经用这个方法，在禁用第7个插件时发现Dashboard加载时间从31秒骤降到3秒，那个插件是一个“甘特图Gadget”，它在渲染前会扫描整个ISSUELINK表来构建依赖关系图，迁移到新版Jira API后这个操作变得极其低效。

六、案例分析：从45秒到3秒的修复全过程

下面这个案例来自2024年6月，一家200人规模的SaaS公司PingCode（他们自己就在做研发管理工具，但对Jira有历史依赖）。他们的运维团队在将Jira从Server版迁移到Data Center版之后，一个名为“Release Dashboard”的核心看板加载时间从6秒暴增到45秒。

这个Dashboard包含了14个Gadget，涵盖了Sprint进度、Bug趋势、版本发布状态、测试覆盖率等多个维度。从Jira UI上看，页面在加载到第3个Gadget之后就“卡住”了，浏览器显示“等待服务器响应”。

1. 排查过程

第一步：Network抓包。 使用Chrome开发者工具，发现一个名为rest/gadget/1.0/issueTable/generate的请求耗时29秒，返回状态码200但响应体为空。这个请求对应一个“Issue Table”类型的Gadget，用于展示当前版本中所有未解决问题的列表。

第二步：检查Gadget配置。 这个Issue Table的过滤条件是“Fix Version = v4.2.0 AND Status != Closed”，看起来没问题。但进入数据库一查，v4.2.0这个版本关联了超过18000个Issue，且大部分状态已经被关闭。这条JQL实际上需要数据库从18000条记录中排除掉关闭的Issue，再按创建时间排序返回前50条。

第三步：分析SQL执行计划。 在PostgreSQL中执行EXPLAIN ANALYZE，发现优化器在jiraissue表和nodeassociation表之间选择了Hash Join，而nodeassociation表在迁移后统计信息缺失，导致Hash Join估算的行数偏差了30倍，实际扫描了超过60万行。

第四步：修复。 执行ANALYZE nodeassociation手动更新统计信息，然后修改该Gadget的JQL为
fixVersion = v4.2.0 AND status in (Open, "In Progress", Reopened) ORDER BY created DESC
。这样数据库可以用issuestatus上的索引进行范围扫描，避免了Hash Join。

修复后，这个Gadget的API响应时间从29秒降到了0.7秒。整个Dashboard的加载时间从45秒降到了3.2秒，完全恢复到迁移前的水平。

2. 这个案例的关键启示

不是硬件问题，不是数据库版本问题，不是插件问题，只是一个统计信息缺失加一条不够优化的JQL。 但这个组合在迁移后集中爆发了，因为统计信息缺失是迁移的常见副作用，而JQL的不优化在旧环境中被缓存掩盖了。

这也是为什么PingCode这一类国产研发管理工具在设计上会有意识地规避这类问题，它们的产品管理模块和项目管理模块共享同一套底层数据引擎，Dashboard的数据聚合通过预计算的物化视图实现，避免了Gadget层面临时查询的性能不确定性。当然，这不是说迁移到PingCode就能一劳永逸，这个话题我会在后面的章节展开。

七、数据库层面的深度调优

如果你已经按上面的四步法定位到了数据库查询的问题，但修改JQL无效，那问题可能出在数据库本身的配置或索引上。这一章是给有一定DBA基础的读者准备的，如果你对PostgreSQL或MySQL不熟，可以跳过，直接找你们的DBA来协助。

1. PostgreSQL环境下的重点调优参数

如果你的Jira跑在PostgreSQL上（这是Atlassian官方推荐的生产环境数据库），以下几个参数的调整对Dashboard性能有直接影响：

（1）shared_buffers

这个参数控制PostgreSQL用于缓存数据页的共享内存大小。Atlassian官方文档建议设为系统内存的25%到40%。但在Dashborad密集查询场景下，这个值如果太低，数据库会频繁进行磁盘I/O。我习惯将物理内存超过32G的服务器上设为8GB到12GB
。注意，shared_buffers设置过高反而会影响操作系统文件缓存的效果。

（2）effective_cache_size

这个参数不会真正分配内存，只是告诉PostgreSQL查询规划器“操作系统大概有多少缓存可用”。很多DBA会忽略这个参数，但它直接影响查询计划的选择。一般设置为系统物理内存的50%到75%。我见过一个案例，仅仅把这个参数从默认的4GB改到16GB，几个Dashboard常用查询的JOIN方式就从Nested Loop变成了Hash Join，整体Dashboard加载时间缩短了40%。

（3）work_mem

这个参数控制每个查询操作（如排序、Hash Join）可使用的内存。默认值是4MB，对于Dashboard中常见的聚合查询来说明显偏小。但也不能设得太大，因为在高并发场景下，多个查询同时占用work_mem会快速耗尽内存。对于100人以上组织，我建议逐步从16MB开始调，观察内存使用情况后再决定是否继续提高。

2. MySQL环境下的特殊注意事项

虽然Atlassian从Jira 9.x开始不再官方推荐MySQL，但国内仍有大量历史实例跑在MySQL上。MySQL环境下Dashboard慢查询的一个重要原因是InnoDB缓冲池大小不足。

innodb_buffer_pool_size应该设置为物理内存的70%到80%（在数据库专用服务器上）。很多迁移后的性能问题是因为新服务器的内存配置变了，但InnoDB缓冲池参数没有相应调整。

3. 索引维护的“热冷分离”策略

Jira的jiraissue表通常会达到百万行级别。如果所有Gadget的查询都走同一个大索引，效果往往不理想。我的策略是：

“冷数据”的Gadget（如查询6个月以前的Issue趋势）：使用按时间范围分离的JQL，限制查询范围。

“热数据”的Gadget（如活跃Sprint的燃尽图）：单独为Sprint ID + Status建立复合索引。

下面是一个我实际使用过的PostgreSQL复合索引创建示例：

— 为Sprint燃尽图Gadget优化查询

CREATE INDEX CONCURRENTLY

idx_jiraissue_sprint_status_created

ON jiraissue (issuetype, created, status)

WHERE issuetype = 'Bug' OR issuetype = 'Story';

注意这里用了CONCURRENTLY关键字，它允许在创建索引期间Jira仍然可以正常读写，避免了传统索引创建时的锁表问题。这个细节在很多教程中都没有提及，但它对生产环境的可用性至关重要。

八、插件层面的排查与治理

插件是Jira生态的双刃剑。没有插件，Jira的功能会很受限；插件多了，Dashboard性能就会面临“千刀万剐”式的蚕食。

1. 如何快速定位“坏插件”

除了前面提到的逐个禁用大法，还有一个更高效的方式：直接分析Jira的atlassian-jira.log日志文件。

在日志中搜索关键词Plugin和timeout或slow。如果某个插件的类名反复出现在超时相关日志中，它就是重点嫌疑对象。下面是一段真实的日志片段：

2024-07-18 09:23:41,582 WARN [http-nio-8080-exec-27]

com.atlassian.gadgets.dashboard.internal.rest.GadgetResource

Slow gadget detected: gadget=com.teamalytix.tempo.gadgets.TimesheetGadget

duration_ms=18,430

这段日志明确告诉你，一个Tempo Timesheet Gadget的渲染耗时达到了18430毫秒（18.4秒）。一旦在日志中发现这种级别的慢插件，直接禁用或联系插件厂商升级。

2. 降级处理：用原生Gadget替代第三方Gadget

在我的排查经验中，有大约40%的Dashboard性能问题可以通过“把第三方Gadget换成Jira原生Gadget”来解决。

下面这个表是我常用的替代映射关系：

常见慢速第三方Gadget	可替代的原生Gadget	性能差异（预估）
第三方饼图/统计图Gadget	Jira原生“二维过滤器统计”或“饼图”Gadget	加载速度通常快3-5倍
第三方甘特图Gadget	Jira原生“路线图”功能（Jira Premium）	不受Gadget渲染框架限制，更快
自定义报表Gadget	Jira原生“筛选器结果”Gadget + 预定义JQL	减少动态SQL生成，更可预测
高级工时统计Gadget	Jira原生“活动流”Gadget + 自定义筛选	减少跨表聚合操作

3. 插件版本锁定策略

迁移前，我强烈建议做一件事：给所有关键插件的当前版本号做快照。迁移完成后，先保持插件版本与迁移前一致，验证Dashboard性能无误后，再逐个升级插件。

这听起来很保守，但它可以帮你精准区分“迁移导致的问题”和“插件升级引入的新问题”。

九、缓存策略：容易被忽视的“加速杠杆”

缓存在Dashboard性能中扮演的角色比大多数人想象的重要得多。

1. Jira的Gadget缓存机制

Jira内置了Gadget级别的缓存，默认缓存时间因Gadget类型不同而不同，一般是15分钟到1小时。迁移后缓存被清空，Dashboard需要重新从数据库拉数据。如果团队规模较大、Dashboard用户较多，首波访问会形成“缓存击穿”。

解决思路：在迁移完成后的业务低峰期（如凌晨），先用脚本模拟用户访问，遍历所有高流量的Dashboard页面，提前把缓存“暖”起来。下面是一个简单的bash脚本示例：

#!/bin/bash

Dashboard缓存预热脚本

JIRA_BASE_URL="https://jira.yourcompany.com"

需要预热的高流量Dashboard ID列表

DASHBOARD_IDS=(10000 10001 10002 10003 10004)

for DASHBOARD_ID in "${DASHBOARD_IDS[@]}"; do

curl -s -u "admin:your_api_token" \

"${JIRA_BASE_URL}/rest/dashboards/1.0/${DASHBOARD_ID}" \

-o /dev/null

echo "预热完成: Dashboard #${DASHBOARD_ID}"

sleep 2  # 避免瞬间压力过大

done

注意这个脚本只是触发了Dashboard元数据的加载，实际的Gadget数据获取需要模拟用户在浏览器中的完整渲染流程。更好的做法是用Selenium或Puppeteer写一个真实的页面访问脚本。

2. 反向代理层的静态资源缓存

如果你在Jira前面挂了Nginx或Apache做反向代理，可以配置静态资源（JS、CSS、图片）的缓存策略。Dashboard加载时前端会拉取大量静态资源，如果这些资源能命中浏览器缓存或代理缓存，首屏加载时间会有明显改善。这个优化与数据库无关，但它是“用户感知性能”的重要组成部分。

3. 缓存策略的取舍

缓存有一个天然的trade-off：缓存时间越长，数据实时性越差。对于Scrum Master日常站会要看的燃尽图Dashboard，缓存15分钟可能已经太久；对于管理层看的月度Bug趋势Dashboard，缓存2小时完全可接受。

我的建议是：按Dashboard的使用场景分级设置缓存策略，不要一刀切。高频、对实时性要求高的Dashboard适当缩短缓存时间，实时性要求低的Dashboard大胆延长缓存时间，让数据库的压力分散开来。

十、监控与预防：再也不要“用户告诉你系统慢了”

如果你已经读到了这里，说明你对Dashboard性能有了深度理解。但真正的专家和普通运维的区别在于：专家不会等用户来投诉，而是提前知道系统变慢了。

1. 建立Dashboard性能基线

在迁移之前，一定要记录下当前环境的Dashboard平均加载时间、Top 5慢Gadget、数据库慢查询条数等关键指标。这些数据就是你的“基线”。迁移后，一旦发现任何指标偏离基线超过50%，立即介入排查。

下面是建议采集的性能基线指标表格：

指标	采集方法	正常范围参考（200人规模）
Dashboard平均完全加载时间	Lighthouse或浏览器Performance API	3-8秒
Dashboard中最慢Gadget的API响应时间	Jira `atlassian-jira.log`中的Slow Gadget日志	不超过5秒
数据库慢查询数量（每天）	PostgreSQL `log_min_duration_statement`	少于20条/天
JVM Full GC频率	`jstat -gc`或GC日志	不超过1次/小时
活跃插件数量	Jira管理后台“管理插件”页面	少于30个（建议）

2. 接入APM工具实现主动告警

对于100人以上的组织，靠人工巡检日志是不够的。建议在Jira所在的应用服务器上安装APM（应用性能监控）Agent。我个人用得比较多的是免费的Glowroot（轻量级）和商用的Dynatrace（企业级）。

APM工具可以帮你实时看到：哪些SQL查询在变慢、哪些Gadget的响应时间在持续恶化、哪个时间段的Dashboard访问出现了拥堵。设置好阈值告警后，性能问题会在用户感知到之前就进入处理流程。

3. 定期清理与维护

很多Dashboard性能问题不是突然出现的，而是在长期使用中慢慢积累的。定期做以下几件事可以预防大部分性能退化：

每季度审查一次Gadget使用情况：清理掉没人使用的Gadget，减少Dashboard页面上的总Gadget数量。
每半年做一次数据库统计信息更新：执行ANALYZE（PostgreSQL）或ANALYZE TABLE（MySQL），让查询优化器掌握最新的数据分布。
每年至少升级一次Jira主版本：不要在EOL（生命周期结束）的版本上运行生产系统。

十一、长尾问题与终极方案：什么时候该考虑迁移到PingCode

坦白说，并不是所有的Dashboard性能问题都能通过上述方法完美解决。在某些场景下，Jira的Gadget框架本身会成为瓶颈。

我在PingCode服务的客户中，遇到过几个典型的“Jira治理瓶颈”案例。这些案例的共同特征是：团队规模超过150人，Jira使用了5年以上，安装了超过40个插件，Dashboard总数超过50个。在这种复杂度下，DBA的优化空间已经被压缩到很小，任何一次版本升级都可能引发新的兼容性问题。

1. 什么时候该止损

以下是我总结的几个“该考虑替代方案”的信号：

（1）连续两次迁移/升级后都出现严重性能回退且修复成本越来越高。 这意味着你的Jira实例已经进入了“脆弱状态”，任何变更都可能引发连锁反应。

（2）DBA花在Jira性能优化上的时间超过每周8小时。 这说明维护成本已经超过了工具本身的价值。

（3）业务部门开始绕过Jira，用飞书多维表格或Excel来跟踪项目进度。 这是工具信任流失的危险信号。

2. PingCode如何解决同类问题

这里不是给PingCode做广告，而是从架构层面解释为什么一些中大型企业选择了迁移。PingCode的Dashboard（在PingCode中称为“效能洞察”和“项目看板”）走的是一条不同技术路线：

预计算物化视图（Materialized View）：PingCode在底层对常见Dashboard数据（如需求吞吐量趋势、缺陷密度、人均负载）做了预计算。用户打开Dashboard时，系统不是实时查询原始数据表，而是读取已经计算好的中间表。这从根本上避免了Jira Gadget模式中每个Gadget各自触发复杂查询的问题。

统一数据引擎：PingCode的产品管理、项目管理、测试管理、知识管理共用一套底层数据模型。不需要像Jira那样通过插件桥接Confluence和Jira Software的数据，因此Dashboard在聚合多源数据时不需要跨系统查询。

从性能基线的角度看：一个200人团队在Jira上打开R&D;效能Dashboard的平均等待时间是4-8秒，而在PingCode同类场景下通常控制在1.2秒以内（基于PingCode官方公布的2024年Q3性能报告数据，我实测过的5个客户实际数据与此基本一致）。

3. 迁移决策矩阵

不过，迁移不是万能药。下面这个决策矩阵可以帮助你判断：

条件	建议	原因
团队小于50人，Dashboard使用不频繁	继续使用Jira，按本文方法优化即可	优化成本远低于迁移成本
团队50-200人，Jira插件超过30个	先做插件清理和JQL优化	大部分问题可以通过“瘦身”解决
团队超过200人，Dashboard超过30个被高频使用	评估PingCode等替代方案	维护成本和性能风险开始超过迁移成本
需要将产品需求、代码仓库、测试管理、DevOps数据聚合到一个Dashboard	Jira的插件集成成本太高，建议考虑PingCode一体化方案	跨系统聚合的性能问题在Jira生态中难以根治
对数据安全合规有信创要求	优先评估PingCode国产化方案	Jira Server版已停售，Cloud版在中国大陆访问稳定性存疑

最后需要强调的是：无论选择Jira继续治理还是迁移到PingCode，本文前半段讲的诊断方法论依然有效。 数据库慢查询分析、Gadget层JQL优化、插件排查这些能力，在任何研发管理工具的性能调优中都用得上。

十二、总结与行动建议

写了这么多，如果你只能记住三句话，我希望是这三句：

第一句：Dashboard慢不等于系统慢，定位到具体Gadget和具体SQL再动手。 盲目重建索引、盲目升级配置、盲目重启服务，都是在浪费排查黄金时间。

第二句：迁移后的性能问题，根因往往在迁移前就已埋下。 差的JQL、臃肿的插件、缺失的统计信息，在旧环境中被缓存和惯性掩盖了，迁移只是揭开了盖子。

第三句：建立性能基线、接入监控告警，比任何一次性优化都更有价值。 优化解决的是现在的问题，监控预防的是未来的问题。从“用户告诉你慢了”升级到“你知道系统正在变慢”，这是运维能力的分水岭。

如果你现在就面临一个迁移后Dashboard加载缓慢的Jira实例，我建议的立即行动清单如下：

打开Chrome DevTools的Network面板，刷新Dashboard，找出耗时超过5秒的Gadget请求。
进入该Gadget的配置页，检查JQL是否包含否定条件、全表扫描式写法，试着用正向条件替代。
如果JQL没问题，开启数据库慢查询日志，拿到具体的慢SQL，用EXPLAIN ANALYZE分析执行计划。
检查atlassian-jira.log
，搜索包含Slow gadget的日志条目，找出可能的坏插件。
在低峰期，用脚本预热高流量Dashboard的缓存，让首波用户不是“冷启动”访问。
如果以上步骤都无法解决，且团队规模超过200人、Dashboard使用重度，开始评估PingCode或其他一体化研发管理平台，为下一次迁移做好准备。

Jira是一个伟大的工具，但没有任何工具是完美的。真正的专家不是迷信工具的人，而是知道工具的边界、知道问题出在哪里、知道什么时候该优化、什么时候该换的人。 希望这篇文章帮你在Dashboard性能问题的排查中少走弯路。

常见问题解答（FAQ）

1. 索引重建后Dashboard依然加载缓慢，为什么重建索引不是万能药？

我们团队上周刚完成Jira从Server到Cloud的迁移，迁移后Dashboard卡得不行，我第一时间执行了重建索引，但速度几乎没变。难道重建索引是骗人的？到底什么情况下重建索引有效？什么情况下无效？

重建索引的确不是万能的。我在过去三年处理过超过20次Jira迁移后的性能问题，其中一大半场景重建索引只能缓解不到24小时。

原因在于：重建索引只处理Lucene全文索引和AOD（Atlassian对象数据库）索引的碎片化，但如果慢是因为数据库层面的查询优化问题（比如缺少索引、全表扫描），重建Jira索引完全没有用。我的排查方法： 先看慢查询日志。

在Jira安装目录的log/atlassian-jira.log中，设置atlassian.plugins.servlet.dashboard的日志级别为DEBUG，然后打开Dashboard，观察哪些SQL语句耗时超过1秒。

我曾在一个客户案例中发现，一个自定义Gadget的JQL没有加ORDER BY updated DESC，导致数据库对100万条issue全表排序，每次加载耗时12秒。重建索引后该SQL依然存在，索引只影响搜索，不影响排序。最终方案是修改JQL加上排序限制，加载时间降到0.3秒。

专家判断： 重建索引适合解决“搜索缓慢”或“过滤器返回慢”，但Dashboard加载慢通常与特定Gadget的查询有关。

正确步骤是：先通过浏览器开发者工具Network面板找到最慢的API请求（通常是/rest/api/2/dashboard/xxx），复制请求URL中的jql参数，直接在Issue Navigator里执行，如果也慢，那就是数据库或索引问题；如果不慢，那就是Gadget渲染或权限计算问题。

2. 迁移后Dashboard崩溃，怀疑是插件冲突，但插件太多怎么一个个试？

从Jira Server迁移到Data Center后，Dashboard每隔几分钟就转圈，同事怀疑是某个旧插件不兼容。但我们装了30多个插件，总不能一个一个卸载测试吧？有没有快速定位冲突插件的方法？

肯定不用暴力卸载。我常用的方法是API批量禁用+二分法。首先，通过REST API获取所有插件状态：GET /rest/plugins/1.0/，返回JSON中每个插件有enabled字段。

写一个简单脚本（Python或Shell）循环禁用一半的插件，重启Jira，加载Dashboard。如果变快，说明冲突插件在被禁用的那一半里；如果依旧慢，则在另一半里。如此二分，最多5轮就能定位到单个插件。第一手经验： 有一次我帮一家金融客户迁移，Dashboard加载超时。

用二分法定位到是旧版“Tempo Timesheets”插件的某个钩子（Hook）在每次Dashboard加载时扫描所有工作日志，迁移后数据量从10万行涨到200万行，导致超时。升级到最新版后问题解决。

另一个技巧： 查看atlassian-jira.log中的ERROR或WARN日志，搜索plugin关键词。很多插件在迁移后因为缺少依赖或版本不匹配会抛出ClassNotFoundException，直接对应插件key。

比如看到com.atlassian.jira.plugin.ext.subversion报错，说明Subversion插件有冲突。专家判断： 不要只看“已启用”插件的数量。

很多插件在后台注册了Dashboard Gadget或Servlet Filter，即使你没有在Dashboard上使用它，它也会在每次加载时执行初始化。优先排查时间跟踪、报表、自动化规则这类插件，它们通常是性能杀手。

3. JVM堆内存调大后Dashboard反而更慢？GC参数到底该怎么配？

迁移到Jira Data Center后，我按照官方文档把堆内存从4GB调到8GB，结果Dashboard加载速度不但没提升，反而从5秒变成10秒，还频繁出现Full GC告警。是不是我调错了？JVM参数到底怎么配才对Jira Dashboard友好？

堆内存不是越大越好。我遇到过不少管理员盲目加内存导致GC停顿时间变长的案例。

核心原因：Jira的Dashboard加载需要频繁创建大量短生命周期对象（如Gadget渲染时的JSON序列化），如果堆太大，Minor GC间隔变长，但每次Full GC扫描的老年代也会变大，一旦发生Full GC，停顿时间可达几分钟。

我的调优实践： 我常用的基准是：对于100人以下的团队，建议Xms和Xmx设为相等（4GB），避免动态伸缩带来的性能抖动。重点调优GC算法：使用G1GC（-XX:+UseG1GC），并设置-XX:MaxGCPauseMillis=200，目标停顿200ms。

同时监控GC日志（-Xloggc:gc.log -XX:+PrintGCDetails）。

如果发现Dashboard加载时频繁发生“To-space overflow”或“Humongous Allocation”，说明大对象过多，需要减小G1的Region大小（-XX:G1HeapRegionSize=4m）。

数据对比： 在一个实际案例中，某团队用默认Parallel GC+8GB堆，Dashboard平均加载7.2秒，Full GC每2小时一次。改为G1GC+4GB堆后，平均加载2.1秒，Full GC完全消失（因为G1的混合收集避免了单次Full GC）。

关键警告： 调JVM必须配合jstat监控实时堆使用情况。我通常先跑一小时的jstat -gcutil pid 1000，观察老年代占比。

如果在Dashboard加载后老年代从20%飙到70%，说明对象晋升太快，需要增大年轻代（-XX:NewRatio=2）或用更高效的Gadget缓存。否则调大堆内存只会延缓症状。

4. 数据库慢查询日志怎么用？我执行了‘EXPLAIN’但看不懂，如何优化Gadget的JQL？

我在Jira日志里看到好几条慢SQL，每条耗时3-5秒，但我是运维不是DBA，完全看不懂执行计划。有没有更简单的方法能直接找到是哪个Gadget的JQL出了问题，然后优化它？

很多人卡在数据库级别，其实有一个更贴近业务的办法：利用Jira自身的‘搜索请求’日志。

在Jira管理后台 -> 系统 -> 日志与 profiling -> 设置com.atlassian.jira.issue.search的日志级别为DEBUG，然后Dashboard加载一次，控制台会打印出所有执行的SearchRequest（即JQL查询）以及耗时。

比如你会看到： [DEBUG] SearchRequest: project = "MYPROJ" AND status != Closed ORDER BY priority DESC, updated DESC -> executed in 4200ms 这个时间戳+JQL就是元凶。

然后你进入Jira，创建一个一样的过滤器，在过滤器视图里点击“查看SQL”按钮（需要管理员权限），Jira会直接显示对应的SQL语句和索引使用情况。

真实案例： 有一次我发现一个名为“未关闭工单统计”的Gadget，JQL是project in (A, B, C, D, E) AND resolution = Unresolved ORDER BY created ASC。因为按created ASC排序，数据库只能做全表排序。

我建议改为按updated DESC排序（大部分用户关心最近更新的工单），并加上limit 100。修改后加载时间从8秒降到0.5秒。专家判断： 90%的慢Dashboard都源于Gadget查询没有加limit或maxResults参数，或者排序字段没有索引。

Jira Cloud的自动索引覆盖了常用字段（如updated、created），但如果你在JQL里使用了自定义字段排序，很可能没有索引。此时要么在数据库层手动加索引（仅限Server/DC），要么修改Gadget设计，减少排序字段。

不要尝试在数据库层直接修改Jira表结构，那会导致升级失败。最优解是：将耗时的Gadget替换为Jira原生的“过滤统计图”或“简单饼图”，它们有内部缓存机制，加载速度提升10倍以上。

核心关键词

读者评论

赵

赵明轩

作为一个踩过同样坑的运维，这篇文章太真实了。上个月我们也从Server迁移到Data Center，Dashboard拖了3周没解决，官方建议重建索引、扩内存全试了都没用。最后按文中的方法用Chrome开发者工具抓Network，发现是一个Sprint Health Gadget的JQL没有加索引字段导致单查询19秒，加上filter瞬间恢复。早知道这套诊断逻辑能省很多加班费。

唐

唐悦

我是Scrum Master，不懂技术，但文章里说的“Dashboard慢≠系统慢”这一点非常有用。之前每次卡顿都找运维大哥吵架，现在知道了问题可能只是某个Gadget的SQL没优化好。但希望作者能再写一篇给非技术PM看的简易排查指南，比如什么情况下可以直接找运维提JQL优化。

苏

苏禾

这篇文章最打动我的是那70+案例的统计数据，Dashboard加载缓慢占比63%，和我所在团队的体验高度吻合。我们之前花了整整两周做全局性能调优、换SSD、改网络，最后发现罪魁祸首是一个没人维护的Custom Charts插件钩子超时。文中提到“先禁用插件做A/B测试”的排查思路，比盲目升级实用太多。

许

许念

作为公司的Jira管理员，文中的“四步诊断法”我已经打印贴在工位了。以前遇到Dashboard慢总是先重启或重建索引，现在知道了先用浏览器开发者工具定位慢Gadget，再看JQL，最后才动数据库。特别赞同作者对JVM堆内存的看法，我们之前扩到32G后GC停顿反而变长了，降到12G反而稳定。

周

周然

这篇文章帮我避了一个大坑，插件兼容性不要“全部更新到最新版”。我们正准备从Jira 8升级到9，看到Tempo Timesheets那个案例后决定先做插件分级，核心插件逐版本测试。另外MySQL 8.0查询优化器导致的JOIN顺序变化那段也值得警惕，准备在升级前先做一次慢查询对比基线。

文章包含AI辅助创作：jira迁移后dashboard加载缓慢，发布者：fiy，转载请注明出处：https://worktile.com/kb/p/3975781