如何编写 SQL 查询来查找重复记录？

suhashini25 · Post by **suhashini25** » Tue May 20, 2025 6:28 am

在数据库中查找重复记录是一个常见的任务，特别是在数据清洗、数据质量检查或确保数据唯一性时。SQL 提供了多种方法来完成这个任务，主要利用聚合函数和分组功能。

我们将介绍几种常用的 SQL 查询方法来查找重复记录，并解释它们的原理。

方法一：使用 GROUP BY 和 HAVING 子句
这是最常用和推荐的方法，用于查找在指定列或列组合上存在重复的记录。

原理：

GROUP BY：将所有行根据指定的列（或列组合）进行分组。如果多行在这些列上的值完全相同，它们就会被分到同一个组。
COUNT(*)：在每个组内计算行的数量。
HAVING：筛选出那些行数大于 1 的组，这些组就代表了存在重复的记录。
SQL 查询：

简单直观，易于理解。
能够清晰地看到每个重复组合的出现次数。
性能通常较好，因为数据库可以对 GROUP BY 的列使用索引。
局限性：

这个查询只返回重复的组合，而不是重复的所海外华人数据库有行。如果你需要获取所有重复行的完整信息（包括它们的 CustomerID），你需要结合其他方法。
方法二：查找所有重复行的完整信息（使用子查询/CTE 和 JOIN）
如果你想获取所有重复行的完整数据（包括它们的 CustomerID），你需要将方法一的结果与原始表进行 JOIN。

首先使用方法一的 GROUP BY ... HAVING 找出重复的组合。
然后将这个结果集作为一个子查询（或 CTE - Common Table Expression）。
最后将子查询的结果与原始表进行 JOIN，匹配重复的 CustomerName 和 Email。
SQL 查询（使用子查询）：

获取所有重复行的完整数据，便于进一步处理（如删除重复项）。
方法三：使用窗口函数（ROW_NUMBER() 或 COUNT() OVER PARTITION BY）
窗口函数是 SQL 中更高级的功能，在处理分组和排名时非常强大。

原理：

PARTITION BY：将数据按照指定的列进行分区（分组）。
ROW_NUMBER()：在每个分区内为行分配一个唯一的序列号。如果某个分区内的行数大于 1，则表示存在重复。
COUNT(*) OVER (PARTITION BY ...)：计算每个分区内的行数，与 GROUP BY 类似，但它不会折叠行。
SQL 查询（使用 ROW_NUMBER()）：

rn > 1; -- rn = 1 的是每个重复组的第一条，rn > 1 的是其后的重复项
SQL 查询（使用 COUNT(*) OVER PARTITION BY）：

查询结果（两种窗口函数方法相同）：
（注意：ROW_NUMBER() 方法只会返回重复项中“多余”的那些，而 COUNT(*) OVER 会返回所有重复项。）
如果想获取所有重复项，使用 COUNT(*) OVER 更直接。

这是 ROW_NUMBER() > 1 的结果，它只返回了重复项中的“非第一条”。
如果使用 COUNT(*) OVER 且 WHERE DuplicateCount > 1，它会返回所有重复的行，结果和方法二一样。

优点：

在某些数据库系统中，窗口函数的性能可能优于子查询加 JOIN 的方法，因为它通常只需要一次数据扫描。
语法更简洁，特别是当你需要更复杂的排名或分组逻辑时。
局限性：

不是所有旧版本的数据库都支持窗口函数。
如何删除重复记录？
找到重复记录后，下一步通常是删除它们，只保留一个唯一的副本。这通常需要结合使用 DELETE 语句。

在执行删除操作之前，务必先备份数据。
在实际生产环境中，删除操作要非常谨慎，最好先在测试环境验证。
ORDER BY CustomerID 决定了在每个重复组中哪条记录被保留（这里是 ID 最小的）。你可以根据业务需求调整 ORDER BY 条件。
选择哪种方法取决于你的数据库版本、个人偏好以及最终需要的数据形式（是只看重复组合，还是获取所有重复行）。对于大多数情况，GROUP BY 和 HAVING 的组合以及结合 CTE 的方法都非常有效。