网站首页 > 数据库 / 正文
废话不多说,直接干货。
一、oracle去重
1、创建测试数据
create table test_duplicate_removal(
c001 number,
c002 varchar2(100)
);
insert into test_duplicate_removal values(101, 'aa');
insert into test_duplicate_removal values(102, 'aa');
insert into test_duplicate_removal values(103, 'aa');
insert into test_duplicate_removal values(104, 'bb');
insert into test_duplicate_removal values(105, 'bb');
insert into test_duplicate_removal values(106, 'cc');
insert into test_duplicate_removal values(107, 'cc');
insert into test_duplicate_removal values(108, 'dd');
2、使用row_number() over()函数根据C002列去重
创建一个rn列,根据C002进行分组,每个小组内再根据C001的值进行排序。
select c001,c002, row_number() over(partition by c002 order by c001 desc) rn from test_duplicate_removal
通过rn筛选值为1的行,同时也就对C002进行了去重
select * from (select c001,c002, row_number() over(partition by c002 order by c001 desc) rn from test_duplicate_removal) t where t.rn=1
二、python的pandas模块去重方法
1、将数据库数据导出保存为CSV
2、pandas实现sql里排序函数row_number() over()功能
import pandas as pd
# 读取CSV数据
df = pd.read_csv('test_duplicate_removal.csv')
print('打印原始数据:')
print(df)
# 此处等价于sql里的排序函数row_number() over()功能
df['RN'] = df['C001'].groupby(df['C002']).rank()
print()
print('根据C002分组,根据C001组内排序:')
print(df)
# 去重
print()
print('去重,筛选RN=1的行:')
print(df[df['RN'] == 1])
运行结果
Tags:oracle insert as
猜你喜欢
- 2024-11-26 ORACLE RAC数据库的挂起分析
- 2024-11-26 oracle-高水位
- 2024-11-26 Oracle ROWID详解及其妙用
- 2024-11-26 Mybatis标签使用
- 2024-11-26 oracle Merge Into 用法
- 2024-11-26 oracle创建触发器-1
- 2024-11-26 常用SQL系列之(五):多表和禁止插入、批量与特殊更新等
- 2024-11-26 Oracle数据定义
- 2024-11-26 Oracle定时任务
- 2024-11-26 Oracle数据库性能调优实践(三)——账号及密码管理