删除在Linux下大型数据文件中重复字段的一部分的方法
数据采集程序最近写生成线包含100万个数据文件,从4场分量的数据,按照第二场的要求需要删除重复行,zhaolaizhaoqu Linux没有找到合适的工具,SED /呆呆的只有一行处理流处理工具,并不能找到字段重复的行。它有自己的Python程序,突然想起了MySQL,所以宇宙的巨大转变:
1。使用mysqlimport --当地dbname data.txt导入数据到表中,与表名与文件名一致
2。执行下面的SQL语句(所需的唯一领域uniqfield)
复制代码代码如下所示:
在使用;
tablename表添加ROWID int auto_increment不空;
创建表的选择min(rowid)为ROWID字段组;
创建表的表名,表名是T2选择T rowid =。从t.rowid;
滴表;
重命名表T2表;