标签:海量数据

mysql百万级别数据去重,现有方法效率很低求指点

本人写了个淘宝商品采集,每天能采集200W以上商品数据,无奈商品id(goods_id)重复率太高。 现在想保留商品重复数据id最低的一行,其余删除。 现有去重方法: delete from 表名 where   id not in (select minid from (select min(id) as  minid from  qiong_goods ……