降维案例
案例一步骤步骤一步骤二步骤三
(资料图片仅供参考)
案例一
探究: 用户对物品类别的喜好细分降维.
数据:
products.csv 商品信息order_products__prior.csv 订单与商品信息orders.csv 用户的订单信息aisles.csv 商品所属具体物品类别
步骤
合并各张表到一张表当中: pd.merge()建立一个类似行, 列数据使用 PCA 分析
步骤一
import pandas as pdfrom sklearn.decomposition import PCA# 读取四张表的数据prior = pd.read_csv("order_products__prior.csv")products = pd.read_csv("products.csv")orders = pd.read_csv("orders.csv")aisles = pd.read_csv("aisles.csv")# 合并四张表到一张表_mg = pd.merge(prior, products, on=["product_id", "product_id"])_mg = pd.merge(_mg, orders, on=["order_id", "order_id"])mt = pd.merge(_mg, aisles, on=["aisle_id", "aisle_id"])print(mt.head())输出结果:0 2 33120 ... 8.0 eggs1 26 33120 ... 7.0 eggs2 120 33120 ... 10.0 eggs3 327 33120 ... 8.0 eggs4 390 33120 ... 9.0 eggs
步骤二
import pandas as pdfrom sklearn.decomposition import PCA# 读取四张表的数据prior = pd.read_csv("order_products__prior.csv")products = pd.read_csv("products.csv")orders = pd.read_csv("orders.csv")aisles = pd.read_csv("aisles.csv")# 合并四张表到一张表_mg = pd.merge(prior, products, on=["product_id", "product_id"])_mg = pd.merge(_mg, orders, on=["order_id", "order_id"])mt = pd.merge(_mg, aisles, on=["aisle_id", "aisle_id"])# 交叉表 (特殊的分组工具)cross = pd.crosstab(mt["user_id"],mt["aisle"])# 输出头5条数据print(cross.head())输出结果:aisle air fresheners candles asian foods ... white wines yogurtuser_id ... 1 0 0 ... 0 12 0 3 ... 0 423 0 0 ... 0 04 0 0 ... 0 05 0 2 ... 0 3
步骤三
import pandas as pdfrom sklearn.decomposition import PCA# 读取四张表的数据prior = pd.read_csv("order_products__prior.csv")products = pd.read_csv("products.csv")orders = pd.read_csv("orders.csv")aisles = pd.read_csv("aisles.csv")# 合并四张表到一张表_mg = pd.merge(prior, products, on=["product_id", "product_id"])_mg = pd.merge(_mg, orders, on=["order_id", "order_id"])mt = pd.merge(_mg, aisles, on=["aisle_id", "aisle_id"])# 交叉表 (特殊的分组工具)cross = pd.crosstab(mt["user_id"], mt["aisle"])# 进行主成分分析pca = PCA(n_components=0.9)data = pca.fit_transform(cross)# 输出数据print(data)输出结果:[[-2.42156587e+01 2.42942720e+00 -2.46636975e+00 ... 6.86800336e-01 1.69439402e+00 -2.34323022e+00] [ 6.46320806e+00 3.67511165e+01 8.38255336e+00 ... 4.12121252e+00 2.44689740e+00 -4.28348478e+00] [-7.99030162e+00 2.40438257e+00 -1.10300641e+01 ... 1.77534453e+00 -4.44194030e-01 7.86665571e-01] ... [ 8.61143331e+00 7.70129866e+00 7.95240226e+00 ... -2.74252456e+00 1.07112531e+00 -6.31925661e-02] [ 8.40862199e+01 2.04187340e+01 8.05410372e+00 ... 7.27554259e-01 3.51339470e+00 -1.79079914e+01] [-1.39534562e+01 6.64621821e+00 -5.23030367e+00 ... 8.25329076e-01 1.38230701e+00 -2.41942061e+00]]
查看 data.shape, 我们可以发现 类别由 134 个变为了 27 个.
春节长假期间,山西焦煤深入贯彻党的二十大关于加强能源安全供应能力建设的精神,严格落实省委、省政府关于煤炭增产保供各项决策部署,坚更多
2023-01-30 10:58:51春节期间,国家能源集团新疆能源有限责任公司日生产煤炭约24万吨,有力保障疆内外供暖、电力等重点企业的煤炭供应。图为国家能源集团新疆更多
2023-01-30 10:15:33根据商务部重要生产资料监测系统数据显示,2022年12月份,福建省监测样本企业的煤炭市场价格平均为162917元吨,环比上涨02%。其中无烟煤市更多
2023-01-30 09:57:40据商务部重要生产资料市场监测系统显示,上周(1月9日-15日)四川省煤炭均价为98709元吨,环比下降16%。其中,动力煤、无烟煤价格分别为105更多
2023-01-30 09:53:16据商务部重要生产资料市场监测系统数据显示:(1月14日-1月20日),从监测品种样本数据来看煤炭平均价格为84466元吨,与前一周比(下称环更多
2023-01-30 09:55:49假期市场情况综述 产地方面,假日及节后归来首日呈现供需两弱的局面,价格保持平稳运行。主流大矿多短休为主,维持相对平稳生产,中小更多
2023-01-30 09:58:48从中国铁路太原局了解到,今年以来,中国铁路太原局充分发挥大秦铁路能源通道作用,优先保障电煤运输,提高电煤装车比重,1月份以来(截至更多
2023-01-29 12:18:01据商务部业务系统统一平台洛阳市重要生产资料监测系统数据显示,上周(1月7日-1月13日)洛阳市煤炭(烟煤)平均零售价为7615元吨,环比上更多
2023-01-29 10:07:02据山西省商务厅生产资料市场监测数据显示:(1月9日-15日)山西省煤炭均价13109元吨,环比上涨09%。其中,无烟煤2号均价1648元吨,环比上更多
2023-01-29 10:11:23监测系统数据显示:12月份山西煤炭价格以涨为主。煤炭平均价格为130475元吨,环比上涨14%。其中:无烟煤2号洗选块煤平均价格为16156元吨,更多
2023-01-29 10:04:11