二手房房价数据的爬取、清洗、可视化、预测
数据爬取
爬虫和人机验证
利用Selenium库和Edge Driver可唤起实体浏览器,并捕获网站中的Element
元素。
1 |
|
倘若遇到人机验证,可time.sleep()
给我们手动输入验证码的时间。
输出
利用xlwt库:
1 |
|
多线程化
直接调用库即可,可启动多个浏览器进行爬虫:
1 |
|
数据清洗
主要调用Pandas和Numpy:
1 |
|
可以做到简单的去除重复数据、格式标准化、类型转换。
数据可视化
主要利用Matplotlib,也可使用Pyecharts。
数据预测
主要使用Scikit-Learn机器学习。
数据编码
要将非数值数据进行编码,可采用标签编码、独热编码、平均值编码等方式,我们主要采用的是独热编码和平均值编码。
独热编码
将数据编码为列向量的形式,即非“本特征”定义为0
,否则为1
。但是为了拟合的准确性,我们需要丢弃每个元素进行独热编码后的第一列(即drop_first=True
语句)。独热编码适合类型少的数据。
1 |
|
平均值编码
即编码为该特征目标值的平均值。适合类型多的数据。
1 |
|
模型训练
划分
在对数据进行编码后,就可以划分为训练集和测试集了。其中还用StandardScaler进行了正态分布化,可以提高训练效率。
1 |
|
模型选择
回归模型有很多种,但我们必须选择性能最好的那个,所以先每一个都试一遍:
1 |
|
接下来,就可以用线性回归模型进行拟合预测了。结合可交互界面就可以完成本项目。
二手房房价数据的爬取、清洗、可视化、预测
https://blog.kisechan.space/2024/crawer/