用 Python 爬取并分析“双一流”高校扩招数据:一份给准大学生与开发者的实用教程
简介
近期,东南大学、上海交通大学、南京大学等十余所顶尖“双一流”高校陆续发布了2026年本科扩招计划,新增招生名额从数百人不等。这一重大政策变动牵动着无数考生和家长的心。作为技术爱好者,我们不仅能通过新闻获取信息,更可以利用编程技能,自己动手爬取、整理并分析这些数据,从而获得更清晰、个性化的洞察。
本教程将手把手教你如何使用 Python 编程语言,构建一个简单的爬虫来收集高校扩招信息,并进行基础的数据清洗、分析与可视化。无论你是想为自己或亲友的志愿填报提供数据支持,还是希望学习实际的网络爬虫与数据处理技能,这篇教程都非常适合你。
前置准备
在开始之前,请确保你的计算机环境满足以下条件:
- Python 环境:安装 Python 3.8 或更高版本。推荐使用 笔记本电脑,其便携性和性能足以应对大多数开发任务。
- 代码编辑器:安装一个顺手的代码编辑器,如 VS Code、PyCharm Community Edition 或 Sublime Text。一个响应迅速的 机械键盘 能显著提升编码效率。
-
必要的 Python 库:我们将使用以下库:
requests:用于发送HTTP请求,获取网页内容。BeautifulSoup4:用于解析HTML和XML文档,提取所需数据。pandas:用于数据处理和分析。matplotlib或seaborn:用于数据可视化。
你可以通过以下命令一次性安装所有库:
bash
pip install requests beautifulsoup4 pandas matplotlib seaborn
分步骤教程
第一步:明确目标与信息来源
首先,我们需要明确要爬取的数据范围和来源。假设我们主要关注以下几所高校在官网或权威教育门户上发布的扩招公告:
* 东南大学
* 上海交通大学
* 南京大学
* 武汉大学
* 华中科技大学
* (可根据实际公告源继续添加)
目标是从相关网页中提取:学校名称、扩招年份、新增计划人数、可能涉及的优势学科(如有提及)。
第二步:编写基础爬虫框架
创建一个新的Python文件,例如admission_scraper.py。我们先从一个简单的单页爬取函数开始。
import requests
from bs4 import BeautifulSoup
import pandas as pd
def scrape_single_page(url):
"""
爬取单个网页并返回BeautifulSoup对象
"""
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
try:
response = requests.get(url, headers=headers, timeout=10)
response.raise_for_status() # 检查请求是否成功
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
return soup
except requests.RequestException as e:
print(f"爬取 {url} 时出错: {e}")
return None
# 示例测试
# test_url = “某个包含扩招信息的具体新闻页面URL”
# soup = scrape_single_page(test_url)
# if soup:
# print(soup.title.string) # 打印页面标题,验证爬虫是否工作
第三步:解析页面并提取关键信息
不同网站的HTML结构不同,你需要根据实际目标网页的结构来调整选择器。这里我们以一个假设的新闻页面结构为例,展示如何提取“学校”和“扩招人数”。
def extract_admission_info(soup):
"""
从BeautifulSoup对象中解析出高校扩招信息
(这是一个示例,具体选择器需根据实际网页结构调整)
"""
results = []
# 假设每条信息在一个 <div class=“news-item”> 中
news_items = soup.find_all(‘div‘, class_=‘news-item‘)
for item in news_items:
try:
# 提取学校名称 - 假设在 <h2> 标签中
school = item.find(‘h2‘).text.strip()
# 提取人数 - 假设文本中包含“新增XX人”这样的模式
text_content = item.find(‘p‘).text
# 使用简单的字符串查找或正则表达式
if “新增” in text_content and “人” in text_content:
# 示例:从“新增300人”中提取数字
start = text_content.find(‘新增‘) + 2
end = text_content.find(‘人‘, start)
number_str = text_content[start:end]
number = int(number_str)
results.append({
‘学校‘: school,
‘新增计划‘: number,
‘年份‘: 2026, # 可根据实际文本提取
‘来源URL‘: “当前页面URL” # 可传入
})
except (AttributeError, ValueError) as e:
print(f”解析某条信息时出错: {e}”)
continue
return results
第四步:整合与数据存储
将爬取和解析功能组合起来,并把结果保存为结构化的CSV文件,方便后续分析。
import time
def main():
# 目标URL列表(此处为示例,请替换为真实有效的公告页面URL)
target_urls = [
“https://example.edu/news/admission_plan_1“,
“https://example.edu/news/admission_plan_2“,
“...更多链接...”
]
all_data = []
for url in target_urls:
print(f”正在处理: {url}“)
soup = scrape_single_page(url)
if soup:
info_list = extract_admission_info(soup)
all_data.extend(info_list)
time.sleep(2) # 礼貌爬取,避免请求过于频繁
# 转换为DataFrame
df = pd.DataFrame(all_data)
# 去重
df.drop_duplicates(subset=[‘学校‘, ‘年份‘], inplace=True)
# 保存到CSV
output_file = “双一流高校扩招数据_2026.csv“
df.to_csv(output_file, index=False, encoding=‘utf-8-sig‘)
print(f”数据已保存到 {output_file}“)
print(df.head())
if __name__ == “__main__“:
main()
第五步:数据可视化与分析
有了结构化数据,我们可以进行快速分析和可视化。
import matplotlib.pyplot as plt
import seaborn as sns
# 设置中文显示
plt.rcParams[‘font.sans-serif‘] = [‘SimHei‘] # 用来正常显示中文标签
plt.rcParams[‘axes.unicode_minus‘] = False # 用来正常显示负号
# 读取之前保存的数据
df = pd.read_csv(“双一流高校扩招数据_2026.csv“)
# 1. 柱状图:各高校扩招人数对比
plt.figure(figsize=(10, 6))
sns.barplot(x=‘学校‘, y=‘新增计划‘, data=df, palette=‘viridis‘)
plt.title(‘2026年部分“双一流”高校本科扩招人数对比‘)
plt.xlabel(‘高校名称‘)
plt.ylabel(‘新增招生计划(人)‘)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
# 2. 饼图:扩招名额占比(前五名)
top5_df = df.nlargest(5, ‘新增计划‘)
plt.figure(figsize=(8, 8))
plt.pie(top5_df[‘新增计划‘], labels=top5_df[‘学校‘], autopct=‘%1.1f%%‘, startangle=140)
plt.title(‘2026年扩招规模TOP5高校名额占比‘)
plt.show()
# 3. 简单的描述性统计
print(“扩招人数描述统计:“)
print(df[‘新增计划‘].describe())
相关工具推荐
完成这个项目,你可能需要一些好用的工具和设备:
1. 开发硬件:一台性能稳定的笔记本电脑是基础,尤其是处理数据分析和可视化时。
2. 提升效率:长时间编码,一款舒适的 机械键盘 能减轻手部疲劳,提升编码体验。一个外接的 显示器 可以方便地并排查看代码、数据和文档。
3. 学习资源:官方文档是学习 Python 和库的最佳途径。一个用于快速查阅文档的 iPad 或便携屏也很实用。
4. 网络环境:稳定的网络是爬虫工作的前提,必要时可以了解专业的数据采集云服务。
常见问题
Q1: 爬虫总是返回空列表,抓不到数据怎么办?
A: 首先,检查目标网页是否是动态加载(JavaScript渲染)。本教程使用的方法适合静态页面。如果是动态页面,你可能需要使用 Selenium 或 Playwright 等工具。其次,仔细检查 BeautifulSoup 的选择器,可以在浏览器开发者工具中反复验证。最后,确认网络请求是否被网站拒绝(状态码非200),可能需要更复杂的请求头或使用代理。
Q2: 如何处理更复杂的网页结构或反爬机制?
A: 对于复杂结构,需要耐心分析网页源码。针对反爬,可以:1)轮换 User-Agent;2)设置请求间隔 (time.sleep);3)使用代理IP池;4)处理 Cookies。这些都是进阶爬虫技巧。
Q3: 数据分析部分,我想要更深入的分析(如预测、关联其他数据),该怎么办?
A: 本教程提供了数据分析的起点。你可以引入更多维度的数据,例如将高校扩招数据与该校历史录取分数线、所在地GDP、学科排名等进行关联分析。这需要用到更高级的 pandas 操作和 scikit-learn 等机器学习库。处理大型数据集时,一块高速的 固态硬盘 能极大提升数据读写效率。
总结
通过这个教程,我们不仅关注了“双一流”高校扩招这一热点新闻,更亲自动手实践了从数据获取到洞察分析的全过程。你学会了如何用 requests 和 BeautifulSoup 构建爬虫,如何用 pandas 清洗和整理数据,以及如何用 matplotlib/seaborn 让数据“说话”。
这个技能组合具有很强的迁移性。你可以用它来分析任何你感兴趣的公开数据,比如电影票房、股票信息、商品价格变动等。记住,编程的核心价值在于解决实际问题。在准备升学规划的同时,你也为自己装备了一项强大的数据分析能力。祝你学业和技术双丰收!