英国首相斯塔默宣布辞职

用Python分析新闻事件：以“斯塔默辞职”为例的数据洞察教程

简介

在信息爆炸的时代，如何从海量新闻中快速提取关键信息、分析事件脉络，成为一项极具价值的技能。本文将以一个假设的热点政治事件——“英国首相斯塔默宣布辞职”为例，带领你实战演练一套完整的Python新闻数据分析流程。你将学习如何采集新闻文本、进行关键信息提取与情感分析，并最终将分析结果可视化。这套方法可应用于任何新闻事件的深度挖掘。

前置准备

在开始之前，请确保你的开发环境已准备就绪。
1. Python环境：安装Python 3.8及以上版本。推荐使用 Anaconda 进行环境管理，它自带许多数据分析库。
2. 必要库：我们需要安装以下Python库。
bash pip install requests beautifulsoup4 pandas jieba wordcloud matplotlib snownlp
– requests 与 BeautifulSoup4：用于网络爬虫，获取网页新闻内容。
– pandas：强大的数据处理与分析库。
– jieba：中文分词库。
– wordcloud：生成词云。
– matplotlib：基础绘图库。
– snownlp：中文自然语言处理库，可用于情感分析。
3. 数据源：你可以预先准备好一些包含相关关键词的新闻URL，或使用模拟数据。
4. 开发工具：推荐使用 Jupyter Notebook 或VS Code进行编码和数据分析，交互式环境能极大提升效率。

第一步：数据采集与预处理

首先，我们需要从网页上抓取新闻内容。这里以爬取单个网页为例进行演示。

import requests
from bs4 import BeautifulSoup
import pandas as pd
import re

# 模拟新闻数据源（实际使用时替换为真实URL列表）
news_urls = [
    “https://example.com/news/stammer-resigns-1“,
    “https://example.com/news/stammer-resigns-2“,
    “https://example.com/news/uk-politics-update“
]

def fetch_article(url):
    “”“从URL获取新闻标题和正文”“”
    try:
        headers = {‘User-Agent‘: ‘Mozilla/5.0‘}
        response = requests.get(url, headers=headers, timeout=10)
        response.encoding = ‘utf-8‘
        soup = BeautifulSoup(response.text, ‘html.parser‘)

        # 提取标题（根据实际网页结构调整选择器）
        title = soup.find(‘h1‘).get_text(strip=True) if soup.find(‘h1‘) else “无标题“
        # 提取正文（这里假设正文在<p>标签中，且连续多个<p>）
        paragraphs = soup.find_all(‘p‘)
        content = ‘‘.join([p.get_text(strip=True) for p in paragraphs])
        return title, content
    except Exception as e:
        print(f“抓取{url}失败: {e}“)
        return None, None

# 采集数据
articles = []
for url in news_urls:
    title, content = fetch_article(url)
    if title and content:
        articles.append({‘url‘: url, ‘title‘: title, ‘content‘: content})

# 转换为DataFrame便于分析
df_news = pd.DataFrame(articles)
print(f“成功采集 {len(df_news)} 篇新闻“)
print(df_news.head())

数据清洗：清洗文本中的无关字符、特殊符号和空白。

def clean_text(text):
    “”“基本文本清洗”“”
    text = re.sub(r‘\s+‘, ‘ ‘, text)  # 合并多余空格
    text = re.sub(r‘[^\w\s，。、；：！？“”‘’《》\-\–\—]‘, ‘‘, text)  # 保留中文标点
    return text.strip()

df_news[‘content_clean‘] = df_news[‘content‘].apply(clean_text)

第二步：关键信息提取与分词

接下来，我们从新闻正文中提取关于“斯塔默辞职”事件的关键信息，并进行中文分词，为后续分析做准备。

import jieba
import jieba.analyse

# 自定义词典，加入专有名词以提高分词准确性
jieba.add_word(‘斯塔默‘)
jieba.add_word(‘唐宁街10号‘)
jieba.add_word(‘工党‘)
jieba.add_word(‘首相府‘)

# 提取每篇新闻的关键词
def extract_keywords(text, topk=5):
    “”“使用jieba提取关键词”“”
    return jieba.analyse.extract_tags(text, topK=topk, withWeight=True)

df_news[‘keywords‘] = df_news[‘content_clean‘].apply(lambda x: extract_keywords(x))

# 查看第一条新闻的关键词
print(“第一条新闻关键词:“, df_news.iloc[0][‘keywords‘])

# 对全文进行分词，用于词云
def segment_text(text):
    “”“对文本进行分词并去除停用词”“”
    stop_words = set([‘的‘, ‘了‘, ‘在‘, ‘是‘, ‘和‘, ‘等‘, ‘都‘, ‘以及‘])  # 简单停用词表，实际应用可加载更全的列表
    words = jieba.lcut(text)
    return ‘ ‘.join([w for w in words if w not in stop_words and len(w) > 1])

df_news[‘words‘] = df_news[‘content_clean‘].apply(segment_text)

第三步：情感分析

我们使用 snownlp 库来分析新闻内容的情感倾向（正面、负面或中性），这有助于了解媒体对此事件的整体报道基调。

from snownlp import SnowNLP

def analyze_sentiment(text):
    “”“对文本进行情感分析，返回得分（0-1，越接近1越正面）”“”
    try:
        s = SnowNLP(text)
        return s.sentiments
    except:
        return 0.5  # 分析失败则返回中性

# 计算每篇新闻的情感得分
df_news[‘sentiment_score‘] = df_news[‘content_clean‘].apply(analyze_sentiment)

# 定义情感标签
def sentiment_label(score):
    if score > 0.6:
        return ‘正面‘
    elif score < 0.4:
        return ‘负面‘
    else:
        return ‘中性‘

df_news[‘sentiment‘] = df_news[‘sentiment_score‘].apply(sentiment_label)

# 统计情感分布
sentiment_counts = df_news[‘sentiment‘].value_counts()
print(“情感分布统计:“)
print(sentiment_counts)

第四步：数据可视化

“一图胜千言”，我们将分析结果进行可视化呈现。

1. 生成新闻词云

from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 合并所有新闻的分词结果
all_words = ‘ ‘.join(df_news[‘words‘].tolist())

# 设置词云（你需要有一款中文字体，如‘simhei.ttf’）
wordcloud = WordCloud(
    font_path=‘simhei.ttf‘,  # 替换为你的字体路径
    width=1200,
    height=800,
    background_color=‘white‘,
    max_words=200
).generate(all_words)

plt.figure(figsize=(15, 10))
plt.imshow(wordcloud, interpolation=‘bilinear‘)
plt.axis(‘off‘)
plt.title(‘“斯塔默辞职”相关新闻词云‘, fontsize=20)
plt.show()

2. 绘制情感分析条形图

# 情感分布条形图
plt.figure(figsize=(8, 6))
colors = [‘#55A868‘, ‘#C44E52‘, ‘#8C8C8C‘]
sentiment_counts.plot(kind=‘bar‘, color=colors, edgecolor=‘black‘)
plt.title(‘新闻报道情感倾向分布‘)
plt.xlabel(‘情感类别‘)
plt.ylabel(‘新闻数量‘)
plt.xticks(rotation=0)
plt.grid(axis=‘y‘, alpha=0.3)
plt.tight_layout()
plt.show()

代码示例与完整工作流

将上述步骤整合，一个完整的工作流代码示例如下（为简洁，略去了重复部分）：

# 完整分析流程脚本
import requests
from bs4 import BeautifulSoup
import pandas as pd
import jieba
from snownlp import SnowNLP
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 1. 采集与清洗（此处使用模拟数据演示）
data = [
    {‘title‘: ‘斯塔默首相宣布辞职‘, ‘content‘: ‘今日，英国首相斯塔默在唐宁街10号前发表讲话，宣布将辞去工党党首职务。但他表示将继续履行首相职责，直至工党选出新的领导人。此举预计将引发英国政坛新一轮权力更迭...‘},
    {‘title‘: ‘市场对斯塔默辞职反应谨慎‘, ‘content‘: ‘在斯塔默宣布辞职后，金融市场反应相对平稳，但分析师普遍对未来政策的不确定性表示担忧。英镑汇率在消息公布后小幅波动...‘},
    {‘title‘: ‘工党面临领导层危机‘, ‘content‘: ‘斯塔默的突然辞职使工党陷入领导权争夺战。多名党内资深人士被外界视为潜在继任者，预计未来数周内党内竞争将趋于白热化...‘}
]
df_news = pd.DataFrame(data)
df_news[‘content_clean‘] = df_news[‘content‘].apply(lambda x: re.sub(r‘\s+‘, ‘ ‘, x).strip())

# 2. 分词与关键词
df_news[‘words‘] = df_news[‘content_clean‘].apply(lambda x: ‘ ‘.join([w for w in jieba.lcut(x) if len(w)>1]))
df_news[‘keywords‘] = df_news[‘content_clean‘].apply(lambda x: jieba.analyse.extract_tags(x, topK=3))

# 3. 情感分析
df_news[‘sentiment_score‘] = df_news[‘content_clean‘].apply(lambda x: SnowNLP(x).sentiments)
df_news[‘sentiment‘] = df_news[‘sentiment_score‘].apply(lambda s: ‘正面‘ if s>0.6 else (‘负面‘ if s<0.4 else ‘中性‘))

# 4. 可视化
print(“数据概览:“, df_news[[‘title‘, ‘sentiment‘, ‘keywords‘]])
# 此处可接续词云和条形图绘制代码...

常见问题

爬虫时遇到反爬机制（403错误）怎么办？
- 答：尝试添加更完善的请求头（headers），包括Referer、Cookie等信息；降低请求频率；使用代理IP池；考虑使用Scrapy等更专业的框架。
jieba分词不准，特别是对新词或专有名词识别不好？
- 答：使用jieba.load_userdict(‘your_dict.txt‘)加载自定义词典，将领域专有名词添加进去。
情感分析结果与人工判断有较大偏差？
- 答：通用的情感分析模型（如snownlp）在特定领域（如政治、财经）可能表现不佳。可以考虑标注一批领域数据，训练或微调一个更精准的模型。
代码运行缓慢，特别是处理大量文本时？
- 答：考虑使用多线程/多进程进行数据采集和预处理；对于分词等CPU密集型任务，可以使用pandarallel库进行并行化计算。

总结

本教程以“斯塔默辞职”事件为切入点，演示了从数据采集、清洗、分词、情感分析到可视化的一整套Python新闻文本分析流程。这套流程是数据分析和自然语言处理的典型应用，具有很强的可扩展性和实用价值。

核心收获：
– 掌握了使用requests和BeautifulSoup进行基础网页数据采集的方法。
– 学会了利用jieba进行中文分词和关键词提取。
– 了解并实践了基于snownlp的简单中文情感分析。
– 能够使用wordcloud和matplotlib将文本数据可视化。

未来，你可以在此基础上进行扩展，例如：分析不同新闻源对同一事件的报道差异、跟踪事件随时间的热度演变、构建更复杂的实体关系图谱等。数据分析的魅力在于，它能帮你从纷繁复杂的信息中提炼出独特的见解。在分析和处理大量数据时，一套稳定的开发工具至关重要，比如一个可靠的机械键盘能提升编码效率，而一个高速的固态硬盘则能加速数据读写。

希望这篇教程能为你打开一扇门，让数据讲述故事。

英国首相斯塔默宣布辞职

用Python分析新闻事件：以“斯塔默辞职”为例的数据洞察教程

简介

前置准备

第一步：数据采集与预处理

第二步：关键信息提取与分词

第三步：情感分析

第四步：数据可视化

代码示例与完整工作流

相关工具推荐

常见问题

总结

更多文章

英国首相斯塔默宣布辞职

中国‘两箭齐发’反制美国：精准打击与战略定力

治国之要 首在用人

中国精准反制美国：两大部门“两箭齐发”背后的战略逻辑与影响

治国之要首在用人