1. 研究目的与意义
新冠肺炎疫情是一次重大的、全国性的突发公共卫生事件,各类官方媒体、商业媒体、自媒体等均针对该事件发布疫情信息、追踪事件进展,社会公众也通过移动端关注并参与到舆情传播。互联网时代,网络舆情传播呈现出主体多元化、传播扁平化的特点,因此本研究的目标是探讨舆情传播网络整体结构特征,以及各类传播主体在该网络中的位置及角色,以便客观总结微博舆情传播规律,为有效完善、管控微博舆情传播提供相关借鉴。社会网络分析是为了满足研究社会结构与节点关系的需要,社会学家综合数学方法、图论、社会学等学科知识发展出的一种跨学科研究方法。社会网络分析主要用于研究在特定环境下节点的相互关系,分析关系的特征并探索关系对社会结构的影响。结合软件工具,社会网络分析方法还可以实现节点互动关系的可视化。微博是社会公众和组织关注与追踪各类社会热点事件或公共事件的主要工具,突发公共卫生事件微博舆情传播网络也可以认为是一种社会网络。
2. 课题关键问题和重难点
通过给定微博ID和微博内容,设计算法对微博内容进行情绪识别,判断微博内容是积极的、消极的还是中性的。数据集依据与“新冠肺炎”相关的230个主题关键词进行数据采集,抓取了2020年1月1日—2020年2月20日期间共计100万条微博数据,并对其中10万条数据进行人工标注,标注分为三类,分别为:1(积极),0(中性)和-1(消极)。本课题通过利用社会网络分析方法对新冠肺炎疫情微博舆情进行分析,结合社会网络研究参数对微博舆情的特征进行描述,运用Ucinet和NetDraw对舆情结构进行测度和探索,测度方面包括网络密度分析和中心性分析,探索方面包括凝聚子群分析和成员位置结构分析。
本课题的关键:
1.数据集的预处理
3. 国内外研究现状(文献综述)
2019新型冠状病毒(COVID-19)感染的肺炎疫情发生对人们生活生产的方方面面产生了重要影响,并引发国内舆论的广泛关注,众多网民参与疫情相关话题的讨论。为了帮助政府掌握真实社会舆论情况,科学高效地做好防控宣传和舆情引导工作,针对疫情相关话题开展网民情绪识别的任务。具体任务是给定微博ID和微博内容,设计算法对微博内容进行情绪识别,判断微博内容是积极的、消极的还是中性的。
机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学,是人工智能中最具智能特征,最前沿的研究领域之一。自20世纪80年代以来,机器学习作为实现人工智能的途径,在人工智能界引起了广泛的兴趣,特别是近十几年来,机器学习领域的研究工作发展很快,它已成为人工智能的重要课题之一。机器学习不仅在基于知识的系统中得到应用,而且在自然语言理解、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。一个系统是否具有学习能力已成为是否具有“智能”的一个标志。机器学习的研究主要分为两类研究方向:第一类是传统机器学习的研究,该类研究主要是研究学习机制,注重探索模拟人的学习机制;第二类是大数据环境下机器学习的研究,该类研究主要是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识。
文本情感分析(SentimentAnalysis)是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程[1]。目前,文本情感分析研究涵盖了包括自然语言处理、文本挖掘、信息检索、信息抽取、机器学习和本体学等多个领域,得到了许多学者以及研究机构的关注,近几年持续成为自然语言处理和文本挖掘领域研究的热点问题之一。从人的主观认知来讲,情感分析任务就是回答一个如下的问题“什么人?在什么时间?对什么东西?哪一个属性?表达了怎样的情感?”因此情感分析的一个形式化表达可以如下:(entity,aspect,opinion,holder,time)。比如以下文本“我觉得2.0T的XX汽车动力非常澎湃。”其中将其转换为形式化元组即为(XX汽车,动力,正面情感,我,/)。需要注意的是当前的大部分研究中一般都不考虑情感分析五要素中的观点持有者和时间。
4. 研究方案
1.DataFountain疫情网民情感分类
抓取2020年1月1日—2020年2月20日期间共计100万条微博数据,并对其中10万条数据进行人工标注,标注分为三类,分别为:1(积极),0(中性)和-1(消极)
2.数据读取
5. 工作计划
2022年12月15日前 下达任务书
2022年12月15日-2023年1月15日前 布置任务、熟悉、搜集并阅读相关中英文资料;
2023年1月15日-2023年2月15日前有针对性的阅读资料、英文翻译;
