自万维网诞生以来,各种信息不断在网络上涌现,网络用户数量也与日俱增些年,网络内容组织方式也在逐渐地发生变化,从博客到Facebook,再到Twitter,互联网上出现了越来越多的网民表达。这些网民表达含大量的评价、态度、情绪等主观性观点。概括地说,网络上有很多的网民,网民有很多的观点,而这些观点扩散得很快。这种现象不得不引起个人、企业乃至政府的关注。我们需要找出这含观点的信息,更需要含观点的信行情感分析。
本书的研究有两个,分别是汉语情感词表构建和产品评论分析。对于情感分析,情感词表是重要的资源,而汉语情感词表资源还相对匮乏。另外,产品评论分析作为一个重要的情感分析应用也越来越受到关注。产品评论分析的工作也可以看成本书情感词表构建工作的应用和延伸。
据美国调研机构Royal Pingdom对201pan>年全球互联网发展状结显示,全球网民数量为2pan>亿,其中亚洲多,为9.22亿,欧洲为4.76亿,北美为2.7pan>亿。根据《中国互联网络发展状况统计报告》,截至201pan>年12月底,中国网民规模突破5亿,达到5.13亿;中国手机网民规模达到3.56亿。
除了网络用户数量令人惊叹地增长,网络内容组织方式也在逐渐发生变化。这种变化所带来的震撼并不亚于网民数量的增长。自万维网推出以来,网络上的信息不断涌现,一些以前需要从传统媒体中查找的信息可以方便地从网络上获得。随着时间的推移,人们不再满足于将网络当作纯粹的获取信息的场所,而是希望将其作为表台。
1997年出现了“博客”一词。这是一种充分个性化的网络表达工具,在其上“博主”可以发表自己的见闻和观点,访客可以留言。2004年,Facebook向大学生开放。信息的交流以人为节点,以好友关系为边,迅速扩散到整个网络。结合了博客和移台的Twitter 出现在2006年,并且在短短的几年时间内全球。2009年8月,中国的门户网站新浪网推出“新浪”内测版,成为门户网站服务的网站,正入中文上网主流人群视野。
当人们购买商品的时候,往往要通过网络查找大家对该商品的评价,以便决定自己的购买行为。企业则对客户和潜在客户的意见尤为关注,从而指导产品的设计、服务等。政府部门对影响社会的舆论密切关注,从而选择应对措施。
传统的信息检索并不能满足以上各种需求。一个明显的不足之处在于,传统的检索工具是针对主行检索,并不能定制化地提供对某个实体的评价。
在自然语言处理(Natural Language Processing,NLP)中,情感分析这个概念应运而生。情感分析的工括对评论的极行分类,提取产品的产品特征并对其评行分析,识别观点的发出者等。粗略地讲,凡是和文本中观点、情绪、评价等相关的自然语言处理工作都可以归人情感分析领域。自然语言处理经过多年的发展,积累了丰富的资源,可以获得各种人工标注的语料、句法分析工具、语义词典等。这些都为情感分析的开展奠定了研究基础。
目前,学术界和工业界对文本情感分析的相关问行了广泛和深入的研究。仅在美国就至少有20个公司提供情感分析服务。国际上的高校中基本都设立相应的研究机构和小行情感分析的研究。在国内,、北京大学、哈尔滨工业大学、上海交大、复旦大学、厦门大学、大连理工大学、重庆大学、北京邮电大学等许多科研机构和高校都开展了情感分析的研究工作。
文本情感分析的研究已经成为当前自然语言处理研究的热点。
1.2本书主要研究内容
本书的研究有两个:一是情感词表的构建;二是产品评论的分析。在词表构建完成后行情感词搭配的研究工作。这部分工作可以看成连接情感词表构建和产品评论分析的环节。事实上,可以把情感词作为一种评价,把产品特征看成评价的特殊搭配,并在此基础上开展产品评论分析的有关工作。这样,从情感词表的构造过渡到产品评论分析的工作就十分自然了。
选择这两个部分作为本书的主要工作是基于这样的考虑。
(pan>)情感词表是情感分析的重要资源。基于高质量的词典,一些情感分析任务只需要采用简单的方法即可以获得很好的效果。对于中文而言,情感词表资源还很匮乏。
(2)采用自动的方式构建词表,充分利用语言学的知识,尽可能降低构建情感词表的人工代价。
(3)以产品评论分析作为实际的应用背景,利用已有的资行深人的分析,得到具有实用性的成果。
自然语言处理需要重视语言学。Wintner(2009)建议在ACL里设置一个语言学专委会,并呼吁语言学回归计算语言学。他认为,当代的自然语言工程里,语言学整体上是缺位的。从语言学的角度出发,将语言学中的知识和计算机的方法结合起来是本书的一个基本原则。