C币商城  >  图书  >  技术图书  >  驾驭文本:文本的发现、组织和处理

商品编号:s20171204112969392

商品详情

内容简介

  文本处理是目前互联网内容应用(如搜索引擎、推荐引擎)的关键技术。本书涵盖了文本处理概念和技术的多个方面,包括文本预处理、搜索、字符串匹配、信息抽取、命名实体识别、分类、聚类、标签生成、摘要、问答等。本书的特点在于通过实例来理解文本处理的这些概念和技术,读者利用现有的开源工具就可以自己实现这些实例。

目  录

第1章 开始驾驭文本
1.1 驾驭文本重要的原因
1.2 预览:一个基于事实的问答系统  
1.2.1 嗨,弗兰肯斯坦医生
1.3 理解文本很困难  
1.4 驾驭的文本
1.5 文本及智能应用:搜索及其他
1.5.1 搜索和匹配
1.5.2 抽取信息
1.5.3 对信息分组
1.5.4 一个智能应用  
1.6 小结  
1.7 相关资源
第2章 驾驭文本的基础

显示全部信息

前  言

  译者序
  不知不觉,我进入信息内容处理这个领域已经有近20年了。这些年中,我的研究涉及机器翻译、Web搜索、跨语言检索、垃圾邮件过滤、问答、推荐、文本分类、聚类、情感分析等诸多技术或应用,也开发了多个原型以及实用系统。我十分高兴能够在这个有趣的领域不断地学习新技术,了解并开发新应用。与此同时,我也亲眼目睹很多优秀的技术书籍不断涌现。完全出于个人兴趣爱好以及与大家分享的个人追求,我先后翻译了《信息检索导论》、《大数据:互联网大规模数据挖掘与分布式处理》、《机器学习实战》、《Mahout实战》等教材或技术书籍。现在,我又推荐大家手边的这本《驾驭文本》。
  文本处理是很多应用的基本技术,包括上面提到的搜索、推荐、问答应用都离不开文本处理。“驾驭”文本对于这些系统至关重要。然而,文本特别是自然语言文本本身的情况十分复杂,处理起来十分繁琐,难度很大。如何利用已有开源工具高效地“驾驭”文本是本书的目标。很显然,对于文本处理开发人员来说,这本书能够提供支撑。当然,由于自然语言文本固有的歧义性,文本处理技术特别是深层“理解”技术还远未成熟,研究人员还在不断努力,全方面真正“驾驭”文本是所有文本处理工作人员的终极梦想。