本書共分為六個(gè)部分:基礎(chǔ)入門、研究設(shè)計(jì)和基礎(chǔ)工具、文本挖掘基礎(chǔ)、人文社會(huì)科學(xué)與文本分析、計(jì)算機(jī)科學(xué)與文本挖掘、寫作和展示,在內(nèi)容安排上由淺入深、循序漸進(jìn)。相較于單一且詳盡的方法教程,本書的目的更多是在于指導(dǎo)學(xué)生運(yùn)用社會(huì)世界的文本數(shù)據(jù)來設(shè)計(jì)一項(xiàng)可行的社會(huì)科學(xué)研究。本書涵蓋了文本挖掘研究多個(gè)方面的關(guān)鍵問題,包括網(wǎng)絡(luò)抓取和爬蟲、策略性數(shù)據(jù)選擇、數(shù)據(jù)抽樣、特定的文本分析和文本挖掘方法以及研究報(bào)告的撰寫。除了技術(shù)性內(nèi)容,本書還討論了基于文本的社會(huì)科學(xué)研究設(shè)計(jì)面臨的倫理和哲學(xué)問題。同時(shí),書中還提供了各種學(xué)科的具體案例,方便來自不同領(lǐng)域的文本挖掘研究者理解和學(xué)習(xí)。
加布·伊格納托(Gabe Ignatow)
社會(huì)學(xué)副教授,2007年起任教于北得克薩斯州大學(xué)(UNT)。研究方向?yàn)樯鐣?huì)學(xué)理論、文本挖掘和分析、新媒體以及信息政策。
目前與計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)領(lǐng)域的專家合作,將文本挖掘和主題模型技術(shù)應(yīng)用于社會(huì)科學(xué)研究。1990年以來,加布一直致力于文本的混合分析方法,并在以下期刊發(fā)表了研究成果:Social Forces,Sociological Forum,Poetics,Journal for the Theory of Social Behaviour,Journal of Computer-Mediated Communication。共發(fā)表或出版三十余篇論文和圖書章節(jié),擔(dān)任以下期刊的編委會(huì)成員:Sociological Forum、Journal for the Theory of Social Behaviour和Studies in Media and Communication。
曾擔(dān)任北得克薩斯州大學(xué)社會(huì)學(xué)系研究生項(xiàng)目副主任和本科生項(xiàng)目主任,耶魯大學(xué)文化社會(huì)學(xué)中心理事會(huì)成員。研究生項(xiàng)目搜索引擎公司GradTrek的聯(lián)合創(chuàng)始人和首席執(zhí)行官。
拉達(dá)·米哈爾恰(Rada Mihalcea)
密歇根大學(xué)計(jì)算機(jī)科學(xué)與工程專業(yè)教授,研究興趣為計(jì)算語言學(xué),尤其是詞匯語義學(xué)、多語自然語言處理和計(jì)算社會(huì)科學(xué)。擔(dān)任以下期刊的編委:Computational Linguistics,Language Resources and Evaluation,Natural Language Engineering,Research on Language and Computation,IEEE Transactions on Affective Computing以及Transactions of the Association for Computational Linguistics。
2015年計(jì)算語言學(xué)協(xié)會(huì)北美分會(huì)(NAACL)會(huì)議主席,2011年計(jì)算語言學(xué)協(xié)會(huì)會(huì)議聯(lián)合項(xiàng)目主席,2009年自然語言處理中的經(jīng)驗(yàn)方法會(huì)議聯(lián)合項(xiàng)目主席。曾獲2008年美國國家科學(xué)基金會(huì)CAREER獎(jiǎng)和2009年美國青年科學(xué)家與工程師總統(tǒng)獎(jiǎng)。2013年,獲得家鄉(xiāng)羅馬尼亞克盧日-納波卡頒發(fā)的榮譽(yù)公民稱號(hào)。
譯者簡介
汪順玉
二級(jí)教授,博士,博士生導(dǎo)師,西外學(xué)者領(lǐng)軍學(xué)者,西安外國語大學(xué)研究生院院長。先后主持國家社科重點(diǎn)項(xiàng)目、jiaoyu部人文社科項(xiàng)目、省市級(jí)哲學(xué)社會(huì)科學(xué)規(guī)劃課題、教改重點(diǎn)課題、教育考試院課題等 10 余項(xiàng)。在《外語教學(xué)》《英語研究》《重慶大學(xué)學(xué)報(bào)》《上?萍挤g》《天津外國語大學(xué)學(xué)報(bào)》等刊物發(fā)表學(xué)術(shù)論文 30 余篇,出版學(xué)術(shù)專著、譯著、教材 8 部。學(xué)術(shù)興趣包括語言測試與評價(jià)、學(xué)術(shù)翻譯、話語研究、社會(huì)研究方法等。
陳瑞哲
西安外國語大學(xué)在讀博士,西安郵電大學(xué)人文與外國語學(xué)院講師。發(fā)表學(xué)術(shù)論文10余篇,出版書籍5部,譯著2部。曾獲陜西省第十五次哲學(xué)社會(huì)科學(xué)優(yōu)秀成果獎(jiǎng)二等獎(jiǎng),陜西高等學(xué)校人文社會(huì)科學(xué)研究優(yōu)秀成果三等獎(jiǎng)。研究興趣為文本挖掘和話語分析。
第一部分 基礎(chǔ)入門
第1章 文本挖掘和文本分析
第2章 數(shù)據(jù)獲取
第3章 研究倫理
第4章 哲學(xué)和邏輯基礎(chǔ)
第二部分 研究設(shè)計(jì)和基礎(chǔ)工具
第5章 研究設(shè)計(jì)
第6章 網(wǎng)絡(luò)抓取和網(wǎng)絡(luò)爬蟲
第三部分 文本挖掘基礎(chǔ)
第7章 詞匯資源
第8章 基礎(chǔ)文本處理
第9章 監(jiān)督學(xué)習(xí)
第四部分 人文社會(huì)科學(xué)與文本分析
第10章 敘事分析
第11章 主題分析
第12章 隱喻分析
第五部分 計(jì)算機(jī)科學(xué)與文本挖掘
第13章 文本分類
第14章 觀點(diǎn)挖掘
第15章 信息抽取
第16章 主題模型
第六部分 寫作和展示
第17章 成果撰寫和展示
附錄A 數(shù)據(jù)資源
附錄B 文本處理和清洗軟件
附錄C 文本分析軟件
附錄D 質(zhì)性數(shù)據(jù)分析軟件
附錄E 觀點(diǎn)挖掘軟件
附錄F 索引和關(guān)鍵詞頻軟件
附錄G 可視化軟件
附錄H 統(tǒng)計(jì)工具
附錄I 網(wǎng)絡(luò)資源
術(shù)語表
參考文獻(xiàn)