语言影响评估：文本转换项目中的自动预测与现实比较

Online-only Publikationen des Leibniz-Instituts für Deutsche Sprache Pub Date : 2024-06-10 DOI:10.21248/idsopen.7.2024.15

Norman Fiedler, Christoph Köller, Jutta Bopp, F. Schneider

{"title":"语言影响评估：文本转换项目中的自动预测与现实比较","authors":"Norman Fiedler, Christoph Köller, Jutta Bopp, F. Schneider","doi":"10.21248/idsopen.7.2024.15","DOIUrl":null,"url":null,"abstract":"Empirische Ansätze halten zunehmend Einzug in die Methodik und Herangehensweise geisteswissenschaftlicher Forschung. Die Sprachwissenschaften stützen sich zunehmend auf Forschungsdaten und Sprachmodelle, um ein digitales Bild natürlicher Sprachen zu erzeugen. Auf dieser Grundlage wird es möglich, entlang nutzerspezifischer Suchanfragen des distant reading automatisiert semantische Muster in Texten zu erkennen. Seit mithilfe solcher Modelle, etwa in Suchmaschinen, webbasierten Übersetzungs- oder Konversationstools, sprachliche Informationen maschinell in sinnhaften Zusammenhängen reproduziert werden können, sind die Implikationen sogenannter Künstlicher Intelligenz (KI) zu einem Thema im gesamtgesellschaftlichen Diskurs avanciert. Vielen Linguisten ist es deshalb ein Anliegen, ihre Erkenntnisse für neue Anwendungsfelder jenseits ihrer unmittelbaren disziplinären Umgebung zu öffnen und zu einer fundierten Debatte beizutragen. Dieser Feststellung gegenüber steht die Einsicht, dass Forschungsergebnisse aller Disziplinen zwar archiviert, aber mangels gezielter Interpretierbarkeit großer und komplexer Datenmengen häufig für diesen breiten Diskurs nicht genutzt werden. Ein nachweisbarer Impact bleibt aus. An dieser Schnittstelle erarbeitet das vom Bundesministerium für Bildung und Forschung (BMBF) finanzierte Projekt TextTransfer einen Ansatz, um per distant reading auf Art und Wahrscheinlichkeit eines gesellschaftlichen, wirtschaftlichen oder politischen Impacts textgebundenen Forschungswissens zu schließen. Zu diesem Zweck baut TextTransfer ein maschinelles Lernverfahren auf, das auf empirischem Erfahrungswissen zu Impacterfolgen von Forschungsprojekten fußt. Als wesentlicher Baustein dieses Erfahrungsgewinns gilt die Verifizierbarkeit der Lernergebnisse. Der vorliegende Artikel zeigt einen ersten Ansatz im Projekt, ein Sprachmodell in einem gesteuerten Lernverfahren mit belastbaren Lerndaten zu trainieren, um möglichst hohe Präzision im Impact-Assessment zu erreichen.","PeriodicalId":350471,"journal":{"name":"Online-only Publikationen des Leibniz-Instituts für Deutsche Sprache","volume":"103 11","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-06-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Linguistisches Impact-Assessment: Maschinelle Prognose mit Realitätsabgleich im Projekt TextTransfer\",\"authors\":\"Norman Fiedler, Christoph Köller, Jutta Bopp, F. Schneider\",\"doi\":\"10.21248/idsopen.7.2024.15\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Empirische Ansätze halten zunehmend Einzug in die Methodik und Herangehensweise geisteswissenschaftlicher Forschung. Die Sprachwissenschaften stützen sich zunehmend auf Forschungsdaten und Sprachmodelle, um ein digitales Bild natürlicher Sprachen zu erzeugen. Auf dieser Grundlage wird es möglich, entlang nutzerspezifischer Suchanfragen des distant reading automatisiert semantische Muster in Texten zu erkennen. Seit mithilfe solcher Modelle, etwa in Suchmaschinen, webbasierten Übersetzungs- oder Konversationstools, sprachliche Informationen maschinell in sinnhaften Zusammenhängen reproduziert werden können, sind die Implikationen sogenannter Künstlicher Intelligenz (KI) zu einem Thema im gesamtgesellschaftlichen Diskurs avanciert. Vielen Linguisten ist es deshalb ein Anliegen, ihre Erkenntnisse für neue Anwendungsfelder jenseits ihrer unmittelbaren disziplinären Umgebung zu öffnen und zu einer fundierten Debatte beizutragen. Dieser Feststellung gegenüber steht die Einsicht, dass Forschungsergebnisse aller Disziplinen zwar archiviert, aber mangels gezielter Interpretierbarkeit großer und komplexer Datenmengen häufig für diesen breiten Diskurs nicht genutzt werden. Ein nachweisbarer Impact bleibt aus. An dieser Schnittstelle erarbeitet das vom Bundesministerium für Bildung und Forschung (BMBF) finanzierte Projekt TextTransfer einen Ansatz, um per distant reading auf Art und Wahrscheinlichkeit eines gesellschaftlichen, wirtschaftlichen oder politischen Impacts textgebundenen Forschungswissens zu schließen. Zu diesem Zweck baut TextTransfer ein maschinelles Lernverfahren auf, das auf empirischem Erfahrungswissen zu Impacterfolgen von Forschungsprojekten fußt. Als wesentlicher Baustein dieses Erfahrungsgewinns gilt die Verifizierbarkeit der Lernergebnisse. Der vorliegende Artikel zeigt einen ersten Ansatz im Projekt, ein Sprachmodell in einem gesteuerten Lernverfahren mit belastbaren Lerndaten zu trainieren, um möglichst hohe Präzision im Impact-Assessment zu erreichen.\",\"PeriodicalId\":350471,\"journal\":{\"name\":\"Online-only Publikationen des Leibniz-Instituts für Deutsche Sprache\",\"volume\":\"103 11\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2024-06-10\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Online-only Publikationen des Leibniz-Instituts für Deutsche Sprache\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.21248/idsopen.7.2024.15\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Online-only Publikationen des Leibniz-Instituts für Deutsche Sprache","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/idsopen.7.2024.15","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

摘要

实证方法正越来越多地进入人文科学研究的方法和途径。语言学越来越多地依靠研究数据和语言模型来生成自然语言的数字图像。在此基础上，可以根据用户特定的远距离阅读搜索查询，自动识别文本中的语义模式。由于语言信息可以在这些模型的帮助下，在有意义的语境中机械地再现，例如在搜索引擎、网络翻译或对话工具中，所谓的人工智能（AI）的影响已成为整个社会讨论的话题。因此，许多语言学家都热衷于将自己的研究成果应用到其直接学科环境之外的新领域，并为一场有理有据的辩论做出贡献。与此形成鲜明对比的是，尽管所有学科的研究成果都已存档，但由于缺乏对大量复杂数据的有针对性的解释，这些成果往往不能用于这种广泛的讨论。没有明显的影响。在这一界面上，由联邦教育与研究部（BMBF）资助的 "文本传递"（TextTransfer）项目正在开发一种方法，利用远距离阅读来推断基于文本的研究知识所产生的社会、经济或政治影响的类型和概率。为此，TextTransfer 正在开发一种基于研究项目影响经验知识的机器学习程序。学习结果的可验证性是这种经验知识的重要组成部分。本文展示了该项目中的一种初步方法，即通过可靠的学习数据，在可控的学习过程中训练语言模型，以实现尽可能高的影响评估精度。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

Linguistisches Impact-Assessment: Maschinelle Prognose mit Realitätsabgleich im Projekt TextTransfer

Empirische Ansätze halten zunehmend Einzug in die Methodik und Herangehensweise geisteswissenschaftlicher Forschung. Die Sprachwissenschaften stützen sich zunehmend auf Forschungsdaten und Sprachmodelle, um ein digitales Bild natürlicher Sprachen zu erzeugen. Auf dieser Grundlage wird es möglich, entlang nutzerspezifischer Suchanfragen des distant reading automatisiert semantische Muster in Texten zu erkennen. Seit mithilfe solcher Modelle, etwa in Suchmaschinen, webbasierten Übersetzungs- oder Konversationstools, sprachliche Informationen maschinell in sinnhaften Zusammenhängen reproduziert werden können, sind die Implikationen sogenannter Künstlicher Intelligenz (KI) zu einem Thema im gesamtgesellschaftlichen Diskurs avanciert. Vielen Linguisten ist es deshalb ein Anliegen, ihre Erkenntnisse für neue Anwendungsfelder jenseits ihrer unmittelbaren disziplinären Umgebung zu öffnen und zu einer fundierten Debatte beizutragen. Dieser Feststellung gegenüber steht die Einsicht, dass Forschungsergebnisse aller Disziplinen zwar archiviert, aber mangels gezielter Interpretierbarkeit großer und komplexer Datenmengen häufig für diesen breiten Diskurs nicht genutzt werden. Ein nachweisbarer Impact bleibt aus. An dieser Schnittstelle erarbeitet das vom Bundesministerium für Bildung und Forschung (BMBF) finanzierte Projekt TextTransfer einen Ansatz, um per distant reading auf Art und Wahrscheinlichkeit eines gesellschaftlichen, wirtschaftlichen oder politischen Impacts textgebundenen Forschungswissens zu schließen. Zu diesem Zweck baut TextTransfer ein maschinelles Lernverfahren auf, das auf empirischem Erfahrungswissen zu Impacterfolgen von Forschungsprojekten fußt. Als wesentlicher Baustein dieses Erfahrungsgewinns gilt die Verifizierbarkeit der Lernergebnisse. Der vorliegende Artikel zeigt einen ersten Ansatz im Projekt, ein Sprachmodell in einem gesteuerten Lernverfahren mit belastbaren Lerndaten zu trainieren, um möglichst hohe Präzision im Impact-Assessment zu erreichen.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Online-only Publikationen des Leibniz-Instituts für Deutsche Sprache

自引率

0.00%

发文量