您所在的位置:首页 - 科学研究 - 学术前沿

学术前沿

【研究速递】张清芳团队发布首个汉语口语产生中行为与EEG整合的开放数据集

引言

中国人民大学心理学系张清芳团队在《Scientific Data》期刊发表了题为《Open access dataset integrating behavioral and EEG measures in Chinese spoken word production》的数据论文,该研究整合了87名汉语母语者在四项汉语口语产生实验中的行为与脑电数据,首次提供了标准化的多模态公开数据集,系统探究了汉语母语者在词汇产生过程中音节与音素的加工机制,为理解声调语言的音韵编码过程提供了宝贵资源,并为开展跨语言比较研究提供了重要数据基础。

研究背景与科学问题

语言产生是一个复杂的认知过程,包括概念准备、词汇选择、音韵编码、语音编码和发音等多个阶段。其中,音韵编码是连接词汇语义表征与发音运动的关键环节,其核心争议在于不同语言中音韵编码的“最小功能单位”是否存在差异。已有研究表明,区别于英语、荷兰语等字母语言,汉语母语者在词汇产生中更依赖音节而非音素作为基本编码单位,表现出显著的音节效应”——即当启动词与目标词共享音节时,命名反应更快、更准确。然而,目前缺乏同时记录行为与神经活动(如EEG)的公开数据集,尤其缺乏针对汉语这类声调语言的系统资源。基于此,研究旨在构建首个整合行为与EEG的汉语口语产生公开数据集并对其进行描述和技术验证,为后续研究提供标准化、可复用的多模态数据支持。。

研究方法

数据集包含四个实验,均以“图片命名”为核心任务,采用掩蔽启动范式masked priming paradigm)和-词干扰任务picture-word interference)两种范式,共纳入87名汉语母语者被试(年龄17–26岁,男女均衡)。实验材料包括88张常见物体的黑白线条图,命名方式涵盖单音节与双音节词。其中实验12采用掩蔽启动范式,在该任务中,目标图片出现前会短暂呈现一个启动字,被试需忽略启动字,只对目标图片进行命名;实验34采用图-词干扰任务,在该任务中,目标图片上会叠加一个干扰汉字,被试需要忽略干扰字并命名图片。所有实验均避免语义或正字法重叠,并通过统计检验确保各条件在词频和笔画数上无显著差异。

数据内容与结构

数据集通过Open Science FrameworkOSF)平台公开发布(https://doi.org/10.17605/OSF.IO/NMKE5),包含以下内容:

  • 原始行为数据trial级别的反应时与准确率;

  • 原始EEG数据: 未处理的.cnt格式文件;

  • 预处理后的EEG分段数据: 按实验条件分段后的数据;

  • 分条件平均后的波幅数据:各实验条件下的平均波幅数据;

  • 刺激材料: 所用图片与文字材料;

  • 分析脚本: 用于数据预处理与统计验证的MATLABR代码。

主要研究发现

通过对音节相关音节无关条件的比较对行为和脑电数据进行技术验证,结果发现:

  • 行为层面

  1. 行为数据质量:所有实验条件的有效试次保留率均>90%,准确率均超过90%,且反应时具有相似的分布特征,符合汉语图片命名基准范围(700-900ms),证明范式与数据有效性;

  2. 音节效应稳定性:音节相关条件下的反应时更短(701 ms vs. 722 ms),准确率更高(93.74% vs. 92.78%),表现出稳定的音节促进效应;



image.png

1 不同条件下的准确率与反应时分布箱型图,验证数据集与音节加工基准的一致性。音节相关条件与音节无关条件下的(a)准确率分布和(b)反应时(ms)分布。

  • 脑电层面

  1. EEG数据质量:信噪比分析表明,所有实验的EEG信号质量良好(SNR > 15 dB),有效试次保留率达71.14%-93.47%,数据质量稳定可靠;

  2. 音节效应稳定性:通过数据驱动的基于簇的置换检验发现,各实验音节效应显著的时间窗范围为242-496ms(覆盖汉语音韵编码的关键阶段),效应主要分布于前额、中央和顶叶区域,与以往研究一致;

  3. 统计检验力:各实验音节效应的 Cohen’s d 值均为中等效应量,统计检验力均>80%80.00%-86.15%),确保结果可靠。


image.png

2 不同条件下的事件相关电位(ERP)波形图,验证音节加工的神经关联性。通过数据驱动的基于簇的置换检验识别出的显著电极点上的平均ERP波幅,分析时窗为图片呈现前100 ms至后500 ms。阴影区域表示条件差异显著的时间窗口(实验1348-424 ms;实验2334-436 ms;实验3326-496 ms;实验4242-342 ms)。实验范式:(a)掩蔽启动范式(实验1);(b)掩蔽启动范式(实验2);(c)图-词干扰任务(实验3);(d)图-词干扰任务(实验4)。

主要结论和学术价值

该数据集是首个公开的、同步记录行为与脑电的汉语口语产生数据集,技术验证结果一致表明,音节是汉语音韵编码的核心单位,该数据集能有效捕捉到音节加工的神经过程。具有以下价值:

  1. 填补研究空白:首次公开声调语言音韵编码的多模态整合数据,揭示音节加工的时空动态,弥补现有资源缺失的局限;

  2. 支持多方法分析:适用于时域分析、时频分析、微态分割分析等进一步分析方法;

  3. 促进开放科学:提供完整的数据与代码,支持重复使用与后续扩展研究;

  4. 助力跨语言研究:可为双语或多语研究提供基础数据,探究语言特异性对音韵编码的影响。

论文信息

题目: Open access dataset integrating behavioral and EEG measures in Chinese spoken word production
期刊: Scientific Data (IF = 8.7, SCIE, JCR: Q1)
DOI 10.1038/s41597-025-05671-9
作者: 谭成慧(第一作者),张清芳(通讯作者)
引用:Tan, C., & Zhang, Q. (2025). Open access dataset integrating behavioral and EEG measures in Chinese spoken word production. Scientific Data, 12(1), 1348.

数据链接: https://doi.org/10.17605/OSF.IO/NMKE5

原文链接:https://doi.org/10.1038/s41597-025-05671-9

联系方式:qingfang_zhang@ruc.edu.cn

 

版权所有©️中国人民大学心理学系 京公网安备110402430004号 | 京ICP备05066828号-1

地址:北京市海淀区中关村大街59号汇贤大厦D座10层

邮编:100872

电话:010-82509716

邮箱:psych@ruc.edu.cn(心理学系)

          jyxldw@163.com(教育学院和心理学系党委)