引言
中国人民大学心理学系张清芳团队在《Scientific Data》期刊发表了题为《Open access dataset integrating behavioral and EEG measures in Chinese spoken word production》的数据论文,该研究整合了87名汉语母语者在四项汉语口语产生实验中的行为与脑电数据,首次提供了标准化的多模态公开数据集,系统探究了汉语母语者在词汇产生过程中音节与音素的加工机制,为理解声调语言的音韵编码过程提供了宝贵资源,并为开展跨语言比较研究提供了重要数据基础。
研究背景与科学问题
语言产生是一个复杂的认知过程,包括概念准备、词汇选择、音韵编码、语音编码和发音等多个阶段。其中,音韵编码是连接词汇语义表征与发音运动的关键环节,其核心争议在于不同语言中音韵编码的“最小功能单位”是否存在差异。已有研究表明,区别于英语、荷兰语等字母语言,汉语母语者在词汇产生中更依赖音节而非音素作为基本编码单位,表现出显著的“音节效应”——即当启动词与目标词共享音节时,命名反应更快、更准确。然而,目前缺乏同时记录行为与神经活动(如EEG)的公开数据集,尤其缺乏针对汉语这类声调语言的系统资源。基于此,研究旨在构建首个整合行为与EEG的汉语口语产生公开数据集并对其进行描述和技术验证,为后续研究提供标准化、可复用的多模态数据支持。。
研究方法
数据集包含四个实验,均以“图片命名”为核心任务,采用掩蔽启动范式(masked priming paradigm)和图-词干扰任务(picture-word interference)两种范式,共纳入87名汉语母语者被试(年龄17–26岁,男女均衡)。实验材料包括88张常见物体的黑白线条图,命名方式涵盖单音节与双音节词。其中实验1和2采用掩蔽启动范式,在该任务中,目标图片出现前会短暂呈现一个启动字,被试需忽略启动字,只对目标图片进行命名;实验3和4采用图-词干扰任务,在该任务中,目标图片上会叠加一个干扰汉字,被试需要忽略干扰字并命名图片。所有实验均避免语义或正字法重叠,并通过统计检验确保各条件在词频和笔画数上无显著差异。
数据内容与结构
数据集通过Open Science Framework(OSF)平台公开发布(https://doi.org/10.17605/OSF.IO/NMKE5),包含以下内容:
原始行为数据: trial级别的反应时与准确率;
原始EEG数据: 未处理的.cnt格式文件;
预处理后的EEG分段数据: 按实验条件分段后的数据;
分条件平均后的波幅数据:各实验条件下的平均波幅数据;
刺激材料: 所用图片与文字材料;
分析脚本: 用于数据预处理与统计验证的MATLAB与R代码。
主要研究发现
通过对“音节相关”与“音节无关”条件的比较对行为和脑电数据进行技术验证,结果发现:
行为层面:
行为数据质量:所有实验条件的有效试次保留率均>90%,准确率均超过90%,且反应时具有相似的分布特征,符合汉语图片命名基准范围(700-900ms),证明范式与数据有效性;
音节效应稳定性:音节相关条件下的反应时更短(701 ms vs. 722 ms),准确率更高(93.74% vs. 92.78%),表现出稳定的音节促进效应;

图1 不同条件下的准确率与反应时分布箱型图,验证数据集与音节加工基准的一致性。音节相关条件与音节无关条件下的(a)准确率分布和(b)反应时(ms)分布。
脑电层面:
EEG数据质量:信噪比分析表明,所有实验的EEG信号质量良好(SNR > 15 dB),有效试次保留率达71.14%-93.47%,数据质量稳定可靠;
音节效应稳定性:通过数据驱动的基于簇的置换检验发现,各实验音节效应显著的时间窗范围为242-496ms(覆盖汉语音韵编码的关键阶段),效应主要分布于前额、中央和顶叶区域,与以往研究一致;
统计检验力:各实验音节效应的 Cohen’s d 值均为中等效应量,统计检验力均>80%(80.00%-86.15%),确保结果可靠。

图2 不同条件下的事件相关电位(ERP)波形图,验证音节加工的神经关联性。通过数据驱动的基于簇的置换检验识别出的显著电极点上的平均ERP波幅,分析时窗为图片呈现前100 ms至后500 ms。阴影区域表示条件差异显著的时间窗口(实验1:348-424 ms;实验2:334-436 ms;实验3:326-496 ms;实验4:242-342 ms)。实验范式:(a)掩蔽启动范式(实验1);(b)掩蔽启动范式(实验2);(c)图-词干扰任务(实验3);(d)图-词干扰任务(实验4)。
主要结论和学术价值
该数据集是首个公开的、同步记录行为与脑电的汉语口语产生数据集,技术验证结果一致表明,音节是汉语音韵编码的核心单位,该数据集能有效捕捉到音节加工的神经过程。具有以下价值:
填补研究空白:首次公开声调语言音韵编码的多模态整合数据,揭示音节加工的时空动态,弥补现有资源缺失的局限;
支持多方法分析:适用于时域分析、时频分析、微态分割分析等进一步分析方法;
促进开放科学:提供完整的数据与代码,支持重复使用与后续扩展研究;
助力跨语言研究:可为双语或多语研究提供基础数据,探究语言特异性对音韵编码的影响。
论文信息
题目: Open access dataset integrating behavioral and EEG measures in Chinese spoken word production
期刊: Scientific Data (IF = 8.7, SCIE, JCR: Q1)
DOI: 10.1038/s41597-025-05671-9
作者: 谭成慧(第一作者),张清芳(通讯作者)
引用:Tan, C., & Zhang, Q. (2025). Open access dataset integrating behavioral and EEG measures in Chinese spoken word production. Scientific Data, 12(1), 1348.
数据链接: https://doi.org/10.17605/OSF.IO/NMKE5
原文链接:https://doi.org/10.1038/s41597-025-05671-9
联系方式:qingfang_zhang@ruc.edu.cn