跳到主要内容

使用声音理解蛋白质序列数据:蛋白质序列和多序列比对的新超声算法

摘要

出身背景

使用声音来表示序列数据——超声波——作为视觉表示的替代和补充具有巨大的潜力,利用人类心理声学直觉的特征来更有效地传达细微差别。我们已经创建了五种参数映射声波化算法,旨在从蛋白质序列和小蛋白质多序列比对中改进知识发现。对于其中的两种算法,我们研究了它们在传递信息方面的有效性。为此,我们专注于用户体验的主观评估。这需要一个焦点小组会议和问卷调查研究的个人从事生物信息学研究。

结果

对于单一的蛋白质序列,我们的声波传输特性的成功得到了调查和焦点小组的发现的支持。对于蛋白质的多序列比对,只有有限的证据表明超声波成功地传递了信息。需要额外的工作来确定有效的算法,使多序列比对声波化对研究人员有用。从我们的调查和焦点小组的反馈中,我们提出了多校准的音响化的未来方向:随着音响化的进展,显示多个校准中的列的动画可视化,用户控制序列导航,以及自定义声音参数。

结论

在这项工作中采用的声波化方法在从蛋白质序列数据传递信息方面显示了一些成功。反馈指出了在本文概述的超声化方法基础上的未来发展方向。在这项工作中实施的有效性评估过程证明是有用的,根据最终用户的投入提供了详细的反馈和关键的改进方法。以类似的用户体验为重点的有效性评估也可以帮助生物信息学的其他领域,例如可视化。

同行审查报告

出身背景

用声音来代表数据,利用我们的心理声学直觉的特点,在科学研究中有着悠久的历史。伽利略利用人类固有的拍子感来测量球沿斜面向下的加速度[1].汉斯·盖格和沃尔特·穆勒发明了一种计数器,可以监测当地的辐射水平,而不需要检查刻度盘。2]当代广告研究指出,当我们不注意广播广告时,广播广告仍然有效[3.].

声波化是现代术语,指的是使用非语言的声音来传达信息[4].在实践中,超声波增强了数据可视化方法,包括声音,它可以代替或与视觉信息一起使用。与许多静态可视化不同,任何包含声音的显示都必须包含时间方面。参数映射超声(PMSon)将数据特征映射到声音合成参数,例如通过心率监测器的哔哔声的音调来监测病人的氧饱和度。5]然而,多维数据的多样性和可理解性带来了挑战。在直观、愉悦和精确的声音之间找到平衡是PMSon设计的关键[6].

随着新技术(如单细胞或单分子DNA测序)产生的基因组和蛋白质组数据的数量和复杂性迅速增加,自动化分析方法(如聚类、建模、机器学习)在生命科学中的采用也越来越多。这些自动分析仅对知识发现来说是不够的,领域专家必须检查数据以确证分析。数据可视化是专家检查数据的关键方法。随着数据的增加,可视化方法需要进一步创新[7].多序列比对(MSA)是生物数据的一个例子,其中一种新的表示方法可能很有希望。MSA是由一组生物序列(例如蛋白质)创建的矩阵。序列通过缺口插入进行修改,以创建多向、高分对齐。生物学家使用MSA预测蛋白质结构的各个方面并识别蛋白质域;推断序列同源性和进化关系;识别蛋白质紊乱、功能和定位;了解基因组重排;估计进化率[8].

MSA可视化软件包对于生命科学家来说是必不可少的工具,然而由于氨基酸的复杂特性,MSA可视化常常以过载告终[9].这种复杂性通常通过颜色表现出来,这可能是不包括的,因为大约5%的人是色盲[10].一般来说,科学严重依赖视觉资源,盲人/部分视力的学生无法获得这些资源,除非以另一种形式呈现[11].即使是视力正常的非色盲用户,数据量也可能太多,无法显示在屏幕上,导航可能会很混乱。

先前的研究已经证明,分子信息可以被声学化,得到积极的结果[12],并成功地展示了DNA和蛋白质序列数据[1314]及3D蛋白质结构[15].我们认为,参数映射超声可用于改善MSA可视化,满足蛋白质序列可视化创新的需要,并为科学传播创造高质量的低成本内容。

我们的目标是利用人类心理声学直觉的多样性和力量来解决蛋白质组学问题。本文提出了五种用声音表示蛋白质序列数据的声波化算法。这些算法创造了代表单个蛋白质序列或蛋白质mas的sonics。我们通过问卷调查和焦点小组,通过最终用户评估算法作为解决生物信息学启发任务的辅助来评估这些算法在传递信息方面的有效性。

方法

两种硬件用于生成sonification:一台运行Scientific Linux 7.6(氮气)发行版的桌面计算机,其Linux内核版本为3.10.0 -957.12.1.el7。并且,由于Sonic Pi在Scientific linux上不受支持,因此运行了Raspberry Pi的4273pi变体的1.5版的Raspberry Pi [16].

使用了Perl(v5.16.3)和Sonic Pi(v3.1.0)。数据流如图所示。1具体如下:

  1. 1.

    输入:Fasta格式的序列。

  2. 2.

    在Linux桌面上使用Perl:从序列生成Sonic Pi代码。

  3. 3.

    在树莓派上使用Sonic Pi:从代码中生成声音。

  4. 4.

    输出:声音文件。

图1
图1

说明了声波化算法的设计过程和数据流程。每一种算法(I-V)都由一条不同的路径表示,该路径贯穿图表的中心,将数据特征与用于表示它的声音合成参数连接起来。数据流从FASTA文件输入,通过Linux机器上的Perl算法,然后通过Raspberry Pi机器上的Sonic Pi,然后以声音文件的形式输出。这幅插图的灵感来自[6](他们的图15.1),其中还包括数据特征和声音合成之间的划分

通过构建和修改一个Perl脚本,编写sonify DNA [17],我们开发了五种参数映射声波化算法(算法I-V)。算法脚本可以在我们的GitHub存储库中找到[18],并在网上的补充资料中存档[19].

每一种算法都将氨基酸在蛋白质序列或MSA中的位置映射到时间,创造出隐喻根据你的年龄和背景,可以选择活页乐谱或打印纸、留声机或黑胶唱片、盒式磁带或dat磁带、cd或迷你唱片、音乐盒或自动钢琴播放器。这些隐喻影响了我们的声音设计。

我们设置了合成器的信封袭击参数为零,给予立即的注意开始,并创造一个有规律的跳动脉冲的感觉在声波。我们使用不同的合成器来区分输入数据类型,使用正弦蛋白质序列声学合成(算法I和算法II)和看到(算法IV和算法V)。算法III使用多个合成器,所以没有遵循这个模式。所有合成器的选择都是为了快速准确地传达音高,同时保持我们所寻求的音频隐喻,让耳朵感到愉悦。

我们的算法都使用MIDI数字来表示音调,就像在Sonic Pi中使用的那样。MIDI数字是一个整数,通常在0到127之间,每个数字代表西方调性音乐中的半音符音高。用于实时发送音乐控制的MIDI语言是行业标准[20].

算法一:蛋白质序列疏水性

受Hayashi和Munakata的研究启发,为了将单个蛋白质序列声学化,这种声学化将20个氨基酸映射到20个MIDI音高,基于它们的疏水性[21].与他们的方法不同的是,我们使用更小的音高范围来帮助听者进行模式识别,并从Goldman, Engelman, and Steitz (GES)疏水性量表中获得我们的相对音高,该量表有实验基础,采用半理论方法。GES基于α-螺旋残基的能量考虑[22].GES以分数表示疏水性。因此氨基酸呈线性排列。

通过从疏水到亲水的GES排序,我们开始将最疏水的残基苯丙氨酸映射到MIDI数字50。顺序中每个随后的残基分配一个MIDI数,等于前面氨基酸的MIDI数加上两个氨基酸之间GES分数的增量。这是四舍五入到最接近的整数,以给出一个MIDI数字,并确保一个一对一的映射。这个映射在表中有详细说明1和无花果。2

figurea
表1利用GES评分从氨基酸到MIDI音高数的映射[22
图2
figure2

详细描述我们的疏水性标度根据表中的数据发展而来1这种氨基酸到沥青的映射用于算法I、III和V

算法二:蛋白质序列简化字母表

在这里,我们采用了一种不同的方法来实现单个蛋白质序列的超声波化。它的灵感来自金和安格斯的作品[23],其算法使用简化的字母表将20个氨基酸简化为由四个字母组成的表示形式。在我们的算法中,简化字母表的每个字母代表一组疏水性相似的氨基酸[24].我们为每个组别分配了音高,并为他们分配了一个与C大调五声音阶前4个音符相对应的MIDI音高。他们被分为以下几组:具有MIDI音高67的FILVWY、具有MIDI音高64的ACGMP、具有MIDI音高62的KQST和具有MIDI音高60的DEHNR。

算法三:蛋白质序列疏水性和简化字母表

为了结合算法I的细节和算法II的更广泛的分辨率来确定单个蛋白质序列,我们将这两种方法结合起来。我们使用了表中详细说明的算法I的基于GES比例尺的映射1和无花果。2为了确定音高,我们通过使用不同的仪器在索尼克Pi中为每个简化的字母组。合成器的分配如下钢琴;ACGMP来正弦;KQST至摘下;和DEHNRtb303

figureb

算法四:MSA熵

我们的第一个MSA超声化方法涉及更高层次的信息,从PROMUSE软件系统中获得了一些灵感[15].我们的算法给出一个单音输出,每个音符代表MSA的一列。音符的音调代表了MSA中相应位置的蛋白质的保守程度,列中种类越多音调越高。因此,高音区域越多,保护就越少,反之亦然。我们通过计算香农熵来测量MSA中每一列的多样性,香农熵越大,柱的多样性就越多[25].

H的香农熵-th列,定义为:

$ $ H_{我}= - \ mathop \总和\ limits_ {J} p_ {jk} \ log_{2} \离开({p_ {jk}} \右)$ $

在哪里在J k \ (j_ {} \ \)k中唯一的氨基酸符号(包括空格字符' - ')-第列,以及

$p_{jk} = {frac{{\tilde{j}_{k}}{n}$

在哪里\ \(波浪号{j} _ {k} \)这算什么\ (j_ {k} \)-第列,以及n为MSA中蛋白质的数量。

这会为MSA的每一列输出一个值。为了将这些值映射到MIDI数字,我们使用了所有列熵值集的z分数标准化。然后,我们将其缩放到MIDI范围0–127内的可列出范围,并取下限值来给出一个整数。我们的输出数据集\ (H ^ {*} \)MIDI数字的集合由转换后的数据点组成\ (H_{我}^ {*}\)这样:

$ $ H_{我}^{*}= \压裂{{H_{我}- \眉题{H}}} {{s_ {H}}} \ cdot \, 10 + 60 $ $

在哪里H数据点是否在转换中,并且\(\第{H}\行上)年代H是所有列熵集的平均值和标准偏差(除以n-1)H。加上60意味着音高将集中在中间C(MIDI数字60)附近,按10的比例缩放可以创建一个可管理的音符排列。这两个数字基于个人偏好。

figurec

算法V: MSA疏水性

这种方法使用算法I中描述的映射,同时对输入MSA的每一行进行sonalizing1和无花果。2.属性创建一个复音输出看到合成器。如果在多排中相同位置存在相同的残差,则相应音高的音符的音量增大。排列中的间隙不健全。例如,在大多数序列中,大声的单个音符代表一致,而安静的单个音符代表一个空白。这与算法I在几个方面形成了对比:输出是复调的,而不是看到合成器被用来代替正弦合成器,它将MSA作为输入,而不是单个蛋白质序列,并且体积变化表示有多少序列在MSA的该位置具有相同的残基。

有花纹的

例子sonifications

所有五种算法的示例可在https://sonifyed.com/bmc-bioinformatics-2021

蛋白质超声化(算法I、II和III)的例子包括跨膜蛋白、球状蛋白和无序蛋白,以及含有氨基酸重复序列(AAR)的蛋白。MSA超声(算法IV和V)的例子比较胰岛素和甘油醛3-磷酸脱氢酶的缺口和紧凑排列。缺口和紧凑的MSAs使用相同的输入序列和MUSCLE v3.8.31 [26].一个加波本惩罚− 3用于紧凑型MSA和 + 1适用于gappy MSA。

成效评估

评估声波化算法有效性的方法集中在生物信息学研究人员的用户体验上——生物信息学研究人员是该技术的目标最终用户。它主要是定性的,并植根于主观的现象学判断。它包括一个在线调查问卷和一个焦点小组会议。

招募的参与者

参与者是通过苏格兰生物信息学研究人员的三个邮件列表招募的:Ashworth生物信息学俱乐部(工作人员和研究生,重点是在爱丁堡大学的一栋大楼里工作的学生)爱丁堡的生物信息学(爱丁堡和苏格兰东南部研究机构的工作人员和研究生)NextGenBUG(苏格兰各地的专业人士)。

这些邮件列表中的抽样是非随机的。感兴趣的表达是有助于纳入样本的关键因素——每个表示感兴趣的人都被纳入。所有受访者都自我确认,他们符合我们的先进生物学知识标准。

问卷调查

该问卷以算法I和算法v为中心,允许对单个蛋白质超声化和MSA超声化进行评估,同时保持参与者的认知负荷较低,以确保响应质量。参与者使用sonification作为工具完成任务。问卷的PDF可于本署网页(https://sonifyed.com/bmc-bioinformatics-2021),通过GitHub [18],并已存档于我们的补充资料[19].与调查中使用的在线表单相比,我们将声音文件的密码保护URL替换为公开链接,使读者更容易自己尝试(尽管我们不再收集数据)。

任务1

氨基酸重复序列(AARs)是蛋白质中氨基酸的重复序列。它们在蛋白质的功能和进化中具有特殊的作用,但是人们对它们的了解很少,识别它们也很困难,因为不可能定义一个统一的标准来检测和验证各种重复模式[27].

在第一项任务中,参与者被要求使用算法I产生的超声波识别一个氨基酸重复。它有八个字母长,并连续重复四次。整个蛋白质序列的长度为253。参与者被告知该蛋白质含有一个“短氨基酸”(< 20个字母)氨基酸基序,或单词,重复四次”。他们还以从MView拍摄的图像的形式提供了蛋白质序列的基本可视化[28,没有使用配色方案。

任务2

蛋白质结构域是蛋白质中不同的单位。它们通常负责特定的功能或交互。相同的结构域可以在许多不同的蛋白质中找到,并且通常在每个蛋白质中执行相同的功能。msa是识别和评估蛋白质域保守性最广泛使用的方法之一[29].

在第二项任务中,参与者被要求在使用算法V创建的五个蛋白质序列的MSA的超声中识别三个保守域。用于创建MSA的所有蛋白质序列都包含两个SH3_1保守域示例和一个SH2保守域示例(PF00018和PF00017).参与者被告知“此MSA包含三个保守域(< 50个字母),并负责识别它们。他们还被提供了一个可视化的图像形式,来自MView,没有颜色方案。

响应

在尝试了每个任务后,参与者被展示了序列或多重排列,感兴趣的区域用明亮的颜色条突出显示(在多重排列的情况下,多重排列中的氨基酸被着色),并被问及以下三个问题

  1. 1.

    “声波化文件是否帮助您识别{重复motif}/{保守域}?”,回答“是/不是”。

  2. 2.

    “声音化最棒的地方是什么?”——自由文本回复。

  3. 3.

    “音响化最糟糕的是什么?”,并附上免费的短信回复。

工作负载

我们使用NASA任务负荷指数(TLX)来评估难度较大的第二个任务的主观心理负荷。它是一种主观的、多维的、定量的评估工具,用于评估任务的感知工作量[30.]独立研究人员已经证明了TLX的可靠性和有效性[3132]及其在文献中的频繁使用[33].

工作负荷分为六个分量表:挫折、努力、(自己的)表现、时间需求、身体需求和心理需求。参与者从0(低)到100(高)打分,他们的分数四舍五入到最近的5个单位。然后,参与者在六个分量表中的每一对中进行二元选择,并被要求选择哪个分量表对任务的工作量贡献最大。这15个二元选择与6个评分结合,得出一个加权分数。

焦点小组

我们的焦点小组有五名与会者,外加一名主持人。每个算法I到V都被提交给了小组。参与者获得了考虑中的蛋白质/MSA的MView可视化打印副本,没有颜色方案。录音和转录音频。

一个scissor-and-sort采用焦点小组文本内容分析方法,该方法高效、快速、经济[34].我们开发了一个分为五个部分的分类系统:审美判断、项目判断、分析判断、心理声学判断和对未来工作的建议。然后,我们为每个主题选择了具有代表性的陈述,并创建了对其含义的解释。

结果

问卷调查

我们的调查问卷吸引了五名参与者。这与其他超声化研究中高度专业化问卷内容的回收率相当[353637].我们对问卷的解释主要是基于定性分析而不是定量分析。因此,我们目前工作的问卷调查结果在性质和范围上与焦点小组相似。

所有参与者都报告了对生物序列数据的高水平经验(博士后研究或以上)。这些答复者的专门知识使我们相信,他们的反馈对就我们的声纳效应得出结论是有用的和有关的。他们的音乐经验从没有到大学水平(2到4年),这减轻了模糊的影响训练有素的耳朵或者是我们评价的伟大的音乐专长。

任务1

对于第一个关于算法I的任务,所有参与者都认为超声化有助于找到AAR。当被问及声音化的最大好处是什么时,参与者回答说,声音化“使重复的模式变得明显”,而且“从重复的声音中更容易注意到重复的序列,而不是从盯着看的字母中”。当被问及最糟糕的事情时,参与者抱怨说缺乏“一种轻松浏览声音文件的方法”,而且“很难将重复声音的位置映射到实际序列中”。他们还指出,与看顺序相比,“听需要一段时间”。

任务2

在关于算法V的第二项任务中,所有参与者都不认为声波化帮助他们识别了保守域。当被问及这种最棒的地方,他们回答说,“缺口对齐明显制造”,是“互补的方式代表数据”,“帮我确定第三域”,这是“广泛可能识别关注体积守恒的地区”。对于最糟糕的事情,参与者回答说“听起来很不舒服”,“很难听到保护区的声音”,“很难记住我在序列中的位置”。

参与者在第二项任务中的NASA-TLX分数(表2)显示参与者的考虑心理需求,努力,挫败是影响这项任务工作量的最重要因素。物理需求被认为是对任务工作量的最小贡献。与780多个已发表的TLX结果相比,该任务的总体工作量得分位于第6十分位数[33].

表2 NASA Task Load Index (TLX)的结果来自于问卷的Task 2,由5个回答组成

焦点小组

焦点小组由两名博士后研究人员和三名博士研究人员组成。他们来自三个不同的国家(横跨欧洲和北美),使用三种不同的母语(都是印欧语)。这种规模的焦点小组适合于促进深入讨论[34].

各算法的代表性陈述可在补充材料中找到[19].

项目判断

焦点小组对整个项目持积极态度。“我认为,对于你的项目,你不需要考虑它是否可行,因为你已经证明了它是可行的,但你能与现在使用的东西竞争吗?”。参与者对该方法对视力受损的科学家的实用性非常积极,尽管他们都是全视力的。参与者经常表示,特定的方法,如算法II中的简化字母表是一个好主意,但可能并非在所有情况下都有用。他们认为该方法的主要用途如下:最初的“过滤”数据的方式。

心理声学的判断

焦点小组很容易就掌握了所有算法的音频隐喻,除了算法III,在算法III中,他们发现不同乐器的概念对应于字母表中的每个字母,打乱了他们对音高-疏水性隐喻的理解。参与者表示,他们可以通过声音“识别当前发生了什么”,但过不了多久就记不住了。参与者发现,他们对声音的哪些方面最突出有不同的看法。

对今后工作的建议

由于研究问题的多样性,参与者想要定制:声音的极性(即高音调是否对应于高或低疏水性),这种可视化的速度,声音文件中的导航,声音的分类步骤大小,仪器,减少字母的使用。他们还想在声音化的同时用视觉表现位置,一位参与者甚至建议使用“卡拉ok那样的球”。

审美判断

不同的审美反应反映了焦点群体的热情——“混乱,但不是完全混乱”和“比预期更加多样化”。参与者将其与“恐怖电影”的配乐直接比较,特别是约翰·卡彭特的配乐。一位参与者巧妙地破解了“容易倾听的蛋白质”。算法V引发了最强烈的反应,被描述为“最奇怪的声音”,“不符合音乐的正常结构”,以及“像有人在敲击音符”。所有这些之后,对声音的反应更加深入和积极。

分析判断

当听使用算法I(与问卷中的第一个任务相同)进行的发声时,所有参与者都同意他们“真的能听到”。他们从事的是声化社会学家亚历山德拉·普雷斯特(Alexandra Super)所说的工作sonification卡拉ok通过唱出他们听到的相关的东西[38].这传达了参与者对方法的热情和听到主题时的兴奋。

针对使用算法II产生的简化字母音高,焦点小组发现很难区分狭窄的音高范围。

算法III使用工具表示简化的字母映射,而音高仍然映射到疏水性比例。参与者一致认为,不同的乐器很清楚地传达了不同的减少字母组,但是要听出乐器内部音高的差异要困难得多。研究小组认为简化的字母表是为了简化听者的发音,但是加入疏水性音高会破坏这种简化。

参与者认为高级熵声化算法IV“易于区分高度保守区域和非高度保守区域”。然而,参与者也同意,不容易理解这些区域之间的声音。

参与者发现算法V产生的声波比其他算法更不清晰。他们一致认为,使用声波作为唯一的信息来源是困难的,如果没有位置指示或视觉伴奏,他们无法说出他们正在听什么。参与者表示,他们可以利用这个“只是得到一个初步的想法”。

讨论

参与者希望声音化算法具有可定制性,因此他们可以针对不同的任务定制实现。每个算法的积极反馈通常与特定任务相关,并且没有一个算法可以单独用于广泛的任务。定制还允许用户根据自己的任务定制声音化自己的心理声学判断,将显著特征与他们认为最突出的声音方面联系起来。

用户对序列导航的控制是另一个值得改进的地方。增加的用户控制应该减少挫败它是NASA TLX任务工作量中较大的贡献者之一。

动画可视化被推荐给用户一个清晰的位置的序列或MSA在超声过程中。这将减少精神的需求美国国家航空航天局TLX评估认为,这项任务对工作量的贡献最大,损害了有视力障碍的科学家的申请。

网络托管工具的开发将促进可视化、定制和用户控制方面的改进。

动画和视频对于传播日益复杂的科学思想、改善对等交流和激发公众参与非常重要[39].然而,制作高质量的视听内容需要大量的时间和精力[7].超声化算法可以轻松地创造出引人注目的、科学准确的材料,减少了生产成本。我们的反馈显示了在公众参与和科学传播领域对超声化的热情。为分析目的而开发的方法可以用于公众参与目的,改进的声音设计将使声学更美观。不同的声音设计可能适合不同的媒体,如现场活动、播客/广播制作和科学视频制作。

在目前的工作中,我们使用一个小的MSA来研究算法IV和算法v。虽然这对于开发和评估目的是方便的,但任何有用的MSA超声必须能够超声更大的MSA。我们在项目中使用了Sonic Pi软件,并将其推荐给任何想要尝试Sonic化的人。我们在这个项目中使用了Sonic Pi,延续了之前的工作[17].之前的工作充分利用了《Sonic Pi》的低成本音效设计、易用性、交互性和趣味性。然而,Sonic Pi不适合大量数据。该项目的未来软件应该利用MIDI协议在内部合成声音,从而满足大量数据,允许更复杂的声音设计,并消除当前用户手动步骤的需要。这将使软件更好、更用户友好。

采用概览/详细的方法处理复杂的视觉效果,将有助缩短声波化的时间[7].这种动态方法将通过允许用户将注意力集中到他们感兴趣的特定区域的更高复杂性来处理复杂性问题,同时也允许对该区域的背景进行更大规模的调查。

将超声方法与现有序列查看器相结合可能为可视化提供基础,并被认为是蛋白质序列超声的未来途径[13]。一方面,现有视觉化工具的使用可能会妨碍该技术对视力受损研究人员的益处。另一方面,这种方法可能会提高视力受损研究人员对这些可视化工具的可访问性。

虽然我们的研究样本量较小,但足以提出未来的研究方向。我们发现审美判断和心理声学判断在我们的焦点小组中并不一致。背景的多样性可能是其中的一个因素。采取实用主义的美学方法,我们接受经验不会是普遍的,但我们必须以一种最大化与我们的sonalization有意义的对话的方式来设计[40].然而,采纳这样的格言:“如果良好的可用性工程的关键是评估,那么良好的美学交互设计的关键是理解用户如何理解人工制品,以及他/她如何在情感、感官和智力水平上与它进行交互”[41],我们建议我们的有效性评估过程尝试评估和理解用户对超声波的反应。一旦实施了拟议研究建议的改进,更大样本量的定性和定量分析可能特别有价值[42].

我们的研究处理了在每个序列的每个位置都有特定残差的序列。在实践中,序列数据可视化所面临的问题包括处理误差和不确定性,以及变体分析[7].这是未来超声化研究与序列可视化并行的可能性。这里,声音特征,如音调和粗糙度,可用来表示给定残差的不确定性。这可以在当前工作之外加以实施。

我们的有效性评估提出了明确的改进方法,用户可以与超声互动。长期以来,通过调查用户体验来评估软件的有效性一直是商业软件开发的关键[43但一般不包括在生物信息学可视化软件的出版物中。例如,我们发现关于单个软件工具(如Tablet(下一代测序数据查看器))的文章中没有提到有效性或可用性评估过程[44],Artemis(高通量测序可视化工具)[45],以及Aliview (MSA浏览器)[46]我们在综述文章中发现了同样的缺失,比如2010年对MS188博金宝网址A可视化、系统发育和基因家族进化的综述[9],2020年人类结构变化可视化工具回顾[47],以及许多基因组浏览器的评论[484950].特别是现在有大量的msa可视化软件包和许多其他种类的生物数据,我们推荐这样的评估。这将使我们更容易理解可视化工具的有效性,并将它们相互比较,并将声波化作为一种补充或替代方法。

在超声处理领域,研究通常集中于超声处理数据的技术,而不是超声处理数据的内容和解释[51]定性研究方法可以通过使用最终用户(领域科学家,在本例中为生物信息学家)的现象学输入评估超声技术的成功,并将其在设计过程中的使用环境作为中心,从而转移这一关注点。

我们还进行了定量分析。虽然评估新的数据探索方法是困难的,因为洞察力不能以一种完美的令人满意的方式量化,但NASA TLX实施简单,成本效益高,并有30年的研究和应用背后[52].这六个子量表提供了一种语言来清晰地表达任务难度的细微差别。

这个项目的未来工作可能会产生对视力受损科学家有用的工具。虽然来自非视力受损者的反馈可能无法为该技术在该领域的潜力提供良好的积极证据,但实验表明,视力受损者、盲人和视力受损者对声音极性的感知是相似的[53].这表明,就知觉而言,在有视力的参与者身上取得的成功可能是可转移的。未来的有效性评估应该包括有视力障碍的科学家,以确定该方法的效用。

蛋白质序列数据声学化的潜力是显而易见的,人类心理声学直觉和对该方法的潜在热情这两个未被开发的源泉很好地维持和培育了该领域,因为它继续发展。如果音乐是创新科学研究的食粮,那就继续演奏吧。

结论

对于单一的蛋白质序列,我们在传达特定特征方面的声波化的成功得到了调查和研究小组的支持。焦点小组对这种方法表现出了极大的热情。

有更多有限的证据表明,多序列比对声波化成功地传递了信息,更高水平的声波化比更细粒度的声波化更成功。总的来说,数据的复杂性导致了单一的、不可配置的超声化在不支持可视化的情况下的困难。为了使这些声波化对研究人员有用,还需要做更多的工作。

以生物信息学家为中心的定性反馈过程(即超声化的最终用户)提供了高质量的、情境化的、具体的改进技术的建议。关键教训是共同改善MSA和单一蛋白序列的超声波化。

数据和材料的可用性

网站举例-https://sonifyed.com/bmc-bioinformatics-2021.GitHub库的代码https://doi.org/10.5281/zenodo.4683746.支持本文结论的数据集和Perl脚本可以在爱丁堡大学的DataShare存储库中找到https://doi.org/10.7488/ds/3023.操作系统:平台独立。编程语言:Perl (v5.16.3)和Sonic Pi (v3.1.0)。许可证:在MIT许可证下发布的Sonic pi -开源项目,Perl-GNU通用公共许可证。

缩写

AAR:

氨基酸重复序列

电气:

Goldman, Engelman和Steitz的疏水性量表

MIDI:

乐器数字接口

MSA:

多序列比对

美国国家航空航天局(NASA):

美国国家航空航天局

PMSon:

参数映射超声

及:

任务负荷指数

参考文献

  1. 1.

    音乐在伽利略实验中的作用。我是。1975;232(6):98–105.https://www.jstor.org/stable/24949824

    文章谷歌学者

  2. 2.

    盖格H, Müller W. Elektronenzählrohr zur Messung schwächster Aktivitäten。《自然科学》杂志上。1928;16(31):617 - 8。https://doi.org/10.1007/BF01494093

    中科院文章谷歌学者

  3. 3.

    媒体多任务处理:好,坏,还是丑?北京大学学报(自然科学版). 2015;39(1):99-128。https://doi.org/10.1080/23808985.2015.11679173

    文章谷歌学者

  4. 4.

    Kramer G, Walker B, Bonebright T, Cook P, Flowers J, Miner N, Neuhoff J. Sonification报告:领域现状和研究议程。Fac Publ Dep Psychol 1999。http://digitalcommons.unl.edu/psychfacpub/444

  5. 5.

    脉搏血氧计的新型听觉显示设计与评估。在:国际社会用于听觉显示;2019.335 - 8页。http://hdl.handle.net/1853/61532

  6. 6.

    Grond F,Berger J.参数映射超声处理。载:Hermann T,Hunt A,Neuhoff JG,编者。超声处理手册。第1版。柏林:Logos Verlag;2011。第363-97页。https://pub.uni-bielefeld.de/record/2935185

    谷歌学者

  7. 7.

    O 'Donoghue SI, Baldi BF, Clark SJ, Darling AE, Hogan JM, Kaur S,等。生物医学数据可视化。生物医学数据科学。2018;1(1):275-304。https://doi.org/10.1146/annurev-biodatasci-080917-013424

    文章谷歌学者

  8. 8.

    Yachdav G,Wilzbach S,Rauscher B,Sheridan R,Sillitoe I,Procter J等.MSAViewer:多重序列比对的交互式JavaScript可视化.生物信息学.2016;32(22):3501-3。https://doi.org/10.1093/bioinformatics/btw474

    中科院文章PubMed公共医学中心谷歌学者

  9. 9.

    Procter JB,Thompson J,Letunic I,Creevey C,Jossinet F,Barton GJ.多重比对、系统发育和基因家族进化的可视化。Nat方法。2010;7(3):S16-S25。https://doi.org/10.1038/nmeth.1434

    中科院文章PubMed谷歌学者

  10. 10

    黄b色盲。Nat方法。2011;8:441。https://doi.org/10.1038/nmeth.1618

    中科院文章谷歌学者

  11. 11

    Cryer H.向盲人和弱视学生教授STEM科目:文献综述和资源。RNIB分公司获取Inf(CAI)伯明翰Lit Rev 2013[引用日期:2020年4月28日]。https://rnib.org.uk/sites/default/files/2013_05_Teaching_STEM.docx

  12. 12

    听觉显示辅助分子信息理解的综述。交互第一版。2006;18(4):853 - 68。https://doi.org/10.1016/j.intcom.2005.12.001

    文章谷歌学者

  13. 13

    用于DNA序列分析的听觉显示工具。www.188bet comBMC生物信息学。2017;18(1):221。https://doi.org/10.1186/s12859-017-1632-x

    中科院文章PubMed公共医学中心谷歌学者

  14. 14.

    坦普尔医学博士:冠状病毒基因组的实时音频和视觉显示。www.188bet comBMC生物信息学。2020;21(1):431。https://doi.org/10.1186/s12859-020-03760-7

    中科院文章PubMed公共医学中心谷歌学者

  15. 15.

    Bywater RP, Middleton JN。旋律识别和蛋白质折叠分类。Heliyon。2016;2 (10):e00175。https://doi.org/10.1016/j.heliyon.2016.e00175

    文章PubMed公共医学中心谷歌学者

  16. 16

    π:基于低成本ARM硬件的生物信息学教育。www.188bet comBMC生物信息学。2013;14(1):243。https://doi.org/10.1186/1471-2105-14-243

    文章PubMed公共医学中心谷歌学者

  17. 17

    D.生物信息学中公众参与的DNA声波分析。BMC Res Notes. 2021;14:273。https://doi.org/10.1186/s13104-021-05685-7

    中科院文章PubMed公共医学中心谷歌学者

  18. 18

    马丁EJ。蛋白质声音[互联网]。github;2021https://doi.org/10.5281/zenodo.4683746

  19. 19.

    Martin EJ, Meagher T, Barker D.附加文件“使用声音来理解蛋白质序列数据:蛋白质序列和多重序列比对的新声波化算法”[互联网]。2021年[引用2021年2月8日]。https://doi.org/10.7488/ds/3023

  20. 20

    Moog RA。MIDI:乐器数字接口。[J] .中国音频工程。1986;34(5):394-404。http://www.aes.org/e-lib/browse.cfm?elib=5267

    谷歌学者

  21. 21

    《基因音乐:碱基和氨基酸的音调分配》,载:Pickover CA,编辑。可视化生物信息。新加坡:世界科学出版社,1995年,第72-83页。https://doi.org/10.1142/9789812832054_0008

    谷歌学者

  22. 22

    膜蛋白氨基酸序列中非极性转双分子层螺旋结构的鉴定。生物物理学报。1986;15(1):321-53。https://doi.org/10.1146/annurev.bb.15.060186.001541

    中科院文章PubMed谷歌学者

  23. 23

    国王RD,安格斯CG。PM-Protein音乐。计算机应用生物学。1996;12(3):251-2。https://doi.org/10.1093/bioinformatics/12.3.251

    中科院文章谷歌学者

  24. 24

    天气EA, Paulaitis ME, Woolf TB, Hoh JH。还原氨基酸字母足以准确识别内在紊乱的蛋白质。2月。2004;576(3):348 - 52。https://doi.org/10.1016/j.febslet.2004.09.036

    中科院文章PubMed谷歌学者

  25. 25

    香农CE。交流的数学理论北京科技大学学报(自然科学版);https://doi.org/10.1002/j.1538-7305.1948.tb01338.x

    文章谷歌学者

  26. 26.

    埃德加钢筋混凝土。肌肉:一种减少时间和空间复杂度的多序列比对方法。BMC Bioinform。2004;5(1):113。https://doi.org/10.1186/1471-2105-5-113

    中科院文章谷歌学者

  27. 27.

    关键词:氨基酸重复序列;短暂的Bioinform。2014;15(4):582 - 91。https://doi.org/10.1093/bib/bbt003

    中科院文章PubMed公共医学中心谷歌学者

  28. 28

    MView:一个web兼容的数据库搜索或多对齐查看器。生物信息学。1998;14(4):380 - 1。https://doi.org/10.1093/bioinformatics/14.4.380

    中科院文章PubMed谷歌学者

  29. 29

    杨坤·凯利·特杰,林德曼广告,Bridges SM.多重序列比对中保守结构域的探索性视觉分析.BMC Bioinform.2009;10(补充11):S7。https://doi.org/10.1186/1471-2105-10-S11-S7

    中科院文章谷歌学者

  30. 30.

    哈特得分,斯塔夫兰。NASA-TLX (Task Load Index)的发展:实证和理论研究的结果。难以Psychol。1988;52:139 - 83。https://doi.org/10.1016/s0166 - 4115 (08) 62386 - 9

    文章谷歌学者

  31. 31

    Byers JC, Bittner AC, Hill SG, Zaklad AL, Christ RE,远程驾驶车辆(RPV)系统的工作量评估。acta physica sinica, 1988;32(17): 1145-9。https://doi.org/10.1177/154193128803201704

    文章谷歌学者

  32. 32

    Bittner AC, Byers JC, Hill SG, Zaklad AL, Christ RE,机动防空系统(LOS-F-H)的一般工作量评级。acta photonica sinica . 1989;33(20): 1476-80。https://doi.org/10.1177/154193128903302026

    文章谷歌学者

  33. 33

    格里尔拉。高是多高?NASA-TLX全球工作量得分的荟萃分析。在Soc年度会议上进行讨论。2015;59(1):1727–31.https://doi.org/10.1177/1541931215591373

    文章谷歌学者

  34. 34

    Stewart DW, Shamdasani PN。焦点小组 :理论与实践。第三版剑桥:SAGE出版物;2014.

    谷歌学者

  35. 35

    基于多层次互动音响化的具身音乐认知方法。[J] .计算机工程与应用。2012;https://doi.org/10.1007/s12193-011-0084-2

    文章谷歌学者

  36. 36

    关键词:视障导航辅助设备,U-depth图像,交互声波化J Multimodal User Interfaces. 2019;https://doi.org/10.1007/s12193-018-0281-3

    文章谷歌学者

  37. 37

    关键词:声反馈训练,滑桨运动,声学训练体育科学。2015;33(4):411-8。https://doi.org/10.1080/02640414.2014.946438

    文章PubMed谷歌学者

  38. 38.

    晚餐A.为耳朵游说,全身倾听:声音化的(反)视觉文化。健全的研究。2016;2(1):69–80.https://doi.org/10.1080/20551940.2016.1214446

    文章谷歌学者

  39. 39.

    生物分子结构数据的视觉分析和通信指南。《细胞生物学杂志》2014;15:690-8。https://doi.org/10.1038/nrm3874

    中科院文章PubMed谷歌学者

  40. 40.

    Barrass S,Vickers P.《声学设计与美学》。作者:Hermann T,Hunt A,Neuhoff JG,编辑。超声手册。第一版柏林:Logos-Verlag;2011P145–64.http://nrl.northumbria.ac.uk/id/eprint/24597

    谷歌学者

  41. 41.

    交互美学——实用主义者对交互系统的美学。出版:第五届交互系统设计会议论文集:过程、实践、方法和技术。2004; 269 - 276。https://doi.org/10.1145/1013115.1013153

  42. 42.

    Boddy CR.《定性研究的样本量》,Qual-Mark Res.2016;19(4):426-32。https://doi.org/10.1108/QMR-06-2016-0053

    文章谷歌学者

  43. 43

    从工具到伙伴:人机交互的进化。Synth Lect Human-Centered Inform. 2017;10(1): i-183。https://doi.org/10.2200/S00745ED1V01Y201612HCI035

    文章谷歌学者

  44. 44

    等。平板电脑-下一代序列组装可视化。生物信息学,2010,26(3):401 - 2。https://doi.org/10.1093/bioinformatics/btp666

    中科院文章谷歌学者

  45. 45

    Carver T, Harris SR, Berriman M, Parkhill J, Mcquillan JA。Artemis:基于高通量序列的实验数据可视化和分析的集成平台。生物信息学。2012;28(4):464 - 9。https://doi.org/10.1093/bioinformatics/btr703

    中科院文章PubMed公共医学中心谷歌学者

  46. 46

    Larsson a . AliView:用于大数据集的快速和轻量级对齐查看器和编辑器。生物信息学2014;30(22):3276 - 8。https://doi.org/10.1093/bioinformatics/btu531

    中科院文章PubMed公共医学中心谷歌学者

  47. 47

    横山TT, Kasahara M.全基因组测序确定的人类结构变异的可视化工具。J Hum Genet. 2020; 65:49-60。https://doi.org/10.1038/s10038-019-0687-0

    文章PubMed谷歌学者

  48. 48

    基因组浏览(Epi):干细胞研究人员的数据资源和表观基因组浏览指南。《细胞干细胞》2013;13:14-21。https://doi.org/10.1016/j.stem.2013.06.006

    中科院文章PubMed公共医学中心谷歌学者

  49. 49

    《人类(和其他)基因组浏览器的比较》,Hum基因组学,2006;2(4):266-70。https://doi.org/10.1186/1479-7364-2-4-266

    中科院文章PubMed公共医学中心谷歌学者

  50. 50.

    Waldispühl J,Zhang E,Butiaev A,Nazarova E,Cyr Y.三维基因组学数据的存储、可视化和导航。方法。2018;142:74–80。https://doi.org/10.1016/j.ymeth.2018.05.008

    中科院文章PubMed谷歌学者

  51. 51.

    《声音信息:复杂数据和数字音频时代的声音化》。Inf Cult.2015;50(4):441-64。https://doi.org/10.7560/IC50401

    文章谷歌学者

  52. 52.

    哈特SG。nasa任务负载索引(NASA-TLX);20年后。acta photonica sinica, 2006;50(9): 904-8。https://doi.org/10.1177/154193120605000909

    文章谷歌学者

  53. 53.

    Walker BN, Mauney LM。听觉图形的通用设计:视障和视力正常听者的声学映射比较。中国计算机学会。2010;2(3):1-16。https://doi.org/10.1145/1714458.1714459

    文章谷歌学者

下载参考

确认

我们感谢Heleen Plaisier提供的初步工作,Stevie Bain提供的获取用户反馈的建议,以及Lilian Barnes提供的编辑和校对帮助。我们感谢那些完成调查并加入我们焦点小组的人。

基金

这项工作得到了UKRI生物技术和生物科学研究委员会(BBSRC)的资助,资助号为BB/M010996/1。

作者信息

隶属关系

作者

贡献

EJM和DB:构思和设计研究;EJM:执行研究并分析数据;EJM、DB和TRM:撰写论文。所有作者阅读并批准最终手稿。

通讯作者

对应到丹尼尔·巴克

道德宣言

伦理批准和同意参与

该项目获得了爱丁堡大学信息学研究伦理过程学院的伦理审批,申请参考号为2019/29456。获得所有受试者的知情同意。所有方法均按照相关指南和规定进行。

同意出版

不适用。

相互竞争的利益

作者声明他们没有相互竞争的利益。

额外的信息

出版说明

金宝搏官网下载施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

权利和权限

开放存取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.知识共享公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

利用声音理解蛋白质序列数据:用于蛋白质序列和多序列比对的新的声波化算法。www.188bet com22,456 (2021). https://doi.org/10.1186/s12859-021-04362-7

下载引用

关键字

  • Sonification
  • 序列分析
  • 蛋白质序列
  • 多序列比对
  • 覆盆子π
  • 声波π
  • 算法
  • 定性研究
  • 想象
  • 生物信息学