具有紧凑但强大的基于结构的分子结构标识符或表示系统是在研究界内有效共享和传播结果的关键促成因素。这些系统还为机器学习和其他数据驱动的研究奠定了重要的基础。虽然小分子已经取得了实质性进展,但聚合物界一直在努力提出一种有效的代表系统。
对于小分子,基本前提是每种不同的化学物种对应于明确定义的化学结构。这不适用于聚合物。聚合物本质上是随机分子,通常具有化学结构分布的集合体。这种困难限制了为小分子开发的所有确定性表示的适用性。在麻省理工学院,杜克大学和西北大学的研究人员9月12日发表的一篇论文中,麻省理工学院,杜克大学和西北大学的研究人员报告了一种新的表示系统,该系统能够处理聚合物的随机性质,称为BigSMILES。
“BigSMILES解决了聚合物数字表示方面的重大挑战,”Connor Coley博士解释说。'19,该论文的共同作者。“聚合物几乎总是通过随机过程产生的多种化学结构的集合体,因此我们不能使用相同的策略来记录它们的结构,就像小分子一样。”
共同作者是Coley; 麻省理工学院化学工程副教授Bradley D. Olsen; 华盛顿大学Karens F. Jensen化学工程教授Warren K. Lewis; 西北大学化学助理教授Julia A. Kalow; 麻省理工学院化学副教授Jeremiah A. Johnson; William T. Miller杜克大学化学教授Stephen L. Craig; 西北大学的研究生艾略特伍兹; 杜克大学研究生Zi Wang; 麻省理工学院的研究生王文聪; 麻省理工学院的研究生Haley K. Beech; 麻省理工学院访问研究员Hidenobu Mochigase; 麻省理工学院的研究生Tzyy-Shyang Lin。
有几种线符号可以传达分子结构,简化的分子输入线路输入系统(SMILES)是最受欢迎的。SMILES通常被认为是人类最易读的变体,迄今为止是最广泛的软件支持。在实践中,SMILES提供了一组简单的表示,适合作为化学数据的标签,也可作为研究人员之间数据交换的记忆紧凑型标识符。作为基于文本的系统,SMILES也很适合许多基于文本的机器学习算法。这些特性使SMILES成为将化学知识转化为机器友好形式的完美工具,并已成功应用于小分子特性预测和计算机辅助综合规划。
然而,聚合物已经抵制了这种和其他结构语言的描述。这是因为大多数结构语言(如SMILES)都被设计用于描述明确定义的原子图的分子或化学片段。由于聚合物是随机分子,因此它们没有独特的SMILES表示。这缺乏聚合物材料的统一命名或标识符约定是减缓聚合物信息学领域发展的主要障碍之一。虽然聚合物信息学的开创性工作,如聚合物基因组计划,已证明SMILES扩展在聚合物信息学中的有用性,新化学的快速发展以及材料信息学和数据驱动研究的快速发展使得需要普遍适用聚合物的命名惯例很重要。
“机器学习为加速化学发展和发现提供了巨大的机会,”科学基金会(NSF)化学部代理副主任林鹤说。“这种用于标记结构的扩展工具,专门用于解决聚合物固有的独特挑战,大大提高了化学结构数据的可搜索性,使我们更接近利用数据革命。”
研究人员创造了一种新的基于结构的构造,作为非常成功的SMILES表示的补充,可以处理聚合物材料的随机性质。由于聚合物是高摩尔质量分子,因此该构建体被命名为BigSMILES。在BigSMILES中,聚合物片段由大括号括起来的重复单元列表表示。重复单元的化学结构使用常规SMILES语法编码,但具有额外的键合描述符,其指定不同的重复单元如何连接以形成聚合物。这种简单的语法设计可以在大量不同的化学物质上编码大分子,包括均聚物,无规共聚物和嵌段共聚物,以及各种分子连接,从线性聚合物到环状聚合物到甚至支化聚合物。与SMILES一样,BigSMILES表示是紧凑的自包含文本字符串。
“使用BigSMILES标准化聚合物结构的数字表示将鼓励聚合物数据的共享和聚合,随着时间的推移提高模型质量并增强其使用的好处,”可再生化学品和材料开放式创新的材料主管Jason Clark说。 Braskem,与研究无关。“BigSMILES是该领域的重要贡献,因为它满足了灵活系统以数字方式表示复杂聚合物结构的需求。”
Clark补充说:“塑料行业在循环经济背景下面临的挑战始于原材料来源,并一直贯穿于报废管理。应对这些挑战需要创新设计聚合物基材料传统上经历了漫长的开发周期。人工智能和机器学习的进步有望加速利用金属合金和小有机分子的应用的开发周期,促使塑料行业寻求平行的方法。BigSMILES数字表示通过应用数据科学方法促进了结构 - 性能关系的评估,他说,
“通过三个新的基本操作符和原始SMILES符号的组合,可以构建多种复杂的聚合物结构,”Olsen说,“化学,材料科学和工程的整个领域,包括聚合物科学,生物材料,材料化学等等。生物化学是基于具有随机结构的大分子,这基本上可以被认为是如何写出大分子结构的新语言。“
“我很兴奋的事情之一是数据输入最终可能与用于制造特定聚合物的合成方法直接相关,”Craig说,“因此,有机会实际捕获和处理更多有关分子的信息比通常从标准特征中获得的信息。如果可以做到这一点,它将实现各种发现。“