发布求助

文献互助智能选刊最新文献

基于新型 hpTet3 酶的可靠无亚硫酸氢盐单分子甲基脱氧胞苷实时测序技术

Angewandte Chemie Pub Date : 2024-11-13 DOI:10.1002/ange.202418500

M. Sc. Hanife Sahin, M. Sc. Raheleh Salehi, M. Sc. Shariful Islam, Dr. Markus Müller, Dr. Pascal Giehr, Prof. Thomas Carell

{"title":"基于新型 hpTet3 酶的可靠无亚硫酸氢盐单分子甲基脱氧胞苷实时测序技术","authors":"M. Sc. Hanife Sahin, M. Sc. Raheleh Salehi, M. Sc. Shariful Islam, Dr. Markus Müller, Dr. Pascal Giehr, Prof. Thomas Carell","doi":"10.1002/ange.202418500","DOIUrl":null,"url":null,"abstract":"<p>Das Vorhandensein des fünften Nukleosids 5-Methyldesoxycytidin (mdC), entweder in Promotorregionen oder im Genkörper beeinflusst den Transkriptionsstatus des entsprechenden Gens.<span><sup>1</sup></span> In der Regel führt das Vorkommen von mdC in Promotorregionen zur Inaktivierung des betreffenden Gens, während unmethylierte Promotoren eine aktivere Transkription anzeigen. Die Identifizierung von mdC in Genen ermöglicht die Charakterisierung des Transkriptionszustands des betreffenden Gens, was für die Identifizierung und Charakterisierung von Tumorzellen von entscheidender Bedeutung ist.<span><sup>2, 3</sup></span> In Tumorzellen werden Onkogene oft fälschlicherweise aktiviert, während Tumorsuppressorgene irrtümlich ausgeschaltet werden. Daher ist die Sequenzierung von mdC mit minimalem Ausgangsmaterial von großem Interesse, um einen neuen Bereich der Tumordiagnostik, die sogenannte Flüssigbiopsie, zu etablieren.<span><sup>4</sup></span></p><p>Bislang wird die mdC-Sequenzierung überwiegend mit einer Bisulfit-Behandlung durchgeführt (Abbildung 1a). Genomische DNA, die bei >60 °C mit Bisulfit behandelt wird, wandelt alle unmethylierten Cytidine in Uracil um, während mdC intakt bleibt. Die Bestimmung der mdC-Positionen im Genom erfolgt nach PCR und Sequenzierung durch einen Vergleich der erhaltenen Sequenzen mit einem Referenzgenom. Ein wesentliches Problem dieser Methode besteht jedoch darin, dass ein großer Teil der genomischen Ausgangs-DNA die harten Bedingungen der Bisulfit-Behandlung aufgrund starker Fragmentierung nicht übersteht. Diese Einschränkung wird durch eine umfangreiche PCR-basierte Amplifikation der nicht abgebauten DNA gemildert. Ein weiterer Nachteil ist, dass das Bisulfit-Sequenzierungsprotokoll umständlich und fehleranfällig ist. Mildere Methoden wie EM-seq, die derzeit entwickelt werden, verwenden das desaminierende Enzym APOBEC3 A (A3 A), das ebenfalls dC zu dU desaminiert.<span><sup>5</sup></span> Durch die Desaminierung aller dC-Basen zu dU wird die Komplexität des Genoms jedoch von einem vierstelligen Code auf einen Code aus drei Nukleobasen (dA, dG und dU sowie das verbleibende mdC) reduziert, was die Sequenzzuordnung insbesondere bei repetitiven Elementen erschwert.\n</p><p>Ein alternativer Ansatz zur Sequenzierung von mdC ist die Sequenzierung der dritten Generation, bei der die Sequenzen direkt ausgelesen werden, ohne dass ein PCR-Schritt erforderlich ist. Derzeit ermöglichen alle Einzelmolekül-Sequenzierungswerkzeuge der dritten Generation, wie Nanopore oder SMRT-Sequenzierung, das direkte Auslesen von mdC.<span><sup>6</sup></span></p><p>Diese Methoden befinden sich jedoch noch im Anfangsstadium, und die Unterschiede zwischen den für dC und mdC erhaltenen Sequenziersignalen sind oft minimal. Dies erfordert eine umständliche Dekonvolution der Daten, für die ein erheblicher Bedarf an Bioinformatik besteht.<span><sup>7, 8</sup></span> Daher ist die Entwicklung von milden mdC-Sequenzierungsmethoden, welche die Cytidin-Desaminierung umgehen, für die Entwicklung neuer Instrumente für die frühe Tumordiagnose äußerst wünschenswert.</p><p>Wir stellten die Hypothese auf, dass die derzeitigen Einschränkungen bei der Sequenzierung von mdC durch die quantitative Oxidation von mdC zu 5-Carboxycytidin (cadC, Abbildung 1b) überwunden werden könnten. Im Gegensatz zu dC verfügt cadC über eine zusätzliche Carboxylgruppe, die unter neutralen pH-Bedingungen negativ geladen ist. Dies bewirkt vermutlich einen signifikanten Signalunterschied zwischen dem neutralen mdC und dem negativ geladenen cadC. Das Konzept, cadC anstelle von mdC durch SMRT-Sequenzierung nachzuweisen (Abbildung 1c), wurde bereits vorgeschlagen,<span><sup>9</sup></span> bislang jedoch nicht umgesetzt.</p><p>Hier zeigen wir, dass cadC die beiden kinetischen Parameter, die bei der SMRT-Sequenzierung ermittelt werden, nämlich die Interpulsdauer (IPD) und die Pulsbreite (PW), signifikant erhöht und es uns ermöglicht, einen Deep-Learning-Algorithmus zu trainieren. Unsere Ergebnisse zeigen, dass die Genauigkeit der neuen Methode alle aktuellen mdC-Sequenzierungsmethoden übertrifft und den Weg für eine sanfte epigenetische mdC-Sequenzierung ebnet.</p><p>Grundlage dieser Methode ist ein neu entwickeltes verkürztes, aber robustes Tet3-Enzym, das in <i>E. coli</i> überexprimiert werden kann und mdC im Genom mit über 99 % Ausbeute zu cadC oxidiert.</p><p>Die Implementierung der neuen Tet-basierten Technologie erfolgte unter Zuhilfenahme der SMRT-Sequenzierung, bei der eine Polymerase die Nukleotide in der Vorlage mit fluoreszenzmarkierten eingehenden Triphosphaten paart. Ein Detektor misst das Fluoreszenzsignal des im aktiven Zentrum der Polymerase gebundenen Triphosphats in Echtzeit, bevor die Fluoreszenzmarkierung während der Bildung der Phosphodiesterbindung abgespalten wird. Da das zu sequenzierende DNA-Fragment in eine zirkuläre Struktur eingebettet ist (Abbildung 1c), bewegt sich die Polymerase bei der Sequenzierung mehrfach entlang der zirkulären Vorlage, so dass jede Base (einschließlich der cadC-Base) wiederholt gelesen wird, was eine große Anzahl von Datenpunkten für jede Base und ein hohes Maß an Genauigkeit liefert. Neben dem Fluoreszenzsignal, das die ankommende Base identifiziert, zeichnet die SMRT-Sequenzierung auch die Zeit auf, die die Polymerase benötigt, um die Phosphodiesterbindung zu bilden (PW-Wert), sowie die Zeit zwischen den einzelnen Inkorporationsereignissen (IPD-Wert), wodurch mehrere Parameter für jede zu sequenzierende Base, einschließlich cadC, welches durch Tet-induzierte Oxidation aus mdC gebildet wird, zur Verfügung stehen. Das erste Problem, mit dem wir uns befassten, war die Entwicklung eines robusten Enzyms, das in der Lage ist, mdC quantitativ zu cadC zu oxidieren. Dies wurde mit Hilfe eines <i>Ten-Eleven-Translocation</i>-Enzyms erreicht, einer Fe<sup>2+</sup> und α-Ketoglutarat-abhängigen Monooxygenase.<span><sup>10</sup></span> Die Oxidation von mdC zu cadC wurde bislang unter Zuhilfenahme der Enzyme Tet1 und Tet2 durchgeführt, deren Überexpression jedoch mit Schwierigkeiten verbunden ist.<span><sup>5, 11-14</sup></span></p><p>Im Gegensatz dazu ist das im Gehirn von Erwachsenen am weitesten verbreitete Tet-Enzym Tet3,<span><sup>15</sup></span> welches erhebliche Mengen von mdC zu 5-Hydroxymethyl-dC (hmdC) oxidiert.<span><sup>16</sup></span> Wir haben ein strukturgeleitetes Design auf der Grundlage der Kristallstruktur von menschlichem Tet2<span><sup>17</sup></span> durchgeführt (siehe SI) und identifizierten eine stark (um ~72 %) verkürzte Maus-Tet3-Variante (hpTet3), die aus nur 465 Aminosäuren (52 kDa) besteht. Bei dieser hpTet3-Variante ersetzten wir die Region mit geringer Komplexität innerhalb der katalytischen Domäne (cd) durch eine Glycin-Serin-Brücke (Abbildung 2). Das resultierende hpTet3-Protein konnte in <i>E. coli</i> überexprimiert werden. Ähnliche Ansätze von zwei anderen Gruppen<span><sup>18, 19</sup></span> weichen in Bezug auf die vorgenommenen Verkürzungen deutlich von unserem Ansatz ab (siehe Hintergrundinformationen für weitere Einzelheiten). Das mit einem N-terminalen Strep-Tag fusionierte hpTet3 wurde zunächst durch Affinitätschromatographie über ein StrepTrap XT-Material gereinigt und anschließend eine Heparin-Säule verwendet, um Chaperon-Verunreinigungen (Hsp40 und Hsp70) zu entfernen.\n</p><p>Als nächstes untersuchten wir die katalytische Aktivität des hpTet3-Enzyms. Zu diesem Zweck methylierten wir zunächst mit der CpG-spezifischen Methyltransferase M.SssI die genomische DNA des Lambda-Phagen und verdauten sie bis auf die Ebene der einzelnen Nukleoside. Die Quantifizierung aller im Genom vorhandenen Nukleoside, insbesondere potenziell oxidierter Nukleoside wie 5-Formyl-dC (fdC), 5-Hydroxymethyl-dU (hmdU) und 8-Oxo-dG, erfolgte mittels quantitativer Triple-Quadrupol-Massenspektrometrie (UHPLC-QQQ-MS) unter Verwendung eines vollständigen Satzes mit stabilen Isotopen markierter interner Standards für dA, dT, dG, dC, mdC, hmdC, fdC, cadC, hmdU und 8-oxo-dG (Abbildung 3) nach unserer zuvor beschriebenen Methode.<span><sup>20</sup></span> In einem zweiten Experiment behandelten wir die genomische DNA vor dem Verdau mit hpTet3 (zu den Behandlungsbedingungen siehe SI) und wiederholten das Quantifizierungsexperiment mit den genannten Isotopenstandards. Dadurch konnten wir sehr genaue quantitative Daten erhalten. Wie in Abbildung 3a dargestellt, haben wir festgestellt, dass bei der Oxidation das Signal für mdC verschwindet und stattdessen ein starkes Signal für cadC zu erkennen ist. Die Oxidationszwischenstufen hmdC und fdC wurden nicht gefunden, was eine vollständige Umwandlung beweist. Wir wiederholten die Studie mit verschiedenen eukaryotischen Genomen (Abbildung 3b) und stellten fest, dass in allen Fällen das Signal für mdC (und 5-Hydroxymethyl-dC) bei der Oxidation mit hpTet3 vollständig verschwand und ein neues und starkes Signal für cadC entstand.\n</p><p>In allen Fällen konnten wir kein restliches mdC nachweisen. Stattdessen wurde cadC in Konzentrationen nachgewiesen, die denjenigen von mdC im Ausgangsmaterial entsprechen, z. B. 4,23 % in HEK293T gDNA (siehe Hintergrundinformationen Table S1 für andere Proben). Die quantitative Analyse der hpTet3-Reaktion ergab eine Oxidationsausbeute von mdC zu cadC von 99,96 % in genomischer DNA.</p><p>Um unerwünschte oxidative Schäden abzuschätzen, haben wir den Gehalt an 8-oxo-dG quantifiziert und keinen signifikanten Anstieg festgestellt. Bei hmdU wurde ein erwartungsgemäßer Anstieg auf 48 hmdU-DNA-Läsionen pro Genom beobachtet.<span><sup>21</sup></span> Diese Daten zeigen, dass die Oxidation von mdC zu cadC mit hpTet3 sehr effizient ist und nur eine geringe Anzahl von hmdU-Läsionen erzeugt (SI Abb. S3 & Table S2).</p><p>In der Folge wurde die Möglichkeit einer Sequenzierung von mdC mittels SMRT-Sequenzierung der dritten Generation evaluiert. Für die SMRT-Sequenzierung haben wir drei Modellgenome aus Lambda-Phagen-DNA (dam<sup>-</sup>, dcm<sup>-</sup>) hergestellt. Das erste Genom (LMD-dC) enthielt kein mdC. Im zweiten Genom haben wir alle CpG-Stellen mit M.SssI enzymatisch methyliert (LMD-mdC). Für das dritte Genom oxidierten wir das LMD-mdC-Genom mit hpTet3, um alle mdCs in cadCs umzuwandeln (LMD-cadC). Um die Reinheit dieser Modell-DNAs zu überwachen, verdauten wir die drei Genome bis auf Nukleosid-Ebene und analysierten die Nukleosid-Zusammensetzung mit UHPLC-QQQ-MS. Die erhaltenen Daten (SI-Tabelle S1) bestätigten die hohe Methylierungseffizienz von M.SssI (99,99 %) und die hohe Oxidationseffizienz zu cadC mit hpTet3 (99,96 %).</p><p>Nach der Bibliotheksvorbereitung und Sequenzierung auf einer Sequel IIe-Plattform erhielten wir 385.942 Sequenzen für das unmodifizierte Lambda-Genom, 433.815 Sequenzen für das mdC-haltige Genom und 456.646 Sequenzen für das cadC-haltige Genom. Als Nächstes führten wir die Extraktion von Alignment-Merkmalen (IPD- und PW-Werte) mit ccsmeth <span>(</span>https://github.com/PengNi/ccsmeth) durch, wie in Abb. 4a dargestellt. Wir extrahierten mittlere IPD- und PW-Werte für jede CpG-Position im Lambda-Genom innerhalb eines <i>21-k-mers</i> (±10 bp um das interessierende Cytosin) (Abb. 4b). Hinsichtlich der IPD-Werte wurde ein großer Unterschied im 21-k-mer zwischen den Situationen dC, mdC und cadC beobachtet (Abb. 4b links). Im Vergleich zu dC zeigten mdC und cadC unterschiedliche Signalmuster in der Nähe der xdC-Position (k-mer-Positionen 8–19). Während die Signalmuster für dC und cadC ähnlich sind, sind die normalisierten Zeitwerte für cadC stark erhöht. Außerdem wurden Unterschiede in den PW-Mustern beobachtet (Abb. 4b rechts). Insbesondere zeigt cadC einen starken Zeitanstieg an der k-mer-Position 18, die 7 Positionen stromabwärts von der cadC-Position liegt. Diese Daten zeigen, wie komplex die Unterschiede im Fußabdruck zwischen dC, mdC und cadC sind, insbesondere außerhalb von CpG-Dyaden. Denn die PW- und IPD-Unterschiede zeigen sich nicht nur am Nukleotid selbst, sondern auch mehrere Nukleotide entfernt, stromaufwärts oder stromabwärts (SI Abb. S4). Um sicherzustellen, dass diese Muster nicht das Ergebnis überlappender Signale benachbarter CpG-Stellen sind, haben wir IPD und PW für 21-k-mere mit einem, zwei oder mehr als zwei CpGs aufgetragen (SI Abb. S5). In allen Fällen sind die extrahierten Muster für IPD und PW ähnlich, was auf vielfältige und komplexe Wechselwirkungen zwischen der Polymerase und dem Templat hinweist.\n</p><p>Als Nächstes untersuchten wir, ob die komplexen, aber starken kinetischen PW- und IPD-Daten für cadC zum Training eines KI-basierten rekurrenten neuronalen Netzwerks (RNN) verwendet werden können. In Anlehnung an die Trainingsprozedur von ccsmeth trainierten wir ein mdC-Modell auf der Grundlage der LMD-dC- und LMD-mdC-Datensätze, sowie ein cadC-Modell auf der Grundlage der LMD-dC- und LMD-cadC-Datensätze (Abb. 4a). Die aus dem KI-Modell gewonnenen Schlüsselparameter sind in Hintergrundinformationen Abb. S6 dargestellt. Zu unserer Freude stellten wir fest, dass die kinetischen Sequenzierungsdaten von cadC in Kombination mit dem trainierten Algorithmus ein cadC-Modell ergaben, das die Leistung des kanonischen ccsmeth und unseres mdC-LMD-Modells in allen Aspekten übertraf. Zur Erkennung von mdC benötigte das RNN 181 Trainingsrunden, um eine Modellgenauigkeit von 0,945 zu erreichen. Die Präzision erreichte einen Wert von 0,962 und der Recall (Anzahl der beschreibbaren CpG-Dyaden) lag bei 0,956. Für cadC benötigte das Modell nur 16 Trainingsschritte, um eine Genauigkeit von 0,987, eine Präzision von 0,987 und einen Recall von 0,988 zu erreichen. Dies sind fantastische Werte, insbesondere angesichts der wenigen erforderlichen Trainingsschritte (SI Abb. S6).</p><p>Anschließend testeten wir die neuen Modelle, indem wir sie auf die einzelnen Datensätze für LMD-dC, LMD-mdC und LMD-cadC anwandten. Für die Erkennung von mdC verglichen wir unsere LMD-mdC- und LMD-cadC-Modelle mit dem ccsmeth-Standardmodell, das auf menschlicher DNA trainiert wurde.<span><sup>22</sup></span> Anhand unserer UHPLC-QQQ-MS-Messungen wissen wir, dass das modifizierte genetische Material, das den LMD-mdC- und LMD-cadC-Modellen zugrunde liegt, 99,99 % mdC bzw. 99,96 % cadC in den CpG-Dyaden enthält (SI Tabelle S1). Im LMD-mdC-Modell sollte die Methylierungshäufigkeit einer CpG-Dyade folglich fast 1 betragen, während sie in der nicht-methylierten LMD-dC-DNA nahe null liegen sollte. Die Sequenzierungsergebnisse sind in den Abbildungen 4c und S7 zusammengefasst und in den SI-Tabellen S3 und S4 im Detail dargestellt.</p><p>Als Referenz haben wir LMD-dC und LMD-mdC mit Bisulfit sequenziert, um unsere mit der individuellen ccsmeth-Prozedur erzielten Ergebnisse damit zu vergleichen. Die Bisulfit-Daten zeigen, dass 98,2 % aller CpGs eine Methylierungsfrequenz von >=90 % aufweisen. Allerdings weisen nur 23,82 % aller CpGs eine Methylierungshäufigkeit von >=95 % auf.</p><p>Bei der Analyse der SMRT-seq-Daten mit unserem auf mdC trainierten Modell stellten wir fest, dass 76,75 % der CpG-Stellen in der LMD-mdC-Probe eine Methylierungshäufigkeit von >95 % aufwiesen. Darüber hinaus wiesen 21,1 % der CpGs in der LMD-dC-Probe eine Methylierung von mehr als 10 % auf. Die Zahlen waren sogar noch niedriger, wenn wir das kanonische ccsmeth-Modell anwandten, bei dem nur 30 % der CpG-Stellen mit einer Methylierungshäufigkeit von >95 % berichtet wurden (SI Tabelle S3).</p><p>Mit dem neuen cadC-Modell, das auf hpTet3-oxidierter Lambda-DNA trainiert wurde, erkennen wir ein scharfes Signal (blau) von nahezu 100 % für die cadC-Häufigkeit in CpG-Dyaden (Abbildung 4c). Genauer gesagt haben 94,68 % aller CpGs aus der LMD-dC-Probe eine Modifikationsfrequenz von <10 % und 99,95 % aller CpGs aus der LMD-cadC-Probe eine Modifikationfrequenz von >=95. Tatsächlich sagt unser Modell voraus, dass 94,63 % aller CpGs eine Methylierungsfrequenz von >=98 % haben.</p><p>Diese Ergebnisse zeigen, dass das neue Modell in der Lage ist, alle cadCs im Lambda-Genom mit bisher unerreichter Genauigkeit vorherzusagen. Dies beruht auf der Tatsache, dass die Oxidation von mdC zu cadC mit dem neuen hpTet3-Enzym sehr charakteristische PW- und IPD-Werte liefert. In Kombination mit dem KI-generierten cadC-Modell ermöglicht dies eine sehr genaue und empfindliche Sequenzierung von mdC. Im Gegensatz zu anderen bisulfitfreien Methoden<span><sup>5, 11, 23</sup></span> ist unser Ansatz einstufig und PCR-frei, was mögliche Verzerrungen reduziert.</p><p>Wir haben festgestellt, dass eine sequenzabhängig abweichende Oxidationsaktivität des hpTet3-Enzyms (SI Abb. S8 & S9 und Hintergrundinformationen Table S5 & S6) gering ist, insbesondere wenn hohe Enzymkonzentrationen verwendet werden. Dies ist ein weiterer Grund für die hohe Genauigkeit (99,9 %) unserer 5mdC-Sequenzierungsmethode.</p><p>Zusammenfassend beschreiben wir die Entwicklung einer neuen hpTet3-Variante, die in <i>E. coli</i> überexprimiert werden kann. hpTet3 ist stabil und oxidiert mdC zu cadC mit hoher Effizienz. Der Sequenzeinfluss auf die Oxidation ist gering. Vor allem bei höheren Enzymkonzentrationen sind wir in der Lage, mdCs mit hoher Effizienz zu cadC zu oxidieren, auch in Nicht-CpG-Kontexten. Somit kann das Enzym in Kombination mit einer Desaminierungsreaktion und PCR prinzipiell auch die mdC-Sequenzierung in Nicht-CpG-Kontexten unterstützen. Wir haben die SMRT-Sequenzierung von hpTet3-behandelter DNA durchgeführt und sehr charakteristische IPD- und PW-Werte festgestellt, die eine präzise Lokalisierung von cadC in allen CpG-Kontexten ermöglichten. Die SMRT-Sequenzierung von mdC über cadC wurde nach weiteren Manipulationen mit noch nie dagewesener Genauigkeit erreicht. Eine weitere Stärke der Methode ist die Möglichkeit der Sequenzierung mit besonders hoher Leselänge, die auch für repetitive Genomelemente hochpräzise Daten liefert. Das neue hpTet3 kann außerdem dazu beitragen, andere 5mdC-Sequenzierungsstrategien, wie TAPS und EM-Seq, zu verbessern. In Analogie dazu nennen wir unsere Methode Enzymatische Methyl-Oxidations-Sequenzierung (EMox-seq).</p><p>Die in dieser Veröffentlichung besprochenen Daten sind in der Supporting Information verfügbar. Sequenzierdaten wurden im Gene Expression Omnibus des NCBI hinterlegt<span><sup>24</sup></span> hinterlegt und sind über die GEO-Serien-Zugangsnummer GSE256446 zugänglich. (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE256446).</p>","PeriodicalId":7803,"journal":{"name":"Angewandte Chemie","volume":"136 52","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-11-13","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://onlinelibrary.wiley.com/doi/epdf/10.1002/ange.202418500","citationCount":"0","resultStr":"{\"title\":\"Robuste Bisulfit-freie Einzelmolekül-Echtzeitsequenzierung von Methyldesoxycytidin auf der Grundlage eines neuartigen hpTet3-Enzyms\",\"authors\":\"M. Sc. Hanife Sahin, M. Sc. Raheleh Salehi, M. Sc. Shariful Islam, Dr. Markus Müller, Dr. Pascal Giehr, Prof. Thomas Carell\",\"doi\":\"10.1002/ange.202418500\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"<p>Das Vorhandensein des fünften Nukleosids 5-Methyldesoxycytidin (mdC), entweder in Promotorregionen oder im Genkörper beeinflusst den Transkriptionsstatus des entsprechenden Gens.<span><sup>1</sup></span> In der Regel führt das Vorkommen von mdC in Promotorregionen zur Inaktivierung des betreffenden Gens, während unmethylierte Promotoren eine aktivere Transkription anzeigen. Die Identifizierung von mdC in Genen ermöglicht die Charakterisierung des Transkriptionszustands des betreffenden Gens, was für die Identifizierung und Charakterisierung von Tumorzellen von entscheidender Bedeutung ist.<span><sup>2, 3</sup></span> In Tumorzellen werden Onkogene oft fälschlicherweise aktiviert, während Tumorsuppressorgene irrtümlich ausgeschaltet werden. Daher ist die Sequenzierung von mdC mit minimalem Ausgangsmaterial von großem Interesse, um einen neuen Bereich der Tumordiagnostik, die sogenannte Flüssigbiopsie, zu etablieren.<span><sup>4</sup></span></p><p>Bislang wird die mdC-Sequenzierung überwiegend mit einer Bisulfit-Behandlung durchgeführt (Abbildung 1a). Genomische DNA, die bei >60 °C mit Bisulfit behandelt wird, wandelt alle unmethylierten Cytidine in Uracil um, während mdC intakt bleibt. Die Bestimmung der mdC-Positionen im Genom erfolgt nach PCR und Sequenzierung durch einen Vergleich der erhaltenen Sequenzen mit einem Referenzgenom. Ein wesentliches Problem dieser Methode besteht jedoch darin, dass ein großer Teil der genomischen Ausgangs-DNA die harten Bedingungen der Bisulfit-Behandlung aufgrund starker Fragmentierung nicht übersteht. Diese Einschränkung wird durch eine umfangreiche PCR-basierte Amplifikation der nicht abgebauten DNA gemildert. Ein weiterer Nachteil ist, dass das Bisulfit-Sequenzierungsprotokoll umständlich und fehleranfällig ist. Mildere Methoden wie EM-seq, die derzeit entwickelt werden, verwenden das desaminierende Enzym APOBEC3 A (A3 A), das ebenfalls dC zu dU desaminiert.<span><sup>5</sup></span> Durch die Desaminierung aller dC-Basen zu dU wird die Komplexität des Genoms jedoch von einem vierstelligen Code auf einen Code aus drei Nukleobasen (dA, dG und dU sowie das verbleibende mdC) reduziert, was die Sequenzzuordnung insbesondere bei repetitiven Elementen erschwert.\\n</p><p>Ein alternativer Ansatz zur Sequenzierung von mdC ist die Sequenzierung der dritten Generation, bei der die Sequenzen direkt ausgelesen werden, ohne dass ein PCR-Schritt erforderlich ist. Derzeit ermöglichen alle Einzelmolekül-Sequenzierungswerkzeuge der dritten Generation, wie Nanopore oder SMRT-Sequenzierung, das direkte Auslesen von mdC.<span><sup>6</sup></span></p><p>Diese Methoden befinden sich jedoch noch im Anfangsstadium, und die Unterschiede zwischen den für dC und mdC erhaltenen Sequenziersignalen sind oft minimal. Dies erfordert eine umständliche Dekonvolution der Daten, für die ein erheblicher Bedarf an Bioinformatik besteht.<span><sup>7, 8</sup></span> Daher ist die Entwicklung von milden mdC-Sequenzierungsmethoden, welche die Cytidin-Desaminierung umgehen, für die Entwicklung neuer Instrumente für die frühe Tumordiagnose äußerst wünschenswert.</p><p>Wir stellten die Hypothese auf, dass die derzeitigen Einschränkungen bei der Sequenzierung von mdC durch die quantitative Oxidation von mdC zu 5-Carboxycytidin (cadC, Abbildung 1b) überwunden werden könnten. Im Gegensatz zu dC verfügt cadC über eine zusätzliche Carboxylgruppe, die unter neutralen pH-Bedingungen negativ geladen ist. Dies bewirkt vermutlich einen signifikanten Signalunterschied zwischen dem neutralen mdC und dem negativ geladenen cadC. Das Konzept, cadC anstelle von mdC durch SMRT-Sequenzierung nachzuweisen (Abbildung 1c), wurde bereits vorgeschlagen,<span><sup>9</sup></span> bislang jedoch nicht umgesetzt.</p><p>Hier zeigen wir, dass cadC die beiden kinetischen Parameter, die bei der SMRT-Sequenzierung ermittelt werden, nämlich die Interpulsdauer (IPD) und die Pulsbreite (PW), signifikant erhöht und es uns ermöglicht, einen Deep-Learning-Algorithmus zu trainieren. Unsere Ergebnisse zeigen, dass die Genauigkeit der neuen Methode alle aktuellen mdC-Sequenzierungsmethoden übertrifft und den Weg für eine sanfte epigenetische mdC-Sequenzierung ebnet.</p><p>Grundlage dieser Methode ist ein neu entwickeltes verkürztes, aber robustes Tet3-Enzym, das in <i>E. coli</i> überexprimiert werden kann und mdC im Genom mit über 99 % Ausbeute zu cadC oxidiert.</p><p>Die Implementierung der neuen Tet-basierten Technologie erfolgte unter Zuhilfenahme der SMRT-Sequenzierung, bei der eine Polymerase die Nukleotide in der Vorlage mit fluoreszenzmarkierten eingehenden Triphosphaten paart. Ein Detektor misst das Fluoreszenzsignal des im aktiven Zentrum der Polymerase gebundenen Triphosphats in Echtzeit, bevor die Fluoreszenzmarkierung während der Bildung der Phosphodiesterbindung abgespalten wird. Da das zu sequenzierende DNA-Fragment in eine zirkuläre Struktur eingebettet ist (Abbildung 1c), bewegt sich die Polymerase bei der Sequenzierung mehrfach entlang der zirkulären Vorlage, so dass jede Base (einschließlich der cadC-Base) wiederholt gelesen wird, was eine große Anzahl von Datenpunkten für jede Base und ein hohes Maß an Genauigkeit liefert. Neben dem Fluoreszenzsignal, das die ankommende Base identifiziert, zeichnet die SMRT-Sequenzierung auch die Zeit auf, die die Polymerase benötigt, um die Phosphodiesterbindung zu bilden (PW-Wert), sowie die Zeit zwischen den einzelnen Inkorporationsereignissen (IPD-Wert), wodurch mehrere Parameter für jede zu sequenzierende Base, einschließlich cadC, welches durch Tet-induzierte Oxidation aus mdC gebildet wird, zur Verfügung stehen. Das erste Problem, mit dem wir uns befassten, war die Entwicklung eines robusten Enzyms, das in der Lage ist, mdC quantitativ zu cadC zu oxidieren. Dies wurde mit Hilfe eines <i>Ten-Eleven-Translocation</i>-Enzyms erreicht, einer Fe<sup>2+</sup> und α-Ketoglutarat-abhängigen Monooxygenase.<span><sup>10</sup></span> Die Oxidation von mdC zu cadC wurde bislang unter Zuhilfenahme der Enzyme Tet1 und Tet2 durchgeführt, deren Überexpression jedoch mit Schwierigkeiten verbunden ist.<span><sup>5, 11-14</sup></span></p><p>Im Gegensatz dazu ist das im Gehirn von Erwachsenen am weitesten verbreitete Tet-Enzym Tet3,<span><sup>15</sup></span> welches erhebliche Mengen von mdC zu 5-Hydroxymethyl-dC (hmdC) oxidiert.<span><sup>16</sup></span> Wir haben ein strukturgeleitetes Design auf der Grundlage der Kristallstruktur von menschlichem Tet2<span><sup>17</sup></span> durchgeführt (siehe SI) und identifizierten eine stark (um ~72 %) verkürzte Maus-Tet3-Variante (hpTet3), die aus nur 465 Aminosäuren (52 kDa) besteht. Bei dieser hpTet3-Variante ersetzten wir die Region mit geringer Komplexität innerhalb der katalytischen Domäne (cd) durch eine Glycin-Serin-Brücke (Abbildung 2). Das resultierende hpTet3-Protein konnte in <i>E. coli</i> überexprimiert werden. Ähnliche Ansätze von zwei anderen Gruppen<span><sup>18, 19</sup></span> weichen in Bezug auf die vorgenommenen Verkürzungen deutlich von unserem Ansatz ab (siehe Hintergrundinformationen für weitere Einzelheiten). Das mit einem N-terminalen Strep-Tag fusionierte hpTet3 wurde zunächst durch Affinitätschromatographie über ein StrepTrap XT-Material gereinigt und anschließend eine Heparin-Säule verwendet, um Chaperon-Verunreinigungen (Hsp40 und Hsp70) zu entfernen.\\n</p><p>Als nächstes untersuchten wir die katalytische Aktivität des hpTet3-Enzyms. Zu diesem Zweck methylierten wir zunächst mit der CpG-spezifischen Methyltransferase M.SssI die genomische DNA des Lambda-Phagen und verdauten sie bis auf die Ebene der einzelnen Nukleoside. Die Quantifizierung aller im Genom vorhandenen Nukleoside, insbesondere potenziell oxidierter Nukleoside wie 5-Formyl-dC (fdC), 5-Hydroxymethyl-dU (hmdU) und 8-Oxo-dG, erfolgte mittels quantitativer Triple-Quadrupol-Massenspektrometrie (UHPLC-QQQ-MS) unter Verwendung eines vollständigen Satzes mit stabilen Isotopen markierter interner Standards für dA, dT, dG, dC, mdC, hmdC, fdC, cadC, hmdU und 8-oxo-dG (Abbildung 3) nach unserer zuvor beschriebenen Methode.<span><sup>20</sup></span> In einem zweiten Experiment behandelten wir die genomische DNA vor dem Verdau mit hpTet3 (zu den Behandlungsbedingungen siehe SI) und wiederholten das Quantifizierungsexperiment mit den genannten Isotopenstandards. Dadurch konnten wir sehr genaue quantitative Daten erhalten. Wie in Abbildung 3a dargestellt, haben wir festgestellt, dass bei der Oxidation das Signal für mdC verschwindet und stattdessen ein starkes Signal für cadC zu erkennen ist. Die Oxidationszwischenstufen hmdC und fdC wurden nicht gefunden, was eine vollständige Umwandlung beweist. Wir wiederholten die Studie mit verschiedenen eukaryotischen Genomen (Abbildung 3b) und stellten fest, dass in allen Fällen das Signal für mdC (und 5-Hydroxymethyl-dC) bei der Oxidation mit hpTet3 vollständig verschwand und ein neues und starkes Signal für cadC entstand.\\n</p><p>In allen Fällen konnten wir kein restliches mdC nachweisen. Stattdessen wurde cadC in Konzentrationen nachgewiesen, die denjenigen von mdC im Ausgangsmaterial entsprechen, z. B. 4,23 % in HEK293T gDNA (siehe Hintergrundinformationen Table S1 für andere Proben). Die quantitative Analyse der hpTet3-Reaktion ergab eine Oxidationsausbeute von mdC zu cadC von 99,96 % in genomischer DNA.</p><p>Um unerwünschte oxidative Schäden abzuschätzen, haben wir den Gehalt an 8-oxo-dG quantifiziert und keinen signifikanten Anstieg festgestellt. Bei hmdU wurde ein erwartungsgemäßer Anstieg auf 48 hmdU-DNA-Läsionen pro Genom beobachtet.<span><sup>21</sup></span> Diese Daten zeigen, dass die Oxidation von mdC zu cadC mit hpTet3 sehr effizient ist und nur eine geringe Anzahl von hmdU-Läsionen erzeugt (SI Abb. S3 & Table S2).</p><p>In der Folge wurde die Möglichkeit einer Sequenzierung von mdC mittels SMRT-Sequenzierung der dritten Generation evaluiert. Für die SMRT-Sequenzierung haben wir drei Modellgenome aus Lambda-Phagen-DNA (dam<sup>-</sup>, dcm<sup>-</sup>) hergestellt. Das erste Genom (LMD-dC) enthielt kein mdC. Im zweiten Genom haben wir alle CpG-Stellen mit M.SssI enzymatisch methyliert (LMD-mdC). Für das dritte Genom oxidierten wir das LMD-mdC-Genom mit hpTet3, um alle mdCs in cadCs umzuwandeln (LMD-cadC). Um die Reinheit dieser Modell-DNAs zu überwachen, verdauten wir die drei Genome bis auf Nukleosid-Ebene und analysierten die Nukleosid-Zusammensetzung mit UHPLC-QQQ-MS. Die erhaltenen Daten (SI-Tabelle S1) bestätigten die hohe Methylierungseffizienz von M.SssI (99,99 %) und die hohe Oxidationseffizienz zu cadC mit hpTet3 (99,96 %).</p><p>Nach der Bibliotheksvorbereitung und Sequenzierung auf einer Sequel IIe-Plattform erhielten wir 385.942 Sequenzen für das unmodifizierte Lambda-Genom, 433.815 Sequenzen für das mdC-haltige Genom und 456.646 Sequenzen für das cadC-haltige Genom. Als Nächstes führten wir die Extraktion von Alignment-Merkmalen (IPD- und PW-Werte) mit ccsmeth <span>(</span>https://github.com/PengNi/ccsmeth) durch, wie in Abb. 4a dargestellt. Wir extrahierten mittlere IPD- und PW-Werte für jede CpG-Position im Lambda-Genom innerhalb eines <i>21-k-mers</i> (±10 bp um das interessierende Cytosin) (Abb. 4b). Hinsichtlich der IPD-Werte wurde ein großer Unterschied im 21-k-mer zwischen den Situationen dC, mdC und cadC beobachtet (Abb. 4b links). Im Vergleich zu dC zeigten mdC und cadC unterschiedliche Signalmuster in der Nähe der xdC-Position (k-mer-Positionen 8–19). Während die Signalmuster für dC und cadC ähnlich sind, sind die normalisierten Zeitwerte für cadC stark erhöht. Außerdem wurden Unterschiede in den PW-Mustern beobachtet (Abb. 4b rechts). Insbesondere zeigt cadC einen starken Zeitanstieg an der k-mer-Position 18, die 7 Positionen stromabwärts von der cadC-Position liegt. Diese Daten zeigen, wie komplex die Unterschiede im Fußabdruck zwischen dC, mdC und cadC sind, insbesondere außerhalb von CpG-Dyaden. Denn die PW- und IPD-Unterschiede zeigen sich nicht nur am Nukleotid selbst, sondern auch mehrere Nukleotide entfernt, stromaufwärts oder stromabwärts (SI Abb. S4). Um sicherzustellen, dass diese Muster nicht das Ergebnis überlappender Signale benachbarter CpG-Stellen sind, haben wir IPD und PW für 21-k-mere mit einem, zwei oder mehr als zwei CpGs aufgetragen (SI Abb. S5). In allen Fällen sind die extrahierten Muster für IPD und PW ähnlich, was auf vielfältige und komplexe Wechselwirkungen zwischen der Polymerase und dem Templat hinweist.\\n</p><p>Als Nächstes untersuchten wir, ob die komplexen, aber starken kinetischen PW- und IPD-Daten für cadC zum Training eines KI-basierten rekurrenten neuronalen Netzwerks (RNN) verwendet werden können. In Anlehnung an die Trainingsprozedur von ccsmeth trainierten wir ein mdC-Modell auf der Grundlage der LMD-dC- und LMD-mdC-Datensätze, sowie ein cadC-Modell auf der Grundlage der LMD-dC- und LMD-cadC-Datensätze (Abb. 4a). Die aus dem KI-Modell gewonnenen Schlüsselparameter sind in Hintergrundinformationen Abb. S6 dargestellt. Zu unserer Freude stellten wir fest, dass die kinetischen Sequenzierungsdaten von cadC in Kombination mit dem trainierten Algorithmus ein cadC-Modell ergaben, das die Leistung des kanonischen ccsmeth und unseres mdC-LMD-Modells in allen Aspekten übertraf. Zur Erkennung von mdC benötigte das RNN 181 Trainingsrunden, um eine Modellgenauigkeit von 0,945 zu erreichen. Die Präzision erreichte einen Wert von 0,962 und der Recall (Anzahl der beschreibbaren CpG-Dyaden) lag bei 0,956. Für cadC benötigte das Modell nur 16 Trainingsschritte, um eine Genauigkeit von 0,987, eine Präzision von 0,987 und einen Recall von 0,988 zu erreichen. Dies sind fantastische Werte, insbesondere angesichts der wenigen erforderlichen Trainingsschritte (SI Abb. S6).</p><p>Anschließend testeten wir die neuen Modelle, indem wir sie auf die einzelnen Datensätze für LMD-dC, LMD-mdC und LMD-cadC anwandten. Für die Erkennung von mdC verglichen wir unsere LMD-mdC- und LMD-cadC-Modelle mit dem ccsmeth-Standardmodell, das auf menschlicher DNA trainiert wurde.<span><sup>22</sup></span> Anhand unserer UHPLC-QQQ-MS-Messungen wissen wir, dass das modifizierte genetische Material, das den LMD-mdC- und LMD-cadC-Modellen zugrunde liegt, 99,99 % mdC bzw. 99,96 % cadC in den CpG-Dyaden enthält (SI Tabelle S1). Im LMD-mdC-Modell sollte die Methylierungshäufigkeit einer CpG-Dyade folglich fast 1 betragen, während sie in der nicht-methylierten LMD-dC-DNA nahe null liegen sollte. Die Sequenzierungsergebnisse sind in den Abbildungen 4c und S7 zusammengefasst und in den SI-Tabellen S3 und S4 im Detail dargestellt.</p><p>Als Referenz haben wir LMD-dC und LMD-mdC mit Bisulfit sequenziert, um unsere mit der individuellen ccsmeth-Prozedur erzielten Ergebnisse damit zu vergleichen. Die Bisulfit-Daten zeigen, dass 98,2 % aller CpGs eine Methylierungsfrequenz von >=90 % aufweisen. Allerdings weisen nur 23,82 % aller CpGs eine Methylierungshäufigkeit von >=95 % auf.</p><p>Bei der Analyse der SMRT-seq-Daten mit unserem auf mdC trainierten Modell stellten wir fest, dass 76,75 % der CpG-Stellen in der LMD-mdC-Probe eine Methylierungshäufigkeit von >95 % aufwiesen. Darüber hinaus wiesen 21,1 % der CpGs in der LMD-dC-Probe eine Methylierung von mehr als 10 % auf. Die Zahlen waren sogar noch niedriger, wenn wir das kanonische ccsmeth-Modell anwandten, bei dem nur 30 % der CpG-Stellen mit einer Methylierungshäufigkeit von >95 % berichtet wurden (SI Tabelle S3).</p><p>Mit dem neuen cadC-Modell, das auf hpTet3-oxidierter Lambda-DNA trainiert wurde, erkennen wir ein scharfes Signal (blau) von nahezu 100 % für die cadC-Häufigkeit in CpG-Dyaden (Abbildung 4c). Genauer gesagt haben 94,68 % aller CpGs aus der LMD-dC-Probe eine Modifikationsfrequenz von <10 % und 99,95 % aller CpGs aus der LMD-cadC-Probe eine Modifikationfrequenz von >=95. Tatsächlich sagt unser Modell voraus, dass 94,63 % aller CpGs eine Methylierungsfrequenz von >=98 % haben.</p><p>Diese Ergebnisse zeigen, dass das neue Modell in der Lage ist, alle cadCs im Lambda-Genom mit bisher unerreichter Genauigkeit vorherzusagen. Dies beruht auf der Tatsache, dass die Oxidation von mdC zu cadC mit dem neuen hpTet3-Enzym sehr charakteristische PW- und IPD-Werte liefert. In Kombination mit dem KI-generierten cadC-Modell ermöglicht dies eine sehr genaue und empfindliche Sequenzierung von mdC. Im Gegensatz zu anderen bisulfitfreien Methoden<span><sup>5, 11, 23</sup></span> ist unser Ansatz einstufig und PCR-frei, was mögliche Verzerrungen reduziert.</p><p>Wir haben festgestellt, dass eine sequenzabhängig abweichende Oxidationsaktivität des hpTet3-Enzyms (SI Abb. S8 & S9 und Hintergrundinformationen Table S5 & S6) gering ist, insbesondere wenn hohe Enzymkonzentrationen verwendet werden. Dies ist ein weiterer Grund für die hohe Genauigkeit (99,9 %) unserer 5mdC-Sequenzierungsmethode.</p><p>Zusammenfassend beschreiben wir die Entwicklung einer neuen hpTet3-Variante, die in <i>E. coli</i> überexprimiert werden kann. hpTet3 ist stabil und oxidiert mdC zu cadC mit hoher Effizienz. Der Sequenzeinfluss auf die Oxidation ist gering. Vor allem bei höheren Enzymkonzentrationen sind wir in der Lage, mdCs mit hoher Effizienz zu cadC zu oxidieren, auch in Nicht-CpG-Kontexten. Somit kann das Enzym in Kombination mit einer Desaminierungsreaktion und PCR prinzipiell auch die mdC-Sequenzierung in Nicht-CpG-Kontexten unterstützen. Wir haben die SMRT-Sequenzierung von hpTet3-behandelter DNA durchgeführt und sehr charakteristische IPD- und PW-Werte festgestellt, die eine präzise Lokalisierung von cadC in allen CpG-Kontexten ermöglichten. Die SMRT-Sequenzierung von mdC über cadC wurde nach weiteren Manipulationen mit noch nie dagewesener Genauigkeit erreicht. Eine weitere Stärke der Methode ist die Möglichkeit der Sequenzierung mit besonders hoher Leselänge, die auch für repetitive Genomelemente hochpräzise Daten liefert. Das neue hpTet3 kann außerdem dazu beitragen, andere 5mdC-Sequenzierungsstrategien, wie TAPS und EM-Seq, zu verbessern. In Analogie dazu nennen wir unsere Methode Enzymatische Methyl-Oxidations-Sequenzierung (EMox-seq).</p><p>Die in dieser Veröffentlichung besprochenen Daten sind in der Supporting Information verfügbar. Sequenzierdaten wurden im Gene Expression Omnibus des NCBI hinterlegt<span><sup>24</sup></span> hinterlegt und sind über die GEO-Serien-Zugangsnummer GSE256446 zugänglich. (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE256446).</p>\",\"PeriodicalId\":7803,\"journal\":{\"name\":\"Angewandte Chemie\",\"volume\":\"136 52\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2024-11-13\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"https://onlinelibrary.wiley.com/doi/epdf/10.1002/ange.202418500\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Angewandte Chemie\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://onlinelibrary.wiley.com/doi/10.1002/ange.202418500\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Angewandte Chemie","FirstCategoryId":"1085","ListUrlMain":"https://onlinelibrary.wiley.com/doi/10.1002/ange.202418500","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

摘要

第五天的存在Nukleosids 5-Methyldesoxycytidin (mdC),要么Genkörper Promotorregionen或他们的影响相关的Transkriptionsstatus Gens.1通常导致mdC发生在Promotorregionen Inaktivierung有关的基因,而unmethylierte Promotoren更积极举报Transkription .基因中mdC的识别可以表征相关基因的转录状态，这对肿瘤细胞的识别和表征至关重要。2,3在肿瘤细胞中，致癌基因经常被错误地激活，而肿瘤抑制基因则被错误地关闭。因此，用最少的起始材料对mdC进行测序，对于建立一个新的肿瘤诊断领域，即所谓的液体活检，是非常有趣的。4到目前为止，mdC测序主要是用双硫酸盐处理完成的（图1a）。基因组DNA在60°C下用亚硫酸盐处理，将所有未甲基化的胞嘧啶转化为尿嘧啶，而mdC保持完整。mdC在基因组中的位置是通过PCR和测序来确定的，方法是将获得的序列与参考基因组进行比较。然而，这种方法的一个主要问题是，由于严重的碎片化，大部分基因组起始DNA无法在双硫代处理的恶劣条件下存活。这一限制被广泛的基于pcr的非降解DNA扩增所缓解。另一个缺点是双亚硫酸盐测序协议繁琐且容易出错。目前正在开发的较温和的方法，如EM-seq，使用去胺酶APOBEC3A (A3A)，它也将dC去胺化为dU。然而，通过将所有dC碱基去胺化为dU，基因组的复杂性从一个四位数的碱基减少到一个三位数的碱基（dA、dG、dU和剩余的mdC），使序列分配变得困难，特别是在重复元素的情况下。另一种对mdC进行测序的方法是第三代测序，即直接读取序列，而不需要PCR步骤。目前，所有第三代单分子测序工具，如纳米孔或SMRT测序，都允许直接读取mdC。然而，这些方法仍处于早期阶段，dC和mdC接收到的测序信号之间的差异通常很小。这需要复杂的数据反卷积，为此需要大量的生物信息学。7,8因此，开发绕过胞嘧啶去胺化的温和mdC测序方法对于开发早期肿瘤诊断的新工具是非常可取的。我们假设，通过将mdC定量氧化为5-羧基胞苷（cadC，图1b），可以克服目前对mdC测序的限制。与dC不同，cadC有一个额外的羧基，在中性pH条件下带负电荷。这可能导致中性mdC和负电荷cadC之间的信号显著差异。通过SMRT测序检测cadC而不是mdC（图1c）的概念已经提出，但尚未实施。在这里，我们展示了cadC显著增加了SMRT测序中确定的两个动力学参数，即脉冲持续时间（IPD）和脉冲宽度（PW），使我们能够训练一个深度学习算法。我们的结果表明，新方法的准确性超过了所有现有的mdC测序方法，为温和的表观遗传mdC测序铺平了道路。该方法基于一种新开发的短但稳定的Tet3酶，该酶可以在大肠杆菌中过表达，并在基因组中将mdC氧化为cadC，收率超过99%。新的基于tet的技术是通过SMRT测序实现的，其中聚合酶将模板中的核苷酸与荧光标记的输入三磷酸盐配对。在磷酸二酯键形成过程中，荧光标记被分离之前，检测器实时测量聚合酶活性位点上结合的三磷酸的荧光信号。因为太sequenzierende DNA-Fragment在循环结构中嵌入(图1c)、移动Polymerase在测序多次沿线zirkulären模板,每个基地(包括cadC-Base)反复读,有一大群Datenpunkten提供了每个垒和高度准确的. 除了所Fluoreszenzsignal身份资料传送垒SMRT-Sequenzierung亦时间,录Polymerase需要Phosphodiesterbindung所产生的影响(PW-Wert),以及个人之间的时间Inkorporationsereignissen (IPD-Wert),因此一些参数为每sequenzierende基地,包括cadC通过Tet-induzierte氧化从mdC形成的能量可供.我们解决的第一个问题是开发一种强健的酶，能够定量地将mdC氧化为cadC。这是通过一种依赖于Fe2+和α-酮戊二酸盐的Ten-Eleven转位酶实现的。10到目前为止，mdC氧化为cadC是在Tet1和Tet2酶的帮助下完成的，但这两种酶的过度表达是困难的。相比之下，成人大脑中分布最广泛的Tet3,15酶将大量的mdC氧化为5-羟基甲基-dC (hmdC) 16我们基于人类Tet217的晶体结构进行了结构导向设计（见SI），并确定了一个非常短（~ 72%）的小鼠Tet3变体（hpTet3），只有465个氨基酸（52 kDa）。在这种hpTet3变体中，我们用甘氨酸丝氨酸桥取代了催化结构域（cd）内的低复杂度区域（图2）。由此产生的hpTet3蛋白在大肠杆菌中过表达。另外两组18、19的类似方法在削减方面与我们的方法有很大不同（详见背景信息）。与n端Strep标签融合的hpTet3首先使用StrepTrap XT材料进行亲和色谱纯化，然后使用肝素柱去除伴侣杂质（Hsp40和Hsp70）。接下来，我们研究了hpTet3酶的催化活性。为此，我们首先使用cpg特异性甲基转移酶M.SssI甲基化lambda噬菌体的基因组DNA，并将其消化到单个核苷水平。计算所有现有Nukleoside基因组内,特别是潜在oxidierter Nukleoside 5-Formyl-dC (fdC)、5-Hydroxymethyl-dU (hmdU)和8-Oxo-dG并通过量化Triple-Quadrupol-Massenspektrometrie (UHPLC-QQQ-MS)句子采用全面和稳定同位素markierter内部标准在dT,大卫,特区,mdC hmdC fdC、cadC在第二个实验中，我们在消化前用hpTet3处理基因组DNA（有关处理条件，请参阅SI），并使用上述同位素标准重复量化实验。这使我们能够获得非常精确的定量数据。如图3a所示，我们发现mdC的信号在氧化过程中消失，取而代之的是cadC的强信号。没有发现氧化中间体hmdC和fdC，这证明了完全的转化。我们用不同的真核基因组（图3b）重复了这项研究，发现在所有情况下，mdC（和5-羟基甲基-dC）的信号在hpTet3氧化作用下完全消失，而cadC的信号出现了一个新的强信号。在所有情况下，我们都无法检测到残留的mdC。相反，检测到的cadC浓度与原料中mdC的浓度相对应，例如：在HEK293T gDNA中占4.23%（其他样本见背景信息表S1）。对hpTet3反应的定量分析显示，基因组DNA中mdC到cadC的氧化率为99.96%。为了估计不良氧化损伤，我们量化了8-oxo-dG的含量，没有发现显著增加。在hmdU中，每个基因组观察到48个hmdU DNA损伤的预期增加。这些数据表明，hpTet3将mdC氧化为cadC非常有效，只产生少量的hmdU病变(SI图S3 &amp；调味(S2) .因此，通过第三代SMRT测序对mdC进行测序的可能性进行了评估。对于SMRT测序，我们从lambda噬菌体DNA （dam-, dcm-）生成了三个模型基因组。第一个基因组（LMD-dC）不含mdC。在第二个基因组中，我们用M.SssI酶甲基化了所有的CpG位点（LMD-mdC）。对于第三个基因组，我们用hpTet3氧化LMD-mdC基因组，将所有的mdCs转化为cadCs （LMD-cadC）。为了监测这些模型DNA的纯度，我们将三个基因组消化到核糖体水平，并使用UHPLC-QQQ-MS分析核糖体的组成。使用新的cadC模型，在hpTet3氧化lambda DNA上训练，我们检测到CpG二烯中cadC频率接近100%的清晰信号（蓝色）（图4c）。更准确地说，LMD-dC样本中94.68%的CpG的修改频率为“10%”，LMD-cadC样本中99.95%的CpG的修改频率为“=95”。事实上，我们的模型预测94.63%的cpg的甲基化频率为98%。这些结果表明，新模型能够以前所未有的精度预测lambda基因组中的所有cadCs。这是基于这样一个事实：用新的hpTet3酶将mdC氧化为cadC会产生非常特征性的PW和IPD值。结合人工智能生成的cadC模型，这允许对mdC进行非常精确和敏感的测序。与其他无双亚硫酸盐方法5、11、23相比，我们的方法是单级的，不含pcr，这减少了潜在的失真。我们发现hpTet3酶（SI图S8）的氧化活性随序列的变化而变化。S9和背景信息表S5 &amp；S6)低，特别是当使用高浓度的酶时。这也是我们的5mdC测序方法准确率高（99.9%）的另一个原因。综上所述，我们描述了一种新的hpTet3变体的发展，它可以在大肠杆菌中过表达。hpTet3是稳定的，高效地将mdC氧化为cadC。它对氧化的影响很小。特别是在酶浓度较高的情况下，我们能够高效地将mdCs氧化为cadC，即使是非cpg环境。因此，与去胺反应和PCR相结合，该酶原则上也可以支持非cpg环境中的mdC测序。我们对hpTet3处理过的DNA进行了SMRT测序，并确定了高度特征性的IPD和PW值，使cadC在所有CpG环境中都能精确定位。经过进一步的操作，mdC到cadC的SMRT测序达到了前所未有的精度。该方法的另一个优点是具有特别高的读取长度的测序能力，这也为重复的基因组元素提供了高精度的数据。新的hpTet3还可以帮助改进其他5mdC测序策略，如TAPS和EM-Seq。类似地，我们称我们的方法为酶甲基氧化测序（EMox-seq）。本出版物中讨论的数据可以在支持信息中找到。测序数据存储在NCBI的基因表达综合库24中，可以通过GEO系列访问号GSE256446访问。(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE256446) .

本文章由计算机程序翻译，如有差异，请以英文原文为准。

Robuste Bisulfit-freie Einzelmolekül-Echtzeitsequenzierung von Methyldesoxycytidin auf der Grundlage eines neuartigen hpTet3-Enzyms

查看原文本刊更多论文

Robuste Bisulfit-freie Einzelmolekül-Echtzeitsequenzierung von Methyldesoxycytidin auf der Grundlage eines neuartigen hpTet3-Enzyms

Das Vorhandensein des fünften Nukleosids 5-Methyldesoxycytidin (mdC), entweder in Promotorregionen oder im Genkörper beeinflusst den Transkriptionsstatus des entsprechenden Gens.¹ In der Regel führt das Vorkommen von mdC in Promotorregionen zur Inaktivierung des betreffenden Gens, während unmethylierte Promotoren eine aktivere Transkription anzeigen. Die Identifizierung von mdC in Genen ermöglicht die Charakterisierung des Transkriptionszustands des betreffenden Gens, was für die Identifizierung und Charakterisierung von Tumorzellen von entscheidender Bedeutung ist.^{2, 3} In Tumorzellen werden Onkogene oft fälschlicherweise aktiviert, während Tumorsuppressorgene irrtümlich ausgeschaltet werden. Daher ist die Sequenzierung von mdC mit minimalem Ausgangsmaterial von großem Interesse, um einen neuen Bereich der Tumordiagnostik, die sogenannte Flüssigbiopsie, zu etablieren.⁴

Bislang wird die mdC-Sequenzierung überwiegend mit einer Bisulfit-Behandlung durchgeführt (Abbildung 1a). Genomische DNA, die bei >60 °C mit Bisulfit behandelt wird, wandelt alle unmethylierten Cytidine in Uracil um, während mdC intakt bleibt. Die Bestimmung der mdC-Positionen im Genom erfolgt nach PCR und Sequenzierung durch einen Vergleich der erhaltenen Sequenzen mit einem Referenzgenom. Ein wesentliches Problem dieser Methode besteht jedoch darin, dass ein großer Teil der genomischen Ausgangs-DNA die harten Bedingungen der Bisulfit-Behandlung aufgrund starker Fragmentierung nicht übersteht. Diese Einschränkung wird durch eine umfangreiche PCR-basierte Amplifikation der nicht abgebauten DNA gemildert. Ein weiterer Nachteil ist, dass das Bisulfit-Sequenzierungsprotokoll umständlich und fehleranfällig ist. Mildere Methoden wie EM-seq, die derzeit entwickelt werden, verwenden das desaminierende Enzym APOBEC3 A (A3 A), das ebenfalls dC zu dU desaminiert.⁵ Durch die Desaminierung aller dC-Basen zu dU wird die Komplexität des Genoms jedoch von einem vierstelligen Code auf einen Code aus drei Nukleobasen (dA, dG und dU sowie das verbleibende mdC) reduziert, was die Sequenzzuordnung insbesondere bei repetitiven Elementen erschwert.

Ein alternativer Ansatz zur Sequenzierung von mdC ist die Sequenzierung der dritten Generation, bei der die Sequenzen direkt ausgelesen werden, ohne dass ein PCR-Schritt erforderlich ist. Derzeit ermöglichen alle Einzelmolekül-Sequenzierungswerkzeuge der dritten Generation, wie Nanopore oder SMRT-Sequenzierung, das direkte Auslesen von mdC.⁶

Diese Methoden befinden sich jedoch noch im Anfangsstadium, und die Unterschiede zwischen den für dC und mdC erhaltenen Sequenziersignalen sind oft minimal. Dies erfordert eine umständliche Dekonvolution der Daten, für die ein erheblicher Bedarf an Bioinformatik besteht.^{7, 8} Daher ist die Entwicklung von milden mdC-Sequenzierungsmethoden, welche die Cytidin-Desaminierung umgehen, für die Entwicklung neuer Instrumente für die frühe Tumordiagnose äußerst wünschenswert.

Wir stellten die Hypothese auf, dass die derzeitigen Einschränkungen bei der Sequenzierung von mdC durch die quantitative Oxidation von mdC zu 5-Carboxycytidin (cadC, Abbildung 1b) überwunden werden könnten. Im Gegensatz zu dC verfügt cadC über eine zusätzliche Carboxylgruppe, die unter neutralen pH-Bedingungen negativ geladen ist. Dies bewirkt vermutlich einen signifikanten Signalunterschied zwischen dem neutralen mdC und dem negativ geladenen cadC. Das Konzept, cadC anstelle von mdC durch SMRT-Sequenzierung nachzuweisen (Abbildung 1c), wurde bereits vorgeschlagen,⁹ bislang jedoch nicht umgesetzt.

Hier zeigen wir, dass cadC die beiden kinetischen Parameter, die bei der SMRT-Sequenzierung ermittelt werden, nämlich die Interpulsdauer (IPD) und die Pulsbreite (PW), signifikant erhöht und es uns ermöglicht, einen Deep-Learning-Algorithmus zu trainieren. Unsere Ergebnisse zeigen, dass die Genauigkeit der neuen Methode alle aktuellen mdC-Sequenzierungsmethoden übertrifft und den Weg für eine sanfte epigenetische mdC-Sequenzierung ebnet.

Grundlage dieser Methode ist ein neu entwickeltes verkürztes, aber robustes Tet3-Enzym, das in E. coli überexprimiert werden kann und mdC im Genom mit über 99 % Ausbeute zu cadC oxidiert.

Die Implementierung der neuen Tet-basierten Technologie erfolgte unter Zuhilfenahme der SMRT-Sequenzierung, bei der eine Polymerase die Nukleotide in der Vorlage mit fluoreszenzmarkierten eingehenden Triphosphaten paart. Ein Detektor misst das Fluoreszenzsignal des im aktiven Zentrum der Polymerase gebundenen Triphosphats in Echtzeit, bevor die Fluoreszenzmarkierung während der Bildung der Phosphodiesterbindung abgespalten wird. Da das zu sequenzierende DNA-Fragment in eine zirkuläre Struktur eingebettet ist (Abbildung 1c), bewegt sich die Polymerase bei der Sequenzierung mehrfach entlang der zirkulären Vorlage, so dass jede Base (einschließlich der cadC-Base) wiederholt gelesen wird, was eine große Anzahl von Datenpunkten für jede Base und ein hohes Maß an Genauigkeit liefert. Neben dem Fluoreszenzsignal, das die ankommende Base identifiziert, zeichnet die SMRT-Sequenzierung auch die Zeit auf, die die Polymerase benötigt, um die Phosphodiesterbindung zu bilden (PW-Wert), sowie die Zeit zwischen den einzelnen Inkorporationsereignissen (IPD-Wert), wodurch mehrere Parameter für jede zu sequenzierende Base, einschließlich cadC, welches durch Tet-induzierte Oxidation aus mdC gebildet wird, zur Verfügung stehen. Das erste Problem, mit dem wir uns befassten, war die Entwicklung eines robusten Enzyms, das in der Lage ist, mdC quantitativ zu cadC zu oxidieren. Dies wurde mit Hilfe eines Ten-Eleven-Translocation-Enzyms erreicht, einer Fe²⁺ und α-Ketoglutarat-abhängigen Monooxygenase.¹⁰ Die Oxidation von mdC zu cadC wurde bislang unter Zuhilfenahme der Enzyme Tet1 und Tet2 durchgeführt, deren Überexpression jedoch mit Schwierigkeiten verbunden ist.^{5, 11-14}

Im Gegensatz dazu ist das im Gehirn von Erwachsenen am weitesten verbreitete Tet-Enzym Tet3,¹⁵ welches erhebliche Mengen von mdC zu 5-Hydroxymethyl-dC (hmdC) oxidiert.¹⁶ Wir haben ein strukturgeleitetes Design auf der Grundlage der Kristallstruktur von menschlichem Tet2¹⁷ durchgeführt (siehe SI) und identifizierten eine stark (um ~72 %) verkürzte Maus-Tet3-Variante (hpTet3), die aus nur 465 Aminosäuren (52 kDa) besteht. Bei dieser hpTet3-Variante ersetzten wir die Region mit geringer Komplexität innerhalb der katalytischen Domäne (cd) durch eine Glycin-Serin-Brücke (Abbildung 2). Das resultierende hpTet3-Protein konnte in E. coli überexprimiert werden. Ähnliche Ansätze von zwei anderen Gruppen^{18, 19} weichen in Bezug auf die vorgenommenen Verkürzungen deutlich von unserem Ansatz ab (siehe Hintergrundinformationen für weitere Einzelheiten). Das mit einem N-terminalen Strep-Tag fusionierte hpTet3 wurde zunächst durch Affinitätschromatographie über ein StrepTrap XT-Material gereinigt und anschließend eine Heparin-Säule verwendet, um Chaperon-Verunreinigungen (Hsp40 und Hsp70) zu entfernen.

Als nächstes untersuchten wir die katalytische Aktivität des hpTet3-Enzyms. Zu diesem Zweck methylierten wir zunächst mit der CpG-spezifischen Methyltransferase M.SssI die genomische DNA des Lambda-Phagen und verdauten sie bis auf die Ebene der einzelnen Nukleoside. Die Quantifizierung aller im Genom vorhandenen Nukleoside, insbesondere potenziell oxidierter Nukleoside wie 5-Formyl-dC (fdC), 5-Hydroxymethyl-dU (hmdU) und 8-Oxo-dG, erfolgte mittels quantitativer Triple-Quadrupol-Massenspektrometrie (UHPLC-QQQ-MS) unter Verwendung eines vollständigen Satzes mit stabilen Isotopen markierter interner Standards für dA, dT, dG, dC, mdC, hmdC, fdC, cadC, hmdU und 8-oxo-dG (Abbildung 3) nach unserer zuvor beschriebenen Methode.²⁰ In einem zweiten Experiment behandelten wir die genomische DNA vor dem Verdau mit hpTet3 (zu den Behandlungsbedingungen siehe SI) und wiederholten das Quantifizierungsexperiment mit den genannten Isotopenstandards. Dadurch konnten wir sehr genaue quantitative Daten erhalten. Wie in Abbildung 3a dargestellt, haben wir festgestellt, dass bei der Oxidation das Signal für mdC verschwindet und stattdessen ein starkes Signal für cadC zu erkennen ist. Die Oxidationszwischenstufen hmdC und fdC wurden nicht gefunden, was eine vollständige Umwandlung beweist. Wir wiederholten die Studie mit verschiedenen eukaryotischen Genomen (Abbildung 3b) und stellten fest, dass in allen Fällen das Signal für mdC (und 5-Hydroxymethyl-dC) bei der Oxidation mit hpTet3 vollständig verschwand und ein neues und starkes Signal für cadC entstand.

In allen Fällen konnten wir kein restliches mdC nachweisen. Stattdessen wurde cadC in Konzentrationen nachgewiesen, die denjenigen von mdC im Ausgangsmaterial entsprechen, z. B. 4,23 % in HEK293T gDNA (siehe Hintergrundinformationen Table S1 für andere Proben). Die quantitative Analyse der hpTet3-Reaktion ergab eine Oxidationsausbeute von mdC zu cadC von 99,96 % in genomischer DNA.

Um unerwünschte oxidative Schäden abzuschätzen, haben wir den Gehalt an 8-oxo-dG quantifiziert und keinen signifikanten Anstieg festgestellt. Bei hmdU wurde ein erwartungsgemäßer Anstieg auf 48 hmdU-DNA-Läsionen pro Genom beobachtet.²¹ Diese Daten zeigen, dass die Oxidation von mdC zu cadC mit hpTet3 sehr effizient ist und nur eine geringe Anzahl von hmdU-Läsionen erzeugt (SI Abb. S3 & Table S2).

In der Folge wurde die Möglichkeit einer Sequenzierung von mdC mittels SMRT-Sequenzierung der dritten Generation evaluiert. Für die SMRT-Sequenzierung haben wir drei Modellgenome aus Lambda-Phagen-DNA (dam^-, dcm^-) hergestellt. Das erste Genom (LMD-dC) enthielt kein mdC. Im zweiten Genom haben wir alle CpG-Stellen mit M.SssI enzymatisch methyliert (LMD-mdC). Für das dritte Genom oxidierten wir das LMD-mdC-Genom mit hpTet3, um alle mdCs in cadCs umzuwandeln (LMD-cadC). Um die Reinheit dieser Modell-DNAs zu überwachen, verdauten wir die drei Genome bis auf Nukleosid-Ebene und analysierten die Nukleosid-Zusammensetzung mit UHPLC-QQQ-MS. Die erhaltenen Daten (SI-Tabelle S1) bestätigten die hohe Methylierungseffizienz von M.SssI (99,99 %) und die hohe Oxidationseffizienz zu cadC mit hpTet3 (99,96 %).

Nach der Bibliotheksvorbereitung und Sequenzierung auf einer Sequel IIe-Plattform erhielten wir 385.942 Sequenzen für das unmodifizierte Lambda-Genom, 433.815 Sequenzen für das mdC-haltige Genom und 456.646 Sequenzen für das cadC-haltige Genom. Als Nächstes führten wir die Extraktion von Alignment-Merkmalen (IPD- und PW-Werte) mit ccsmeth (https://github.com/PengNi/ccsmeth) durch, wie in Abb. 4a dargestellt. Wir extrahierten mittlere IPD- und PW-Werte für jede CpG-Position im Lambda-Genom innerhalb eines 21-k-mers (±10 bp um das interessierende Cytosin) (Abb. 4b). Hinsichtlich der IPD-Werte wurde ein großer Unterschied im 21-k-mer zwischen den Situationen dC, mdC und cadC beobachtet (Abb. 4b links). Im Vergleich zu dC zeigten mdC und cadC unterschiedliche Signalmuster in der Nähe der xdC-Position (k-mer-Positionen 8–19). Während die Signalmuster für dC und cadC ähnlich sind, sind die normalisierten Zeitwerte für cadC stark erhöht. Außerdem wurden Unterschiede in den PW-Mustern beobachtet (Abb. 4b rechts). Insbesondere zeigt cadC einen starken Zeitanstieg an der k-mer-Position 18, die 7 Positionen stromabwärts von der cadC-Position liegt. Diese Daten zeigen, wie komplex die Unterschiede im Fußabdruck zwischen dC, mdC und cadC sind, insbesondere außerhalb von CpG-Dyaden. Denn die PW- und IPD-Unterschiede zeigen sich nicht nur am Nukleotid selbst, sondern auch mehrere Nukleotide entfernt, stromaufwärts oder stromabwärts (SI Abb. S4). Um sicherzustellen, dass diese Muster nicht das Ergebnis überlappender Signale benachbarter CpG-Stellen sind, haben wir IPD und PW für 21-k-mere mit einem, zwei oder mehr als zwei CpGs aufgetragen (SI Abb. S5). In allen Fällen sind die extrahierten Muster für IPD und PW ähnlich, was auf vielfältige und komplexe Wechselwirkungen zwischen der Polymerase und dem Templat hinweist.

Als Nächstes untersuchten wir, ob die komplexen, aber starken kinetischen PW- und IPD-Daten für cadC zum Training eines KI-basierten rekurrenten neuronalen Netzwerks (RNN) verwendet werden können. In Anlehnung an die Trainingsprozedur von ccsmeth trainierten wir ein mdC-Modell auf der Grundlage der LMD-dC- und LMD-mdC-Datensätze, sowie ein cadC-Modell auf der Grundlage der LMD-dC- und LMD-cadC-Datensätze (Abb. 4a). Die aus dem KI-Modell gewonnenen Schlüsselparameter sind in Hintergrundinformationen Abb. S6 dargestellt. Zu unserer Freude stellten wir fest, dass die kinetischen Sequenzierungsdaten von cadC in Kombination mit dem trainierten Algorithmus ein cadC-Modell ergaben, das die Leistung des kanonischen ccsmeth und unseres mdC-LMD-Modells in allen Aspekten übertraf. Zur Erkennung von mdC benötigte das RNN 181 Trainingsrunden, um eine Modellgenauigkeit von 0,945 zu erreichen. Die Präzision erreichte einen Wert von 0,962 und der Recall (Anzahl der beschreibbaren CpG-Dyaden) lag bei 0,956. Für cadC benötigte das Modell nur 16 Trainingsschritte, um eine Genauigkeit von 0,987, eine Präzision von 0,987 und einen Recall von 0,988 zu erreichen. Dies sind fantastische Werte, insbesondere angesichts der wenigen erforderlichen Trainingsschritte (SI Abb. S6).

Anschließend testeten wir die neuen Modelle, indem wir sie auf die einzelnen Datensätze für LMD-dC, LMD-mdC und LMD-cadC anwandten. Für die Erkennung von mdC verglichen wir unsere LMD-mdC- und LMD-cadC-Modelle mit dem ccsmeth-Standardmodell, das auf menschlicher DNA trainiert wurde.²² Anhand unserer UHPLC-QQQ-MS-Messungen wissen wir, dass das modifizierte genetische Material, das den LMD-mdC- und LMD-cadC-Modellen zugrunde liegt, 99,99 % mdC bzw. 99,96 % cadC in den CpG-Dyaden enthält (SI Tabelle S1). Im LMD-mdC-Modell sollte die Methylierungshäufigkeit einer CpG-Dyade folglich fast 1 betragen, während sie in der nicht-methylierten LMD-dC-DNA nahe null liegen sollte. Die Sequenzierungsergebnisse sind in den Abbildungen 4c und S7 zusammengefasst und in den SI-Tabellen S3 und S4 im Detail dargestellt.

Als Referenz haben wir LMD-dC und LMD-mdC mit Bisulfit sequenziert, um unsere mit der individuellen ccsmeth-Prozedur erzielten Ergebnisse damit zu vergleichen. Die Bisulfit-Daten zeigen, dass 98,2 % aller CpGs eine Methylierungsfrequenz von >=90 % aufweisen. Allerdings weisen nur 23,82 % aller CpGs eine Methylierungshäufigkeit von >=95 % auf.

Bei der Analyse der SMRT-seq-Daten mit unserem auf mdC trainierten Modell stellten wir fest, dass 76,75 % der CpG-Stellen in der LMD-mdC-Probe eine Methylierungshäufigkeit von >95 % aufwiesen. Darüber hinaus wiesen 21,1 % der CpGs in der LMD-dC-Probe eine Methylierung von mehr als 10 % auf. Die Zahlen waren sogar noch niedriger, wenn wir das kanonische ccsmeth-Modell anwandten, bei dem nur 30 % der CpG-Stellen mit einer Methylierungshäufigkeit von >95 % berichtet wurden (SI Tabelle S3).

Mit dem neuen cadC-Modell, das auf hpTet3-oxidierter Lambda-DNA trainiert wurde, erkennen wir ein scharfes Signal (blau) von nahezu 100 % für die cadC-Häufigkeit in CpG-Dyaden (Abbildung 4c). Genauer gesagt haben 94,68 % aller CpGs aus der LMD-dC-Probe eine Modifikationsfrequenz von <10 % und 99,95 % aller CpGs aus der LMD-cadC-Probe eine Modifikationfrequenz von >=95. Tatsächlich sagt unser Modell voraus, dass 94,63 % aller CpGs eine Methylierungsfrequenz von >=98 % haben.

Diese Ergebnisse zeigen, dass das neue Modell in der Lage ist, alle cadCs im Lambda-Genom mit bisher unerreichter Genauigkeit vorherzusagen. Dies beruht auf der Tatsache, dass die Oxidation von mdC zu cadC mit dem neuen hpTet3-Enzym sehr charakteristische PW- und IPD-Werte liefert. In Kombination mit dem KI-generierten cadC-Modell ermöglicht dies eine sehr genaue und empfindliche Sequenzierung von mdC. Im Gegensatz zu anderen bisulfitfreien Methoden^{5, 11, 23} ist unser Ansatz einstufig und PCR-frei, was mögliche Verzerrungen reduziert.

Wir haben festgestellt, dass eine sequenzabhängig abweichende Oxidationsaktivität des hpTet3-Enzyms (SI Abb. S8 & S9 und Hintergrundinformationen Table S5 & S6) gering ist, insbesondere wenn hohe Enzymkonzentrationen verwendet werden. Dies ist ein weiterer Grund für die hohe Genauigkeit (99,9 %) unserer 5mdC-Sequenzierungsmethode.

Zusammenfassend beschreiben wir die Entwicklung einer neuen hpTet3-Variante, die in E. coli überexprimiert werden kann. hpTet3 ist stabil und oxidiert mdC zu cadC mit hoher Effizienz. Der Sequenzeinfluss auf die Oxidation ist gering. Vor allem bei höheren Enzymkonzentrationen sind wir in der Lage, mdCs mit hoher Effizienz zu cadC zu oxidieren, auch in Nicht-CpG-Kontexten. Somit kann das Enzym in Kombination mit einer Desaminierungsreaktion und PCR prinzipiell auch die mdC-Sequenzierung in Nicht-CpG-Kontexten unterstützen. Wir haben die SMRT-Sequenzierung von hpTet3-behandelter DNA durchgeführt und sehr charakteristische IPD- und PW-Werte festgestellt, die eine präzise Lokalisierung von cadC in allen CpG-Kontexten ermöglichten. Die SMRT-Sequenzierung von mdC über cadC wurde nach weiteren Manipulationen mit noch nie dagewesener Genauigkeit erreicht. Eine weitere Stärke der Methode ist die Möglichkeit der Sequenzierung mit besonders hoher Leselänge, die auch für repetitive Genomelemente hochpräzise Daten liefert. Das neue hpTet3 kann außerdem dazu beitragen, andere 5mdC-Sequenzierungsstrategien, wie TAPS und EM-Seq, zu verbessern. In Analogie dazu nennen wir unsere Methode Enzymatische Methyl-Oxidations-Sequenzierung (EMox-seq).

Die in dieser Veröffentlichung besprochenen Daten sind in der Supporting Information verfügbar. Sequenzierdaten wurden im Gene Expression Omnibus des NCBI hinterlegt²⁴ hinterlegt und sind über die GEO-Serien-Zugangsnummer GSE256446 zugänglich. (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE256446).

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Angewandte Chemie

Angewandte Chemie 化学科学, 有机化学, 有机合成

自引率

0.00%

发文量

0

审稿时长

1 months

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：481959085

Book学术官方微信