INTRODUZIONE
Pochi raccolti sono stati oggetto di controversie quanto la Cannabis sativa . Essendo una delle prime piante addomesticate, ha una storia lunga e fluttuante intrecciata con lo sviluppo economico, sociale e culturale delle società umane. Una volta una delle principali fonti di tessuti, cibo e semi oleosi come la canapa, il suo sfruttamento a tal fine è diminuito nel XX secolo, mentre il suo uso come droga ricreativa (cioè la marijuana, che è illegale in molti paesi) si è ampliato. Sebbene molto dibattuto in passato, è attualmente ampiamente accettato che il genere Cannabis comprenda un’unica specie, C. sativa L., di seguito denominata anche Cannabis [recensione in ( 1)]. La pianta è annuale, impollinata dal vento e prevalentemente dioica. È diploide, con 10 paia di cromosomi (2n = 20) ed è caratterizzato da un sistema cromosomico determinante il sesso XY/XX, con una dimensione del genoma di circa 830 Mb ( 2 – 4). Sulla base della distribuzione e dei dati archeobotanici, è stata spesso suggerita come origine di coltivazione della pianta un’ampia regione che va dall’Asia occidentale attraverso l’Asia centrale fino alla Cina settentrionale, la cui successiva diffusione mondiale coincide con la continua selezione artificiale e l’ampia ibridazione tra localmente autoctone adattate, tradizionali e moderne cultivar commerciali. L’allevamento clandestino di droghe e la propensione delle piante domestiche a diventare selvatiche (e possibilmente ad essersi mescolate ai loro antenati selvatici) hanno contribuito alle difficoltà di ricostruire la storia della domesticazione della specie [recensione in ( 3 , 5 , 6 )].
Recentemente, c’è stato un rinnovato interesse globale per il potenziale terapeutico della Cannabis , dati i suoi componenti chimici unici ( 7 ). La canapa e i tipi di droga differiscono anche per la resa relativa di acido cannabidiolico (CBDA) e acido Δ9-tetraidrocannabinolico (THCA), i due più abbondanti e studiati di almeno 100 metaboliti secondari unici noti come cannabinoidi ( 8 ). Dopo la decarbossilazione, le loro forme bioattive (il noto CBD e il THC psicoattivo) si legano ai recettori degli endocannabinoidi nel sistema nervoso centrale di un animale, provocando un’ampia gamma di effetti, alcuni dei quali possono alleviare i sintomi dei disturbi neurologici ( 9 – 14). La canapa coltivata per la fibra in genere produce concentrazioni più elevate di CBDA rispetto al THCA, mentre la marijuana contiene quantità molto elevate di THCA e livelli complessivi di cannabinoidi molto più elevati. Le cultivar ibride ad alto contenuto di CBDA sono attualmente sviluppate per uso medico. Di conseguenza, alla canapa e alla marijuana sono state date definizioni di legge separate, basate su una soglia di concentrazione di THC (ad es. 0,3% di peso secco nell’Unione Europea e negli Stati Uniti) o in base al loro fenotipo chimico o chemiotipo [vale a dire, alto, basso, o rapporto intermedio di THCA su CBDA che caratterizza, rispettivamente, piante che contengono prevalentemente THCA, prevalentemente CBDA, o entrambi i cannabinoidi in rapporti approssimativamente equivalenti ( 15)]. Nonostante una crescente esigenza di varietà producono con profili cannabinoidi specifici per gli agenti terapeutici e di sfruttamento ricreativo, e le recenti importanti contributi alla nostra comprensione della divergenza strutturale e funzionale così come eredità dei loro geni sintasi sottostanti ( 16 – 20 ), i meccanismi che mediano l’evoluzione di questi geni non sono ancora chiaramente noti.
Nonostante il suo uso antico risalga a migliaia di anni fa, la storia genomica dell’addomesticamento della Cannabis è stata poco studiata rispetto ad altre importanti specie coltivate, in gran parte a causa di restrizioni legali. Indagini recenti genomiche che applicano genotipizzazione-by-sequenziamento su cultivar commerciali per lo più occidentali hanno evidenziato una differenziazione marcata genome-wide tra i tipi di canapa e di droga, un risultato mostrato anche da indicatori di ripetizione breve tandem anonimi ( 21 – 24 ). Tuttavia, date le grandi lacune nella nostra conoscenza della storia evolutiva della domesticazione della Cannabis, una ricostruzione completa degli eventi responsabili di quest’ultimo richiede un confronto su larga scala dei dati genomici che coprono l’intero uso finale e l’intervallo geografico, che attualmente è ancora carente ( 6 , 25 ). Sulla base di uno sforzo di campionamento globale senza precedenti, forniamo qui tale quadro compilando 110 interi genomi che coprono l’intero spettro di piante selvatiche selvatiche, varietà locali, cultivar storiche e ibridi moderni sia di canapa che di tipi di droga, con un focus particolare nell’Asia centrale e orientale a causa della loro ipotizzata importanza per le origini di addomesticamento della specie ( 3 , 5 ).
RISULTATI E DISCUSSIONE
Analisi genetiche di popolazione
Il nostro set di dati combina nuovi dati (82 genomi) con interi genomi pubblicamente disponibili da 28 tipi di canapa e farmaci ( Fig. 1A e tabella S1). Dopo aver mappato il genoma di riferimento CBDRx ( 18 ), abbiamo identificato 12.010.905 polimorfismi a singolo nucleotide (SNP) che hanno superato i criteri di filtraggio attraverso le 104 accessioni di cannabis conservate per le analisi successive (fig. S1; vedi Materiali e metodi). Abbiamo caratterizzato le relazioni genetiche tra tutte le accessioni di Cannabis utilizzando la filogenesi della massima verosimiglianza (ML) (radicata su Humulus lupulus ), nonché l’analisi della miscela e dei componenti principali (PCA; Fig. 1 ). Tutte le nostre analisi mostrano un forte raggruppamento di Cannabisaccessioni in quattro gruppi genetici ben separati. Il primo gruppo (in seguito Cannabis basale, gruppo A; Fig. 1B e fig. S2) comprende 14 piante selvatiche e varietà autoctone raccolte in Cina e 2 piante selvatiche provenienti dagli Stati Uniti [probabilmente provenienti da varietà autoctone cinesi del XIX secolo ( 5 )] ; questo gruppo è sorella di tutti gli altri Cannabisadesioni. Il secondo gruppo (tipo Canapa, gruppo B) comprende varietà di canapa distribuite in tutto il mondo (5 piante selvatiche, 13 varietà autoctone e 20 cultivar). Il terzo gruppo (Drug-type feral, group C) contiene alla sua base 3 campioni selvatici raccolti nel sud della Cina, 11 piante selvatiche raccolte in India e Pakistan a sud dell’Himalaya e una cultivar di droga dall’India. Il quarto gruppo (Tipo droga, gruppo D) comprende varietà di droghe coltivate distribuite in tutto il mondo (35 cultivar). Abbiamo trovato una completa congruenza tra i quattro cluster filogeneticamente definiti e le etichette commerciali, la designazione dell’uso finale attuale o storico e/o l’origine geografica predominante delle accessioni. Tuttavia, per evitare distorsioni dovute alla potenziale commistione di antenati, abbiamo anche condotto la maggior parte delle analisi a valle escludendo i campioni misti come identificati dall’analisi della struttura (Fig. 1, C ed E ; vedere Materiali e metodi per ulteriori spiegazioni; tutti i risultati sono nei Materiali Supplementari).
Contrariamente a una visione ampiamente accettata, che associa la cannabis a un centro di domesticazione delle colture dell’Asia centrale [basato principalmente su dati sulla distribuzione delle piante selvatiche, ad esempio ( 26 )], i nostri risultati sono coerenti con un’unica origine di domesticazione di C. sativa nell’Asia orientale , in linea con le prime testimonianze archeologiche (vedi sotto). I risultati indicano anche che alcune delle attuali razze autoctone e piante selvatiche cinesi rappresentano i discendenti più prossimi del pool genetico ancestrale da cui da allora sono derivate varietà autoctone e cultivar di canapa e marijuana. L’Asia orientale ha dimostrato di essere un importante punto caldo antico di addomesticamento per diverse specie di colture, tra cui riso, ginestra e miglio di coda di volpe, soia, volpe, albicocca e pesca [recensione in ( 27 –29)]; i nostri risultati aggiungono quindi un’altra linea di prova per l’importanza di questo punto caldo dell’addomesticamento. Le nostre analisi mostrano che tutti i campioni di tipo canapa (gruppo B) sono reciprocamente monofiletici rispetto a tutti i campioni di tipo farmacologico (sia selvatici che cultivar; gruppi C e D), indicativi di traiettorie di allevamento indipendenti con notevolmente poca evidenza di modelli complessi di flusso genico tra tipi di utilizzo finale durante l’espansione globale. Più specificamente, la topologia dell’albero filogenetico suggerisce (i) un’origine cinese per le moderne cultivar di canapa, illustrata da accessioni di varietà locali di canapa cinese (NER) nella posizione più basale del gruppo di tipo canapa B (fig. S2); (ii) sostanziale differenziazione tra piante selvatiche di tipo farmaco e una cultivar da un’area che copre entrambi i lati della catena himalayana (gruppo C),Valori di F ST tra i gruppi di farmaci C e D; Fig. 1D ); e (iii) una distinta storia di allevamento per campioni di marijuana provenienti dalle regioni equatoriali (MSA, PEU, SWD, HMW e THD; per i codici dei campioni, vedere la tabella S1), che tendono ad occupare una posizione basale tra le sottocladi del gruppo rispetto alla maggioranza delle moderne cultivar commerciali di tipo farmacologico. Le fonti archeologiche e storiche sono complessivamente coerenti con le nostre analisi filogenetiche (vedi sotto). Inoltre, livelli simili di diversità genetica tra il gruppo basale A e gli altri gruppi, il raggruppamento di piante selvatiche nel gruppo basale A insieme a varietà locali coltivate (NEB) e la presenza di piante selvatiche selvatiche dell’Asia centrale nidificate all’interno della Canapa -tipo gruppo B ( Fig. 1De fichi. S2 e S3) indicano che tutte le piante selvatiche studiate qui non sono tipi selvatici, ma fughe storiche da forme domestiche. Sebbene sia ancora necessario un ulteriore campionamento di piante selvatiche in queste aree geografiche chiave, i nostri risultati, che si basano già su un campionamento molto ampio, suggerirebbero che i progenitori selvatici puri di C. sativa si siano estinti ( 3 , 5 ).
Storia demografica
Si prevede che la forte selezione esercitata sulla Cannabis attraverso il suo lungo processo di domesticazione influenzerà sostanzialmente la dimensione effettiva della popolazione ( N e ) dei cluster genetici esistenti. Per affrontare questo problema, abbiamo stimato N e utilizzando il metodo pairwise sequenzialmente markoviano coalescente (PSMC) ( 30 ) e abbiamo scoperto che tutti e quattro i gruppi mostravano traiettorie demografiche simili ( Fig. 2A e Fig. S4). L’ancestrale N e di Cannabisraggiunse un picco a ~1 milione di anni fa, seguito da un continuo declino fino alla fine dell’ultimo massimo glaciale [~20.000 anni prima del presente (BP)]. Abbiamo inoltre utilizzato simulazioni coalescenti per modellare la recente demografia della cannabis. I cluster genetici selvatici e di tipo farmacologico sono stati trattati come un unico gruppo per ridurre i confronti tra i modelli ei parametri. Sono stati definiti diciotto modelli alternativi per testare i colli di bottiglia e/o la crescita del gruppo cannabis basale, del gruppo di tipo canapa e del gruppo di tipo farmaco integrato con o senza migrazione tra questi gruppi (fig. S5). Il modello che prevedeva un processo di addomesticamento in più fasi (con cambiamenti in tutte le dimensioni della popolazione e continua introgressione post-addomesticamento da popolazioni di cannabis/selvatiche basali a tipi di canapa e di droga) ha prodotto un adattamento significativamente migliore rispetto ai modelli alternativi ( Fig. 2B , figg. S6 e S7, e le tabelle S2 e S3). Gli aplotipi condivisi tra la cannabis basale e altri gruppi sono stati mostrati anche nell’analisi dell’identità per discendenza (fig. S8).
Le nostre analisi sull’intero genoma corroborano la documentazione archeobotanica, archeologica e storica esistente [recensita in ( 5 , 6 , 31 – 33 )] e forniscono un quadro dettagliato della domesticazione della Cannabis e delle sue conseguenze sul corredo genetico della specie. La nostra datazione genomica suggerisce che i primi antenati addomesticati della canapa e dei tipi di droga differivano dalla cannabis basale ~ 12.000 anni BP (intervallo di confidenza 95%: 6458 a 15.728 anni BP; Fig. 2Be tabella S3), indicando che la specie era già stata addomesticata dal primo Neolitico. Ciò coincide con la datazione delle ceramiche con cordoncino della Cina meridionale e di Taiwan (12.000 anni BP), nonché dei semi associati alla ceramica del Giappone (10.000 anni BP). Siti archeologici con la canapa di tipo cannabis manufatti sono sempre trovato da 7500 anni BP in Cina e in Giappone, e il polline coerente con coltivato cannabis è stato trovato in Cina più di 5000 anni BP Solo un piccolo numero di primi addomesticati Cannabis ceppi ampliato a forma posteriore canapa e tipi di droga ~4000 anni BP, un’epoca in cui compaiono più manufatti di fibre nell’Asia orientale e quando la cannabis coltivata in fibrasi stava diffondendo verso ovest in Europa e nel Medio Oriente, come dimostrato dalle prove archeologiche dell’età del bronzo. L’uso rituale e inebriante della Cannabis è stato a sua volta documentato nella Cina occidentale da resti archeologici di almeno 2500 anni BP ( 34 , 35 ). Il primo record archeobotanico di C. sativa nel subcontinente indiano risale a ~ 3000 anni BP, la specie probabilmente introdotta dalla Cina insieme ad altre colture ( 36 , 37 ). In contrasto con l’Asia orientale, i testi storici dell’India risalenti a 2000 anni prima di Cristo indicano che la specie veniva sfruttata solo per l’uso di droghe. Nei secoli successivi, la cannabis di tipo farmacologico drugha viaggiato in varie regioni del mondo, tra cui l’Africa (XIII secolo) e l’America Latina (XVI secolo), raggiungendo progressivamente il Nord America all’inizio del XX secolo e successivamente, negli anni ’70, dal subcontinente indiano. Nel frattempo, le cultivar di tipo canapa furono introdotte per la prima volta nel Nuovo Mondo dai primi coloni europei durante il XVII secolo e successivamente sostituite in Nord America dalle varietà autoctone cinesi di canapa verso la metà del 1800. Coerentemente con questa storia, il nostro modello mostra un graduale aumento del N e della canapa e dei tipi di droga. Sulla base di analisi sia demografiche che filogenetiche, proponiamo che la Cannabis domestica precoce è stato utilizzato per la prima volta come coltura principalmente multiuso fino a ~ 4000 anni BP, prima di subire una forte selezione divergente per una maggiore produzione di fibre o farmaci.
Firme di selezione durante l’addomesticamento e il miglioramento
Come con altre specie di colture, la domesticazione e la diversificazione della Cannabis hanno comportato diversi passaggi complessi, che hanno portato a una radiazione geografica e all’allevamento deliberato di varietà che comportano una selezione sui caratteri per massimizzare la resa e la qualità ( 38 ). Abbiamo applicato un approccio integrativo (π, F STe XP-CLR; vedi Materiali e metodi) per identificare i geni candidati coinvolti nella divergenza tra canapa e tipi di droga dopo la loro prima domesticazione. I tre approcci combinati hanno permesso di identificare un totale di 510 geni candidati in campioni di tipo canapa e 689 in campioni di tipo droga, rispetto al gruppo Basal cannabis, di cui 253 sovrapposti (fig. S9), mentre 134 e 472 i geni sono specifici rispettivamente per le cultivar di canapa e migliorate con i farmaci, se confrontati tra loro (tabelle da S4 a S9). Diversi geni che portano segnali di selezione positiva nelle cultivar migliorate di tipo canapa sono coinvolti nell’inibizione della formazione dei rami (ad es. D14 e KNAT1 ), associati al tempo di fioritura e al fotoperiodismo (ad es. FLK e EHD3) e coinvolti nella biosintesi della cellulosa e della lignina (es. SS e SPS1 ). Nei farmaci, deduciamo la selezione sui geni che promuovono la formazione di rami (es. NDL2 e DTX48 ), associati al tempo di fioritura (es. HUA2 e FPF1 ) e coinvolti nella biosintesi della lignina (es. CSE e C4H ; Fig. 2, C e D , e tabelle S10 e S11). Inoltre, abbiamo anche rilevato segnali di selezione positiva nelle cultivar di tipo farmaco rispetto alle cultivar di tipo canapa sul gene HDR(tabelle S5 e S10) che codifica per l’ultimo enzima nella via del metileritritolo fosfato (che produce substrati essenziali per la biosintesi dei cannabinoidi) e che ha dimostrato di essere potenzialmente associato alla variazione del contenuto totale di cannabinoidi [cioè, potenza ( 18 )]. Questi risultati sono coerenti con i tratti che si prevede siano stati influenzati dalla selezione durante l’addomesticamento di C. sativa , cioè portando a piante di canapa alte e non ramificate che massimizzano le fibre di bastoncino ricche di cellulosa/povere di lignina negli steli rispetto a piante di marijuana corte e ben ramificate con nuclei legnosi ricchi di lignina, massimizzando la produzione di fiori e resina ( 3 , 39 , 40 ).
Perdita di funzione dei due principali geni dei cannabinoidi sintasi durante l’addomesticamento
I due principali cannabinoidi CBDA e THCA che caratterizzano le varietà di canapa e di tipo farmacologico sono prodotti in una reazione biosintetica catalizzata dagli enzimi CBDA e THCA sintasi, che competono per lo stesso substrato acido cannabigerolico (CBGA) [recensione in ( 8 )]. Le due sintasi sono codificate dai geni CBDAS e THCAS , che appartengono alla famiglia multigene simile all’enzima ponte della berberina (BBE), dalla quale potrebbero derivare per duplicazione e neofunzionalizzazione [recensione in ( 41 )]. Quando sono coinvolti nel metabolismo secondario, gli omologhi di questi geni svolgono probabilmente un ruolo importante nella difesa chimica delle piante ( 8 ). Confermando precedenti studi genetici, recenti assemblaggi del genoma hanno mostrato che CBDAS eI THCAS (e le loro molteplici copie pseudogeniche) giacciono sparsi all’interno di loci strettamente collegati, in una regione del genoma ricca di retrotrasposoni e altamente ripetitiva con ricombinazione soppressa e con una storia di ampi riarrangiamenti ed eventi di duplicazione/pseudogenizzazione in tandem ( 4 , 16 – 19 ). Utilizzando rigorosi criteri di filtraggio, abbiamo mappato le letture dei 104 genomi analizzati a un genoma di cultivar ibrido CBDA/THCA di riferimento [Jamaican Lion DASH ( 42 )], in cui sequenze codificanti a lunghezza intera per THCAS , CBDAS e più di 30 copie di pseudogene di questi geni sono assemblati. I risultati ( Fig. 3A) mostrano che tutte le cultivar di marijuana del gruppo genetico di tipo Drug D mappano sempre una sequenza codificante completa per THCAS e due pseudogeni CBDAS (con una somiglianza del 93-94 % con il CBDAS completo ; pseudogeni 1 e 2 in Fig. 3A ; vedi Materiali e Metodi), con l’eccezione di soli cinque campioni che mappano anche un gene CBDAS completo . Al contrario, all’interno del gruppo genetico di tipo canapa B costituito da piante selezionate per la produzione di fibre, tutte le accessioni mappano solo una sequenza completa per CBDAS , ad eccezione di nove campioni (per lo più autoctoni; Fig. 3B ) che mappano sia i geni che il CBDAS pseudogeni o mappa THCASe gli pseudogeni CBDAS . Il modello principale dedotto dalla nostra analisi comparativa conferma i dati strutturali precedenti basati sul sequenziamento completo del genoma di singole cultivar ( 18 , 19 ). È anche coerente con i modelli di ereditarietà dei chemiotipi pubblicati convalidati tra un’ampia varietà di accessioni di cannabis ( 16 , 17 , 20 , 43 , 44 ), fornendo così prove complementari per quest’ultimo a livello di sequenza genomica e convalida globale attraverso un pannello completo di cannabistipi di addomesticamento distribuiti in tutto il mondo. Sebbene i nostri risultati richiedano conferma con dati fenotipici o di espressione associati, forniscono comunque supporto per un modello genetico di ereditarietà basato sulla genotipizzazione CBDAS ( 20 ), in cui le piante omozigoti per gli alleli funzionali o non funzionali di CBDAS hanno il tipo CBD o Chemiotipo di tipo THC, rispettivamente, mentre le piante che sono eterozigoti hanno il chemiotipo di tipo intermedio (coerente con l’ereditarietà mendeliana codominante a causa del documentato legame fisico dei due geni sintasi). Il verificarsi di cinque campioni che mappano THCAS completo e due CBDASpseudogeni (cioè con un presunto chemiotipo THC) annidati all’interno del gruppo genetico di tipo Canapa e, più in generale, il raggruppamento filogenetico sparso della combinazione di geni sintasi (cioè, di più di una presunta classe chemiotipica) attraverso il gruppo genetico di tipo Canapa e i gruppi genetici di tipo forniscono un argomento convincente per l’indipendenza dell’ereditarietà dei cannabinoidi sintasi da una moltitudine di altri tratti selezionati positivamente che differenziano il tipo di fibra dalla cannabis di tipo farmacologico [vedi anche la cultivar ad alto CBDRx, che ha CBDAS completo e manca di THCAS completo ( cioè, chemiotipo CBD) ma raggruppa geneticamente tra le cultivar di marijuana; figura 1 in ( 18)]. Pertanto, i risultati mettono in discussione, sia da un punto di vista biologico che funzionale, l’attuale categorizzazione binaria delle piante di Cannabis come “canapa” o “marijuana” derivata dall’assegnazione a un singolo fenotipo [vedi anche ( 20 )].
In contrasto con questi risultati, i campioni appartenenti al gruppo Basal cannabis (e in misura minore al gruppo Drug-type feral) mostrano un pattern più variabile, con la presenza di uno o un altro gene sintasi, o co-occorrenza. Nel complesso, i nostri risultati indicano una perdita della sequenza completa di codifica THCAS o CBDAS durante la selezione intensiva e recente per una maggiore produzione di fibre o proprietà psicoattive, rispettivamente ( Fig. 3B ). Suggeriscono il possesso ancestrale di entrambi i geni in uno stato funzionale, una condizione polimorfica prima o durante le prime fasi dell’addomesticamento con perdita della funzione di uno dei due geni sintasi e l’ampia perdita di THCAS completo nel tipo canapa e CBDASnelle cultivar di tipo farmaco a causa della forte selezione per i fenotipi delle colture utili ( Fig. 3, A e B ).
La pseudogenizzazione del CBDAS e la presenza esclusiva di THCAS completo nelle cultivar di marijuana sono coerenti con la selezione artificiale di sintesi ad alto THCA attraverso la soppressione della competizione tra i due enzimi sintasi per il loro substrato comune CBGA [ Fig. 3B ; ( 45 , 46 )], forse anche perché è stato dimostrato che la CBDA sintasi è un concorrente superiore del CBGA quando sono presenti entrambe le sintasi ( 17 ). La presenza predominante di CBDAS e la perdita di funzione del THCAS nei tipi di canapa, al contrario, è più sconcertante. La nostra analisi dei dati di trascrittomica ( 47) da una cultivar avente sia i geni sintasi che i due pseudogeni CBDAS rivela che il livello di espressione di CBDAS è sempre significativamente superiore a quello di THCAS , sebbene entrambi siano espressi in tutti i tessuti e nelle fasi vegetative ( Fig. 3C ). Un CBDAS funzionale non sembra un prerequisito per la produzione di fibre di buona qualità nella canapa [ad esempio, cultivar di canapa Santhica 27, priva di entrambi i geni sintasi (FSA in Fig. 3A ) e nota per produrre principalmente CBGA ( 48). Sebbene un tale compromesso possa sembrare improbabile, risuonerebbe con il noto ruolo svolto non solo nella difesa delle piante ma anche nei processi di biosintesi della parete cellulare e/o immunità dagli enzimi primordiali simili alla BBE da cui si sono evoluti i cannabinoidi ( 49 , 50 ). Naturalmente, la perdita della sequenza completa di THCAS osservata nei moderni tipi di canapa può anche semplicemente riflettere l’allevamento selettivo di varietà con livelli molto bassi di THCA autorizzati per la coltivazione.
Conclusione
Insieme, le nostre analisi genomiche, filogenetiche e demografiche di 110 diverse accessioni di C. sativa hanno identificato il tempo e l’origine della domesticazione, i modelli di divergenza post-addomesticazione e la diversità genetica attuale e la struttura genomica di un pannello mondiale esaustivo di Cannabis selvatica- crescenti rappresentanti di specie selvatiche, autoctone e cultivar. Il nostro studio fornisce quindi nuove intuizioni sulla domesticazione e sulla diffusione globale di una pianta con prodotti strutturali e biochimici divergenti in un momento in cui c’è una rinascita di interesse per il suo utilizzo ( 39 , 51 , 52).), riflettendo il cambiamento degli atteggiamenti sociali e le corrispondenti sfide al suo status giuridico in molti paesi. La nostra analisi ha rilevato geni presumibilmente sotto selezione divergente tra accessioni di canapa e uso di droghe e ha specificamente districato gli effetti dell’addomesticamento sull’evoluzione dei principali geni dei cannabinoidi presi di mira per le loro proprietà mediche. I nostri risultati forniscono supporto per uno scenario evolutivo che spiega la variabilità nella composizione dei cannabinoidi tra le piante come risultato della selezione artificiale da parte dei primi agricoltori per mutazioni con perdita di funzione ( 53 ). I nostri risultati offrono anche una base senza precedenti di risorse genomiche per l’allevamento molecolare in corso e la ricerca funzionale, sia in medicina che in agricoltura.
MATERIALI E METODI
Campioni, sequenziamento, controllo qualità e mappatura
Sono stati raccolti un totale di 82 campioni di C. sativa che rappresentano sia la canapa che i tipi di droga in diverse fasi del processo di addomesticamento (cioè piante selvatiche, varietà autoctone e cultivar) ( Fig. 1Ae tabella S1). I semi o le foglie sono stati ottenuti da aziende agronomiche, collezioni di germoplasma (Vavilov Institute of Plant Genetic Resources, San Pietroburgo, Russia) e negozi commerciali o raccolti sul campo in Svizzera, Cina, India, Pakistan e Perù per coprire un’ampia uso finale (in particolare per piante selvatiche e specie locali, che erano sottorappresentate in precedenti studi genomici) e distribuzione geografica, comprese le presunte origini di addomesticamento della specie. Avvertiamo, tuttavia, che l’esatta storia di allevamento delle accessioni di droga è spesso poco chiara, a causa di anni di coltivazione clandestina ( 23). Per ogni campione, il DNA genomico è stato estratto da campioni fogliari (dopo la germinazione dei semi) e sono state costruite librerie di sequenziamento paired-end secondo il protocollo di preparazione della libreria Illumina. Il sequenziamento è stato effettuato su una piattaforma Illumina HiSeq2500 presso la Lausanne Genomic Technologies Facility (Università di Losanna). Tutti i campioni sono stati sequenziati con una copertura target di 10×. Inoltre, abbiamo scaricato e rianalizzato i dati di sequenziamento dell’intero genoma di 28 campioni di canapa e di tipo farmaco che rappresentano principalmente cultivar nordamericane (riferimenti nella tabella S1), risultando in una dimensione di campionamento totale di 110 accessioni di C. sativa . I dati Illumina dell’intero genoma di H. lupulus sono stati scaricati come outgroup ( 54 ) (numero di accesso GenBank DRR024392).
Per le letture di sequenziamento non elaborate, è stato utilizzato Trimmomatic ( 55 ) per rimuovere la sequenza dell’adattatore e le basi di cutoff dall’inizio o dalla fine delle letture quando la qualità della base era <20. Abbiamo scartato le letture se erano più corte di 36 basi dopo il taglio. Abbiamo utilizzato l’assemblaggio a livello di cromosoma più completo e contiguo fino ad oggi come genoma di riferimento [cioè, CBDRx (cs10 v.1.0) ( 18 , 56 )], che ha una lunghezza effettiva di ~ 737 Mb e contig N50 di 1,96 Mb. Abbiamo quindi mappato tutte le letture su questo genoma di riferimento con i parametri predefiniti implementati in bwa v0.7.17 utilizzando l’algoritmo Burrows-Wheeler Alignment-Maximal Exact Match (BWA-MEM) ( 57). Ciò ha determinato una profondità media di copertura di 12,5× (da 4,4 a 31,4×) e una copertura media mappata del 94,3% (da 75,3 a 99,1%; tabella S1). L’etichettatura dei gruppi di lettura è stata quindi corretta utilizzando AddOrReplaceReadGroups in Picard v2.2.1 . Per tenere conto del verificarsi di duplicati della reazione a catena della polimerasi introdotti durante la costruzione della libreria, abbiamo utilizzato MarkDuplicates in Picard per rimuovere le letture con coordinate esterne identiche e lunghezze di inserimento. Il riallineamento locale è stato eseguito per correggere il disallineamento delle basi nelle regioni attorno a inserimenti e/o delezioni (indel) utilizzando RealignerTargetCreator e IndelRealigner in Genome Analysis Toolkit (GATK) v3.8 ( 58 ), generando per ogni campione una sequenza binaria riallineata Allineamento/ File di mappa.
Filtrare gli allineamenti
Gli allineamenti che non erano di qualità sufficientemente elevata per il rilevamento SNP e le successive analisi sono stati rimossi. Abbiamo rimosso gli allineamenti utilizzando il seguente protocollo graduale: (i) scartare le letture che non mappano in modo univoco, (ii) scartare le basi con una qualità <20, (iii) utilizzare solo le letture per le quali è possibile mappare un accoppiamento, (iv) scartare le letture con una qualità di mappatura <30 e (v) scartare le letture “cattive” con flag ≥255.
SNP e identificazione del genotipo
Abbiamo usato GATK v3.8 ( 58) per SNP multicampione e identificazione del genotipo. Le letture dopo il riallineamento locale sono state inviate per la prima volta a HaplotypeCaller e gli aplotipi sono stati chiamati per campione. I formati di chiamata delle varianti genomiche (GVCF) generati per campione sono stati quindi passati a GenotypeGVCF, che ha prodotto una serie di file VCF chiamati congiuntamente pronti per il filtraggio. Sono state quindi eseguite una serie di passaggi di filtraggio per ridurre i falsi positivi per SNP e l’identificazione del genotipo: (i) rimuovere SNP con più di due alleli, (ii) rimuovere SNP con valori di profondità medi su tutti i campioni inferiori a 4 e superiori a 50, ( iii) assegnare i genotipi come mancanti se i loro punteggi di qualità (GQ) erano <10, (iv) rimuovere gli SNP con frequenza allelica minore < 0,05 e (v) gli SNP venivano mantenuti solo se potevano essere genotipizzati in almeno il 70*/% di i campioni. Questo ha prodotto un totale di ~ 12,
Analisi di correlazione
Abbiamo utilizzato il programma KiNG ( 59 ) per stimare i gradi di correlazione tra tutti i campioni sulla base di confronti a coppie di dati SNP. Quelle coppie che mostravano relazioni superiori al terzo grado (sei campioni; fig. S1) sono state rimosse, lasciando un totale di 104 campioni per le analisi successive.
Analisi della struttura della popolazione
Per visualizzare le relazioni genetiche tra i campioni, abbiamo prima eseguito un PCA utilizzando il pacchetto “SNPRelate” in R ( 60 ) basato sul set di dati SNP di ~ 12 milioni. Abbiamo estratto quattro volte i siti degenerati dal set di dati SNP per la struttura della popolazione e le analisi filogenetiche. Admixture v1.3.0 ( 61 ) è stato utilizzato per quantificare le miscele a livello di genoma tra tutti i campioni di cannabis . La miscela è stata eseguita per ogni possibile numero di gruppo ( K = da 2 a 4) con 1000 repliche bootstrap. Abbiamo usato RAxML v8.2.11 ( 62 ) per generare un albero filogenetico ML. Il programma è stato eseguito con 100 ripetizioni bootstrap utilizzando H. lupuluscome outgroup. Poiché è noto che la commistione può portare a false affermazioni sulla storia e sulla selezione della popolazione, abbiamo ripetuto tutte le analisi potenzialmente interessate (diversità, demografia e analisi di selezione descritte di seguito) rimuovendo campioni misti in base all’analisi della struttura della popolazione e un valore di assegnazione critico > 90% ad uno dei quattro gruppi filogenetici (campioni a sinistra: N = 45; Fig. 1C e tabella S1). Le conclusioni basate sul dataset ridotto, tuttavia, rimangono sostanzialmente invariate (testo supplementare).
Storia demografica
Abbiamo utilizzato il modello PSMC ( 30 ) per dedurre la storia demografica dei quattro gruppi genetici di Cannabis dedotti dall’analisi filogenetica (cioè, Cannabis basale, Tipo di canapa, Tipo di droga selvatica e Tipo di droga; Fig. 1B ) basata su i risultati delle analisi della struttura della popolazione. Questo metodo ricostruisce la storia dei cambiamenti nella dimensione della popolazione nel tempo utilizzando la distribuzione dell’antenato comune più recente tra due alleli all’interno di un individuo. Poiché PSMC porta a una sottostima sistematica dei tempi degli eventi reali a bassa profondità di sequenziamento, abbiamo selezionato quattro campioni con la copertura media più alta da ciascuno dei quattro gruppi per garantire la qualità delle sequenze di consenso. Le sequenze di consenso sono state ottenute utilizzando SAMtools v1.3 ( 63) e divisi in contenitori da 100 coppie di basi non sovrapposti. Sono stati utilizzati i seguenti parametri: -N25 -t15 -r5 -p ‘4+25×2+4+6’. Un tempo di generazione di 1 anno e un tasso di 2,5 × 10 -9 mutazioni per nucleotide all’anno ( 64 ) sono stati utilizzati per convertire i tempi scalati e le dimensioni della popolazione in tempi e dimensioni reali.
Poiché l’inferenza PSMC non ha un potere sufficiente per le datazioni recenti a causa di eventi di ricombinazione limitati in un breve periodo di tempo ( 30 ), abbiamo anche dedotto la storia demografica della cannabis utilizzando un approccio di probabilità composita basato sulla simulazione coalescente implementato nel fastsimcoal v2.5.1 ( 65 ) utilizzando siti degeneri quadrupli. Per ridurre i confronti tra i modelli e i parametri, abbiamo trattato il tipo di farmaco selvatico e il tipo di farmaco come un singolo gruppo. La topologia dei tre gruppi è stata fissata in base all’albero filogenetico ( Fig. 1B) e il nostro scopo principale era quindi quello di stimare i tempi di divergenza, i cambiamenti nelle dimensioni della popolazione e i tassi di migrazione tra i gruppi. Abbiamo impostato in totale 18 modelli, in cui i modelli a numero dispari mostravano tutti i possibili cambiamenti nelle dimensioni della popolazione senza migrazione tra gruppi e i modelli a numero pari contenevano eventi migratori sulla base dei modelli a numero dispari (fig. S5). Abbiamo estratto un totale di 4.757.868 siti degenerati quadruplicati in tutto il genoma e 3.8741.669 siti sono stati mantenuti dopo il filtraggio. Lo spettro di frequenza del sito ripiegato tridimensionale (SFS) basato su questi siti è stato stimato di seguito ( 65). Abbiamo eseguito 200 esecuzioni indipendenti con punti di partenza variabili per garantire la convergenza e abbiamo mantenuto l’adattamento con il valore di probabilità più alto. Le stime per ogni esecuzione sono state ottenute da 100.000 simulazioni per stima di verosimiglianza (-n100.000, -N100.000), 40 cicli di aspettativa/massimizzazione condizionale (-L40). Il modello di massima verosimiglianza globale è stato selezionato dopo aver corretto il numero di parametri stimati utilizzando il criterio informativo di Akaike. Gli intervalli di confidenza parametrici sono stati ottenuti da 100 bootstrap parametrici, con 50 esecuzioni indipendenti in ciascun bootstrap su dati simulati nel modello più probabile. Lo spettro simulato con il modello più probabile è stato confrontato con lo spettro osservato per valutare l’accuratezza dei calcoli (fig. S7).
Analisi del disequilibrio di collegamento
Abbiamo confrontato i modelli di linkage disequilibrium (LD) tra diversi gruppi che sono stati identificati sulla base di analisi della struttura della popolazione o di tipi addomesticati. Il quadrato del coefficiente di correlazione [ r 2 ; ( 66 )] tra SNP a coppie è stato calcolato per stimare il decadimento di LD utilizzando il software PopLDdecay v3.29 ( 67 ). La media r 2 valore è stato misurato in una dimensione di finestra 500 kb. Per bilanciare la diversità genetica all’interno di ciascun gruppo, abbiamo selezionato casualmente 15 campioni da ciascun gruppo per questa analisi. Abbiamo scoperto che i tassi di decadimento di LD (espressi come r 2 ) nella Cannabiscalcolati sui tipi addomesticati o sulla struttura della popolazione erano simili. LD è decaduto alla metà in un intervallo da 3,9 a 6,0 kb (fig. S10 e tabella S12), che è molto più rapido di quello recentemente riportato in altre colture, come il riso [123 e 167 kb nella subsp. indica e subsp. japonica ( 68 )], soia [133 kb ( 69 )] e cotone [296 kb ( 70 )]. La dispersione a lunga distanza del polline [l’incrocio può avvenire in un arco di oltre 300 km ( 71 )] e la recente ibridazione estesa da parte dei riproduttori ( 72 ) possono spiegare il rapido decadimento della LD nella Cannabis .
Modelli di divergenza, eterozigosi e diversità nucleotidica a livello genomico
Per confrontare i modelli di divergenza e di diversità nucleotidica dell’intero genoma tra i quattro gruppi identificati dalla struttura della popolazione (cioè cannabis basale, tipo canapa, tipo farmaco selvatico e tipo farmaco), abbiamo calcolato l’ F ST tra i quattro gruppi, diversità nucleotidica (θ π ) e D di Tajima per ciascun gruppo basato sul set di dati SNP di ~ 12 milioni utilizzando un approccio a finestra scorrevole (finestra scorrevole di 10 kb in passaggi di 2 kb) con VCFtools v0.1.15 ( 73 ). Le statistiche di eterozigosi per campione sono state ottenute utilizzando mlRho v2.9 ( 74 (). Sono stati inoltre calcolati modelli di diversità nucleotidica ed eterozigosi per diversi tipi domestici di campioni di canapa e di droga. Abbiamo trattato la cannabis basale (esclusa una popolazione autoctona NEB1-4) come canapa, poiché le popolazioni selvatiche di questo gruppo erano presumibilmente utilizzate per la produzione di fibre in Cina. Abbiamo scoperto che la diversità per i diversi gruppi era simile (da 3,00 × 10 -3 a 3,87 × 10 -3 ; Fig. 1D e fig. S3A) ma era sostanzialmente superiore a quella di altre cultivar di colture: la diversità della sequenza è 1,60 × 10 − 3 e 0,60 × 10 -3 per Oryza sativa subsp. indica e subsp. japonica , 0,60 × 10 -3per il cotone, 1,90 × 10 -3 per la soia e 2,30 × 10 -3 per il sorgo. I campioni selvatici e landrace avevano valori D di Tajima relativamente più piccoli e un livello di eterozigosi più elevato rispetto alle cultivar (fig. S3, B e C), che possono derivare da allevamento e selezione artificiale umana.
Screening per scansioni selettive
Per tutti e quattro i gruppi, LD decade alla metà entro 10 kb. Pertanto, abbiamo applicato un approccio a finestra scorrevole con finestre di 10 kb scorrevoli in passaggi di 2 kb per identificare le regioni genomiche che potrebbero essere state soggette a selezione positiva durante l’addomesticamento e l’allevamento artificiale nella Cannabis . Le finestre con più di 10 SNP sono state mantenute per questa analisi. Va notato che i gruppi che abbiamo definito nel nostro studio non sono vere e proprie popolazioni panmittiche, ma (con la possibile eccezione di piante selvatiche) si sono evoluti indipendentemente a causa di incroci separati a presumibilmente piccoli N e , in particolare le cultivar di tipo canapa e droga . Diversità nucleotidica (π) e divergenza della popolazione ( F ST) sono i due parametri più comunemente usati quando si misurano le firme selettive in popolazioni similmente consanguinee, come colture e animali domestici [ad esempio, ( 75 – 77 )]. Tuttavia, per identificare in modo affidabile le firme della selezione e per discernere gli sweep selettivi da potenziali divergenze di fondo causate da effetti di collo di bottiglia, abbiamo combinato F ST , rapporto (ad esempio, tipo π-canapa/tipo π-farmaco) e un terzo approccio [ il test del rapporto di verosimiglianza composito della popolazione incrociata (XP-CLR), che utilizza la differenziazione della frequenza degli alleli nei loci collegati per rilevare gli sweep selettivi; ( 78)] per ogni confronto per rappresentare le firme selettive, prendendo come limite il valore del 5% più alto. Le finestre identificate da tutti e tre i metodi sono state riconosciute come presunte scansioni di selezione. Sulla base del potenziale scenario evolutivo che abbiamo ricostruito, abbiamo prima confrontato tutti i campioni di tipo canapa (es. gruppo di tipo canapa) e di tipo droga (es. gruppi di tipo feroce e di tipo Droga) con la Cannabis basale. gruppo, rispettivamente. Gli sweep selettivi identificati dai due confronti potrebbero essere considerati come le regioni associate al miglioramento per i tipi di canapa e droga, poiché il gruppo basale può rappresentare una fase di domesticazione precoce. Poiché la differenziazione tra le cultivar di tipo Drug e feral era relativamente alta ( F ST = 0,097; Fig. 1D), e le varietà locali di canapa sono il risultato sia della selezione artificiale che delle condizioni ambientali specifiche della regione, abbiamo inoltre confrontato solo le cultivar di canapa e di droga per l’identificazione di spazzate selettive.
Seguendo gli approcci di cui sopra, abbiamo identificato 936 segmenti genomici non sovrapposti (14,92 Mb; 1,70% del genoma; 689 geni; tabella S4) come presunte regioni associate al miglioramento selezionate in campioni di tipo farmaco e 671 (8,75 Mb; 1,00% del genoma; 510 geni) in campioni di tipo canapa. Per il confronto tra canapa e cultivar di droga, abbiamo identificato 178 (2,93 Mb; 0,33% del genoma; 134 geni) nelle cultivar di canapa e 628 (11,68 Mb; 1,33% del genoma; 472 geni) nelle cultivar di droga. Per i confronti con la cannabis basale, abbiamo scoperto che 253 geni sono stati selezionati in campioni di tipo canapa e droga.
Annotazione delle scansioni selettive
La classificazione funzionale delle categorie di Gene Ontology (GO) è stata eseguita utilizzando il programma Blast2GO ( 79 ). È stata eseguita l’analisi di arricchimento e il test 2 è stato utilizzato per calcolare la significatività statistica dell’arricchimento. I valori di P sono stati ulteriormente aggiustati dal tasso di falsa scoperta (FDR). Tuttavia, nessun GO è stato significativamente arricchito dopo l’aggiustamento di FDR (tabella S13). Il dominio dei geni è stato annotato utilizzando InterProScan ( 80 ) e mappato al database delle proteine Swiss-Prot e TrEMBL. La soglia è stata impostata su 1 × 10 -5 e i risultati sono stati filtrati solo per il miglior risultato di Arabidopsis . Tutti i presunti geni selezionati sono stati ulteriormente annotati dalla Cannabis available disponibileproteoma ( 81 ).
Presenza/assenza e variazione di THCAS e CBDAS
Precedenti studi hanno suggerito che i tipi di canapa e di droga possono mancare rispettivamente di THCAS e CBDAS completamente funzionali ( 4 , 16 – 19 ), ma potrebbero esistere anche situazioni intermedie in cui entrambi i geni sono presenti o assenti. Inoltre, McKernan et al . ( 42 ) hanno rilevato che le letture di questi geni e le copie di pseudogene possono essere mappate erroneamente se molte copie di pseudogene di THCAS e CBDAS non sono state assemblate in un genoma di riferimento perché le sequenze di DNA per la maggior parte di queste copie sono simili tra loro per oltre il 90%. Anche se 13 Cannabisi genomi sono disponibili nel National Center for Biotechnology Information (accessibile il 25 febbraio 2021), la maggior parte di essi ha solo uno dei due geni sintasi e poche copie di pseudogene. Per verificare in modo affidabile la presenza/assenza nel nostro set di dati di CBDAS , THCAS e due pseudogeni CBDAS (entrambi identificati in modo coerente nei nostri primi risultati di mappatura e simili dal 93 al 94% al CBDAS originale ; vedi sotto), abbiamo utilizzato il DASH del leone giamaicano (una cultivar ibrida CBDA:THCA) ( 42 ) come riferimento (numero di adesione all’assemblea GenBank GCA_003660325.2). Entrambe le sequenze di codifica complete di CBDAS e THCASe sono state assemblate più di 30 copie di pseudogene di questi geni, il che ha assicurato che le letture potessero essere mappate correttamente ai due geni e alle due copie di pseudogene. È stata utilizzata la stessa procedura per la mappatura sopra menzionata. Abbiamo quindi contato la profondità di lettura di tutti i 104 campioni per i due geni e due pseudogeni utilizzando SAMtools con una qualità di base di 20 e una qualità di mappa di 30. I geni sono stati identificati come assenti se nessuna lettura poteva essere mappata alle regioni corrispondenti del Genoma DASH del leone giamaicano. Abbiamo ulteriormente scaricato i dati trascrittomici da più tessuti (cioè radice, foglia riproduttiva, gemme riproduttive, foglia vegetativa, quattro fasi del fiore femminile e quattro fasi del tricoma) di una cultivar [Cannbio-2 ( 47)] che ha i due geni e i due pseudogeni. Abbiamo mappato i dati trascrittomici al genoma DASH del leone giamaicano utilizzando Bowtie v2.4.1 ( 82 ) e stimato il livello di espressione per ciascun gene utilizzando frammenti per kilobase di esone per milione di frammenti. Il significato della differenza di espressione tra THCAS e CBDAS per i quattro stadi del fiore femminile e i quattro stadi del tricoma, che avevano sei repliche per ciascuno, è stato calcolato utilizzando il test Wilcoxon rank-sum.
Fonte:advances.sciencemag.org