Parámetros de Python són iguales a los parámetros largos (--parámetro) de Terminal, si no especificado de otra manera. Banderas son parámetros de verdadero o falso (True/False) en Python. El manuál para cualquier modulo de gget se puede llamar desde la Terminal con la bandera -h --help.

gget elm 🎭

Prediga localmente motivos lineales eucarióticos (ELMs) a partir de una secuencia de aminoácidos o UniProt Acc utilizando datos de la base de datos ELM.
Produce: Resultados en formato JSON (Terminal) o Dataframe/CSV (Python). Este módulo devuelve dos tipos de resultados (ver ejemplos).

Los datos de ELM se pueden descargar y distribuir para uso no comercial de acuerdo con el acuerdo de licencia de software de ELM.

Antes de usar gget elm por primera vez, ejecute gget setup elm / gget.setup("elm") una vez (consulte también gget setup).

Parámetro posicional
sequence
Secuencia de aminoácidos o Uniprot Acc (str).
Al proporcionar una Uniprot Acc, use la bandera --uniprot (Python: uniprot=True).

Parámetros optionales
-s sensitivity
Sensibilidad de la alineación DIAMOND (str). Por defecto: "very-sensitive" (muy sensible).
Uno de los siguientes: fast, mid-sensitive, sensitive, more-sensitive, very-sensitive, or ultra-sensitive.

-t threads
Número de hilos de procesamiento utilizados en la alineación de secuencias con DIAMOND (int). Por defecto: 1.

-bin diamond_binary
Ruta al binario DIAMOND (str). Por defecto: None -> Utiliza el binario DIAMOND instalado automáticamente con gget.

-o --out
Ruta al archivo en el que se guardarán los resultados (str), p. ej. "ruta/al/directorio". Por defecto: salida estándar (STDOUT); los archivos temporales se eliminan.

Banderas
-u --uniprot
Use esta bandera cuando sequence es una Uniprot Acc en lugar de una secuencia de aminoácidos.

-e --expand
Amplíe la información devuelta en el marco de datos de expresiones regulares para incluir los nombres de proteínas, los organismos y las referencias en las que se validó originalmente el motivo.

-csv --csv
Solo para Terminal. Produce los resultados en formato CSV.
Para Python, usa json=True para producir los resultados en formato JSON.

-q --quiet
Solo para Terminal. Impide la información de progreso de ser exhibida durante la ejecución del programa.
Para Python, usa verbose=False para impedir la información de progreso de ser exhibida durante la ejecución del programa.

Ejemplo

Encuentre ELM en una secuencia de aminoácidos:

gget setup elm          # Descarga/actualiza la base de datos ELM local
gget elm -o gget_elm_results LIAQSIGQASFV
# Python
gget.setup(“elm”)      # Descarga/actualiza la base de datos ELM local
ortholog_df, regex_df = gget.elm("LIAQSIGQASFV")

Encuentre ELM que proporcionen a una UniProt Acc:

gget setup elm          # Descarga/actualiza la base de datos ELM local
gget elm -o gget_elm_results --uniprot Q02410 -e
# Python
gget.setup(“elm”)      # Descarga/actualiza la base de datos ELM local
ortholog_df, regex_df = gget.elm("Q02410", uniprot=True, expand=True)

→ Produce dos resultados con información extensa sobre ELMs asociados con proteínas ortólogas y motivos encontrados en la secuencia de entrada directamente en función de sus expresiones regex:

ortholog_df:

Ortholog_UniProt_AccProteinNameclass_accessionELMIdentifierFunctionalSiteNameDescriptionOrganism
Q02410APBA1_HUMANELME000357LIG_CaMK_CASK_1CASK CaMK domain binding ligand motifMotif that mediates binding to the calmodulin-dependent protein kinase (CaMK) domain of the peripheral plasma membrane protein CASK/Lin2.Homo sapiens
Q02410APBA1_HUMANELME000091LIG_PDZ_Class_2PDZ domain ligandsThe C-terminal class 2 PDZ-binding motif is classically represented by a pattern such asHomo sapiens

regex_df:

Instance_accessionELMIdentifierFunctionalSiteNameELMTypeDescriptionInstances (Matched Sequence)Organism
ELME000321CLV_C14_Caspase3-7Caspase cleavage motifCLVCaspase-3 and Caspase-7 cleavage site.ERSDGMus musculus
ELME000102CLV_NRD_NRD_1NRD cleavage siteCLVN-Arg dibasic convertase (NRD/Nardilysin) cleavage site.RRARattus norvegicus
ELME000100CLV_PCSK_PC1ET2_1PCSK cleavage siteCLVNEC1/NEC2 cleavage site.KRDMus musculus
ELME000146CLV_PCSK_SKI1_1PCSK cleavage siteCLVSubtilisin/kexin isozyme-1 (SKI1) cleavage site.RLLTAHomo sapiens
ELME000231DEG_APCC_DBOX_1APCC-binding Destruction motifsDEGAn RxxL-based motif that binds to the Cdh1 and Cdc20 components of APC/C thereby targeting the protein for destruction in a cell cycle dependent mannerSRVKLNIVRSaccharomyces cerevisiae S288c

(Los motivos que aparecen en muchas especies diferentes pueden parecer repetidos, pero todas las filas deben ser únicas.)

Màs ejemplos

Citar

Si utiliza gget elm en una publicación, favor de citar los siguientes artículos:

  • Laura Luebbert, Chi Hoang, Manjeet Kumar, Lior Pachter, Fast and scalable querying of eukaryotic linear motifs with gget elm, Bioinformatics, 2024, btae095, https://doi.org/10.1093/bioinformatics/btae095

  • Manjeet Kumar, Sushama Michael, Jesús Alvarado-Valverde, Bálint Mészáros, Hugo Sámano‐Sánchez, András Zeke, Laszlo Dobson, Tamas Lazar, Mihkel Örd, Anurag Nagpal, Nazanin Farahi, Melanie Käser, Ramya Kraleti, Norman E Davey, Rita Pancsa, Lucía B Chemes, Toby J Gibson, The Eukaryotic Linear Motif resource: 2022 release, Nucleic Acids Research, Volume 50, Issue D1, 7 January 2022, Pages D497–D508, https://doi.org/10.1093/nar/gkab975