Link high quality flycodes and nanobody sequences by NGS filtering

Lennart Opitz1* and Christian Panse1**

1Functional Genomics Center Zurich

*lennart.opitz@fgcz.ethz.ch
**cp@fgcz.ethz.ch

2018-08-29, 2018-11-08

Abstract

This vignette demonstrates the processing of raw reads from NGS to generate the flycode to nanobody linkage used in the proteomics data analysis. The workflow includes several filtering steps to extract high quality nanobody and flycode amino acid sequences.

Package

NestLink 1.8.0

1 Load Package
2 Load Data
3 Define Input & Output-Folder
4 Load known nanobodies (NB) for QC Checks
5 Set Example Parameters
6 Run NGS Workflow
7 Create Input FASTA File for Proteomics Analysis
8 Session info

The following content is described in more detail in Egloff et al. (2018), (under review NMETH-A35040).

1 Load Package

library(NestLink)

2 Load Data

library(ExperimentHub)

eh <- ExperimentHub()

## snapshotDate(): 2021-05-05

query(eh, "NestLink")

## ExperimentHub with 8 records
## # snapshotDate(): 2021-05-05
## # $dataprovider: Functional Genomics Center Zurich (FGCZ)
## # $species: NA
## # $rdataclass: data.frame, DNAStringSet
## # additional mcols(): taxonomyid, genome, description,
## #   coordinate_1_based, maintainer, rdatadateadded, preparerclass, tags,
## #   rdatapath, sourceurl, sourcetype 
## # retrieve records with, e.g., 'object[["EH2063"]]' 
## 
##            title                                 
##   EH2063 | Sample NGS NB FC linkage data         
##   EH2064 | Flycodes tryptic digested             
##   EH2065 | Nanobodies tryptic digested           
##   EH2066 | FASTA as ground-truth for unit testing
##   EH2067 | Known nanobodies                      
##   EH2068 | Quantitaive results for SMEG and COLI 
##   EH2069 | F255744 Mascot Search result          
##   EH2070 | WU160118 Mascot Search results

3 Define Input & Output-Folder

# dataFolder <- file.path(path.package(package = 'NestLink'), 'extdata')
# expFile <- list.files(dataFolder, pattern='*.fastq.gz', full.names = TRUE)

expFile <- query(eh, c("NestLink", "NL42_100K.fastq.gz"))[[1]]

## see ?NestLink and browseVignettes('NestLink') for documentation

## loading from cache

scratchFolder <- tempdir()
setwd(scratchFolder)

4 Load known nanobodies (NB) for QC Checks

For data QC some known NB were spiked in. Here, we load the NB DNA sequences and translate them to the corresponding AA sequences.

# knownNB_File <- list.files(dataFolder,
#      pattern='knownNB.txt', full.names = TRUE)
knownNB_File <- query(eh, c("NestLink", "knownNB.txt"))[[1]]

## see ?NestLink and browseVignettes('NestLink') for documentation

## loading from cache

knownNB_data <- read.table(knownNB_File, sep='\t',
      header = TRUE, row.names = 1, stringsAsFactors = FALSE)

knownNB <- Biostrings::translate(DNAStringSet(knownNB_data$Sequence))
names(knownNB) <- rownames(knownNB_data)
knownNB <- sapply(knownNB, toString)

5 Set Example Parameters

The workflow uses the first 100 reads only for a rapid processing time.

param <- list()
param[['nReads']] <- 100 #Number of Reads from the start of fastq file to process
param[['maxMismatch']] <- 1 #Number of accepted mismatches for all pattern search steps
param[['NB_Linker1']] <- "GGCCggcggGGCC" #Linker Sequence left to nanobody
param[['NB_Linker2']] <- "GCAGGAGGA" #Linker Sequence right to nanobody
param[['ProteaseSite']] <- "TTAGTCCCAAGA" #Sequence next to flycode
param[['FC_Linker']] <- "GGCCaaggaggcCGG" #Linker Sequence next to flycode
param[['knownNB']] <- knownNB
param[['minRelBestHitFreq']] <- 0.8 #minimal fraction of the dominant nanobody for a specific flycode
param[['minConsensusScore']] <- 0.9 #minimal fraction per sequence position in nanabody consensus sequence calculation
param[['minNanobodyLength']] <- 348 #minimal nanobody length in [nt]
param[['minFlycodeLength']] <- 33  #minimal flycode length in [nt]
param[['FCminFreq']] <- 1 #minimal number of subreads for a specific flycode to keep it in the analysis

6 Run NGS Workflow

The following steps are included:

read FASTQ
filter
extract
translate into AA sequences

system.time(NB2FC <- runNGSAnalysis(file = expFile[1], param))

##    user  system elapsed 
##   2.349   0.044   2.407

7 Create Input FASTA File for Proteomics Analysis

head(NB2FC, 2)

##                                                                                                                          NB
## 1 SQVQLVESGGGLVQAGGSLRLSCAASGFPVEAHRMYWYRQAPGKEREWVAAISSKGQQTWYADSVKGRFTISRDNAKNTVYLQMNSLKPEDTAVYYCNVKDYGWYYGDYDYWGQGTQVTVS
## 2 SQVQLVESGGGLVQAGGSLRLSCAASGFPVSWTKMYWYRQAPGKEREWVAAIWSTGSWTKYADSVKGRFTISRDNAKNTVYLQMNSLKPEDTAVYYCNVKDKGHQHAHYDYWGQGTQVTVS
##   FlycodeCount
## 1           29
## 2            3
##                                                                                                                                                                                                                                                                                                                                                                                                                AssociatedFlycodes
## 1 GSAAATAVTWR,GSADGQETDWR,GSADVPEAVWLTVR,GSAPTAPVSWQEGGR,GSAVDPVTVWLTVR,GSDAEGVAAWQSR,GSDAEYTTAWR,GSDDTDETDWR,GSDEAEEEGWQEGGR,GSDPGTDDEWQSR,GSDTEDWEEWQSR,GSDVWDTAVWLTVR,GSEGTDAVGWLTVR,GSEPASEVVWQEGGR,GSEPDVYTAWLTVR,GSEVLDGDEWR,GSFVASFAVWLTVR,GSGDVEGEAWQEGGR,GSGPDPPYGWLR,GSPAVDPPVWLTVR,GSPDEVEVVWLTVR,GSPDSPPAYWLTVR,GSPTVVTFLWR,GSQYTLTPTWLTVR,GSSDAASPSWLTVR,GSTGEDGVVWLTVR,GSTVVTSDPWLTVR,GSVDDQPDTWQEGGR,GSYTPGSTSWQSR
## 2                                                                                                                                                                                                                                                                                                                                                                                      GSADFPVVAWLR,GSAEVDEADWQEGGR,GSEPDVAAGWQSR
##   NB_Name
## 1        
## 2

head(nanobodyFlycodeLinking.as.fasta(NB2FC))

## [1] ">NB0001 FC29 SQVQLVESGGGLVQAGGSLRLSCAASGFPVEAHRMYWYRQAPGKEREWVAAISSKGQQTWYADSVKGRFTISRDNAKNTVYLQMNSLKPEDTAVYYCNVKDYGWYYGDYDYWGQGTQVTVS\nGSAAATAVTWRGSADGQETDWRGSADVPEAVWLTVRGSAPTAPVSWQEGGRGSAVDPVTVWLTVRGSDAEGVAAWQSRGSDAEYTTAWRGSDDTDETDWRGSDEAEEEGWQEGGRGSDPGTDDEWQSRGSDTEDWEEWQSRGSDVWDTAVWLTVRGSEGTDAVGWLTVRGSEPASEVVWQEGGRGSEPDVYTAWLTVRGSEVLDGDEWRGSFVASFAVWLTVRGSGDVEGEAWQEGGRGSGPDPPYGWLRGSPAVDPPVWLTVRGSPDEVEVVWLTVRGSPDSPPAYWLTVRGSPTVVTFLWRGSQYTLTPTWLTVRGSSDAASPSWLTVRGSTGEDGVVWLTVRGSTVVTSDPWLTVRGSVDDQPDTWQEGGRGSYTPGSTSWQSR\n"
## [2] ">NB0002 FC3 SQVQLVESGGGLVQAGGSLRLSCAASGFPVSWTKMYWYRQAPGKEREWVAAIWSTGSWTKYADSVKGRFTISRDNAKNTVYLQMNSLKPEDTAVYYCNVKDKGHQHAHYDYWGQGTQVTVS\nGSADFPVVAWLRGSAEVDEADWQEGGRGSEPDVAAGWQSR\n"                                                                                                                                                                                                                                                                                                                                                            
## [3] ">NB0003 FC1 SQVQLVESGGGLVQAGGSLRLSCAASGFPVSWWKMYWYRQAPGKEREWVAAIWSEGWWTKYADSVKGRFTISRDNAKNTVYLQMNSLKPEDTAVYYCNVKDYGGENANYDYWGQGTQVTVS\nGSDGTTEDAWQEGGR\n"                                                                                                                                                                                                                                                                                                                                                                                     
## [4] ">NB0004 FC1 SQVQLVESGGGLVQAGGSLRLSCAASGFPVEWSWMYWYRQAPGKEREWVAAIYSQGRGTEYADSVKGRFTISRDNAKNTVYLQMNSLKPEDTAVYYCNVKDYGWWYGDYDYWGQGTQVTVS\nGSEEAADPAWR\n"                                                                                                                                                                                                                                                                                                                                                                                         
## [5] ">NB0005 FC1 SQVQLVESGGGLVQAGGSLRLSCAASGFPVEAHRMYWYRQAPGKEREWVAAISSKGQQTWYADSVKGRFTISRDNAKNTVYLQMNSLEPEDTAVYYCNVKDYGWYYGDYDYWGQGTQVTVS\nGSEEAEATWWR\n"                                                                                                                                                                                                                                                                                                                                                                                         
## [6] ">NB0006 FC2 SQVQLVESGGGLVQAGGSLRLSCAASGFPVEENFMYWYRQAPGKEREWVAAIYSHGYETEYADSVKGRFTISRDNAKNTVYLQMNSLKPEDTAVYYCNVKDQGYWWWEYDYWGQGTQVTVS\nGSGLPATPAWLRGSTDAEEGVWLTVR\n"

To analyze the expressed flycodes mass spectrometry is used. the FASTA file containing the nanobody - flycode linkage can be written to a file using functions such as cat.

The exec directory provides alternative shell scripts using command line GNU tools and AWK.

8 Session info

Here is the output of the sessionInfo() command.

## R version 4.1.0 (2021-05-18)
## Platform: x86_64-pc-linux-gnu (64-bit)
## Running under: Ubuntu 20.04.2 LTS
## 
## Matrix products: default
## BLAS:   /home/biocbuild/bbs-3.13-bioc/R/lib/libRblas.so
## LAPACK: /home/biocbuild/bbs-3.13-bioc/R/lib/libRlapack.so
## 
## locale:
##  [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C              
##  [3] LC_TIME=en_US.UTF-8        LC_COLLATE=C              
##  [5] LC_MONETARY=en_US.UTF-8    LC_MESSAGES=en_US.UTF-8   
##  [7] LC_PAPER=en_US.UTF-8       LC_NAME=C                 
##  [9] LC_ADDRESS=C               LC_TELEPHONE=C            
## [11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C       
## 
## attached base packages:
## [1] stats4    parallel  stats     graphics  grDevices utils     datasets 
## [8] methods   base     
## 
## other attached packages:
##  [1] scales_1.1.1                ggplot2_3.3.3              
##  [3] NestLink_1.8.0              ShortRead_1.50.0           
##  [5] GenomicAlignments_1.28.0    SummarizedExperiment_1.22.0
##  [7] Biobase_2.52.0              MatrixGenerics_1.4.0       
##  [9] matrixStats_0.58.0          Rsamtools_2.8.0            
## [11] GenomicRanges_1.44.0        BiocParallel_1.26.0        
## [13] protViz_0.6.8               gplots_3.1.1               
## [15] Biostrings_2.60.0           GenomeInfoDb_1.28.0        
## [17] XVector_0.32.0              IRanges_2.26.0             
## [19] S4Vectors_0.30.0            ExperimentHub_2.0.0        
## [21] AnnotationHub_3.0.0         BiocFileCache_2.0.0        
## [23] dbplyr_2.1.1                BiocGenerics_0.38.0        
## [25] BiocStyle_2.20.0           
## 
## loaded via a namespace (and not attached):
##  [1] nlme_3.1-152                  bitops_1.0-7                 
##  [3] bit64_4.0.5                   RColorBrewer_1.1-2           
##  [5] filelock_1.0.2                httr_1.4.2                   
##  [7] tools_4.1.0                   bslib_0.2.5.1                
##  [9] utf8_1.2.1                    R6_2.5.0                     
## [11] KernSmooth_2.23-20            mgcv_1.8-35                  
## [13] colorspace_2.0-1              DBI_1.1.1                    
## [15] withr_2.4.2                   tidyselect_1.1.1             
## [17] bit_4.0.4                     curl_4.3.1                   
## [19] compiler_4.1.0                DelayedArray_0.18.0          
## [21] labeling_0.4.2                bookdown_0.22                
## [23] sass_0.4.0                    caTools_1.18.2               
## [25] rappdirs_0.3.3                stringr_1.4.0                
## [27] digest_0.6.27                 rmarkdown_2.8                
## [29] jpeg_0.1-8.1                  pkgconfig_2.0.3              
## [31] htmltools_0.5.1.1             highr_0.9                    
## [33] fastmap_1.1.0                 rlang_0.4.11                 
## [35] RSQLite_2.2.7                 shiny_1.6.0                  
## [37] farver_2.1.0                  jquerylib_0.1.4              
## [39] generics_0.1.0                hwriter_1.3.2                
## [41] jsonlite_1.7.2                gtools_3.8.2                 
## [43] dplyr_1.0.6                   RCurl_1.98-1.3               
## [45] magrittr_2.0.1                GenomeInfoDbData_1.2.6       
## [47] Matrix_1.3-3                  munsell_0.5.0                
## [49] Rcpp_1.0.6                    fansi_0.4.2                  
## [51] lifecycle_1.0.0               stringi_1.6.2                
## [53] yaml_2.2.1                    zlibbioc_1.38.0              
## [55] grid_4.1.0                    blob_1.2.1                   
## [57] promises_1.2.0.1              crayon_1.4.1                 
## [59] lattice_0.20-44               splines_4.1.0                
## [61] KEGGREST_1.32.0               magick_2.7.2                 
## [63] knitr_1.33                    pillar_1.6.1                 
## [65] codetools_0.2-18              glue_1.4.2                   
## [67] BiocVersion_3.13.1            evaluate_0.14                
## [69] latticeExtra_0.6-29           BiocManager_1.30.15          
## [71] png_0.1-7                     vctrs_0.3.8                  
## [73] httpuv_1.6.1                  gtable_0.3.0                 
## [75] purrr_0.3.4                   assertthat_0.2.1             
## [77] cachem_1.0.5                  xfun_0.23                    
## [79] mime_0.10                     xtable_1.8-4                 
## [81] later_1.2.0                   tibble_3.1.2                 
## [83] AnnotationDbi_1.54.0          memoise_2.0.0                
## [85] ellipsis_0.3.2                interactiveDisplayBase_1.30.0

Egloff, Pascal, Iwan Zimmermann, Fabian M. Arnold, Cedric A.J. Hutter, Damien Damien Morger, Lennart Opitz, Lucy Poveda, et al. 2018. “Engineered Peptide Barcodes for In-Depth Analyses of Binding Protein Ensembles.” bioRxiv. https://doi.org/10.1101/287813.