WikiDsy - Contributi utente [it]

Economia dei Beni Musicali/Appunti/2007-2008/Storia dell Economia Musicale

2008-01-27T11:51:14Z

SingInTime:

= Nascita dell'industria musicale =

== Stampa della musica ==

Tecnologicamente più arretrata rispetto al corrispettivo testuale. Esordi nel '500 quando '''Petrucci''' inventa il primo sistema efficace per la stampa a caratteri mobili della musica e delle intavolature.

''''700-'800''': Nascita della '''litografia''', che consente la possibilità di stampare in grossa tiratura. La stampa della musica continua ad essere effettuata tramite lastre incise fino agli anni '80!

Assieme alla litografia nasce il concetto di '''diritto d'autore'''. La somma di questi due fattori renderà possibile la definizione di ciò che diventerà l''''industria editoriale'''.

== Il diritto d'autore ==

'''1791-1792''': Durante la Rivoluzione Francese viene promulgata una legge sulla proprietà intellettuale. Data la continuità ideologica con la rivoluzione per l'indipendenza in America (1796) il concetto di copyright entra addirittura nella costituzione USA.

In Italia la SIAE non ha sempre svolto il ruolo di "garante" del copyright, ne verrà investita come conseguenza della legge 633 sul diritto d'autore, promulgata il 22 Aprile del 1941.

L'affermazione del copyright consente agli autori di opere dell'ingegno, fra cui gli autori di opere musicali, di uscire dalla logica del '''mecenatismo'''. Grazie alla propria indipendenza economica l'autore può esprimere liberamente la sua opinione, e non è più obbligato a sottostare alle commissioni di un protettore.

== L'editoria musicale ==

All'epoca di '''Beethoven''' la nobiltà non era ancora del tutto decaduta, la figura del musicista è in una fase di transizione, da protetto a libero professionista. Lo stesso Beethoven verso il culmine della sua carriera organizzava e interpretava lui stesso i concerti nei quali presentava le sue opere. Quando non poteva più fare incassi coi biglietti, cedeva ad un '''editore''' le partiture da stampare e incassava una percentuale sulle copie vendute.

E' così che nascono le prime '''royalties''', inizialmente frutto di un '''rapporto diretto''' fra musicista ed editore-tipografo. Altri business editoriali che prendono il via quasi immediatamente sono il '''noleggio delle parti''' e la vendita di partiture per '''musica da camera''' (reservata).

Quest'ultimo campo si rivela particolarmente redditizio poiché si rivolge a un pubblico piuttosto ampio: nei salotti borghesi è diffusissimo il '''pianoforte''', e fino alla fine dell'800 l'unico modo per produrre ed ascoltare musica in casa è semplicemente suonarla.

I compositori, più che con le grandi opere, cominciano a guadagnarsi da vivere col mercato dei '''dilettanti''', di livello più o meno alto. Vengono venduti anche i '''testi''' delle canzoni in stampa (generalmente a prezzo irrisorio) soprattutto nell'ambito di fiere e sagre paesane: sono i cosiddetti '''broadsights'''.

= Gli albori della popular music =

== Foster e il minstrel show ==

Uno dei primi autori noti di broadsights è '''Stephen Foster'''. Scrive canzoni per una forma di intrattenimento che si diffonde tra i '30 e i '40 dell'800: il '''minstrel show''', una sorta di mix tra varietà e Commedia dell'Arte (personaggi fortemente caratterizzati + attrazioni).

'''Personaggi''': Mr. Interlocutor (presentatore), Mr. Bones (con le nacchere) e Mr. Tambo (col tamburello). Erano bianchi travestiti da neri che scimmiottavano determinati caratteri, sia musicali che comportamentali, attribuiti agli afroamericani. All'epoca spettacoli fortemente razzisti come il minstrel show non erano considerati socialmente riprovevoli dal momento che il razzismo diventa "tabù" solo dopo la 2° Guerra Mondiale.

Foster introduce una novità nel minstrel show: nei testi delle sue canzoni rovescia il tipico carattere razzista, mettendo invece in risalto i buoni sentimenti e la rispettabilità dei neri americani. Le chiama '''etiopian songs'''.

Ai tempi di Foster comincia a farsi strada la struttura-canzone di tipo '''chorus-chorus-bridge''', derivata dalla tradizione liederistica tedesca, a sua volta elaborazione dell'aria d'opera e che si rivela particolarmente adatta all'ambito dilettantistico.

Stephen Foster è il primo a stipulare dei contratti con gli editori su canzoni che '''scriverà in futuro''' in cambio di un compenso anticipato. Morirà comunque povero: dopo la Guerra di Secessione, con la vittoria dei Nordisti e l'abolizione della schiavitù, le tematiche delle sue canzoni perdono di fascino sopraffatte dal corso della Storia.

== La canzone napoletana ==

In Italia l'editoria musicale è già presente quando si compie l'unità nazionale, soprattutto a Milano (dove opera Ricordi) e a Napoli. Si vendono stampe soprattutto operistiche (in linea con la produzione musicale del momento) e cameristiche. Si stampano anche '''copielle''' (l'equivalente napoletano dei broadsights) distribuite alle feste o ai concorsi della canzone, incoraggiati dai Borboni secondo una politica di governo populista "panem et circenses". Il più importante è il concorso della canzone di '''Piedigrotta''', che funge da trampolino di lancio per la celeberrima '''Te vojo bene assaje'''.

La forma-canzone italiana è diversa dal chorus-chorus-bridge americano, segue invece il pattern '''strofa-ritornello, strofa-ritornello'''. La melodia che caratterizza maggiormente il brano non viene dunque presentata subito, bensì viene introdotta da una strofa che ne alimenta l'attesa. La struttura canzone è un elemento molto importante poiché influisce sensibilmente sulla '''commerciabilità''' della musica.

Come negli Stati Uniti ai tempi della Guerra di Secessione, la produzione musicale italiana subisce un arresto con l'avvento dell'unità nazionale. La canzone napoletana tuttavia si riprenderà qualche tempo dopo con '''funiculì funiculà''', primo esempio di "jingle promozionale" composto in occasione dell'apertura di una funicolare sul Vesuvio. Venderà un milione di copielle! Primo grande successo popolare che spingerà altri autori a entrare in questo mercato.

Vale la pena ricordare che in questo periodo la popular music non ha ancora una tradizione autonoma, e gli autori sono professionisti in altri ambiti: giornalisti, poeti, compositori classici... col tempo si affermeranno invece parolieri e musicisti '''specializzati in canzoni''', che vedranno in questi primi autori i loro maestri e si distaccheranno dalla tradizione precedente.

== Tin Pan Alley ==

Dopo la crisi sopra citata, anche l'America si riprende poco prima del '900 (la canzone-simbolo di questa ripresa è '''After the Ball'''). Si concentra un polo editoriale a New York, per la precisione a Broadway. Non è un caso che quel quartiere sia la sede di molti teatri: questi svolgono un'attività promozionale importantissima poiché all'epoca rappresentano il principale punto di contatto tra pubblico e canzoni. Se una canzone ha successo a teatro, viene conosciuta e conseguentemente comprata.

Il termine '''Tin Pan Alley''', "viale delle padelle di stagno", si riferisce al suono "sferragliante" dei pianoforti (spesso scordati e di poco valore) usati dai cosiddetti '''song plugger'''. Gli editori si servivano di questi personaggi per far ascoltare ai clienti le canzoni in loro possesso, e per convincere gli impresari delle compagnie teatrali all'acquisto.

Ancora oggi Tin Pan Alley indica per metonimia tutta l'industria editoriale americana attorno al '900, nonché un certo modo di fare canzoni.

= La rivoluzione fonomeccanica =

== Le origini ==

Il primo strumento veramente diffuso per la riproduzione meccanica della musica è il '''pianoforte a rulli''' (player piano). E' a tutti gli effetti un pianoforte, suonabile anche dal vivo, ma che possiede un meccanismo a rulli perforati che lo azionano meccanicamente. Le perforazioni potevano essere effettuate a mano o tramite speciali pianoforti registratori. Il fonografo all'epoca è ancora primitivo, e il piano a rulli rappresenta un concorrente imbattibile a causa dell'alta fedeltà d'ascolto: il suono è proprio quello del pianoforte!

Si deve a '''Edison''' l'invenzione del '''fonografo'''. L'apparecchio è costituito da un imbuto al quale è fissata una puntina, che incide la superficie di un cilindro rotante ricoperto di cera. Inizialmente è concepito per facilitare dettati e trascrizioni, poco adatto alla musica a causa del breve tempo di registrazione (max 3 minuti x supporto) e della larghezza di banda infima (ca. 1 kHz). L'invenzione viene man mano migliorata per renderne possibile l'uso in ambiti musicali.

I pesanti limiti del mezzo influenzano il repertorio: se prima la durata della musica da ballo si basava sulla resistenza fisica dei ballerini, o le arie delle opere su quella dei cantanti, la musica da registrare si deve adattare al mezzo di registrazione (2-3 minuti di play). Anche gli strumenti da registrare vengono scelti in funzione del fonografo: il clarinetto rende bene e acquista inportanza mentre ottavini e contrabbassi spariscono negli ensemble usati per registrare. Anche le arie da tenore sono ottime per il fonografo, la durata è giusta e il range frequenziale pure.

Nonostante alcune utilizzazioni "serie" il fonografo rimane più una sorta di divertissement tecnologico che un vero e proprio strumento per la (ri)produzione di musica. Una parte consistente del repertorio su cilindri è composto infatti da canzoni comiche, o da curiose esecuzioni di fischiatori. Il vero problema che ne impedì la diffusione era l'impossibilità di '''duplicare''' i cilindri. Per registrare un numero di cilindri sufficiente a soddisfare le esigenze di mercato, i musicisti dovevano rieseguire svariate volte i brani da registrare di fronte a una batteria di fonografi.

== Il grammofono ==

Ad ovviare a questo problema ci pensa il '''grammofono''' di '''Emile Berliner'''. Egli concepisce un supporto piatto e un'incisione a spirale, con oscillazione trasversale e non più verticale. La registrazione viene effettuata su una lacca, che viene successivamente sottoposta a un bagno galvanico. La lastra metallica così ottenuta viene copiata in negativo e utilizzata per stampare i dischi. I primi dischi sono fatti di '''gommalacca''', che ha qualità meccaniche inferiori rispetto al vinile ma ha i grossi pregi di essere reperibile in natura e soffrire meno il caldo. Questi due aspetti rendono possibile una produzione discreta di dischi anche nei paesi in via di sviluppo.

Berliner pensa sin dal principio a un supporto adatto alla musica, massicciamente riproducibile, e concepisce l'idea del pagamento dei musicisti in base alle vendite dei dischi. All'inizio la concorrenza tra fonografo e grammofono è spietata, poi Edison capisce che non può vincere lo scontro tecnologico e si mette d'accordo con Berliner per sviluppare e produrre assieme il nuovo apparecchio. Nasce la '''Berliner Gramophone Company'''.

== Altre innovazioni ==

Con il '''Copyright Act''' statunitense del 1909 nasce il concetto di '''diritto connesso''', che consente ai discografici di poter limitare l'utilizzo non autorizzato delle proprie registrazioni. L'aggettivo "connesso" sottolinea la subalternità dell'industria discografica dell'epoca rispetto a quella dell'editoria su carta.

Un'invenzione di stampo bellico, poi, consente un miglioramento sostanziale delle registrazioni: è la '''valvola termoionica''', primo componente atto all'amplificazione di un segnale elettrico. I vecchi trasduttori meccanici cominciano ad essere soppiantati da quelli elettrici (microfoni) per consentire l'amplificazione del segnale registrato. Il notevole salto di qualità fa impennare il mercato discografico negli anni '20, nonostante già nel decennio precedente fossero in giro milioni di copie.

Anche gli editori guadagnano dalo sviluppo delle nuove tecnologie: i discografici registrano del materiale musicale in mano agli editori, che sono titolari del copyright e che di conseguenza incassano royalties sulle vendite dei dischi. Gli stessi editori cercano di alimentare il fenomeno delle '''cover''', ovvero le registrazioni da parte di più discografici (e interpreti) di una stessa canzone. Ogni singola registrazione produce un flusso di diritti, dunque il guadagno dell'editore risulta moltiplicato.

= Commedia musicale e Cabaret =

== La Musical Comedy ==

Con l'andare avanti del varietà si capisce che per costruire spettacoli più efficaci ci vuole un po' di '''struttura''', di coerenza interna tra i vari numeri, ricalcando alla lontana il concetto che sta alla base dell'opera e dell'operetta. Gli autori cominciano a scrivere '''serie di canzoni''' collegate da un filo logico, da inserire tutte come colonna sonora di uno stesso spettacolo. Nasce la '''Musical Comedy''' (1924).

Autori principali: '''Gershwin''' e '''Cole Porter'''

Molte canzoni scritte per le musical comedies sono entrate a far parte dei cosiddetti '''standard'''. Gli standard rappresentano il repertorio "classico" della musica popular americana, un retroterra culturale comune che è anche diventato la "lingua franca" dei jazzisti nelle loro jam session. Struttura tipica: '''verse + chorus + chorus + bridge + chorus'''

Il tema principale della produzione di Tin Pan Alley è la vita della buona società americana, coi suoi lati positivi e negativi. Questa tendenza viene ereditata dal '''society verse''': una forma di poesia borghese, anche piuttosto raffinata, la cui funzione potrebbe oggi corrispondere all'articolo di gossip. Erano così diffuse che finivano sui quotidiani! Canzone simbolo del periodo: '''I Get A Kick Out Of You'''.

== Cabaret e Kabarett ==

La formula del '''café chantant''' e del '''cabaret''' si sviluppa parallelamente in Francia, e viene emulata e riproposta in Germania ('''kabarett''').

La caratteristica saliente di questa forma di intrattenimento è l''''impegno''' dei testi, spesso di critica sociale, scritti quasi sempre da poeti di professione. Protagonisti della vita del kabarett tedesco sono autori del calibro di '''Thomas Mann''', e l'influenza di questo tipo di spettacoli si farà sentire anche nel teatro più popolare di '''Brecht'''.

Il cabaret avrà vita breve, continuamente osteggiato dai detentori del potere politico e infine cancellato dal '''nazismo''' pochi anni dopo la sua nascita. Si riprenderà comunque dopo la guerra e diventerà la principale fonte di ispirazione per molti poeti, cantanti e cantautori, primo fra tutti Bob Dylan.

= La musica nel cinema =

== Nascita del film sonoro ==

Il primo sonoro abbinato al film serviva per coprire il rumore del proiettore: un pianista in sala suonava durante la proiezione del film. Negli anni '20 si comincia a sonorizzare con più criterio. Nasce la tecnologia '''vitaphone''', che consiste nella sincronizzazione tra la pellicola cinematografica e un supporto audio separato (per la precisione un grosso disco). Basta un piccolo taglio nella pellicola, magari dovuto all'usura, e i de media finiscono inevitabilmente fuori sincrono. Il film sonoro diventerà praticamente realizzabile solo con l'avvento della tecnologia '''phonofilm''', che impressiona l'informazione audio sulla stessa pellicola del video.

Per le sonorizzazioni del cinema muto si era soliti improvvisare, con l'aiuto di '''song libraries''' che contenevano alcune canzoni atte a rappresentare le diverse situazioni suggerite dalla pellicola.

== Le colonne sonore ==

Le prime colonne sonore nei film suonano molto europee e sinfoniche anche in America, poiché i loro principali compositori provengono da quella tradizione. Inoltre il genere viene pesantemente influenzato dai '''poemi sinfonici''', dalla tradizione '''operistica''', e più in generale da tutta la musica classica '''a programma''', che già prima dell'avvento del grande schermo avevano affrontato la rappresentazione in musica di '''narrazioni''' e '''stati d'animo'''. La ragione storica della nascita delle musiche a programma è la difficoltà di riproporre in maniera originale la forma sonata e la sinfonia classica dopo l'immensa (qualitativamente e quantitativamente) produzione di Haydn, Mozart e Beethoven.

'''Max Steiner''': Uno dei principali autori di colonne sonore degli anni '30-'40, fra cui quella di ''Via col Vento''. Lavora negli USA me è europeo ed ebreo.

L'autore di musica da film di solito lavora a contratto, sceneggiatura per sceneggiatura, e deve essere abbastanza '''rapido''' da riuscire a completare la colonna sonora prima della fine della sceneggiatura. Si affermano dei '''cliché''' musicali, associati a determinate situazioni: arpeggi ondulatori per "commentare" una tempesta, musica "angolare" per rappresentare il cattivo... Tutte queste figure si aggiungono alle già esistenti song libraries e come queste vengono raccolte in manuali.

I poemi sinfonici alle volte vengono usati anche '''direttamente''' nei film sonori: il caso più famoso è quello di '''2001: Odissea nello spazio''' nel quale è presente '''Also Sprach Zarathustra''' di '''Richard Strauss'''.

== Evoluzione del linguaggio musicale nel cinema ==

Con l'arrivo degli anni '50 viene sdoganato anche il jazz all'interno del cinema, sia nei film che raccontano storie di jazz che in altri contesti. Prima era difficile che accadesse a causa della natura stessa delle colonne sonore (qualcosa di molto calcolato e preciso al millisecondo, che mal si presta all'improvvisazione jazzistica) ma soprattutto a causa di un razzismo più o meno latente che fino ad allora aveva escluso i neri da qualsiasi step della produzione cinematografica.

Comincia anche ad apparire '''musica diegetica''', ovvero percepita e ascoltata anche dai personaggi nel film, presente nella storia e non solo di contorno.

Con l'ingresso della popular music nel cinema viene scardinata l'orchestra sinfonica classica, che sempre più spesso lascia il posto ad altre formazioni o (più avanti negli anni) ai sintetizzatori. L'avvento dell'elettronica è un colpo mortale per l'industria musicale hollywoodiana, poiché grazie all'ausilio delle nuove apparecchiature il compositore può portare a termine da solo un lavoro che prima richiedeva l'ausilio di molte figure professionali.

= La musica del dopoguerra in America =

== Il jazz ==

Alla fine dell'800 gli americani scoprono le musiche da ballo '''sincopate'''. Alla velata sensualità del walzer (da poco approdato nel nuovo continente) si aggiungono le danze di origine afroamericana, all'epoca considerate decisamente provocatorie.

'''Cakewalk''': "camminata della torta", scimmiottamento della rigidità delle danze bianche da parte dei neri. E' una danza a premio, piace molto e porta musicisti neri nelle orchestre.

'''Jazz''': Vocabolo tratto da "Original Dixieland Jaza Band", gruppo proveniente da New Orleans, nero, autoironico. La proposta musicale del gruppo non è molto diversa dal cakewalk e dal ragtime, ma l'innovazione consiste nella maggiore importanza che viene data alla componente estemporanea rispetto alla parte scritta. La partitura passa in secondo piano rispetto al disco o all'organico che suona dal vivo, l'editoria comincia a perdere terreno a favore della discografia.

== Il blues e i Race Records ==

I primi blues famosi non seguono la struttura canonica a 12 battute, che verrà formalizzata in un secondo momento. I dischi aiutano pian piano a consolidare il turn-around classico (I-I-I-I-IV-IV-I-I-V-IV-I-V). Il blues è concepito per un pubblico nero e così lo sono i dischi.

Il discografico '''Ralph Peer''' se ne accorge e crea una collana apposita, i '''race records'''. Il termine ha una sottile ambiguità: dischi "di razza" (dunque di prima scelta) ma anche "per una razza" (i neri). Ricordiamo ancora una volta che all'epoca il concetto di razza è ancora legittimato da dimostrazioni pseudoscientifiche e non si è ancora manifestato nella sua forma più virulenta con l'Olocausto, quindi non è ancora tabù.

La produzione dei race records ha successo, inaspettatamente anche tra il pubblico bianco. Con la diffusione discografica questo repertorio prevalentemente rurale entra anche nelle città, nasce il '''city blues'''. Il blues delle origini era suonato per lo più da musicisti improvvisati, poveracci, che spesso venivano imbrogliati da discografici locali senza scrupoli. Venivano pagati pochi dollari per la registrazione e non vedevano l'ombra di una royalty. Molti bluesmen non avevano neppure una chitarra e usavano strumenti autocostruiti, intonati con le fiale del tabacco da fiuto (nasce così la tecnica dello slide!).

'''Billie Holiday''' --> massima esponente del city blues

'''Robert Johnson''' --> massimo esponente del country blues

Con la nascita della '''Library Of Congress''' di Washington, i bluesmen di campagna prima sfruttati fino al midollo cominciano ad essere registrati a condizioni più eque da parte di alcuni '''etnomusicologi''' (uno su tutti Alan Lomax), che vedono in questo repertorio un'enorme fonte di informazioni sulla cultura rurale americana.

Caratteristica tipica del country blues è una dialettica molto drammatizzata tra voce e strumento (Muddy Waters è un maestro nel "chiacchierare" con la sua chitarra). Spesso il cantante e il musicista coincidono, e ciò favorisce una struttura molto libera dei brani in quanto non c'è bisogno di sincronizzazione fra più elementi. Dopo la Seconda Guerra Mondiale invece arriverà la contaminazione tra country blues e musica da ballo bianca: cominceranno ad apparire delle formazioni di più musicisti e l'uso della chitarra elettrica.

== L'hillbilly ==

Lo stesso Ralph Peer che inventa i race records decide di investire su un'altra realtà folk presente negli Stati Uniti, questa volta appartenente al mondo bianco. Scopre infatti un gruppo di boscaioli dei monti Appalachi che suonano strumenti sia della tradizione occidentale (chitarra, fiddle, contrabbasso), sia di quella afroamericana (come il banjo).

Quando il discografico chiede il nome del gruppo i musicisti rispondono: "We're just a bunch of hillbillies!" (siamo solo un branco di campagnoli!). Il gruppo da allora si chiamerà '''The Hillbillies''' e darà il nome anche al relativo genere musicale, successivamente ribattezzato da '''Jimmy Rodgers''' in '''country & western'''. Rodgers eliminerà anche l'etichetta "race records", divenuta ormai scomoda, rimpiazzandola con il termine "rhythm & blues".

== Woody Guthrie ==

Sempre attorno agli anni '30-'40 esordisce '''Woody Guthrie''', moderno cantastorie che racconta gli anni della crisi appena trascorsi con occhio molto critico. E' un personaggio molto interessante perché lavora soprattutto nelle neonate '''trasmissioni radiofoniche''', poi viene scoperto da Alan Lomax ed entra anche lui nel mercato discografico. Una tematica ricorrente nelle canzoni di Guthrie è l'inno alle gesta di fuorilegge alla "Robin Hood", che delinquono in nome della giustizia sociale. Sulla sua chitarra campeggiava fiera la scritta: "this machine kills fascists" (questa macchina ammazza i fascisti).

== La fine di Tin Pan Alley ==

Riepilogando, blues e hillbilly sono generi inizialmente di nicchia, che negli anni '30 vengono portati alla ribalta da alcuni discografici lungimiranti, più o meno onesti. Sarà però la diffusione della '''radio''' a portare davvero alla ribalta questa nuova musica e a segnare la fine dell'industria di Tin Pan Alley.

Quando l'invenzione di '''Guglielmo Marconi''' comincia a diffondersi negli USA il Copyright Act del 1909 è già efficace riguardo allo sfruttamento della nuova tecnologia. L'atto prevede però l'esenzione dal pagamento di diritti nel caso di trasmissione senza profitto. All'inizio le radio trasmettono gratis, ma quasi subito aggiungono anche la pubblicità. Nasce il business delle royalties anche in ambito radiofonico.

La società di collettazione americana (ASCAP) impone licenze sempre più alte fino a diventare insostenibili per le radio. Conseguenza: nascita di un'altra società di collettazione, la '''BMI''', sotto la spinta delle emittenti radiofoniche. A questa associazione aderiscono editori e discografici minori, indipendenti dal mondo di Tin Pan Alley, la cui produzione è principalmente blues e hillbilly.

Questi generi saranno gli unici trasmessi alla radio per più di un anno, grazie alle licenze più eque concesse dalla BMI. Quando l'ASCAP decide di ridurre le tariffe ormai il nuovo gusto del pubblico è forgiato e l'industria di Tin Pan Alley completamente scavalcata.

= L'evoluzione tecnologica del dopoguerra =

== Il registratore a nastro ==

Introdotto negli anni '30 in Germania ('''Magnetophon'''), frutto dei "progressi della chimica tedesca" durante il 3° Reich. Innovativo rispetto ad altre tecnologie dell'epoca come ad esempio il registratore a '''filo metallico''', che non consentiva tagli e montaggi e che era estremamente pericoloso (anche letale!) in caso di rottura del velocissimo e tesissimo filo usato come supporto per la registrazione.

Il registratore a nastro fu inizialmente usato in ambito radiofonico, e durante la 2° Guerra Mondiale fu patrimonio esclusivo tedesco a uso propagandistico. Le possibilità di taglio e montaggio del Magnetophon venivano messe al servizio dei discorsi del Fuhrer, che in questo modo acquisivano maggiore incisività. Con la fine della guerra gli Alleati se ne appropriano e tramite tecniche di '''reverse engineering''' riescono a costruirne delle copie.

Negli anni '50 il registratore a nastro entra negli studi di produzione musicale, segnando un significativo '''cambio d'approccio''' alla registrazione stessa. Prima si utilizzavano degli ingombranti e scomodi '''grammofoni incisori''', il cui peggior difetto era quello di essere assolutamente '''intolleranti agli errori'''. La matrice doveva essere obbligatoriamente registrata tutta in un take, e in caso di errori non poteva essere riutilizzata. Il nastro magnetico, invece, può essere '''cancellato''' o addiritura '''sovrainciso'''.

== Bounce, bounce! ==

Anche il cinema va incontro alla stessa rivoluzione magnetica, mentre in ambito musicale si diffonde sempre di più la pratica del '''bouncing''', ovvero il riversamento ripetuto da un nastro a un altro utilizzando due registratori collegati fra loro. Mixando nuovo materiale ad ogni "rimbalzo" si possono ottenere sovraincisioni multiple. Pionieri del bouncing: '''Les Paul''' e '''Mary Fox'''.

Più in generale si apre una possibilità enorme di '''manipolazione''' del suono. Col passare del tempo i registratori diventano '''multipista''' (max 4 fino a tutti gli anni '60). Le registrazioni manipolate in questo modo assumono connotazioni alle volte innaturali (eccessiva perfezione, cantanti che doppiano le loro stesse voci ecc.) e l'estetica dell'ascolto su disco si differenzia definitivamente da quella dell'ascolto dal vivo, diventando alle volte il termine di paragone per valutare quest'ultima.

La maggiore economicità della tecnologia porta alla nascita di svariati studi ed etichette indipendenti. Nasce inoltre il concetto di '''album''', la cui realizzazione viene resa possibile dalla tecnica del montaggio su nastro unita alla diffusione del '''microsolco''' su vinilite, che sostituisce i vecchi supporti in gommalacca a 78 giri.

== LP e singoli ==

L'introduzione del microsolco risale al 1948, e viene adottato in due formati diversi: la '''Columbia''' produce un disco di grosse dimensioni e che gira lento (33 giri e 1/3), pensato per il mercato della classica; al contrario la '''RCA''' produce un disco di piccolo formato e che gira più veloce (45 giri) adatto a contenere singole canzoni di ambito "popular". La RCA scarta l'opzione album e sviluppa un sistema cambiadischi. Il foro più largo del 45 giri rispetto a quello del 33 giri serve appunto a facilitare lo scorrere dei dischi sul perno del cambiadischi.

I due supporti sono entrambi sotto brevetto dei rispettivi ideatori, e inizia una '''guerra dei formati''' (non sarà la prima né l'ultima) tra i due colossi discografici. Non ci saranno né vincitori né vinti, e alla fine Columbia ed RCA si scambieranno i brevetti per poter raggiungere tutti i possibili mercati.

Il 45 giri, leggero, maneggevole e resistente, è indispensabile almeno quanto la radio al successo del '''rock 'n roll'''. Un discografico indipendente ne poteva portare molti in una comune automobile e rifornire da solo i suoi rivenditori. L'utilizzo del 33 giri in ambito popular come '''album''' di canzoni inizia invece in Francia, per raccogliere in un unico supporto interi recital di autori di cabaret. Sulle copertine si trovavano note giornalistiche e di commento al posto dei testi delle canzoni.

= Il rock 'n roll =

== Motivazioni ==

* Ci sono più giovani
* Questi giovani hanno poche spese oltre la musica
* Il reddito medio delle famiglie aumenta
* Sempre più studenti proseguono i loro studi, con conseguente aggregazione sociale e formazione di un '''gruppo sociale''' "dei giovani"
* Contaminazione degli ascolti e delle idee a causa di migrazioni e della fine della segregazione razziale
* Fine del predominio di Tin Pan Alley
* ecc...

== Precursori del rock 'n roll ==

* Hillbilly
* Jump bands e boogie
* Gospel e doo-wop
* R 'n b soprattutto di New Orleans
* Repertorio di Tin Pan Alley

Il primo rock 'n roll è in realtà un altro modo di chiamare il rhythm 'n blues. Il termine viene diffuso da '''Alan Freed''', disc jockey radiofonico, per sdoganare la musica nera agli occhi del pubblico bianco. Una delle critiche che venivano mosse all'ex "race" music era quella di essere troppo provocatoria ed esplicita... Sembra quasi un paradosso che un termine come "rock 'n roll", dall'evidente allusione sessuale, abbia avuto successo proprio tra quel pubblico che considerava troppo libertino il rhythm 'n blues!

== Gli anni d'oro ==

Il primo successo "bianco" del rock è '''Rock Around the Clock''' di '''Bill Haley''', parte della colonna sonora del film '''Il seme della violenza'''. Quando arriva '''Elvis Presley''', però, spetta a lui lo scettro di "re del rock". Bianco, dall'aspetto rassicurante e con un buon curriculum scolastico da "bravo ragazzo", si fa subito notare per la sua eccezionale presenza scenica ed '''interazione''' col microfono.

L'amplificazione della voce permette infatti ai cantanti di abbandonare l'ipostazione classica (necessaria per bucare il "muro sonoro" di un'orchestra) ed utilizzare il proprio strumento in maniera più naturale. Si sviluppa in America il fenomeno dei '''crooners''' (il più noto è '''Frank Sinatra'''), cantanti che riescono ad esprimere la loro qualità vocale con il loro timbro "di tutti i giorni", rendendo possibile l'uso di strumenti espressivi come il sussurro, il rumore del respiro ecc. Elvis impara molto dai crooners e la sua voce piace proprio per il suo suono familiare ed "autentico".

== Alternative al rock 'n roll ==

Elvis Presley è l'unico rocker ad essere scritturato da una major, e solo a carriera ormai avanzata. Il rock 'n roll rimarrà a lungo patrimonio delle etichette indipendenti e assume un ruolo "anticommerciale" (ma non per questo estraneo alla commerciabilità) e di contrapposizione alla censura e ai benpensanti. Il rock delle major viene percepito come "falso" e inquadrato.

Per combattere il fenomeno del rock le grandi case discografiche cercano nuovi prodotti che facciano concorrenza nella nuova fascia di mercato "giovane". Si tratta di artisti prevalentemente di origini italiane, dal viso acqua e sapone e dalla proposta musicale estremamente spensierata come '''Connie Francis''' o '''Paul Anka'''. Con questa sorta di pop leggero si è soliti dire che l'industria discografica americana ha "pestato la coda di una tigre", poiché proprio questo repertorio getterà le basi per la nascita dei cantautori più impegnati e scomodi al potere, fra cui '''Bob Dylan'''.

= La diffusione dell'alta fedeltà =

== La stereofonia ==

Inizialmente brevetto '''DECCA'''. La tecnologia si basava su un solco a V dove ciascuna "parete" del solco portava un segnale diverso. Per leggerlo era necessaria una puntina stereo, costituita da due sensori teoricamente indipendenti fra loro. In realtà questa tecnologia era bel lontana dalla perfezione e rimaneva una certa '''diafonia''' (cross-correlazione fra i due canali). I nastri miglioreranno un po' la situazione ma il problema sparirà definitivamente solo col digitale.

Essendo all'epoca una tecnologia costosa, il target di mercato era orientato al ceto medio-alto e ai suoi consumi: classica, jazz (passato da un ambito prettamente "popular" a quello "colto"), pop leggero, crooners. Il rock 'n roll, assieme alle altre produzioni "indipendenti", rimane inizialmente fuori da questo mercato almeno per una decina d'anni.

Bisogna ricordare che nei primi anni della diffusione della stereofonia, il nuovo formato stereo non era compatibile col mono e viceversa. I dischi prodotti in questo periodo di transizione escono in due versioni, una per le puntine stereo e l'altra per le puntine mono.

== La musicassetta ==

Giunti agli anni '70, lo stereo ha ormai subito una diffusione di massa, e la sua definitiva affermazione coincide con lo sviluppo di un nuovo supporto: la '''musicassetta''', targata '''Philips'''. Col passare degli anni diventa il supporto preferito per il consumo di musica, superando le vendite del vinile, prima ancora della diffusione del CD.

Assieme ai lettori si diffondono quasi contemporaneamente i registratori a cassetta stereo casalinghi, spesso di buona qualità e magari dotati di tecnologia '''dolby''' per la riduzione del rumore di fondo. Nasce in questo modo il fenomeno della '''copia privata''', che diventerà lo spauracchio dell'industria discografica negli anni a venire fino ai giorni nostri.

Anche la musicassetta è l'unica superstite di una delle tante "guerre dei formati" che costellano la storia dell'industria musicale: la concorrente principale si chiamava '''stereo8''', aveva una resa sonora di qualità superiore ma due grossi difetti, non era registrabile in casa ed essendo più grossa... era più difficile da rubare! ;)

== L'ascolto "nomade" ==

La musicassetta si presta benissimo all'ascolto '''portabile''' e '''mobile''' (walkman, autoradio), e questo è forse il fattore che più di tutti ha sancito il successo del supporto. A questo si aggiunge la sua estrema versatilità, riciclabilità, economicità e il play time più lungo atto a contenere grosse '''compilation'''. L'ascolto in situazioni diverse da quella domestica (soprattutto in auto) seleziona la fruizione poiché determinati generi sono più adatti all'ascolto mobile rispetto ad altri.

Arrivando ai giorni nostri, il CD e i file digitali migliorano sempre di più la qualità che si può ottenere nelle copie, consentono una fruizione di alta qualità anche con mezzi relativamente poveri, generano nuove situazioni d'ascolto e fanno nascere fenomeni di '''concorrenza''' rispetto al mercato discografico e persino rispetto alla fruizione radiofonica (ascolto '''mood-based''', '''shuffle''').

= Pubblicità e musica =

== Il jingle ==

Pubblicità e musica cominciano ad andare a braccetto già agli albori delle trasmissioni radiofoniche, come abbiamo visto parlando della nascita della BMI. Verso gli anni '70 però il legame si fa più stretto, la stessa musica entra '''dentro''' la pubblicità con i '''jingle''', musica creata appositamente per i messaggi promozionali da autori specializzati. I jingle pubblicitari devono essere '''brevissimi''' (max 30 secondi) ed "agganciare" subito lo spettatore.

Da qualche anno è prassi usare anche un altro sistema: si inseriscono nel messaggio pubblicitario, al posto del jingle, brani studiati per il mercato discografico non ancora molto famosi. In questo modo il pubblicitario risparmia nell'acquisizione dei diritti di sfruttamento dell'opera, poiché l'autore "guadagna" anche il vantaggio collaterale di avere un'ottima vetrina per la sua composizione.

Anche i brani già molto famosi funzionano, a scopo rievocativo: le sonorità già note sono le più rassicuranti. In questo caso però nasce il problema della cessione dei diritti, divenuta particolarmente onerosa a causa della crisi del mercato dei supporti. Una soluzione è '''coverizzare''' il brano, in modo tale da dover pagare solo i diritti d'autore ed evitare quelli connessi. Spesso i pubblicitari non vogliono pagare nemmeno quelli, e allora cercano di produrre jingle che '''ricordino''' il brano originale al quale si ispirano... se l'operazione non è sufficientemente accorta nascono problemi di plagio.

== Promozione discografica alla radio ==

L'esecuzione di musica registrata alla radio inizia solo negli anni '40, prima si trasmetteva solo musica dal vivo. I discografici pensavano che, se si fossero suonati i dischi alla radio (quindi gratis), tutti li avrebbero ascoltati solo via etere e nessuno li avrebbe più comprati. Col tempo si registra invece un cambio di mentalità, i discografici cominciano ad usare la radio come mezzo di '''promozione''' per i loro prodotti.

Sono anni difficili per le varie categorie chiamate in causa: i musicisti che vivevano di esecuzioni alla radio si trovano senza lavoro, gli interpreti scioperano e non registrano più dischi, gli editori all'inizio si spaventano ma poi si accorgono di poter sopravvivere grazie ai diritti derivati dall'esecuzione del vecchio materiale. Lo sciopero rientrerà e i musicisti dovranno accettare la costituzione dei nuovi equilibri che domineranno l'industria musicale.

Un fenomeno di questo periodo sono i '''disc jockey''', "fantini" (jockey, appunto) che "cavalcano" i dischi fino a portarli al successo. In quegli anni nasce anche la '''Capitol Records''', una delle prime case discografiche a permettere il passaggio dei dischi in radio.

Quasi contemporanea alla nascita dei dj è la nascita della '''corruzione''' dei dj da parte dei discografici, in modo da ottenere più passaggi dei propri dischi. Ciò porterà ad una conseguente regolamentazione per arginare il fenomeno, soprattutto nel settore pubblico, e proteggere il palinsesto da interventi esterni.

Negli ultimi 30 anni i discografici acquisiscono potere contrattuale rispetto alle radio: una pratica diffusa, ad esempio, è la concessione di interviste in esclusiva con un determinato artista, previa garanzia di un certo numero di passaggi in radio dei propri dischi.

== Promozione discografica televisiva ==

La televisione è un altro potente motore promozionale, soprattutto nel determinare i grandi successi. Quando i discografici cominciano ad usare il mezzo ne soffrono la costosità: le trasmissioni erano prevalentemente in diretta ed era necessario mandare gli artisti (spesso affetti da divismo) in costose trasferte per raggiungere gli studi.

Verso la metà degli anni '70 viene inventato il '''video musicale'''. I videoclip risolvevano i problemi della trasferta ma erano comunque troppo costosi da realizzare per l'utilizzo che ne veniva fatto (venivano mandati in onda per un breve periodo e poi giacevano in magazzino). A '''Robert Pittman''' viene un'idea geniale, quella di mandarli in rotazione come se si trattasse di un programma radiofonico: nasce '''MTV'''.

Economia dei Beni Musicali/Appunti/2007-2008/Elementi di Economia

2008-01-27T11:47:33Z

SingInTime:

= L'industria musicale in Italia =

'''ASK''': '''A'''rt, '''S'''cience and '''K'''nowledge, gruppo della Bocconi che redige ogni anno un rapporto sull'economia della musica italiana. Sponsorizzato da '''DISMAMUSICA''' e '''FEM''' che avevano per primi avviato questo tipo di ricerche.

L'industria musicale è difficilmente valutabile e quantificabile perché composta da diversi fattori e operatori, non tutti visibili allo stesso modo.

Il valore dell'industria musicale italiana si attesta attorno ai '''3 miliardi di euro''', valore modesto rispetto ai settori trainanti della nostra economia, ma comunque capace di dare lavoro a migliaia di persone.

= IVA e suo funzionamento =

'''IVA''': '''I'''mposta sul '''V'''alore '''A'''ggiunto, ovvero sul guadagno di un'attività (ricavi meno costi). L'imposta viene applicata come un'aggiunta percentuale sul prezzo della merce, sia acquistata che venduta. La differenza tra l'IVA sulle vendite e quella sugli acquisti è ciò che l'attività deve al fisco.

Dal punto di vista del commerciante, l'IVA dev'essere '''pagata''' sulle fatture emesse (merce venduta), e gli viene '''rimborsata''' sulle fatture ricevute (merce in entrata). Ciò significa che l'attività paga in maniera '''proporzionale al suo guadagno''', e in caso di perdita può addirittura '''andare a credito''' nei confronti dello Stato.

'''FATTURATO''': somma di tutte le fatture emesse, al netto dell'IVA

'''ALIQUOTA IVA''': percentuale aggiunta al prezzo della merce. In Italia l'aliquota ordinaria è del 20%, mentre ai beni di prima necessità viene applicata un'aliquota del 4%. I libri e i giornali sono considerati beni culturali, esenti da IVA.

Recentemente si è discusso di una riduzione di aliquota IVA a favore dei dischi, per alleviare la crisi dell'industria discografica. Sarebbe coerente con la definizione di disco come bene culturale, purtroppo per approvare questo provvedimento serve l''''unanimità''' degli stati membri dell'Unione Europea. Siccome il mercato discografico britannico è ancora fiorente, l'IVA da esso generata è una buona fonte di guadagno alla quale il Regno Unito non è disposto a rinunciare.

= Rilevamento degli ascolti radiotelevisivi =

Servono a rilevare il gradimento delle trasmissioni. In Italia l'ente preposto a questi rilevamenti è l''''AUDITEL'''. Lo share generato dalle varie trasmissioni viene utilizzato per selezionare la programmazione: le più gradite avranno uno spazio maggiore e migliore all'interno del palinsesto. Lo share generato dagli eventi musicali in TV è piuttosto basso, e la loro presenza è di conseguenza ridotta.

'''SHARE''': Percentuale di spettatori calcolati sul bacino di utenza '''in un dato momento'''. A parità di share, quindi, il numero assoluto di spettatori sarà più alto nel prime time e più basso nelle fasce orarie meno frequentate (in particolare la notte).

Il dato sull'utenza assoluta è invece molto interessante per i sostenitori della spesa televisiva: chi fa la '''pubblicità'''. L'utenza assoluta viene usata per stimare la visibilità (e quindi il valore) degli spazi pubblicitari associati alle trasmissioni.

Questi meccanismi di valutazione delle "performance" economiche dei media sono nati con la diffusione dei quotidiani, quindi ben prima di radio e TV.

Le aziende che investono in pubblicità si basano sia su questi rilevamenti, sia su un concetto fondamentale del marketing: la '''definizione del target'''. L'investimento è ottimizzato se la pubblicità ottiene il massimo impatto su una fascia di pubblico che corrisponde al proprio "cliente ideale" (es. pubblicità di giocattoli nell'orario dei cartoni animati).

= Rilevazioni radiofoniche =

Se per la televisione c'era AUDITEL, le rilevazioni radiofoniche vengono effettuate da '''AUDIRADIO'''.

Come per la televisione, ci si basa su un'indagine '''statistica''' basata su un '''campione''' rappresentativo della popolazione italiana. Per rappresentativo si intende un'immagine "in miniatura" della popolazione totale per quanto riguarda alcuni parametri significativi come età, genere, reddito ecc.

A differenza di AUDITEL, che utilizza un sistema di rilevazione elettronico pilotato da uno speciale telecomando, AUDIRADIO effettua le sue rilevazioni tramite '''intervista'''. Ciò può portare a delle distorsioni significative in quanto il sistema dell'intervista:
* si basa sulla '''memoria''' dell'intervistato, che può essere ingannevole
* '''sovrastima''' l'ascolto delle trasmissioni poiché molto spesso la radio, anche se accesa, non viene ascoltata davvero ma semplicemente tenuta come sottofondo
* il modo e il luogo in cui sono poste le domande a volte '''influenza''' le risposte e/o distorge la rappresentatività del campione

I dati dimostrano che il consumo radiofonico è superiore al consumo di musica da internet o da canale discografico. Addirittura il pubblico radiofonico è superiore a quello televisivo! Alcuni sostengono che il punto di forza della radio sia la '''gratuità''' del servizio e che la diffusione di musica a rotazione sia talmente intensiva da non invogliare all'acquisto discografico la maggior parte del pubblico.

Ultimamente si sta pensando ad un'automatizzazione delle rilevazioni radiofoniche (come già avviene per la TV) mediante l'utilizzo di uno speciale orologio con microfono. L'orologio registra periodicamente pochi millisecondi di segnale (non critici dal punto di vista della privacy) e lo invia ad un server che esegue un confronto fra il campione e i canali radio. Se il campione corrisponde, si ha la certezza che l'ascoltatore sta effettivamente ascoltando (è in prossimità della radio) un determinato canale. Anche AUDITEL adotterà questo sistema per la TV, poiché non richiede l'uso di telecomandi speciali da parte dell'utente ed è indipendente dalla tecnologia di trasmissione (satellite, via cavo...).

= La ripartizione SIAE =

'''SIAE''': '''S'''ocietà '''I'''taliana '''A'''utori ed '''E'''ditori, gestisce appunto i diritti degli autori e degli editori. Non si occupa invece dei diritti connessi. In Italia la SIAE è anche l'ente preposto alla gestione e al controllo fiscale di tutto ciò che concerne l'ambito dello spettacolo.

Il flusso di denaro associato ai diritti d'autore è una delle parti più rilevanti dell'industria musicale. Vengono pagati da case discografiche, produttori cinematografici, gestori di sale da ballo, emittenti radiotelevisive, organizzatori di concerti ecc. agli autori (di musiche e testi) e agli editori delle opere che utilizzano nella loro attività.

'''Ordinanza di ripartizione''': Documento stilato periodicamente dalla SIAE (di solito su base triennale) che definisce le regole e le modalità di ripartizione del denaro raccolto ai vari associati. Il documento è diviso in '''classi di ripartizione''' (balli e concertini, musica da film, diffusione, esecuzioni pubbliche) che a causa della loro diversa natura adottano differenti criteri di suddivisione degli introiti. Dall'ordinanza del 2004 sono state aggiunte due classi che riguardano alcuni diritti connessi, ma sempre a vantaggio di autori ed editori: si tratta dei diritti sulla '''vendita dei dischi''' e sulla vendita di '''musica su internet'''.

La divisione dei proventi di ogni singolo brano fra i suoi autori avviene tramite '''quote''' di ripartizione, che vengono definite in '''ventiquattresimi''' per la ripartizione ordinaria, in '''percentuale''' per le due nuove categorie. La differenza nel calcolo delle quote è dovuta al fatto che la gestione dei diritti fonomeccanici è stata ereditata da un altro ente di collettazione (la SCF) ed è comunque posteriore al copyright editoriale. I diritti fonomeccanici vengono generalmente pagati con l'acquisto del bollino SIAE.

'''Ripartizione supplementare''': Il crescente fenomeno della '''copia privata''' e la natura stessa di alcuni utilizzi legali (es. rotazione in discoteca) impediscono un monitoraggio perfettamente analitico dell'utilizzo di ogni singolo brano. Tutti gli utilizzi la cui provenienza non può essere accertata ricadono in questa ripartizione, che viene effettuata su base proporzionale a seconda degli incassi ordinari percepiti dagli autori.

= I contratti di licenza =

Se si vogliono produrre e vendere dischi, ci si deve rivolgere alla SIAE (che amministra per conto degli autori i diritti sulle loro opere) per ottenere un '''contratto di licenza'''. Tramite il contratto di licenza l'autore delega al discografico l'esercizio dei diritti necessari alla produzione e alla distribuzione del disco, previo pagamento di un '''equo compenso'''.

Ecco i contratti di licenza principali:

* '''Licenza singola'''
: Accessibile anche a privati cittadini. A ogni produzione si paga subito tutto il dovuto, in maniera proporzionale al numero di copie prodotte. Chiunque può ottenere un contratto di licenza singola, ma con questo tipo di accordo il rischio finanziario è tutto a carico del produttore.
* '''Contratto generale'''
: E' il contratto "delle major": si paga in maniera proporzionale al venduto, indipendentemente dal numero di produzioni e di copie. Le rimanenze di magazzino sono esentate e il pagamento si effettua su base trimestrale, non tutto e subito.
* '''Contratto edicole'''
: I prodotti fonomeccanici venduti nelle edicole hanno alcuni vantaggi. Si paga di meno per una serie di fattori, primi fra tutti la necessità di una tiratura elevata, l'IVA ridotta e un prezzo medio degli articoli da edicola più basso rispetto ai normali prodotti discografici.
* '''Contratto premium'''
: I prodotti distribuiti in omaggio assieme all'acquisto di altri prodotti godono di tariffe eccezionalmente basse.

'''FIMI''' e '''AFI''': Associazioni di discografici in Italia.

= I contratti discografici =

Si basano su una '''royalty''' calcolata su una stima del prezzo del prodotto. Negli USA si usa il '''SRLP''' ('''S'''uggested '''R'''etail '''L'''ist '''P'''rice, prezzo al dettaglio consigliato), in UK si usa il '''PPD''' ('''P'''ublished '''P'''rice for '''Dealers''', prezzo all'ingrosso). Il primo è generalmente più alto del secondo, quindi a parità di percentuale produce royalties più alte. In realtà i metodi si equivalgono.

Royalties tipiche negli Stati Uniti:
* '''9-13%''' con etichetta indipendente
* '''13-16%''' con major o mini major
* '''16-18%''' per un artista affermato
* '''19-20%''' per una superstar

Superata la soglia delle 500.000 copie vendute di solito si ha un aumento dello 0,5-1%.

Gli artisti percepiscono anche un '''anticipo''' (da 5.000 a 750.000 $, a seconda del discografico e della notorietà dell'artista) per concedere l'opera in esclusiva e per pagare la registrazione. Negli USA l'anticipo viene gestito interamente dall'artista, in UK a volte una somma viene amministrata dal discografico onde evitare sprechi in fase di registrazione.

Le prime royalties servono all'artista per '''saldare''' l'anticipo. In caso di flop è il discografico a rimetterci ma l'artista non guadagna nulla. Di solito i contratti sono per più album, e le royalties di tutti gli album non vengono incassate dall'artista prima di aver saldato tutti gli anticipi.

'''Cross-collateralization''': uso dei proventi del copyright per pagare l'anticipo. Si può fare solo se l'artista esecutore è anche autore dei brani dell'album. '''sconveniente per l'artista''' poiché il copyright è l'unica fonte di guadagno immediato.

'''Compulsory licence''': Negli Stati Uniti, a differenza che in Europa, spetta all'autore dell'opera decidere chi debba effettuare la '''prima registrazione''' e può concedere la licenza al prezzo che vuole. Dopo la prima registrazione scatta il meccanismo della ''compulsory licence'': chiunque può richiedere la licenza, come avviene in Europa, ma il compenso viene stabilito '''per legge''' a livello federale e non dalla società di collettazione.

'''Controlled composition''': Sempre negli Stati Uniti, se un interprete è anche autore del brano si è di fronte a una ''controlled composition'', che è soggetta a una riduzione delle tariffe di licenza rispetto a quelle stabilite dalla ''compulsory licence''.

La regolamentazione USA differisce da quella europea in alcuni altri punti:
* I diritti morali sono cedibili
* Nei casi di plagio, è assolutorio il poter dimostrare di non essere mai venuti a contatto col brano plagiato

Quest'ultimo punto ha come conseguenza il fatto che in America i demo non sollecitati vengono generalmente respinti, per evitare contatti con canzoni indesiderate e difendersi da eventuali plagi involontari. Piccola parentesi: il plagio "non ha confini", nel senso che non esistono criteri oggettivi per definirlo. Ciò che conta è la copia dei '''tratti caratteristici''' di un'opera, non un determinato numero di battute.

Utente:SingInTime

2008-01-22T15:05:07Z

SingInTime: /* Ciao a tutti! */

==Ciao a tutti!==
Mi chiamo Stefano, classe '86, veneziano d'origine e milanese adottivo :) Sono un comunicatore musicale e in quanto tale amo la musica (da ascoltare e suonare). Inoltre ho una band ([http://www.extempore.tk ExTempore]) nella quale canto e suono le tastiere.

Un'altra mia passione è la giocoleria, i miei attrezzi preferiti sono le catene da infuocare perché sentire le fiamme che danzano assieme a te a pochi centimetri dalla tua pelle è sempre un'emozione unica!

==Mi trovate online==
* su msn al contatto singintime_AT_hotmail_DOT_it
* su myspace all'indirizzo www.myspace.com/singintime
* su ICQ (104817415) che però non uso quasi mai.
* via mail all'indirizzo singintime_AT_gmail_DOT_com

Ogni tanto bazzico anche qualche canale IRC (#metal, #extempore, server irc.azzurra.org) e scrivo in alcuni forum, primi fra tutti quello della mia band (disponibile [http://extempore.altervista.org/phpBB2 qui]), quello di [http://www.giocoleria.org giocoleria.org] e quello di [http://www.italianpoi.eu italianpoi.eu] dove collaboro anche alla stesura della [http://inertia.altervista.org/doku.php WikiPOIdia].

==Webmaster di==
* http://www.extempore.tk - Il sito ufficiale della mia band
* http://www.servizicontabiliefiscali.com - Studio contabile in Mestre (VE)

Ora come ora non mi viene in mente altro, casomai aggiungerò altre info in seguito, ammesso che a qualcuno importi qualcosa! :)

Ciao a tutti, ci becchiamo in aula!

Stefano - SingInTime

Database musicali

2007-07-19T14:30:49Z

SingInTime:

{{introduzione}}
== Turni ==
{{Turno}}

== A.A. passati ==
== Informazioni ==

Home page ufficiale del corso: http://homes.dico.unimi.it/dbandsec/DBMusicali

Appunti per l'anno 2006-2007 disponibili qui: [[Database Musicali/Appunti/2006-2007]]

=== Giudizio sul corso ===
{{Giudizio}}
{{Giudizio/Interesse}}
{{Giudizio/Difficoltà}}
{{Giudizio/Nonfrequentanti}}
{{Giudizio/Ore}}

[[Categoria:Corsi STCM]]

Database Musicali/Appunti/2006-2007

2007-07-19T14:27:07Z

SingInTime: /* Criteri di similarità */

Database musicali

2007-07-19T14:20:44Z

SingInTime: /* Informazioni */

{{introduzione}}
== Turni ==
{{Turno}}

== A.A. passati ==
== Informazioni ==

Appunti per l'anno 2006-2007 disponibili qui: [[Database Musicali/Appunti/2006-2007]]

=== Giudizio sul corso ===
{{Giudizio}}
{{Giudizio/Interesse}}
{{Giudizio/Difficoltà}}
{{Giudizio/Nonfrequentanti}}
{{Giudizio/Ore}}

[[Categoria:Corsi STCM]]

Categoria:Corsi STCM

2007-07-19T14:13:08Z

SingInTime: /* Nuovo ordinamento - Complementari */

= '''Corso di Laurea in Scienze e Tecnologie della Comunicazione Musicale''' =
Abbreviazione: '''STCM'''

== News ==
vedi http://www.lim.dico.unimi.it/didatt/avvisiSTCM.htm

== Sito ufficiale ==
Attenzione alla strambata del 2006:
* per matricole dal 2005-06: http://www.ccdi.unimi.it/it/corsiDiStudio/F61/index.html
** ''attivato nella classe delle lauree triennali di Scienze della Comunicazione.''
* per matricole fino al 2004-05: http://www.ccdi.unimi.it/it/corsiDiStudio/F57/index.html
** ''attivato nella classe delle lauree triennali di Scienze e Tecnologie Informatiche.''

Sito del [http://www.lim.dico.unimi.it LIM]
* http://www.lim.dico.unimi.it/didatt/STCM.htm
:che spiega anche il passaggio verso il nuovo ordinamento

InfoStudenti (Informatica)
* infostudenti@dsi.unimi.it
* +39 02503.16250 , +39 2503.16326 / 16252

== Appelli ==
[http://studenti.unimi.it/Appelli/ReSEGRSF57.pdf Appelli d'esame definiti nei prossimi 60 giorni]

== Forums ==
*http://www.dsy.it/forum/forumdisplay.php?s=&forumid=142 (hosted)
*http://www.musicomio.org/fora/

=== Fonti di appunti e testi ===
* [http://www.midosoundesigner.net/html/university.html Appunti di Mido]
* [http://www14.brinkster.com/maggyonline/ingresso.html MaggyOnline]
* http://cdlezioni.dico.unimi.it - accesso tramite login del Silab
** al 2/2006 lezioni di: Apolloni, Bellettini, Bonzini, Cesa-Bianchi, Mereghetti, Monga, Palano, Pighizzini, Torelli
* http://vc.dsi.unimi.it/ - Archivio delle registrazioni delle lezioni
** al 2/2006 solo Informatica, e solo nelle classi 26, 23S e 14

Biblioteca per unimi: http://lopac.cilea.it/opac/sebina/ausm

Altre biblioteche: http://mai.cilea.it/repertorio/universita/lombardia.htm#PMILANO
* in particolare: "Università di Milano. Biblioteca di informatica"
** http://fantomas.usr.dsi.unimi.it/BASIS/tlpunmi/web/cat_generale/SF

== Requisiti pre laurea ==
* vedi in http://www.lim.dico.unimi.it/didatt/STCM.htm

== Tesi ==

=== Tesi disponibili ===
* http://www.lim.dico.unimi.it/didatt/dispo.html

=== Tesi realizzate ===
* http://www.lim.dico.unimi.it/didatt/tesi.htm (non solo per STCM, ma affini)

== Corsi ==
=== Vecchio ordinamento ===
==== Vecchio ordinamento - Fondamentali del primo anno ====
* [[Fenomenologia del linguaggio musicale]]
* [[Informatica generale]]
* [[Laboratorio Informatica Generale]]
* [[Lingua italiana e comunicazione]]
* [[Semiotica]]
* [[Stilistica e semiotica del testo]]
==== Vecchio ordinamento - Fondamentali del secondo anno ====
* [[Descrizione formale dell'informazione musicale]]
* [[Informatica applicata alla musica]]
* [[Informatica distribuita]]
* [[Laboratorio di Informatica distribuita]]
* [[Laboratorio professionalizzante]]
* [[Lingua Inglese]]
* [[Lingua spagnola]]
* [[Metodologie per l'editoria musicale]]
* [[Pedagogia della musica]]
* [[Psicofisiologia della percezione musicale]]
* [[Tecniche per l'editoria musicale]]

==== Vecchio ordinamento - Fondamentali del terzo anno ====
* [[Comunicazione Multimediale]]
* [[Diritto dell'informazione]]
* [[Economia dei beni musicali]]
* [[Estetica Musicale]]
* [[Produzione Artistica e Società Industriale]]

==== Vecchio ordinamento - Complementari ====
* [[Acustica architettonica]]
* [[Archivistica musicale]]
* [[Codifica dell'informazione multimediale]]
* [[Comunità virtuali]]
* [[Crittografia]]
* [[Database musicali]]
* [[Editoria multimediale]]
* [[Elaborazione numerica dei segnali]]
* [[Elementi di fisica acustica]]
* [[Informatica applicata al suono]]
* [[Interazione uomo/macchina]]
* [[Mobile computing]]
* [[Modelli fisici e numerici in acustica]]
* [[Programmazione e Architetture DSP]]
* [[Programmazione per la musica]]
* [[Semantica delle Lingue Naturali]]
* [[Sociologia della Musica]]
* [[Tecnologie per il restauro dell'informazione musicale]]
* [[Tecnologie web per terminali fissi e mobili]]

=== Nuovo ordinamento ===
==== Nuovo ordinamento - Fondamentali del primo anno ====
* [[Acustica musicale]]
* [[Elaborazione numerica dei segnali]]
* [[Informatica generale]]
* [[Laboratorio di Informatica Generale]]
* [[Lingua Inglese]]
* [[Lingua Italiana e Comunicazione]]
* [[Matematica per la musica]]
* [[Semiotica musicale]]
==== Nuovo ordinamento - Fondamentali del secondo anno ====
* [[Database musicali]]
* [[Informatica applicata alla musica]]
* [[Informatica applicata al suono]]
* [[Informatica distribuita]]
* [[Laboratorio di informatica musicale]]
* [[Psicofisiologia della percezione musicale]]
* [[Pedagogia della musica]]
* [[Programmazione per la musica]]

==== Nuovo ordinamento - Complementari ====
* [[Codifica dell'Informazione multimediale]]
* [[Comunità virtuali]]
* [[Crittografia]]
* [[Fondamenti di Comunicazione Digitale]]
* [[Mobile Computing]]

==== ?? ====
* [[Ontologie e web semantico]]

[[Categoria:Corsi]]

Utente:SingInTime

2007-07-19T14:03:46Z

SingInTime:

==Ciao a tutti!==
Mi chiamo Stefano, ho 20 anni, veneziano d'origine e milanese adottivo :) Sono al 3° anno di STCM e ovviamente amo la musica, da ascoltare e suonare, ho una band ([http://www.extempore.tk ExTempore]) nella quale canto e suono le tastiere.

Un'altra mia passione è la giocoleria, i miei attrezzi preferiti sono le catene da infuocare perché sentire le fiamme che danzano assieme a te a pochi centimetri dalla tua pelle è sempre un'emozione unica!

==Mi trovate online==
* su msn al contatto singintime_AT_hotmail_DOT_it
* su myspace all'indirizzo www.myspace.com/singintime
* su ICQ (104817415) che però non uso quasi mai.
* via mail all'indirizzo singintime_AT_gmail_DOT_com

Ogni tanto bazzico anche qualche canale IRC (#metal, #extempore, server irc.azzurra.org) e scrivo in alcuni forum, primi fra tutti quello della mia band (disponibile [http://extempore.altervista.org/phpBB2 qui]), quello di [http://www.giocoleria.org giocoleria.org] e quello di [http://www.italianpoi.eu italianpoi.eu] dove collaboro anche alla stesura della [http://inertia.altervista.org/doku.php WikiPOIdia].

==Webmaster di==
* http://www.extempore.tk - Il sito ufficiale della mia band
* http://www.servizicontabiliefiscali.com - Studio contabile in Mestre (VE)

Ora come ora non mi viene in mente altro, casomai aggiungerò altre info in seguito, ammesso che a qualcuno importi qualcosa! :)

Ciao a tutti, ci becchiamo in aula!

Stefano - SingInTime

Database Musicali/Appunti/2006-2007

2007-07-19T13:52:31Z

SingInTime: /* Query by content */

Database Musicali/Appunti/2006-2007

2007-07-19T13:43:29Z

SingInTime: /* Editorial Facet */

Database Musicali/Appunti/2006-2007

2007-07-19T13:41:42Z

SingInTime: /* Editorial Facet */

Database Musicali/Appunti/2006-2007

2007-07-19T13:39:18Z

SingInTime: /* Timbral Facet */

Database Musicali/Appunti/2006-2007

2007-07-19T13:35:23Z

SingInTime: /* Harmonic Facet */

Database Musicali/Appunti/2006-2007

2007-07-19T13:33:56Z

SingInTime: /* Pitch Facet */

Database Musicali/Appunti/2006-2007

2007-07-19T13:31:30Z

SingInTime: /* Pitch Facet */

Database Musicali/Appunti/2006-2007

2007-07-19T13:28:47Z

SingInTime:

Database Musicali/Appunti/2006-2007

2007-07-18T18:06:41Z

SingInTime: /* =Editorial Facet */

Database Musicali/Appunti/2006-2007

2007-07-18T18:05:58Z

SingInTime:

Database Musicali/Appunti/2006-2007

2007-07-16T08:08:44Z

SingInTime:

Database Musicali/Appunti/2006-2007

2007-07-16T07:29:57Z

SingInTime:

Database Musicali/Appunti/2006-2007

2007-07-11T17:30:28Z

SingInTime: /* Progettazione concettuale */

Database Musicali/Appunti/2006-2007

2007-07-11T17:24:57Z

SingInTime:

Database Musicali/Appunti/2006-2007

2007-07-11T17:23:57Z

SingInTime: /* Database e DBMS */

Database Musicali/Appunti/2006-2007

2007-07-11T17:21:15Z

SingInTime:

Database Musicali/Appunti/2006-2007

2007-07-11T17:00:31Z

SingInTime: /* Algebra relazionale */

Questa pagina è un copia-incolla poderoso degli appunti di '''El Conte''', che li ha generosamente pubblicati su [http://www.musicomio.org musicomio] e che ringrazio infinitamente. L'impaginazione verrà sistemata al più presto e vedrò anche di integrare eventuali punti mancanti/carenti/non chiari, ammesso che ne trovi...

Promesso!

==Introduzione==
===Il sistema informativo===
Un '''sistema informativo''' è la componente (o il sottosistema) di una organizzazione che gestisce, acquisisce, elabora, conserva, produce, le informazioni di interesse, cioè utilizzate per il perseguimento degli scopi dell’organizzazione stessa.

Ogni organizzazione ha un sistema informativo, anche se può essere eventualmente non esplicitato nella struttura. Quasi sempre il sistema informativo è di supporto ad altri sottosistemi, e va quindi studiato nel contesto in cui è inserito. Inoltre è di solito suddiviso in sottosistemi (in modo gerarchico o decentrato), più o meno fortemente integrati tra loro.

Il '''sistema informatico''' è invece la parte del sistema informativo che gestisce informazioni per mezzo della tecnologia informatica.

La presenza di un sistema informatico all'interno di un sistema informativo non è obbligatoria: il concetto di “sistema informativo” è indipendente da qualsiasi automatizzazione. Esistono infatti organizzazioni la cui ragione d’essere è la gestione di informazioni (es: servizi anagrafici e banche) e che per secoli hanno operato senza l'ausilio dell'informatica.

===Gestione delle informazioni===
Nelle attività umane, le informazioni vengono gestite (registrate e scambiate) in forme diverse, a seconda delle necessità e capacità:
* idee informali
* linguaggio naturale (scritto o parlato, formale o colloquiale, in una lingua o in un’altra)
* disegni, grafici, schemi
* numeri
* codici (anche segreti)

E su vari supporti, dalla memoria umana alla carta.

Nelle attività standardizzate dei sistemi informativi complessi, sono state introdotte col tempo forme di organizzazione e codifica delle informazioni.

Ad esempio, nei servizi anagrafici si è iniziato con registrazioni discorsive e sono state poi introdotte informazioni via via più precise:
* nome e cognome
* estremi anagrafici
* codice fiscale

In particolare, nei sistemi informatici (e non solo in essi), le informazioni vengono rappresentate attraverso i '''dati'''.

Si dice '''informazione''' tutto ciò che produce variazioni nel patrimonio conoscitivo di un soggetto detto percettore dell'informazione.

Si dice '''dato''' una registrazione della descrizione di una qualsiasi caratteristica della realtà su un supporto che ne garantisca la conservazione e, mediante un insieme di simboli, ne garantisca la comprensibilità e la reperibilità.

Uno degli obiettivi fondamentali di un sistema di gestione dati è fornire un '''contesto interpretativo''' ai dati, in modo da consentire un accesso efficace alle informazioni da essi rappresentate.

==Database e DBMS==
===Cosa sono===
In un'accezione generica, un '''database''' è una collezione di dati, utilizzati per rappresentare le informazioni di interesse per una o più applicazioni. In un'accezione più specifica, un database è una collezione di dati gestita da un DBMS.

Un '''DBMS''' (Database Management System) è un sistema (prodotto software) in grado di gestire collezioni di dati che siano:
* '''Grandi:''' di dimensioni (molto) maggiori della memoria centrale dei sistemi di calcolo utilizzati
* '''Persistenti:''' con un periodo di vita indipendentedalle singole esecuzioni dei programmi che le utilizzano
* '''Condivise:''' utilizzate da applicazioni diverse

Un DBMS deve garantire '''affidabilità''' (resistenza a malfunzionamenti hardware e software) e '''privatezza''' (mediante politiche di controllo degli accessi). Come ogni prodotto informatico, un DBMS deve essere '''efficiente''', utilizzando al meglio le risorse di spazio e tempo del sistema, ed '''efficace''', rendendo produttive le attività dei suoi utilizzatori.

La gestione di sistemi di dati grandi e persistenti è possibile anche tramite sistemi più semplici, quali gli ordinari file system dei sistemi operativi, che permettono di realizzare anche rudimentali forme di condivisione. I DBMS però estendono le funzionalità dei file system, fornendo più servizi ed in maniera integrata.

===Caratteristiche===
I maggiori vantaggi di un DBMS sono:
* l’indipendenza dei dati
* un loro accesso efficiente
* integrità e sicurezza
* amministrazione
* organizzazione degli accessi e ripristino da crash
* riduzione del tempo di sviluppo delle applicazioni.

Un DBMS è utile quando la quantità di dati è elevata e porterebbe ad un appesantimento operativo e/o quando si vogliono usare le sue potenzialità d’interrogazione dell’archivio di dati. Si dice '''transazione''' una qualunque esecuzione di un programma utenti in un DBMS.

Compito importante di un DBMS è la '''sequenzalizzazione di accessi concorrenti ai dati''' , così che ogni utente possa ignorare il fatto che altri stanno accedendo ai dati allo stesso tempo. Per fare ciò ci si serve di un meccanismo detto '''lock''' che serve a controllare l’acceso agli oggetti della base di dati. Un '''protocollo di locking''' è l'insieme di regole che ogni transazione deve seguire per garantire che l’effetto sia identico a quello ottenuto eseguendo tutte le transazioni in qualche ordine seriale.

Il DBMS mantiene un log di tutte le scritture sulla base di dati. Ogni azione di scrittura deve essere registrata prima di effettuare la modifica nella base di dati. Un WAL (write-ahead log) è usato nel caso il sistema andasse in crash appena fatto il cambiamento, ma prima che esso sia registrato nel log.

Un DBMS è dunque diviso in:
* Ottimizzatore d’interrogazioni che usa informazioni sulla memorizzazione dei dati per produrre un piano di esecuzione efficiente
* Piano di esecuzione, usato per valutare l’interrogazione
* Gestore dello spazio sul disco
* Gestore delle transazioni, assicura che le transazioni richiedano e rilascino i lock seguendo un buon protocollo di bloccaggio e programma l’esecuzione delle transazioni
* gestore dei lock, tiene traccia delle richieste dei lock
* gestore del ripristino, responsabile del mantenimento del log e del ripristino del sistema.

Un DBMS applica inoltre dei '''vincoli d’integrità''', condizioni specificate dal DBA (Database Administrator) o dall’utente finale in uno schema di base dati, che limitano i dati memorizzabili in una istanza della base dati stessa. Ci sono vincoli statici (relativi ad uno stato della base di dati) e vincoli di transizione (relativi a stati diversi della base di dati).

Quando un’applicazione viene eseguita , il DBMS controlla se ci sono violazioni ai vincoli d'integrità e in quel caso non premette le modifiche ai dati.

===Modelli di dati===
Un '''modello di dati''' è un insieme di strumenti concettuali, o '''formalismo''', che consta di tre componenti fondamentali:
* un insieme di strutture dati
* una notazione per specificare i dati tramite le strutture dati del modello
* un insieme di operazioni per manipolare i dati.

Generalmente si tratta di una struttura ad alto livello che nasconde molti dei dettagli di memorizzazione a basso livello. Un DBMS permette all’utente di definire i dati da memorizzare in termini di un modello di dati.

Un '''modello di dati semantico''' è un modello di dati ad alto livello che rende più semplice ad un utente creare una buona descrizione iniziale dei dati. Questi contengono una grande quantità di costrutti che aiutano a descrivere lo scenario di un’applicazione reale.

Al grado più elevato di astrazione troviamo i '''modelli concettuali''', che permettono di rappresentare i dati in modo indipendente da ogni sistema, cercando di descrivere i concetti del mondo reale. Sono utilizzati nelle fasi preliminari di progettazione. Il più noto è il modello '''entità-relazione'''.

Scendendo di livello troviamo i '''modelli logici''', utilizzati per l’organizzazione dei dati. Ad essi fanno riferimento i programmi, e sono indipendenti dalle strutture fisiche di memorizzazione. Ecco alcuni esempi di modelli logici: relazionale, reticolare, gerarchico, a oggetti...

E' importante che modelli simili favoriscano l''''indipendenza dei dati'''. Tale proprietà si ottiene quando le applicazioni sono isolate dalle modifiche al modo in cui i dati sono strutturati e memorizzati.

Vi sono due tipi d’indipendenza dei dati:
* '''logica:''' i cambiamenti della struttura logica dei dati possono essere resi trasparenti agli utenti , cosi come la scelta delle relazioni da memorizzare
* '''fisica:''' lo schema logico isola gli utenti dai cambiamenti nei dettagli fisici di registrazione.

==Il modello relazionale==
===Cos'è===
Il '''modello relazionale''' è il modello logico più noto ed è quello che viene solitamente implementato in un DBMS. E' stato proposto da E. F. Codd nel 1970 per favorire l’indipendenza dei dati e reso disponibile in DBMS reali nel 1981. Si basa sul concetto matematico di '''relazione''', questo fornisce al modello una base teorica che permette di dimostrare formalmente proprietà di dati e operazioni.

Una relazione consiste in uno '''schema relazionale''' e nelle sue '''istanze di relazione'''. Lo schema specifica il nome della relazione, il nome di ogni campo (o attributo), ed il dominio di ciascun campo. Un'istanza di relazione è la "realizzazione concreta" dello schema relazionale e può essere vista come una tabella con righe, dette tuple o record, divise nei campi contenenti i dati. I campi di ciascuna tupla devono corrispondere per numero e tipo ai campi dello schema relazionale.

Il '''grado''' di una relazione è il numero dei campi presenti. La '''cardinalità''' di un'istanza di relazione è il numero di tuple in essa.

Una collezione d'istanze di relazione, una per ogni schema di relazione nello schema di una base di dati relazionale, forma un''''istanza della base di dati'''.

===Vincoli di integrità===
Affinché uno schema relazionale sia valido è necessario che le tuple nelle sue istanze siano univocamente identificabili. In altre parole, non possono esistere in un'istanza tuple con valori identici in tutti i loro campi.

Il '''vincolo di chiave''' è l’imposizione che un certo sottoinsieme dei campi di una relazione sia un '''identificatore unico''' per una tupla. Tale insieme deve inoltre essere '''minimale''', Ovvero non possono esistere sottoinsiemi propri dell'insieme selezionato che siano a loro volta identificatori unici di una tupla. Un insieme di campi di questo tipo si chiama '''chiave candidata''' per la relazione, o più semplicemente '''chiave'''.

Ogni relazione ha una chiave, e l’insieme di tutti i campi è una sottochiave. Possono esserci più chiavi candidate per una relazione, in tal caso se il DBMS non supporta chiavi multiple si indica come '''chiave primaria''' la chiave scelta per l'identificazione univoca delle tuple. Nella scelta di una chiave primaria è meglio usarne una che viene usata più frequentemente nelle interrogazioni.

Si può far riferimento ad una tupla in qualunque parte della base di dati memorizzando i valori dai campi della sua chiave primaria. In particolare, se una relazione R ha un insieme di attributi che costituisce la chiave di una relazione R', allora tale insieme è una '''chiave esterna''' di R su R'. Queste chiavi permettono di collegare tra loro tuple di relazioni diverse e costituiscono un meccanismo, per valore, per modellare le associazioni tra relazioni.

Una chiave esterna deve essere uguale alla chiave primaria della relazione referenziata, cioè deve avere lo stesso numero di colonne e tipi di dati compatibili, sebbene i nomi delle colonne possano essere diversi.

L''''integrità referenziale''' rappresenta un importante vincolo d’integrità semantica. Difatti se una tupla t riferisce come valori di una chiave esterna i valori V1,...,Vn, allora deve esistere nella relazione riferita una tupla t' con valori di chiave V1,...,Vn. In altre parole, affinché vi sia un corretto riferimento tra due tuple, i valori della chiave primaria e della chiave esterna devono essere identici e coerenti tra loro.

===Algebra relazionale===
L''''algebra relazionale''' è il linguaggio formale di interrogazione associato al modello relazionale. Le interrogazioni sono composte usando una collezione di operatori. Ognuno di questi deve accettare istanze di relazione come argomenti e restituisce un’istanza di relazione come risultato.

Un’espressione di algebra relazionale è ricorsivamente definita come una relazione, un operatore algebrico unario applicato ad una singola espressione o un operatore algebrico binario applicato a due espressioni.

Ogni interrogazione relazionale descrive una procedura passo-passo per calcolare la risposta desiderata, basandosi sull’ordine in cui gli operatori sono in essa applicati.

* '''Selezione <math>\sigma </math>:''' l’operatore di selezione specifica le tuple da mantenere attraverso una condizione di selezione. Questa è una combinazione booleana di termini che hanno la forma ''attributo op costante'' oppure ''attributo1 op attributo2'', dove ''op'' è uno degli operatori di confronto ''<'',''<='',''='',''=>'',''>'',''!=''.
* '''Proiezione <math>\pi</math>:''' l’operatore di proiezione invece ci permette di estrarre colonne da una relazione.

Le operazioni possibili sugli insiemi sono:
* '''Unione:''' ''R <math>\cup</math> S'' restituisce un’istanza di relazione contenente tutte le tuple presenti nell’istanza di relazione ''R'' oppure ''S''. Due istanze sono dette compatibili rispetto all’unione quando hanno lo stesso numero di campi e quando campi corrispondenti hanno lo stesso dominio.
* '''Intersezione:''' ''R <math>\cap</math> S'' restituisce un’istanza contenente tutte le tuple presenti sia in ''R'' che in ''S''
* '''Differenza:''' ''R - S'' restituisce un’istanza contenente tutte le tuple presenti in ''R'' ma non in ''S''. Le relazioni devono essere compatibili all’unione, e lo schema del risultato è identico a ''R''
* '''Prodotto cartesiano:''' ''R x S'' restituisce un’istanza di relazione il cui schema contiene tutti i campi di ''R'' seguiti da tutti i campi di ''S''. Il risultato di ''R x S'' contiene una tupla ''|r,s|''.
* '''Rinomina <math>\rho</math>:''' usato per rinominare le tabelle.
* '''Join:''' usato per combinare informazioni da due o più relazioni. Un predicato di join esprime una relazione che deve essere verificata dalle tuple risultato dell’interrogazione. Vi sono diversi tipi di join:
** '''Join condizionale:''' la versione più generale dell’operatore di join accetta una condizione di join ''c'' e un paio di istanze di relazione come argomenti, restituendo un’istanza di relazione.
** '''Equijoin:''' lo si ha quando la condizione di join consiste solamente di uguaglianze della forma ''R.nome1 = S.nome2''. In questo caso mantenere entrambi gli attributi sarebbe ridondante. Per le condizioni di join che contengono solo queste uguaglianze l’operazione di join è completata con una ulteriore proiezione in cui ''S.nome2'' viene scartato. Lo schema del risultato di un equijoin contiene i campi di ''R'', seguiti dai campi di ''S'' che non appaiono condizioni di join.
** '''Join naturale:''' è un equijoin in cui le uguaglianze sono specificate su tutti i campi aventi lo stesso nome in ''R'' e ''S''. Questo tipo di join gode della proprietà per cui il risultato è certamente privo di coppie di campi con lo stesso nome.
** '''Join esterni (pg99):''' questi si basano sui valori null, aggiungono al risultato le tuple R e S che non hanno partecipato al join, completandole con NULL. La forma è ''R OUTER JOIN S''. Esistono diverse varianti dell’OUTER JOIN:
**# FULL: sia le tuple di ''R'' che quelle di ''S'' che non partecipano al join vengono completate ed inserite nel risultato,
**# LEFT: le tuple di ''R'' che non partecipano al join vengono completate ed inserite nel risultato,
**# RIGHT: le tuple ''S'' che non partecipano al join vengono completate ed inserite nel risultato.
** '''Cross join:''' Corrisponde al prodotto cartesiano. La sua forma è ''R CROSS JOIN S''
* '''Divisione:''' l’operazione di divisione ''R / S'' è l’insieme di tutti valori di ''x'' (in forma di tuple unarie) tali che per ogni valore ''y'' in ''S'' ci sia una tupla ''|x,y|'' in ''R''. L’idea di fondo è di calcolare tutti i valori di x che non sono interdetti. Un valore è interdetto se unendo a esso un valore y di B si ottiene una tupla |x,y| che non è in A. Le tuple interdette possono essere calcolate così: ''<math>\pi_x</math>((<math>\pi_x</math>(A) x B) – A)''.
----
----
----

Lo standard dei linguaggi SQL usa la parola table per indicare relazione.
CREATE TABLE, usato per definire una nuova tabella (CREATE TABLE Studenti )
CREATE TABLE < nome relazione >
(< specifica colonna > [, < specifica colonna > ]);
< specifica colonna >, ha il seguente formato
< nome colonna > < dominio > [DEFAULT < valore default >]
dove < dominio > è il dominio della colonna, ed è uno dei tipi di dato SQL;
< valore default > è un valore del dominio, assunto dalle tuple se nessun valore è specificato per la colonna.
INSERT, usato per inserire le tuple
INSERT
INTO R [(C…C°)]
{VALUES (e…e°)| sq};
(e…e°) è una lista di valori da assegnare alla nuova tupla, questi sono assegnati in base ad una corrispondenza posizionale
sq, è una sub-query
le tuple generate come risposta alla sq vengono inserite nella relazione R
la clausola di proiezioni di sq deve contenere colonne compatibili con le colonne di R a cui si assegnano valori
il dominio della colonna C(i=1,…., n) deve essere compatibile con il dominio della colonna i-esima contenuta nella clausola di proiezione di SQL.
Tutte le colonne non esplicitamente elencate ricevono il valore nullo o il valore di default.
DELETE, usato per cancellare le tuple
DELETE
FROM R[alias]
[WHERE F];
il nome della relazione può essere associato ad un alias se è necessario riferire a tuple di tale relazione una qualche sotto-interrogazione presente in F
se non viene specificata alcuna clausola di qualificazione vengono cancellate tutte le tuple.
UPDATE, usato per modificare i valori in una riga esistente
UPDATE R[alias]
SET C={e |NULL},…, C°={e° | NULL}
[WHERE F];
il nome della relazione può avere associato un alias se è necessario riferire tuple di tale relazione in una qualche sotto-interrogazione presente in F
C={e |NULL},…, C°={i=1 | NULL}, è un’espressione di assegnamento che specifica che alla colonna C, deve essere assegnato il valore dell’espressione e.
Questa può essere una costante, spesso funzione dei valori correnti delle tuple da modificare, o una sub-query
si può specificare che alla colonna sia assegnato il valore nullo.

Per definire una chiave primaria in SQL viene usato il comando PRIMARY KEY, mentre per dichiarare un sottoinsieme delle colonne di una tabella si usa UNIQUE.
La presenza di NULL in una chiave esterna non viola il vincolo di chiave. Il comando in SQL è FOREIGN KEY che ha delle opzioni aggiuntive, sul come comportarsi una volta implementata la chiave esterna.
FOREIGN KEY(< lista nomi colonne >)
REFERENCES < nome relazione >
[ON DELETE { NO ACTION |
CASCADE | SET NULL | SET DEFAULT )}
[ ON UPDATE { NO ACTION |
CASCADE | SET NULL | SET DEFAULT )}
l’opzione predefinita è NO ACTION(l’azione deve essere ignorata).
CASCADE dice che se una riga viene cancellata, tutte le sue righe che la referenziano devono essere eliminate. Lo stesso vale per il caso di un UPDATE, dove l’aggiornamento viene propagato a ciascuna riga,
ON DELETE permette di specificare le azioni da eseguire nel caso di cancellazione di una tupla riferita tramite chiave esterna,
ON UPDATE permette di specificare le azioni da eseguire nel caso di modifica del valore di chiave di una tupla riferita tramite chiave esterna
Per default un vincolo viene verificato al termine di ogni istruzione SQL che potrebbe portare ad una violazione, e se questa ci fosse il comando viene rifiutato.
L’SQL permette di specificare che un vincolo sia in modalità DEFERRED o IMMEDIATE: SET CONSTRAINT vincolo DEFERRED.
Un’interrogazione di una base di dati relazionale è una domanda sui dati, e la risposta consiste in una nuova relazione contenente il risultato. Un esempio di query è:
SELECT*
FROM
WHERE
*significa che vogliamo tutti i campi delle tuple che compongono il risultato.
Una vista è una tabella le cui righe non sono esplicitamente memorizzate nella base dati, ma sono calcolate quando necessario in base a una definizione di vista.
Questa può essere usata come in una tabella di base per definire nuove interrogazioni o viste.
DROP TABLE, per eliminare una tabella e la sua forma è:
DROP TABLE < nome relazione >
{ RESTRICT | CASCADE };
se viene specificata l’opzione RESTRICT, la relazione viene cancellata solo se non è riferita da altri elementi dello schema della base di dati;
se viene specificata l’opzione CASCADE, la relazione e tutti gli elementi dello schema della base di dati che eventualmente la riferiscono vengono cancellati.
ALTER TABLE, modifica la struttura di una tabella esistente e la sua forma è:
ALTER TABLE < nome relazione > < modifica >;
< modifica > è la modifica da effettuare, tra l’aggiunta di una nuova colonna, modifica di una colonna e l’eliminazione.

SQL:I linguaggi di basi dati come SQL permettono all’utente di specificare per quali relazioni e quali attributi è necessario mantenere l’integrità referenziale( e le azioni da eseguire in caso di violazione). La forma base di un’interrogazione SQL è:
SELECT [DISTINCT] lista-select
FROM lista-from
WHERE qualificazione
Lista-select, è una lista di nomi di colonne delle tabelle nominate nella lista-from. I nomi di colonne possono avere come prefisso una variabile di range.
Lista-from, è una lista di nomi di tabelle. Un nome di tabella può essere seguito da una variabile di range(questa è utile quando lo stesso nome di tabella appare più volte nella lista-from).
Qualificazione, è una combinazione booleana di condizioni nella forma espressione op espressione, dove op è uno degli operatori di confronto.
Ogni interrogazione deve avere una clausola SELECT, che specifica le colonne da includere nel risultato, e una clausola FROM, che specifica un prodotto cartesiano di tabelle. La clausola opzionale WHERE specifica condizioni di selezione sulle tabelle menzionate nella clausola FROM.
Se omettiamo la parola chiave DISTINCT, otterremo una copia della riga (v,e), e la risposta sarebbe un multi-insieme di righe.
Il processo d’interrogazione di un DB consta in:
caricamento della lista di attributi;
scarto delle tuple che non soddisfano la qualificazione;
eliminazione degli attributi che non sono nella lista-from.
Un multi-insieme è un simile ad un insieme, nel senso che è una collezione non ordinata di elementi, ma possono esserci diverse copie, e il numero di copie è significativo: due multi-insiemi possono avere gli stessi elementi e tuttavia essere diversi, poiché il numero di copie dello stesso elemento è diverso.
Tipi numerici esatti:
INTEGER; la precisione di questo tipo di dato è espressa in numero di bit, a seconda della specifica implementazione di SQL,
SMALLINT; l’unico requisito è che la precisione di questo tipo di dato sia non maggiore della precisione del tipo di dato INTEGER. Questo viene usato per eventuali ottimizzazioni in quanto i valori richiedono minore spazio di memorizzazione,
BIGINT; l’unico requisito è che la precisione di questo tipo di dato sia non minore della precisione del tipo di dato INTEGER,
NUMERIC; caratterizzato da una precisione(numero totale di cifre) e una scala(numero di cifre dopo la virgola), il valore default per la precisione è 1 e per la scala è 0,
DECIMAL; simile a NUMERIC, ma la specifica di questo tipo di dato ha la forma: DECIMAL[(precisione[,scala])].
Tipi numerici approssimati:
REAL; rappresenta valori reali a singola precisione in virgola mobile, e la precisione dipende dalla specifica implementazione si SQL,
DOUBLE PRECISION; rappresenta valori reali a doppia precisione in virgola mobile, e questa dipende sempre dall’implementazione di SQL(però deve essere maggiore della precisione di tipo REAL),
FLOAT; rappresenta valori reali alla precisione desiderata, ed ha la forma FLOAT[(precisione)]. La precisione minima specificabile è 1.
Tipi di dato carattere:
CHARACTER; rappresenta stringhe di caratteri di lunghezza predefinita, spesso abbreviato in CHAR. La specifica ha il formato CHAR[(n)], con n lunghezza delle stringhe. E’ possibile usare come valore una stringa di lunghezza inferiore a n, che viene completata con spazi fino a raggiungere tale lunghezza,
CHARACTER VARYING; rappresenta stringhe di caratteri di lunghezza massima predefinita. Spesso abbreviato in VARCHART, e la sua forma è VARCHART(n), dove n è la lunghezza massima delle stringhe.
Tipi di dato temporali:
DATE; rappresenta le date espresse come anno(4cifre), mese(2cifre) e giorno(2cifre),
TIME; rappresenta i tempi espressi come ora(2cifre), minuto(2cifre) e secondo(2cifre),
TIMESTAMP; rappresenta una “concatenazione” fra DATE e TIME. Permette di rappresentare timestamp che consistono in: anno, mese, giorno, ora, minuto, secondo e microsecondo,
INTERVAL; rappresenta una durata temporale in riferimento ad uno o più qualificatori. I valori di questo tipo son rappresentati dalla parola chiave INTERVAL seguita da una stringa che esprime la durata in termini di uno o più qualificatori. Se sono presenti due qualificatori, il primo è più ampio del secondo e sono separati dalla parola chiave TO.
Tipo di dato:
BOOLEAN; i valori di tali tipo sono TRUE, FALSE, UNKNOWN(questo viene introdotto per la gestione dei confronti con valori nulli,
CHARACTER LARGE OBJECT(CLOB); permette di rappresentare sequenze di caratteri di elevate dimensioni,
BINARY LARGE OBJECT(BLOB); permette di rappresentare sequenze di bit di elevate dimensioni.
E’ possibile convertire un valore ad un altro tipo mediante l’operatore di CAST
CAST (e) AS < tipo target >
AS: per introdurre una variabile di range.
I nomi delle tabelle possono essere implicitamente usati come variabili in linea. Si ha la necessità di introdurre esplicitamente le variabili di range solo quando la clausola FROM contiene più di una occorrenza di una relazione. Se una variabile di range è stata introdotta nella relazione, un nome di tabella non può essere usato come variabile di range esplicita.
Ogni elemento in una lista-select può essere della forma espressione AS nome_colonna ( questo è il nuovo nome che la colonna avrà nel risultato dell’interrogazione. Inoltre, ogni termine in una qualificazione può anche essere rappresentato nella forma generale espressione1 = espressione2.
L’SQL permette il pattern matching, su valori di tipo stringa, attraverso l’uso dell’operatore LIKE, insieme all’uso dei caratteri jolly %( zero o più caratteri qualunque) e ( esattamente un carattere qualunque). Quindi “AB%” denota una qualunque stringa che contiene almeno tre caratteri, con il secondo ed il terzo uguali a A e B.
SQL fornisce tre comandi per la manipolazione degli insiemi che estendono la forma d’interrogazione basilare, e sono:
UNION, restituisce tutte le tuple distinte restituite da almeno una delle sotto-interrogazioni a cui è applicato. Se si usa la clausola ORDER BY, questa deve essere usata una sola volta alla fine dell’interrogazione e non alla fine di ogni SELECT,
INTERSECT, corrisponde all’intersezione, restituisce le tuple restituite da entrambe le sotto interrogazioni a cui è applicato.
EXCEPT, corrisponde alla differenza, e restituisce le tuple della seconda sotto-interrogazione a cui è applicato.
Questo linguaggio fornisce anche altre operazioni sugli insiemi:
IN, per controllare se un elemento è in un dato insieme. C IN(v,….v°), nella forma negata C NOT IN(v,….v°).
ANY
ALL, per confrontare un valore con gli elementi di un dato insieme, usando l’operatore di confronto op
EXISTS, per controllare se un insieme è vuoto.
BETWEEN, permette di determinare le tuple che contengono in un dato attributo valori in un intervallo dato. C BETWEEN v AND v° , nella forma negata invece C NOT BETWEEN v AND v°,
ABS(N); calcola il valore assoluto del valore numerico N,
MOD(n,b); calcola il resto intero della divisione n per b.
UNION, INTERSECT ed EXCEPT possono essere usati su qualsiasi coppia di tabelle che siano compatibili rispetto all’unione, cioè che abbiamo lo stesso numero e tipo di colonne.
Nel caso si UNION i duplicati vengono eliminati automaticamente. Per mantenerli è necessario aggiungere ALL (UNION ALL). Lo stesso discorso vale per INTERSECT ed EXCEPT.
Espressioni e funzioni: un’espressione usata nella clausola di proiezione di un’interrogazione, dà luogo ad una colonna, detta virtuale, non presente nella relazione su cui si effettua l’interrogazione.
Le colonne virtuali non sono fisicamente memorizzate, ma sono calcolate dinamicamente come risultato dell’esecuzione dell’interrogazione.
Espressioni e funzioni per stringhe:
Operatore di concatenazione denotato da ||,
LENGHT(str), restituisce la lunghezza della stringa str, in numero di caratteri,
UPPER(str) e LOWER(str), trasformano la stringa str in caratteri tutti maiuscoli o tutti minuscoli, rispettivamente,
SUBSTR(str, m,[n]), estrae dalla stringa str la sottostringa dal carattere di posizione m per una lunghezza n,
TRIM[str°] FROM str, elimina dalla stringa str° i caratteri in str.
Un’interrogazione annidata è un’interrogazione che al suo interno ha un’altra interrogazione. Questa solitamente appare nella clausola WHERE, o anche in FROM o HAVING. Se una sub-query scalare restituisce più di una tupla si genera un errore di run-time, e se nessuna tupla verifica la sotto-interrogazione, viene restituito il valore NULL.
E’ anche possibile selezionare più di una colonna tramite sotto-interrogazioni, in tal caso è necessario apporre delle parentesi alla lista delle colonne a sinistra dell’operatore di confronto. Ad esempio, voglio elencare gli impiegati con la stessa mansione di Martini;
SELECT Nome FROM Impiegati
WHERE(Mansione, Stipendio) = (SELECT
Mansione, Stipendio FROM Impiegati
WHERE Nome = “Martini”);
Una sub-query può contenere a sua volta un’altra sub-query. E’ possibile definire sotto-interrogazioni che sono eseguite ripetutamente per ogni tupla candidata considerata nella valutazione dell’interrogazione esterna, e ogni volta che questa considera una tupla candidata, deve invocare la sotto-interrogazione. Questo tipo viene chiamato correlato, dato che ogni esecuzione è correlata al valore di uno o più attributi delle tuple candidate nell’interrogazione principale. Per poter fare riferimento alle colonne delle tuple candidate nell’interrogazione esterna si fa uso degli alias di relazione(questo è definito nell’interrogazione esterna e riferito nella sotto-interrogazione correlata. Sono utili quando si vuole fare riferimento a due diverse tuple della stessa relazione.).
UNIQUE, quando applichiamo questo comando ad una sotto-interrogazione, la condizione che ne risulta ritorna vero se nessuna riga appare due volte nella risposta all’interrogazione, se non ci sono duplicati. Ritorna vero se la risposta è vuota.
Operatori di aggregazione:
COUNT ([DISTINCT] A) , è numero di valori unici della colonna A,
SUM ([DISTINCT] A) , la somma di tutti i valori unici nella colonna A,
AVG ([DISTINCT] A) , la media di tutti i valori unici nella colonna A,
MAX (A) , il valore massimo della colonna A,
MIN (A) , il valore minimo della colonna A.
Non ha senso specificare DISTINCT insieme a MIN e MAX.
Le clausole GROUP BY e HAVING;
SELECT [DISTINCT] lista-select
FROM lista-from
WHERE qualificazione
GROUP BY lista gruppo
HAVING qualificazione gruppo.
La lista-select consiste di una lista di nomi di colonne e una lista di termini della forma aggop(nome-colonna) AS nuovo-nome. Ogni colonna che appare nella lista dei nomi deve apparire nella lista-gruppo.
Le espressioni che compaiono nella qualificazione gruppo della clausola HAVING devono avere un singolo valore per gruppo. L’idea di base è che la clausola HAVING ( può essere una combinazione Booleana di predicati, i quali tuttavia possono solo coinvolger funzioni di gruppo) determina se per ogni gruppo dato debba essere generata una riga della risposta.
Un’importante restrizione ci dice che una clausola di protezione di una query contenente GROUP BY può includere solamente:
una o più colonne tra le colonne che compaiono nella suddetta clausola,
funzioni di gruppo(che possono apparire in funzioni aritmetiche).
Le funzioni di gruppo permettono di estrarre informazioni da gruppi di tuple invece di una relazione, queste si basano su due concetti:
il partizionamento delle tuple di un relazione in base al valore di uno o più colonne della relazione,
il calcolo della funzione di gruppo per ogni gruppo ottenuto col partizionamento.
Una funzione di gruppo ha come argomento una colonna e si applica all’insieme dei valori di questa colonna, estratti dalle tuple che appartengono allo stesso gruppo.
E’ possibile applicare queste funzioni senza partizionamento e in tal caso saranno applicate ad un unico gruppo contente tutte le tuple della relazione.
Se GROUP BY viene omesso l’intera tabella viene vista come un singolo gruppo
COUNT, se questo non include DISTINCT, allora COUNT(*) dà la stessa risposta di COUNT(x), dove x è un qualunque insieme di attributi.
L’SQL fornisce un valore di colonna speciale chiamato null da usare quando il valore della colonna è sconosciuto oppure inapplicabile.
Possiamo impedire l’uso dei valori null specificando NOT NULL come parte della definizione dei campi. Inoltre i campi in una chiave primaria non posso assumere valori null, quindi vi è un vincolo di NOT NULL, implicito per ogni campo elencato in un vincolo di PRIMARY KEY.
Si può specificare vincoli sulla tabella usando vincoli di tabella, che hanno la forma CHECK espressione-condizionale.
In un comando CREATE TABLE, la clausola CHECK può comparire;
di seguito alla definizione di una colonna ( vincoli di CHECK su colonna )
come clausola separata dall’interno della definizione della relazione ( vincoli CHECK su relazione ).
Specificando un vincolo CHECK vogliamo che ogni tupla nella relazione soddisfi la condizione. E’ consigliabile esprimere tramite CHECK solo le condizioni che devono essere verificate da ogni singola tupla della relazione cui associamo il vincolo.
E’ possibile assegnare nome ai vincoli associati alle definizioni di relazione facendo seguire la specifica del vincolo nella parola chiave CONSTRAINT e dal nome. Difetti specificare un nome per tutti i vincoli è utile per potersi poi riferire ad essi.
Le asserzioni servono per esprimere vincoli di integrità che coinvolgono più tuple o relazioni, e vengono così formulate:
CREATE ASSERTION < nome asserzione >
CHECK(< condizione >).
I vincoli di una tabella sono associati ad una tabella singola. Il soddisfacimento di questi vincoli è richiesto solo se la tabella associata è vuota, quando un vincolo coinvolge due o più tabelle, il meccanismo di vincoli sulle tabelle è in qualche modo anomalo, e non ciò che si desidera.
Un trigger è una procedura che viene eseguita dal DBMS in risposta a specifici cambiamenti nella base di dati ed è definita dal DBA. Questi son divisi in tre parti:
evento: un cambiamento nella base di dati che attiva il trigger;
condizione: un’interrogazione o un test che viene eseguito quando il trigger è attivato;
azione; procedura che viene eseguita quando il trigger è attivato e la sua condizione è verificata.
Una condizione di trigger può essere un comando vero/falso oppure un’interrogazione. Questa viene interpretata come vero se l’insieme di risposta non è vuoto, falso se l’opposto. L’azione di un trigger può esaminare la risposta all’interrogazione nella parte condizionale dei trigger , fare riferimento a valori vecchi e nuovi delle tuple modificate dal comando che ha attivato il trigger, eseguire nuove interrogazioni e apportare cambiamenti alla base di dati.

==Progettazione di una base dati==
1)Analisi dei requisiti: il primissimo passo nella progettazione è capire quali dati devono essere memorizzati, quali applicazioni devono essere costruite su di essi e quali operazioni sono più frequenti e soggette a requisiti prestazionali.
2)Progettazione concettuale della base di dati: le informazioni raccolte nel passo di analisi dei requisiti vengono usate per elaborare una descrizione ad alto livello dei dati da memorizzare. Questo passo è sviluppato usando il modello entità-relazione, il quale fa parte di una famiglia di diversi modelli di dati ad alto livello, o semantici, usati nella progettazione delle basi di dati. Lo scopo è creare una semplice descrizione dei dati che approssimi il modo in cui utenti e sviluppatori pensano ad essi.
3)Progettazione logica della base dati: dobbiamo scegliere un DBMS per implementare in nostro progetto, e convertire la progettazione concettuale in uno schema nel modello del DBMS scelto. La traduzione non è sempre univoca.
4)Raffinamento dello schema: analizzare l’insieme di relazioni del nostro schema relazionale per identificare potenziali problemi, e a rifinirlo.
5)Progettazione fisica della base di dati: consideriamo i carichi di lavoro attesi che la nostra base di dati dovrò sopportare, e raffiniamo il progetto per garantire che esso soddisfi i criteri di prestazioni richieste. Questo può consistere nella costruzione di indici su qualche tabella e nel raggruppamento di alcune tabelle, oppure può coinvolgere una riprogettazione sostanziale di intere parti dello schema ottenuto precedentemente.
6)Progettazione delle applicazioni e della sicurezza.
Una entità è un oggetto nel mondo reale che si distingue da altri progetti. Vi sono anche insiemi di entità, e questi non hanno bisogno di essere disgiunti. Un entità è anche un’astrazione della realtà la cui informazione è indipendente dal dominio in cui l’entità è utilizzata. Invece un’istanza di entità sono specifici oggetti appartenenti ad una certa entità.
Un’entità è descritta usando un insieme di attributi. Tutte le entità di un dato insieme hanno gli stessi attributi: questo è ciò che s’intende con simili. La coppia (nome_di_attributo, dominio) viene chiamata attributo e ogni entità è caratterizzata da uno o più attributi(i quali possono essere monovalore, multivalore e compositi).
Per ogni attributo associato ad un insieme di entità, dobbiamo definire un dominio di valori possibili. Vi son diversi tipi di domini:
semplice, sono domini standard(interi, reali, booleani…), con intervalli ed insiemi di valori definiti per enumerazione dall’utente,
composti, l’insieme dei valori è dato dal prodotto cartesiano degli insiemi di valori associati ai domini componenti. Servono per associare un dominio agli attributi composti.
Le informazioni sui domini i un attributo non sono direttamente rappresentabili in un diagramma ER, sono però fondamentali per una corretta progettazione logica.
Inoltre per ciascun insieme di entità useremo una chiave. Questa è un insieme minimale di attributi i cui valori identificano univocamente una entità dell’insieme. Potrebbe esserci più di una chiave candidata, e in questo caso ne designiamo una come chiave primaria. Una chiave non può avere valori nulli, in alcuni casi la chiave può essere soltanto una dove il sistema non permette di averne di più.

Gli attributi vengono rappresentati con degli ovali, e se sono sottolineati sono delle chiavi primarie mentre le entità sono dei rettangoli.
Una relazione è un’associazione tra due o più entità.
Come per le entità potremmo voler raccogliere un gruppo di relazioni simili in un insieme di relazioni. Questo può essere visto come un insieme di n-tuple:
{( e1,… en)  E1,…,en  En}
Ciascuna n-tupla denota una relazione che coinvolge n entità, da e1 a en, dove l’entità ei appartiene all’insieme di entità Ei.
Una relazione può anche avere attributi descrittivi, i quali son usati per registrare informazioni sulla relazione, piuttosto che su ciascuna delle entità partecipanti.
Un’istanza di un insieme di relazioni è un insieme di relazioni, questa può esser vista come una “fotografia” dell’insieme di relazioni di un certo istante.
Gli insiemi di entità che partecipano ad una relazione non devono necessariamente essere distinti: qualche volta una relazione può coinvolgere entità dello stesso insieme.
Ruolo, è la funzione che un’istanza di entità esercita nell’ambito di un’associazione, e nel caso di un’associazione unaria il ruolo è sempre necessario.
Il modello ER offre costrutti per definire:
vincoli di cardinalità, sia per associazioni che per attributi. Questi si dividono in cardinalità minima( numero minimo d’istanze di un’associazione a cui le istanze delle entità coinvolte nell’associazione possono partecipare) e cardinalità massima( numero massimo di un’associazione a cui le istanze dell’entità coinvolte nell’associazione posso partecipare).
Data un’entità E ed un’associazione A:
i.c_max=1, ogni istanza di E può partecipare a non più di un’istanza di A,
ii.c_max=c_min=1, ogni istanza i E partecipa ad una ed una sola istanza di A,
iii.c_min=0, c_max=n, ogni istanza di E può partecipare ad un numero qualsiasi di istanze di A, anche nessuna.
vincoli d’identificazione, per entità. Identificatori per un’entità: insieme di attributi e/o entità che identificano le istanze dell’entità. Un identificatore è minimale se qualsiasi sottoinsieme proprio non è un identificatore. Le entità deboli ha sempre cardinalità(1,1) rispetto all’associazione attraverso cui avviene l’dentificazione.
Uno a uno: se c_max di E e di E°, rispetto ad A è 1;
Uno a molti: se c_max di E rispetto ad A è n e c_max di E° rispetto ad A è 1, o viceversa. Un impiegato può essere associato a molti altri reparti.
Molti a molti: l’insieme di relazioni Lavora_in, in cui un impiegato può lavorare in diversi reparti e ogni reparto può avere diversi impiegati.
Insieme di entità deboli: se c_max di E e di E°, rispetto ad A è n. Questa viene identificata univocamente solo considerando alcuni attributi in congiunzione con la chiave primaria di un’altra entità, che è chiamata proprietario identificante. Devono valere queste condizioni:
l’insieme di entità proprietarie e l’insieme di entità deboli devono partecipare in un insieme di relazioni uno-a-molti. Questo insieme di relazioni è chiamato insieme di relazioni identificanti dell’insieme di relazioni deboli
l’insieme di entità deboli deve aver partecipazione totale nell’insieme di relazioni identificanti.
Per identificare che si ha un’entità debole si usa un tratto più spesso.
Mentre per indicare che si ha una chiave parziale si userà una sottolineatura a tratti.
La specializzazione è il processo con cui s’individuano sottoinsiemi di un insieme di entità(la superclasse) che condividono alcune caratteristiche distintive. Tipicamente, la superclasse viene definita per prima,poi le sottoclassi, ed infine si aggiungono gli attributi specifici e gli insiemi di relazioni.
La generalizzazione consiste nell’identificare alcune caratteristiche comuni a una collezione di insiemi di entità e creare un nuovo insieme di entità che contiene quelle entità che possiedono caratteristiche comuni. Le sottoclassi si definiscono per prime, poi le superclassi, e poi si aggiungono tutti gli insiemi di relazioni che coinvolgono la superclasse.
I vincoli di disgiunzione determinano se a due sottoclassi è premesso contenere la stessa identità.
I vincoli di copertura determinano se le entità di una sottoclasse includono, nel loro complesso tutte le entità della superclasse.
L’aggregazione ci permette di indicare che un insieme di relazioni partecipa in un altro insieme di relazioni. Ciò viene illustrato con un riquadro tratteggiato intorno all’insieme di relazioni.
L’uso di un modello di dati semantico di alto livello offre nella progettazione concettuale il vantaggio addizionale che il progetto ad alto livello può essere rappresentato con diagrammi e facilmente compreso dalle molte persone che devono fornire informazioni utili al processo progettuale.
L’approccio normale consta nel considerare le necessità dei vari gruppo di utenti, risolvere i conflitti e generare un singolo insieme di requisiti. Un altro tipo di approccio consiste nello sviluppare schemi concettuali separati per i diversi gruppi di utenza, per poi integrarli. Per fare ciò si deve stabilire le corrispondenze tra le entità, le relazioni e gli attributi, e risolvere diversi tipi di conflitti.

Un insieme di entità è tradotto in una relazione in maniera molto semplice: ogni attributo di un insieme di entità diventa un attributo della tabella.
Per rappresentare una relazione, dobbiamo potere identificare ciascuna entità partecipante, e dare valori agli attributi descrittivi della relazione, quindi:
gli attributi della chiave primaria di ciascun insieme di entità partecipante, come campi di chiavi esterne
gli attributi descrittivi dell’insieme di relazioni.
Se un insieme di relazioni coinvolge n insiemi di entità, e m di essi sono collegati con frecce ne diagramma ER, la chiave per ciascuno di questi m insiemi costituisce una chiave per la relazione in cui l’insieme è tradotto. Quindi abbiamo m chiavi candidate, e una di queste dovrebbe essere scelta come chiave primaria.
Un secondo approccio per tradurre un insieme di relazioni con vincoli di chiave si rivela spesso migliore, perché evita di creare una tabella distinta per l’insieme di relazioni.
L’idea è di includere le informazioni sull’insieme di relazioni nella tabella corrispondente all’insieme di entità con la chiave, sfruttando il vincolo di chiave.
Lo svantaggio in questo è che potrebbe esserci uno spreco di spazio. In tal caso i campi aggiunti dovrebbero essere riempiti con valori null. La prima traduzione evita questa inefficienza, ma alcune interrogazioni importanti richiedono di combinare informazioni da due relazioni, il che può essere un operazione lenta.
Un insieme di entità deboli partecipa sempre in una relazione binaria uno-a-molti e ha vincoli di chiave e di partecipazione totale. Questa ha solo una chiave parziale, e quando un’entità proprietaria viene cancellata, vogliamo che vengano eliminate anche le entità deboli collegate.

==PROGETTAZIONE CONCETTUALE==

La progettazione concettuale di una base di dati ci fornisce un insieme di schemi di relazione e VI che possono essere considerati un buon punto di partenza per il progetto finale. Permette di rappresentare i dati in modo indipendente da ogni sistema, cercando di descrivere i concetti del mondo reale.
Presentiamo ora una panoramica sui problemi che il raffinamento degli schemi intendo risolvere:
problemi causati dalla ridondanza: memorizzare la stessa informazione in maniera ridondante, cioè in diversi posti all’interno della stessa base di dati può portare a diversi problemi:
memorizzazione ridondante;
anomalie da aggiornamento, se una coppia di questi dati ripetuti viene aggiornata si crea un’inconsistenza, a meno di aggiornare anche tutte le altre copie;
anomalie da inserimento, potrebbe non essere possibile registrare certe informazioni, a meno di inserire anche qualche altra informazione non correlata;
anomalie di cancellazione.
Idealmente vorremmo degli schemi che non permettano ridondanza, ma quanto meno vogliamo poter identificare gli schemi che lo permettono:
valori null: questi non possono fornire una soluzione completa, ma possono aiutare. Questi valori possono essere utili per le anomalie da inserimento e cancellazione.
decomposizione, la ridondanza nasce quando uno schema relazionale forza una associazione tra attributi che non è naturale. Le dipendenze funzionali possono essere usate per identificare tali situazioni e per suggerire raffinamenti dello schema. Molti problemi che nascono dalla ridondanza possono essere risolti sostituendo una relazione con una collezione di relazioni “più piccolo”. Una decomposizione di uno schema di relazione r consiste nella sostituzione della schema di relazione con due(o più) schemi di relazione ciascuno dei quali contiene un sottoinsieme di attributi di R, e la cui unione include tutti tali attributi. Noi vogliamo memorizzare le informazioni in ogni data istanza di r memorizzandone le proiezioni. Se non si sta attenti con la decomposizione si possono creare più problemi di quanti se ne vogliano.
la proprietà senza perdita(lossless join) ci permette di recuperare qualunque istanza di una relazione decomposta a partire dalle corrispondenti istanze delle relazioni componenti tramite operazioni di join;
la proprietà di conservazione delle dipendenze ci consente di mantenere qualunque vincolo della relazione originaria semplicemente imponendo alcuni vincoli su ciascuna delle relazioni componenti. Ossia non abbiamo bisogno di effettuare join delle relazioni più piccolo per controllare se viene violato un vincolo della relazione originale.
La decomposizione potrebbe migliorare le prestazioni, nel caso in cui la maggior parte delle interrogazioni degli aggiornamenti esaminano solo una delle relazioni componenti, che è più piccola della relazione originale.
Dipendenze funzionali: DF è un tipo di VI che generalizza il concetto di chiave. Sia R uno schema di relazione e siano X e Y insiemi non vuoti di attributi di R, diciamo che un’istanza r di R soddisfa la DF X  Y (si legge X determina funzionalmente Y, o X determina Y) se per ogni coppia di tuple t1 e t2 in r vale al seguente:
se t1.X = t2.X , allora t1.Y = t2.Y
Una DF X  Y essenzialmente dice che se due tuple coincidono sui valori dell’attributo X, devono anche avere lo stesso valore per l’attributo Y.
Un’istanza legale di una relazione soddisfare tutti i VI specificati. Quindi guardando l’istanza di una relazione, potremmo essere in grado di dire che una certa DF non è valida, però non possiamo mai dedurre che una DF è valida solo guardando una o più istanza di una relazione, perché una DF, diversamente da un VI, è un’affermazione su tutte le possibili istanze legali di una relazione.
La definizione di una DF non richiede che l’insieme X sia minimale: l’ulteriore condizione di minimalità deve essere soddisfatta perché X sia una chiave. Se vale X  Y, dove Y è l’insieme di tutti gli attributi, ed esiste qualche sottoinsieme X di tale che V  Y, allora X è una superchiave.
Diciamo che una DF f è implicata da un dato insieme F di DF se f vale su ogni istanza di relazione che soddisfa tutte le dipendenze in F, f vale ogni volta che tutte le DF valgono in F.
Chiusura di un insieme di DF, l’insieme di tutte le DF implicate in un dato insieme F di DF è detto chiusura di F, denotato come F+. Come possiamo inferire(calcolare la chiusura di un dato insieme)?
Con gli Assiomi si Armstrong, i quali possono essere applicati per inferire tute le DF implicate da un insieme F di DF.
riflessività, se X  Y, allora X  Y;
aumento, se X  Y allora XZ  YZ per ogni Z;
transitività, se X  Y e Y  X, allora X  Z.
Teorema 1  gli assiomi di Armstrong sono corretti, nel senso che generano solo DF in F+ quando sono applicati a un insieme F di DF. Sono anche completi, nel senso che ripetute applicazioni di queste regole generano tutte le DF nella chiusura F+.
Quando si parla di F+ conviene usare alcune regole addizionali:
unione: se X  Y e X  Z, allora X  YZ;
decomposizione: se X  YZ, allora X  Y e X  Z.
in una DF banale, la parte destra contiene solo attributi che appaiono anche nella parte sinistra; tali dipendenze valgono sempre per via della riflessività. Usando questa possiamo generare tutte le dipendenze banali, che hanno la forma:
X  Y, dove Y  X, X  ABC e Y  ABC.
Dalla transitività otteniamo A  C.
Dall’aumento otteniamo le dipendenze non banali:
AC  BC, AB  AC, AB  CB.
Chiusura degli attributi, se volgiamo controllare se una data dipendenza, diciamo X  Y, è nella chiusura di un insieme F di DF, possiamo farlo in maniera efficiente senza calcolare la chiusura stessa.
Prima troviamo la chiusura degli attributi X+ rispetto a F, che è l’insieme degli attributi A tali che X  A può essere derivata usando gli Assiomi di Armstrong. Questo è l’algoritmo di calcolo:
chiusura = X;
ripeti fin quando non ci sono più cambiamenti: {
se c’è una DF U  V in F tale che U  chiusura,
allora chiusura = chiusura  V
}
Teorema 2 l’algoritmo mostrato calcola la chiusura dell’insieme X di attributi rispetto all’insieme F delle DF.
Forme normali, dato uno schema di relazione, abbiamo bisogno di decidere se esso sia un buon progetto o se c’è necessità di decomporlo in relazioni più piccole. Una tale decisione deve essere guidata dalla comprensione di quali problemi sono presenti nello schema corrente.
Le forme normali basate su DF sono la prima forma normale (1NF), la seconda(2NF), la terza(3NF) e la forma normale di Boyce-Codd(BCNF).
Una relazione è nella 1NF se ogni campo contiene solo valori atomici, cioè niente liste o insiemi. La 2NF ha un interesse storico. La 3NF e la BCNF sono importanti dal punto di vista della progettazione di una base di dati.
forma normale di Boyce-Codd, sia R uno schema di relazione, F sia l’insieme delle DF date su R, X sia un sottoinsieme degli attributi di R, e A un attributo di R. R è nella BCNF se per ogni DF X  A in F vale una delle seguenti asserzioni:
A  X, cioè è una DF banale,
X è una superchiave.
In una relazione in BCNF le sole dipendenze non banali sono quelle in cui una chiave determina alcuni attributi. Perciò ogni tupla può essere vista come un’entità o relazione, identificata da una chiave e descritta dai restanti attributi.
La BCNF assicura che nessuna ridondanza può essere rilevata usando solo le informazioni delle DF. Quindi è la più desiderabile delle forme normali, se prendiamo in considerazione solo le informazioni delle DF.
Se X è una chiave, allora y1=y2, il che significa ce le due tuple sono identiche. Poiché una relazione è definita come un insieme di tuple, non possiamo avere due copie della stessa tupla.
Se una relazione è in BCNF, ogni campo di ciascuna tupla registra una parte d’informazione che non può essere dedotta dall’istanza della relazione.
terza forma normale, sia R uno schema di relazione, F l’insieme delle DF date su R, X un sottoinsieme degli attributi di R, e A un attributo di R. R è in 3NF se per ogni DF X  A in F vale:
A  X, cioè è una DF banale
X è una superchiave
A fa parte di una chiave di R.
Supponiamo che una dipendenza X  A provochi una violazione della 3NF, sono possibili due casi:
1)X è un sottoinsieme proprio di qualche chiave K. Questa viene chiamata dipendenza parziale e viene memorizzato la coppia (X,A) in maniera ridondante.
2)X non è un sottoinsieme proprio di una chiave. Una tale dipendenza è a volte chiamata dipendenza transitiva, perché significa che abbiamo una catena di dipendenze K  X  A. Il problema è che non possiamo associare un valore X con un valore K a meno di associare anche un valore A con un valore X.
Nella 3NF è possibile qualche ridondanza. I problemi associati alle dipendenze parziali e transitive persistono se c’è una dipendenza non banale X  A e X non è una superchiave, anche se la relazione è nella forma 3NF perché A è parte di una chiave.
Proprietà delle decomposizioni;
- decomposizioni senza perdita, sia R uno schema di relazione e sia F un insieme di DF su R: una decomposizione di R in due schemi con insiemi di attributi X e Y si dice decomposizione senza perdita rispetto a F se per ogni istanza r di R che soddisfa le dipendenze in F, x(r) >< y ( r ) = r. Possiamo tornare alla relazione originale a partire dalle relazioni della decomposizione.
Tutte le decomposizioni usate per eliminare la ridondanza devono essere senza perdita d’informazione.
Teorema 3 sia R una relazione e F un insieme di DF che valgono su R. la decomposizione di R in due relazioni con insiemi di attributi R1 e R2 è senza perdita d’informazione se e solo se F+ contiene la DF R1R2 R1 oppure la DF R1R2 R2.
- decomposizione con conservazione delle dipendenze, permette di applicare tutte le DF esaminando una singola istanza di relazione su ciascun inserimento o modifica di una tupla.

==SQL==

L’uso di comandi SQL in un programma scritto in un linguaggio ospite è chiamato SQL incapsulato, o embedded SQL.
I comandi SQL possono essere usati nel linguaggio ospite ovunque sia permesso. Ogni variabile del compilatore di quel linguaggio, usata per passare argomenti ad un comando SQL, deve essere dichiarata in SQL.
Devono essere dichiarate alcune variabili speciali del linguaggio ospite. Vi sono due complicazione di cui tener conto:
i tipi di dati riconosciuti da SQL potrebbero non essere riconosciuti dal linguaggio ospite, e viceversa,
SQL è orientato agli insiemi, quindi si passa all’uso dei cursori. I comandi operano su tabelle e producono tabelle, cioè insiemi.
I comandi possono far riferimento a variabili definite nel programma ospite, queste però devono essere precedute da due punti (:) nei comandi SQL, e devono essere dichiarate tra i comandi EXEC SQL BEGIN DECLARE SECTION ed EXEC SQL END DECLARE SECTION.
Si può pensare ad un cursore come se “puntasse” ad una riga nella collezione di risposte dell’interrogazione cui è associato. Quando un cursore viene aperto si posiziona appena prima della prima riga. Possiamo usare il comando FETCH per leggere la prima riga del cursore nelle variabili del linguaggio ospite.
Quando questo viene eseguito, il cursore viene posizionato per puntare alla riga successiva( che è la prima riga della tabella quando FETCH è eseguito per la prima volta dopo l’apertura del cursore) e i valori delle colonne nella riga sono copiarti nelle corrispondenti variabili ospiti. Eseguendo ripetutamente questo comando FETCH possiamo leggere tutte le righe calcolate dall’interrogazione, una alla volta.
Quando abbiamo finito col cursore usiamo il comando CLOSE.
Proprietà dei cursori, la forma generale della dichiarazione di un cursore è:
DECLARE nome_cursore [INSENSITIVE] [SCROLL] CURSOR
[WITH HOLD]
FOR qualche interrogazione
[ORDER BY lista-ordinamento]
[FOR READ ONLY | FOR UPDATE]
Un cursore può essere dichiarato di sola lettura (FOR READ ONLY) oppure, se è definito su una relazione di base o una vista aggiornabile(FOR UPDATE).
Se è aggiornabile, semplici varianti dei comandi UPDATE e DELETE ci permettono di aggiornare o cancellare la riga su cui il cursore è posizionato
Un cursore è aggiornabile per default a meno che nella sua definizione sia stato specificato SCROLL e INSENSITIVE, nel qual caso è di sola lettura.
SCROLL;il cursore è scorrevole, quindi le varianti del comando FETCH possono essere usate per posizionarlo in maniera molto flessibile; altrimenti è consentito il solo comando FETCH di base, che sposta il cursore alla riga successiva.
INSENSITIVE;il cursore si comporta come se si muovesse su una copia privata della collezione di righe della risposta. Altrimenti per impostazione predefinita, le azioni di qualche altra transazione potrebbero modificare tali righe, creando comportamenti non prevedibili.
Un cursore mantenibile viene specificato con la clausola WITH HOLD, e non è chiuso quando la transazione termina. Se una qualunque transazione viene interrotta il sistema, potenzialmente, deve rifare parecchio lavoro. Quindi l’alternativa è spezzare la transazione in diverse transazioni, più piccole, ma ricordare la posizione nella tabella è complicato e soggetto a errori.
ORDER BY; può essere usata per specificare un ordinamento. La lista-ordinamento è una lista di voci di ordinamento(nome di colonna), eventualmente seguito da una delle parole chiave ASC e DESC. Ogni colonna menzionata nella clausola ORDER BY deve apparire anche nella lista-selezione dell’interrogazione associata al cursore; altrimenti non è chiaro su quali colonne effettuare l’ordinamento.
SQL dinamico; i due comandi principali sono PREPARE e EXECUTE:
char c_stringaSQL[] = {“DELETE FROM Velisti WHERE esperienza > 5”};
EXEC SQL PREPARE pronto FROM: c_stringaSQL;
EXE SQL EXECUTE pronto;
1)il primo comando dichiara la variabile C c_stringaSQL e ne imposta il valore ad una rappresentazione stringa di un comando di SQL.
2)la seconda istruzione fa sì che tale stringa venga esaminata e compilata come comando SQL, con l’eseguibile risultante legato alla variabile pronto
3)la terza istruzione esegue il comando.
La preparazione di un comando SQL dinamico avviene durante l’esecuzione, che ne risulta appesantita. I comandi dell’SQL interattivo e dell’SQL incapsulato possono essere preparati una volta per tutte al momento della compilazione, e poi ri-eseguiti quanto si vuole. Di fatti si deve limitare l’uso dell’SQL dinamico a quelle situazioni in cui è essenziale.

==MIR SYSTEM==

Lo scopo di questi sistemi è di permettere a qualsiasi utente di eseguire ricerche su tutta la musica esistente, attraverso interfacce con cui poter sottomettere al sistema descrizioni esaustive, nel modo più naturale possibile fornendo applicazioni utili a collegare e manipolare l’informazione ritornata dal sistema.
L’informazione musicale può essere descritta attraverso sette aspetti(Downie);
1.Pitch Facet; la qualità del suono percepita che è principalmente una funzione della sua frequenza fondamentale.
Rappresentazione del pitch:
note sul pentagramma,
nome A, B,C#,
pitch class number 0, 1, 2,
solfeggio do, re mi.
Intervallo: è la differenza tra due pitch espressa in semitoni o attraverso la sua caratteristica tonale determinata dalla posizione dei due pitch nella sintassi tradizionale.
Melodia: insieme di pitch o intervalli percepiti in modo sequenziale bel tempo.
Chiave: viene considerato come sub-aspetto del pitch. I due contorni melodici sono presi percettivamente equivalenti, nonostante il fatto che sia diverso il loro pitch assoluto.
Contorno melodico: il pattern degli intervalli.
2.Temporal Facet: informazione relativa alla durata degli eventi musicali che include:
i.Metrica
ii.Indicatori di tempo
iii.Durata del pitch
iv.Accenti
v.Durata armonica
Questi elementi costituiscono la parte ritmica del brano(questo può essere rappresentato in diversi modi, ognuno dei quali definisce uno stesso risultato)
Pause: possono essere considerate indicatori della durata degli eventi musicali che non contengono pitch.
Informazione temporale: può essere:
Assoluta ( metronomo ),
Generale ( adagio, forte ),
Relativo ( schneller, langsamer ),
Temporal distorsion ( rubato, rallentando ).
3.Harmonic Facet: quando due o più pitch suonano simultaneamente, definita anche come polifonia. Interazione tra pitch e aspetto temporale per creare la polifonia ( caratteristica fondamentale della musica occidentale).
Gli eventi armonici , sebbene presenti nella partitura, non solo sempre indicati esplicitamente. La mente umana può percepire un accordo, nonostante la presenza di note “extra”.
4.Timbral Facet: comprende tutti gli aspetti del colore del tono. La distinzione tra una nota suonata da un flauto ed un clarinetto è causata dalla differenza del timbro. Fanno parte di questo aspetto le informazioni sulla composizione dell’orchestra, e anche l’enumerazione degli strumenti.
5.Editorial Facet: istruzioni sull’esecuzione( diteggiatura, ornamenti, istruzioni dinamiche, etc…). Anche la musica stessa può essere inclusa.
6.Textual Facet: è l’aspetto più indipendente dalla melodia e dagli arrangiamenti associati. Un frammento di lirica in alcuni casi non è sufficiente per ritrovare il brano ricercato e viceversa.
7.Bibliographic Facet: sono informazioni relative a:
titolo
compositore
arrangiatore
editore
numero di catalogo
data pubblicazione
esecutori.
Uno degli obbiettivi principali del MIR è permettere l’organizzazione dei dati per recuperare tutta l’informazione disponibile riguardante un certo brano musicale.
Interrogazioni per contenuto: confronto tra i complessi contenuti musicali presenti nella base di dati e contenuti musicali meno complessi introdotti come criterio di ricerca.
Per la costruzione di un DB musicale vi son tre passi:
1.individuare lo scopo dei dati. In questa fase è necessario definire come le informazioni devono essere collezionate ed inserite nel DB, quali relazioni esistono tra loro e quali tipi di interrogazioni rendere disponibili all’utente finale.
2.elencare i dati necessari, considerando le sorgenti d’informazione disponibili. Le informazioni testuali sono solitamente più ricche e frequenti di quelle multimediali a causa delle problematiche legate al copy-right.
3.definire la miglior struttura per questo corpo. In pratica come le informazioni vengono classificate ed organizzate, o qual è il miglior standard con cui scrivere queste informazioni.
Senza una buona struttura l’uso e l’accesso del DB diventa inutile e complicato, la sua efficienza ne risente come la sua manutenzione.
Una volta definito il DB è necessario definire le interfacce e le tipologie d’interrogazione da fornire all’utente. Vi son tre tipi di ricerca:
Browsing: può essere un mezzo utile per cercare in un sistema ricco di collegamenti tra i dati ed i metadati, e permette di passare da un brano all’altro attraverso diversi collegamenti,
Textual search: indicizzazione di tutte le informazioni testuali accademiche( autore, titolo, …) e non accademiche( genere, frammenti delle liriche, …).
Search by content: interrogazioni basate sulla melodia o altri aspetti del contenuto audio.
Naturalmente si possono combinare le varie tipologie di ricerca per aumentare la potenza e l’efficienza del sistema.
La maniera di mostrare i risultati cambia l’utilità e le manipolazioni possibili dei dati restituiti dal sistema. I dati restituiti devono essere sufficienti a riconoscere quale brano nella lista dei risultati è quello ricercato, e una volta riconosciuto l’utente deve poter accedere a tutte le informazioni collegate, suddivise per tipologia( informazioni di catalogo e testuali, link ai meta-dati, link ad altri oggetti musicali).
Un altro aiuto nella ricerca sono le informazioni di catalogo che limitano la ricerca alla sola musica conosciuta. Uno dei più grandi e potenti descrittori usati dai consumatori di musica è il genere musicale, difatti due brani appartenenti allo stesso genere musicale hanno molti più elementi in comune rispetto a due brani non appartenenti allo stesso genere.
Generalmente gli strumenti musicali aiutano a definire il genere.
Catalog information: sono le informazioni che descrivono i brani musicali, non strettamente correlate al contenuto musicale. Descrivono chi ha preso parte alla realizzazione del brano, dove è stato registrato, informazioni sul supporto e sul copyright.
Multimedia characteristics: son metadadata che descrivono qualcosa di strettamente legato al contenuto musicale, e le informazioni associate col ricordo del frammento usato nella query-by-content.
Per valutare un sistema MIR si deve controllare che sia molto efficiente ed affidabile.
Per affidabilità intendiamo che il sistema deve permetter di trovare tutte e sole le informazioni richieste dall’utente. Queste devono essere sempre corrette( da verificare quando i dati sono elaborati automaticamente).
La complessità dei sistemi MIR è dovuta soprattutto all’enorme quantità di oggetti musicali.
Query by content: servono a trovare un brano di cui non si conoscono informazioni quali il titolo, l’autore, o altri metadata sufficienti per individuarlo. Usato anche per il copyright in modo da capire se un brano è molto simile ad un altro.
Verifica se un brano appena composto da un autore si frutto della creatività dell’artista e non influenzato da uno ascoltato in passato e poi dimenticato.
Il criterio su cui si basa la query-by-content è il frammento musicale, e di fatti vengono usati due tipi di DB:
a frammenti tematici: contengono frammenti che rappresentano i tempi musicali presenti nei brani. Il tema in questo caso viene considerato come una sequenza di note ripetuta diverse volte all’interno della composizione musicale. Una sequenza di note invece è considerata un tema se nella composizione esistono altre sequenze ottenute da questo attraverso qualche operatore musicale,
database di intere partiture: sono presenti tutte le melodie contenute in tutte le voci dell’intera partitura, perché un utente potrebbe ricordare un solo frammento del brano non appartenente al tema.
Query-by-humming, può risultare non accurata ed è per utenti non esperti.
L’approccio per questo metodo sono di due tipi:
DSP: elaborazione della forma d’onda o delle frequenze per trovare similarità tra i brani. Vi è una trasformazione in simbolico, dove vengono estrapolate le caratteristiche descriventi gli eventi musicali. Questo sistema risulta molo faticoso e complesso.
Simbolico: trasformazione dei brani in sequenze di stringhe di caratteri rappresentanti le sequenza melodiche contenute nei brani. Il frammento della query viene trasformato allo stesso modo e quindi confrontato con le stringhe nel DB.
Come criterio per le query-by-content viene usato l’audio( si definisce attraverso l’analisi delle frequenze esistenti nello spettro del segnale in ogni istante di tempo(discreto) il corrispondente pitch).
In input avremo un frammento audio(non strutturato per definizione) ed in output le caratteristiche capaci di definire i note-pattern.
Vi son dei problemi legati alla trascrizione da audio a simbolico:
Note segmentation: dove sono posizionate esattamente le note?Quanto durano?
Pitch variation della nota suonata: come individuare l’esatta altezza della nota suonata?
Note quantization: come posizionare le altezze sulle scale musicali?
Purtroppo viene difficile capire quale nota deve essere associata all’altezza del suono, infatti non esiste sempre una corrispondenza esatta.
Lo stesso discorso vale per la rappresentazione simbolica, infatti esistono molte tipologie del formato. Possiamo avere casi dove la stessa altezza viene rappresentata in più modi diversi o il nome della nota può rappresentare più altezze(di differenti ottave).
Sequenze di note: ogni elemento della sequenza è descritto da qualche parametro ( solitamente nome e durata della nota ).
Rappresentazione:
tutte le rappresentazioni della stessa nota vengono collassate in una sola,
l’alfabeto di 12 elementi, viene usato per rappresentare e dividere le altezze in semitoni,
questo però comporta una perdita d’informazione sul contorno melodico.
Trasposizione: gli algoritmi per calcolare la similarità vengono applicati 12 volte su ogni sequenza. Viene usato questo metodo nei sistemi dove l’elaborazione è limitata agli incipit
Sequenza d’intervalli: distanza tra due note adiacenti misurata in semitoni. La sequenza melodica è data dalla sequenza delle distanze tra un elemento e il suo successore. Come risultato si ha un perdita della nozione di nota come elemento d’ottava.
È anche dimostrato che l’uomo ascoltando un brano non ha l’esatta percezione dell’altezza delle note, ma ricorda più facilmente la sequenza degli intervalli.
Contorno melodico: si considera solo la direzione tra una nota ed il suo successore. È possibile rappresentare la sequenza melodica con solo 3 simboli: up, down, equal to.
Questo però permette di avere una trascrizione di query-by-humming corretta, e se la melodia è abbastanza lunga è possibili individuare univocamente il brano cercato.
La lunghezza media di un query fragment è pari a 7 note, significa ottenere centinaia di brani simili, impossibili ascoltarli tutti per trovare quello corretto.
Però questo sistema è utile come operazione di “pre-processing”, per scremare il contenuto del DB prima di usare un metodo più sofisticato.
Classi di equivalenza: ogni simbolo rappresenta n intervalli.
C1:ogni simbolo rappresenta un intervallo,
C3: ogni simbolo rappresenta 3 diversi intervalli adiacenti,
CU: tutti gli intervalli crescenti e decrescenti collassato in due differenti classi( contorno melodico ).
Rappresentazione Frame-based:
non si ha la segmentation, in pratica non si divide ogni singolo evento della melodia,
il tempo viene diviso in frame di ugual misura,
viene stimato il valore di un pitch per ogni frame,
le note non sono esplicitamente descritte,
in un unico valore sono rappresentabili le informazioni relative ad altezza e durata.
Svantaggio di questo metodo è che si perde l’informazione relativa al ritmo.
Music psychology: c’è un alta probabilità che qualche errore si presente nel frammento dell’interrogazione, di fatti anche utenti esperti possono non essere in grado di rappresentare in modo esatto la melodia del brano che stanno cercando.
L’interrogazione è distribuita su più voci:
non è sempre detto che il frammento della query rappresenti in modo esatto la melodia del brano che si sta cercando,
in punti adiacenti del brano, l’utente potrebbe ricordarsi la melodia di differenti parti, costruendo una nuova melodia.
Il concetto di similarità varia in funzione di:
memoria, che può essere a breve o lungo termine,
tipologia di utente, che va dal non esperto,al mediamente esperto e all’esperto.
Melodia: definire come una sequenza di note sia riconosciuta dall’uomo come una melodia di un brano polifonico.
String matching and melodic similarità: approccio tra i più utilizzati per risolvere il problema della similarità melodica. Una semplice formalizzazione del problema contestualizzato nell’ambito dello string matching potrebbe essere: sia f la stringa di caratteri che rappresenta il frammento melodico criterio di un’interrogazione e s la stringa di caratteri che rappresenta la partitura di un brano presente nel DB:
 f è fattore di x?
se f non appare in x, quale sottoparte di f è presente in s?
quante volte un’approssimazione di f è presente in s?
Blast algorithm: Basic Local Alignment Search Tool: uno tra i metodi più efficaci utilizzati per l’elaborazione di database biologici. Permette d’individuare in due sequenze:
zone uguali o simili,
allineamenti globali.
Il grado di similarità tra le due sequenze mostra la correlazione. Questa può essere basata su:
Identità percentuale: numero di elementi uguali nello stesso ordine presenti nelle due sequenze rispetto al numero totale di elementi,
Conservazione: quando cambiando un elemento nella sequenza in una precisa posizione, le proprietà chimiche e fisiche restano invariate.

[[categoria:appunti]]

Database Musicali/Appunti/2006-2007

2007-07-11T15:59:09Z

SingInTime:

Questa pagina è un copia-incolla poderoso degli appunti di '''El Conte''', che li ha generosamente pubblicati su [http://www.musicomio.org musicomio] e che ringrazio infinitamente. L'impaginazione verrà sistemata al più presto e vedrò anche di integrare eventuali punti mancanti/carenti/non chiari, ammesso che ne trovi...

Promesso!

==Introduzione==
===Il sistema informativo===
Un '''sistema informativo''' è la componente (o il sottosistema) di una organizzazione che gestisce, acquisisce, elabora, conserva, produce, le informazioni di interesse, cioè utilizzate per il perseguimento degli scopi dell’organizzazione stessa.

Ogni organizzazione ha un sistema informativo, anche se può essere eventualmente non esplicitato nella struttura. Quasi sempre il sistema informativo è di supporto ad altri sottosistemi, e va quindi studiato nel contesto in cui è inserito. Inoltre è di solito suddiviso in sottosistemi (in modo gerarchico o decentrato), più o meno fortemente integrati tra loro.

Il '''sistema informatico''' è invece la parte del sistema informativo che gestisce informazioni per mezzo della tecnologia informatica.

La presenza di un sistema informatico all'interno di un sistema informativo non è obbligatoria: il concetto di “sistema informativo” è indipendente da qualsiasi automatizzazione. Esistono infatti organizzazioni la cui ragione d’essere è la gestione di informazioni (es: servizi anagrafici e banche) e che per secoli hanno operato senza l'ausilio dell'informatica.

===Gestione delle informazioni===
Nelle attività umane, le informazioni vengono gestite (registrate e scambiate) in forme diverse, a seconda delle necessità e capacità:
* idee informali
* linguaggio naturale (scritto o parlato, formale o colloquiale, in una lingua o in un’altra)
* disegni, grafici, schemi
* numeri
* codici (anche segreti)

E su vari supporti, dalla memoria umana alla carta.

Nelle attività standardizzate dei sistemi informativi complessi, sono state introdotte col tempo forme di organizzazione e codifica delle informazioni.

Ad esempio, nei servizi anagrafici si è iniziato con registrazioni discorsive e sono state poi introdotte informazioni via via più precise:
* nome e cognome
* estremi anagrafici
* codice fiscale

In particolare, nei sistemi informatici (e non solo in essi), le informazioni vengono rappresentate attraverso i '''dati'''.

Si dice '''informazione''' tutto ciò che produce variazioni nel patrimonio conoscitivo di un soggetto detto percettore dell'informazione.

Si dice '''dato''' una registrazione della descrizione di una qualsiasi caratteristica della realtà su un supporto che ne garantisca la conservazione e, mediante un insieme di simboli, ne garantisca la comprensibilità e la reperibilità.

Uno degli obiettivi fondamentali di un sistema di gestione dati è fornire un '''contesto interpretativo''' ai dati, in modo da consentire un accesso efficace alle informazioni da essi rappresentate.

==Database e DBMS==
===Cosa sono===
In un'accezione generica, un '''database''' è una collezione di dati, utilizzati per rappresentare le informazioni di interesse per una o più applicazioni. In un'accezione più specifica, un database è una collezione di dati gestita da un DBMS.

Un '''DBMS''' (Database Management System) è un sistema (prodotto software) in grado di gestire collezioni di dati che siano:
* '''Grandi:''' di dimensioni (molto) maggiori della memoria centrale dei sistemi di calcolo utilizzati
* '''Persistenti:''' con un periodo di vita indipendentedalle singole esecuzioni dei programmi che le utilizzano
* '''Condivise:''' utilizzate da applicazioni diverse

Un DBMS deve garantire '''affidabilità''' (resistenza a malfunzionamenti hardware e software) e '''privatezza''' (mediante politiche di controllo degli accessi). Come ogni prodotto informatico, un DBMS deve essere '''efficiente''', utilizzando al meglio le risorse di spazio e tempo del sistema, ed '''efficace''', rendendo produttive le attività dei suoi utilizzatori.

La gestione di sistemi di dati grandi e persistenti è possibile anche tramite sistemi più semplici, quali gli ordinari file system dei sistemi operativi, che permettono di realizzare anche rudimentali forme di condivisione. I DBMS però estendono le funzionalità dei file system, fornendo più servizi ed in maniera integrata.

===Caratteristiche===
I maggiori vantaggi di un DBMS sono:
* l’indipendenza dei dati
* un loro accesso efficiente
* integrità e sicurezza
* amministrazione
* organizzazione degli accessi e ripristino da crash
* riduzione del tempo di sviluppo delle applicazioni.

Un DBMS è utile quando la quantità di dati è elevata e porterebbe ad un appesantimento operativo e/o quando si vogliono usare le sue potenzialità d’interrogazione dell’archivio di dati. Si dice '''transazione''' una qualunque esecuzione di un programma utenti in un DBMS.

Compito importante di un DBMS è la '''sequenzalizzazione di accessi concorrenti ai dati''' , così che ogni utente possa ignorare il fatto che altri stanno accedendo ai dati allo stesso tempo. Per fare ciò ci si serve di un meccanismo detto '''lock''' che serve a controllare l’acceso agli oggetti della base di dati. Un '''protocollo di locking''' è l'insieme di regole che ogni transazione deve seguire per garantire che l’effetto sia identico a quello ottenuto eseguendo tutte le transazioni in qualche ordine seriale.

Il DBMS mantiene un log di tutte le scritture sulla base di dati. Ogni azione di scrittura deve essere registrata prima di effettuare la modifica nella base di dati. Un WAL (write-ahead log) è usato nel caso il sistema andasse in crash appena fatto il cambiamento, ma prima che esso sia registrato nel log.

Un DBMS è dunque diviso in:
* Ottimizzatore d’interrogazioni che usa informazioni sulla memorizzazione dei dati per produrre un piano di esecuzione efficiente
* Piano di esecuzione, usato per valutare l’interrogazione
* Gestore dello spazio sul disco
* Gestore delle transazioni, assicura che le transazioni richiedano e rilascino i lock seguendo un buon protocollo di bloccaggio e programma l’esecuzione delle transazioni
* gestore dei lock, tiene traccia delle richieste dei lock
* gestore del ripristino, responsabile del mantenimento del log e del ripristino del sistema.

Un DBMS applica inoltre dei '''vincoli d’integrità''', condizioni specificate dal DBA (Database Administrator) o dall’utente finale in uno schema di base dati, che limitano i dati memorizzabili in una istanza della base dati stessa. Ci sono vincoli statici (relativi ad uno stato della base di dati) e vincoli di transizione (relativi a stati diversi della base di dati).

Quando un’applicazione viene eseguita , il DBMS controlla se ci sono violazioni ai vincoli d'integrità e in quel caso non premette le modifiche ai dati.

===Modelli di dati===
Un '''modello di dati''' è un insieme di strumenti concettuali, o '''formalismo''', che consta di tre componenti fondamentali:
* un insieme di strutture dati
* una notazione per specificare i dati tramite le strutture dati del modello
* un insieme di operazioni per manipolare i dati.

Generalmente si tratta di una struttura ad alto livello che nasconde molti dei dettagli di memorizzazione a basso livello. Un DBMS permette all’utente di definire i dati da memorizzare in termini di un modello di dati.

Un '''modello di dati semantico''' è un modello di dati ad alto livello che rende più semplice ad un utente creare una buona descrizione iniziale dei dati. Questi contengono una grande quantità di costrutti che aiutano a descrivere lo scenario di un’applicazione reale.

Al grado più elevato di astrazione troviamo i '''modelli concettuali''', che permettono di rappresentare i dati in modo indipendente da ogni sistema, cercando di descrivere i concetti del mondo reale. Sono utilizzati nelle fasi preliminari di progettazione. Il più noto è il modello '''entità-relazione'''.

Scendendo di livello troviamo i '''modelli logici''', utilizzati per l’organizzazione dei dati. Ad essi fanno riferimento i programmi, e sono indipendenti dalle strutture fisiche di memorizzazione. Ecco alcuni esempi di modelli logici: relazionale, reticolare, gerarchico, a oggetti...

E' importante che modelli simili favoriscano l''''indipendenza dei dati'''. Tale proprietà si ottiene quando le applicazioni sono isolate dalle modifiche al modo in cui i dati sono strutturati e memorizzati.

Vi sono due tipi d’indipendenza dei dati:
* '''logica:''' i cambiamenti della struttura logica dei dati possono essere resi trasparenti agli utenti , cosi come la scelta delle relazioni da memorizzare
* '''fisica:''' lo schema logico isola gli utenti dai cambiamenti nei dettagli fisici di registrazione.

==Il modello relazionale==
===Cos'è===
Il '''modello relazionale''' è il modello logico più noto ed è quello che viene solitamente implementato in un DBMS. E' stato proposto da E. F. Codd nel 1970 per favorire l’indipendenza dei dati e reso disponibile in DBMS reali nel 1981. Si basa sul concetto matematico di '''relazione''', questo fornisce al modello una base teorica che permette di dimostrare formalmente proprietà di dati e operazioni.

Una relazione consiste in uno '''schema relazionale''' e nelle sue '''istanze di relazione'''. Lo schema specifica il nome della relazione, il nome di ogni campo (o attributo), ed il dominio di ciascun campo. Un'istanza di relazione è la "realizzazione concreta" dello schema relazionale e può essere vista come una tabella con righe, dette tuple o record, divise nei campi contenenti i dati. I campi di ciascuna tupla devono corrispondere per numero e tipo ai campi dello schema relazionale.

Il '''grado''' di una relazione è il numero dei campi presenti. La '''cardinalità''' di un'istanza di relazione è il numero di tuple in essa.

Una collezione d'istanze di relazione, una per ogni schema di relazione nello schema di una base di dati relazionale, forma un''''istanza della base di dati'''.

===Vincoli di integrità===
Affinché uno schema relazionale sia valido è necessario che le tuple nelle sue istanze siano univocamente identificabili. In altre parole, non possono esistere in un'istanza tuple con valori identici in tutti i loro campi.

Il '''vincolo di chiave''' è l’imposizione che un certo sottoinsieme dei campi di una relazione sia un '''identificatore unico''' per una tupla. Tale insieme deve inoltre essere '''minimale''', Ovvero non possono esistere sottoinsiemi propri dell'insieme selezionato che siano a loro volta identificatori unici di una tupla. Un insieme di campi di questo tipo si chiama '''chiave candidata''' per la relazione, o più semplicemente '''chiave'''.

Ogni relazione ha una chiave, e l’insieme di tutti i campi è una sottochiave. Possono esserci più chiavi candidate per una relazione, in tal caso se il DBMS non supporta chiavi multiple si indica come '''chiave primaria''' la chiave scelta per l'identificazione univoca delle tuple. Nella scelta di una chiave primaria è meglio usarne una che viene usata più frequentemente nelle interrogazioni.

Si può far riferimento ad una tupla in qualunque parte della base di dati memorizzando i valori dai campi della sua chiave primaria. In particolare, se una relazione R ha un insieme di attributi che costituisce la chiave di una relazione R', allora tale insieme è una '''chiave esterna''' di R su R'. Queste chiavi permettono di collegare tra loro tuple di relazioni diverse e costituiscono un meccanismo, per valore, per modellare le associazioni tra relazioni.

Una chiave esterna deve essere uguale alla chiave primaria della relazione referenziata, cioè deve avere lo stesso numero di colonne e tipi di dati compatibili, sebbene i nomi delle colonne possano essere diversi.

L''''integrità referenziale''' rappresenta un importante vincolo d’integrità semantica. Difatti se una tupla t riferisce come valori di una chiave esterna i valori V1,...,Vn, allora deve esistere nella relazione riferita una tupla t' con valori di chiave V1,...,Vn. In altre parole, affinché vi sia un corretto riferimento tra due tuple, i valori della chiave primaria e della chiave esterna devono essere identici e coerenti tra loro.

===Algebra relazionale===
L''''algebra relazionale''' è il linguaggio formale di interrogazione associato al modello relazionale. Le interrogazioni sono composte usando una collezione di operatori. Ognuno di questi deve accettare istanze di relazione come argomenti e restituisce un’istanza di relazione come risultato.

Un’espressione di algebra relazionale è ricorsivamente definita come una relazione, un operatore algebrico unario applicato ad una singola espressione o un operatore algebrico binario applicato a due espressioni.

Ogni interrogazione relazionale descrive una procedura passo-passo per calcolare la risposta desiderata, basandosi sull’ordine in cui gli operatori sono in essa applicati.

* '''Selezione:''' l’operatore di selezione specifica le tuple da mantenere attraverso una condizione di selezione. Questa è una combinazione booleana di termini che hanno la forma attributo op costante oppure attributo1 op attributo2, dove op è uno degli operatori di confronto <,<=,=,=>,>,!=.
* '''Proiezione:''' l’operatore di proiezione invece ci permette di estrarre colonne da una relazione.

Le operazioni possibili sugli insiemi sono:
* '''Unione:''' R u S restituisce un’istanza di relazione contenente tutte le tuple presenti nell’istanza di relazione R oppure S. Due istanze sono dette compatibili rispetto all’unione quando hanno lo stesso numero di campi e quando campi corrispondenti hanno lo stesso dominio.
* '''Intersezione:''' R ^ S restituisce un’istanza contenente tutte le tuple presenti sia in R che in S
* '''Differenza:''' R - S restituisce un’istanza contenente tutte le tuple presenti in R ma non in S. Le relazioni devono essere compatibili all’unione, e lo schema del risultato è identico a R
* '''Prodotto cartesiano:''' R x S restituisce un’istanza di relazione il cui schema contiene tutti i campi di R seguiti da tutti i campi di S. Il risultato di R x S contiene una tupla |r,s|.
Rinomina , usato per rinominare le tabelle.
JOIN: usato per combinare informazioni da due o più relazioni. Un predicato di JOIN esprime una relazione che deve essere verificata dalle tuple risultato dell’interrogazione. Vi sono diversi tipi di join:
JOIN CONDIZIONALE; la versione più generale dell’operatore di join accetta una condizione di join c e un paio di istanze di relazione come argomenti e restituisce un’istanza di relazione.
c (RxS)
EQUIJOIN; lo si ha quando la condizione di join consiste solamente di uguaglianze della forma R.nome1=S.nome2. In questo caso mantenere entrambi gli attributi sarebbe ridondante come cosa. Per le condizioni di join che contengono solo queste uguaglianze l’operazione di join è completata con una ulteriore proiezione in cui S.nome2 viene scartato. Lo schema del risultato di un equijoin contiene i campi di R, seguiti dai campi di che non appaiono condizioni di join.
JOIN NATURALE; è un equijoin in cui le uguaglianze sono specificate su tutti i campi aventi lo stesso nome in R e S. Questo tipo di join gode della proprietà per cui il risultato è certamente privo di coppie di campi con lo stesso nome. C’è anche da dire che non corrisponde ad un operatore di NATURAL JOIN,dato che non si esegue alcuna proiezione, e lo scema risultante è quello del prodotto cartesiano. La sua forma è:
< nome relazione > NATURAL JOIN < nome relazione >
JOIN ESTERNI(pg99); questi si basano sui valori null, aggiungono al risultato le tuple R e S che non hanno partecipato al join, completandole con NULL,
R OUTER JOIN S
Esistono diverse varianti dell’OUTER JOIN;
1.FULL: sia le tuple di R che quelle di S che non partecipano al JOIN vengono completate ed inserite nel risultato,
2.LEFT: le tuple di R che non partecipano al JOIN vengono completate ed inserite nel risultato,
3.RIGHT: le tuple S che non partecipano al JOIN vengono completate ed inserite nel risultato.
CROSS JOIN; questi operatori poiché producono relazioni possono essere usati nella clausola FROM. È la forma di operatore JOIN più semplice che corrisponde al prodotto cartesiano. La sua sintassi è:
< nome relazione > CROSS JOIN < nome relazione >
DIVISIONE, l’operazione di divisione A/B è l’insieme di tutti valori di x(in forma di tuple unarie) tali che per ogni valore y in B, ci sia una tupla |x,y| in A. L’idea di fondo è di calcolare tutti i valori di x che non sono interdetti(un valore è interdetto se unendo a esso un valore y di B si ottiene una tupla |x,y| che non è in A).Le tuple interdette possono esser calcolate così: x(( x (A) x B) – A).
----
----
----

Lo standard dei linguaggi SQL usa la parola table per indicare relazione.
CREATE TABLE, usato per definire una nuova tabella (CREATE TABLE Studenti )
CREATE TABLE < nome relazione >
(< specifica colonna > [, < specifica colonna > ]);
< specifica colonna >, ha il seguente formato
< nome colonna > < dominio > [DEFAULT < valore default >]
dove < dominio > è il dominio della colonna, ed è uno dei tipi di dato SQL;
< valore default > è un valore del dominio, assunto dalle tuple se nessun valore è specificato per la colonna.
INSERT, usato per inserire le tuple
INSERT
INTO R [(C…C°)]
{VALUES (e…e°)| sq};
(e…e°) è una lista di valori da assegnare alla nuova tupla, questi sono assegnati in base ad una corrispondenza posizionale
sq, è una sub-query
le tuple generate come risposta alla sq vengono inserite nella relazione R
la clausola di proiezioni di sq deve contenere colonne compatibili con le colonne di R a cui si assegnano valori
il dominio della colonna C(i=1,…., n) deve essere compatibile con il dominio della colonna i-esima contenuta nella clausola di proiezione di SQL.
Tutte le colonne non esplicitamente elencate ricevono il valore nullo o il valore di default.
DELETE, usato per cancellare le tuple
DELETE
FROM R[alias]
[WHERE F];
il nome della relazione può essere associato ad un alias se è necessario riferire a tuple di tale relazione una qualche sotto-interrogazione presente in F
se non viene specificata alcuna clausola di qualificazione vengono cancellate tutte le tuple.
UPDATE, usato per modificare i valori in una riga esistente
UPDATE R[alias]
SET C={e |NULL},…, C°={e° | NULL}
[WHERE F];
il nome della relazione può avere associato un alias se è necessario riferire tuple di tale relazione in una qualche sotto-interrogazione presente in F
C={e |NULL},…, C°={i=1 | NULL}, è un’espressione di assegnamento che specifica che alla colonna C, deve essere assegnato il valore dell’espressione e.
Questa può essere una costante, spesso funzione dei valori correnti delle tuple da modificare, o una sub-query
si può specificare che alla colonna sia assegnato il valore nullo.

Per definire una chiave primaria in SQL viene usato il comando PRIMARY KEY, mentre per dichiarare un sottoinsieme delle colonne di una tabella si usa UNIQUE.
La presenza di NULL in una chiave esterna non viola il vincolo di chiave. Il comando in SQL è FOREIGN KEY che ha delle opzioni aggiuntive, sul come comportarsi una volta implementata la chiave esterna.
FOREIGN KEY(< lista nomi colonne >)
REFERENCES < nome relazione >
[ON DELETE { NO ACTION |
CASCADE | SET NULL | SET DEFAULT )}
[ ON UPDATE { NO ACTION |
CASCADE | SET NULL | SET DEFAULT )}
l’opzione predefinita è NO ACTION(l’azione deve essere ignorata).
CASCADE dice che se una riga viene cancellata, tutte le sue righe che la referenziano devono essere eliminate. Lo stesso vale per il caso di un UPDATE, dove l’aggiornamento viene propagato a ciascuna riga,
ON DELETE permette di specificare le azioni da eseguire nel caso di cancellazione di una tupla riferita tramite chiave esterna,
ON UPDATE permette di specificare le azioni da eseguire nel caso di modifica del valore di chiave di una tupla riferita tramite chiave esterna
Per default un vincolo viene verificato al termine di ogni istruzione SQL che potrebbe portare ad una violazione, e se questa ci fosse il comando viene rifiutato.
L’SQL permette di specificare che un vincolo sia in modalità DEFERRED o IMMEDIATE: SET CONSTRAINT vincolo DEFERRED.
Un’interrogazione di una base di dati relazionale è una domanda sui dati, e la risposta consiste in una nuova relazione contenente il risultato. Un esempio di query è:
SELECT*
FROM
WHERE
*significa che vogliamo tutti i campi delle tuple che compongono il risultato.
Una vista è una tabella le cui righe non sono esplicitamente memorizzate nella base dati, ma sono calcolate quando necessario in base a una definizione di vista.
Questa può essere usata come in una tabella di base per definire nuove interrogazioni o viste.
DROP TABLE, per eliminare una tabella e la sua forma è:
DROP TABLE < nome relazione >
{ RESTRICT | CASCADE };
se viene specificata l’opzione RESTRICT, la relazione viene cancellata solo se non è riferita da altri elementi dello schema della base di dati;
se viene specificata l’opzione CASCADE, la relazione e tutti gli elementi dello schema della base di dati che eventualmente la riferiscono vengono cancellati.
ALTER TABLE, modifica la struttura di una tabella esistente e la sua forma è:
ALTER TABLE < nome relazione > < modifica >;
< modifica > è la modifica da effettuare, tra l’aggiunta di una nuova colonna, modifica di una colonna e l’eliminazione.

SQL:I linguaggi di basi dati come SQL permettono all’utente di specificare per quali relazioni e quali attributi è necessario mantenere l’integrità referenziale( e le azioni da eseguire in caso di violazione). La forma base di un’interrogazione SQL è:
SELECT [DISTINCT] lista-select
FROM lista-from
WHERE qualificazione
Lista-select, è una lista di nomi di colonne delle tabelle nominate nella lista-from. I nomi di colonne possono avere come prefisso una variabile di range.
Lista-from, è una lista di nomi di tabelle. Un nome di tabella può essere seguito da una variabile di range(questa è utile quando lo stesso nome di tabella appare più volte nella lista-from).
Qualificazione, è una combinazione booleana di condizioni nella forma espressione op espressione, dove op è uno degli operatori di confronto.
Ogni interrogazione deve avere una clausola SELECT, che specifica le colonne da includere nel risultato, e una clausola FROM, che specifica un prodotto cartesiano di tabelle. La clausola opzionale WHERE specifica condizioni di selezione sulle tabelle menzionate nella clausola FROM.
Se omettiamo la parola chiave DISTINCT, otterremo una copia della riga (v,e), e la risposta sarebbe un multi-insieme di righe.
Il processo d’interrogazione di un DB consta in:
caricamento della lista di attributi;
scarto delle tuple che non soddisfano la qualificazione;
eliminazione degli attributi che non sono nella lista-from.
Un multi-insieme è un simile ad un insieme, nel senso che è una collezione non ordinata di elementi, ma possono esserci diverse copie, e il numero di copie è significativo: due multi-insiemi possono avere gli stessi elementi e tuttavia essere diversi, poiché il numero di copie dello stesso elemento è diverso.
Tipi numerici esatti:
INTEGER; la precisione di questo tipo di dato è espressa in numero di bit, a seconda della specifica implementazione di SQL,
SMALLINT; l’unico requisito è che la precisione di questo tipo di dato sia non maggiore della precisione del tipo di dato INTEGER. Questo viene usato per eventuali ottimizzazioni in quanto i valori richiedono minore spazio di memorizzazione,
BIGINT; l’unico requisito è che la precisione di questo tipo di dato sia non minore della precisione del tipo di dato INTEGER,
NUMERIC; caratterizzato da una precisione(numero totale di cifre) e una scala(numero di cifre dopo la virgola), il valore default per la precisione è 1 e per la scala è 0,
DECIMAL; simile a NUMERIC, ma la specifica di questo tipo di dato ha la forma: DECIMAL[(precisione[,scala])].
Tipi numerici approssimati:
REAL; rappresenta valori reali a singola precisione in virgola mobile, e la precisione dipende dalla specifica implementazione si SQL,
DOUBLE PRECISION; rappresenta valori reali a doppia precisione in virgola mobile, e questa dipende sempre dall’implementazione di SQL(però deve essere maggiore della precisione di tipo REAL),
FLOAT; rappresenta valori reali alla precisione desiderata, ed ha la forma FLOAT[(precisione)]. La precisione minima specificabile è 1.
Tipi di dato carattere:
CHARACTER; rappresenta stringhe di caratteri di lunghezza predefinita, spesso abbreviato in CHAR. La specifica ha il formato CHAR[(n)], con n lunghezza delle stringhe. E’ possibile usare come valore una stringa di lunghezza inferiore a n, che viene completata con spazi fino a raggiungere tale lunghezza,
CHARACTER VARYING; rappresenta stringhe di caratteri di lunghezza massima predefinita. Spesso abbreviato in VARCHART, e la sua forma è VARCHART(n), dove n è la lunghezza massima delle stringhe.
Tipi di dato temporali:
DATE; rappresenta le date espresse come anno(4cifre), mese(2cifre) e giorno(2cifre),
TIME; rappresenta i tempi espressi come ora(2cifre), minuto(2cifre) e secondo(2cifre),
TIMESTAMP; rappresenta una “concatenazione” fra DATE e TIME. Permette di rappresentare timestamp che consistono in: anno, mese, giorno, ora, minuto, secondo e microsecondo,
INTERVAL; rappresenta una durata temporale in riferimento ad uno o più qualificatori. I valori di questo tipo son rappresentati dalla parola chiave INTERVAL seguita da una stringa che esprime la durata in termini di uno o più qualificatori. Se sono presenti due qualificatori, il primo è più ampio del secondo e sono separati dalla parola chiave TO.
Tipo di dato:
BOOLEAN; i valori di tali tipo sono TRUE, FALSE, UNKNOWN(questo viene introdotto per la gestione dei confronti con valori nulli,
CHARACTER LARGE OBJECT(CLOB); permette di rappresentare sequenze di caratteri di elevate dimensioni,
BINARY LARGE OBJECT(BLOB); permette di rappresentare sequenze di bit di elevate dimensioni.
E’ possibile convertire un valore ad un altro tipo mediante l’operatore di CAST
CAST (e) AS < tipo target >
AS: per introdurre una variabile di range.
I nomi delle tabelle possono essere implicitamente usati come variabili in linea. Si ha la necessità di introdurre esplicitamente le variabili di range solo quando la clausola FROM contiene più di una occorrenza di una relazione. Se una variabile di range è stata introdotta nella relazione, un nome di tabella non può essere usato come variabile di range esplicita.
Ogni elemento in una lista-select può essere della forma espressione AS nome_colonna ( questo è il nuovo nome che la colonna avrà nel risultato dell’interrogazione. Inoltre, ogni termine in una qualificazione può anche essere rappresentato nella forma generale espressione1 = espressione2.
L’SQL permette il pattern matching, su valori di tipo stringa, attraverso l’uso dell’operatore LIKE, insieme all’uso dei caratteri jolly %( zero o più caratteri qualunque) e ( esattamente un carattere qualunque). Quindi “AB%” denota una qualunque stringa che contiene almeno tre caratteri, con il secondo ed il terzo uguali a A e B.
SQL fornisce tre comandi per la manipolazione degli insiemi che estendono la forma d’interrogazione basilare, e sono:
UNION, restituisce tutte le tuple distinte restituite da almeno una delle sotto-interrogazioni a cui è applicato. Se si usa la clausola ORDER BY, questa deve essere usata una sola volta alla fine dell’interrogazione e non alla fine di ogni SELECT,
INTERSECT, corrisponde all’intersezione, restituisce le tuple restituite da entrambe le sotto interrogazioni a cui è applicato.
EXCEPT, corrisponde alla differenza, e restituisce le tuple della seconda sotto-interrogazione a cui è applicato.
Questo linguaggio fornisce anche altre operazioni sugli insiemi:
IN, per controllare se un elemento è in un dato insieme. C IN(v,….v°), nella forma negata C NOT IN(v,….v°).
ANY
ALL, per confrontare un valore con gli elementi di un dato insieme, usando l’operatore di confronto op
EXISTS, per controllare se un insieme è vuoto.
BETWEEN, permette di determinare le tuple che contengono in un dato attributo valori in un intervallo dato. C BETWEEN v AND v° , nella forma negata invece C NOT BETWEEN v AND v°,
ABS(N); calcola il valore assoluto del valore numerico N,
MOD(n,b); calcola il resto intero della divisione n per b.
UNION, INTERSECT ed EXCEPT possono essere usati su qualsiasi coppia di tabelle che siano compatibili rispetto all’unione, cioè che abbiamo lo stesso numero e tipo di colonne.
Nel caso si UNION i duplicati vengono eliminati automaticamente. Per mantenerli è necessario aggiungere ALL (UNION ALL). Lo stesso discorso vale per INTERSECT ed EXCEPT.
Espressioni e funzioni: un’espressione usata nella clausola di proiezione di un’interrogazione, dà luogo ad una colonna, detta virtuale, non presente nella relazione su cui si effettua l’interrogazione.
Le colonne virtuali non sono fisicamente memorizzate, ma sono calcolate dinamicamente come risultato dell’esecuzione dell’interrogazione.
Espressioni e funzioni per stringhe:
Operatore di concatenazione denotato da ||,
LENGHT(str), restituisce la lunghezza della stringa str, in numero di caratteri,
UPPER(str) e LOWER(str), trasformano la stringa str in caratteri tutti maiuscoli o tutti minuscoli, rispettivamente,
SUBSTR(str, m,[n]), estrae dalla stringa str la sottostringa dal carattere di posizione m per una lunghezza n,
TRIM[str°] FROM str, elimina dalla stringa str° i caratteri in str.
Un’interrogazione annidata è un’interrogazione che al suo interno ha un’altra interrogazione. Questa solitamente appare nella clausola WHERE, o anche in FROM o HAVING. Se una sub-query scalare restituisce più di una tupla si genera un errore di run-time, e se nessuna tupla verifica la sotto-interrogazione, viene restituito il valore NULL.
E’ anche possibile selezionare più di una colonna tramite sotto-interrogazioni, in tal caso è necessario apporre delle parentesi alla lista delle colonne a sinistra dell’operatore di confronto. Ad esempio, voglio elencare gli impiegati con la stessa mansione di Martini;
SELECT Nome FROM Impiegati
WHERE(Mansione, Stipendio) = (SELECT
Mansione, Stipendio FROM Impiegati
WHERE Nome = “Martini”);
Una sub-query può contenere a sua volta un’altra sub-query. E’ possibile definire sotto-interrogazioni che sono eseguite ripetutamente per ogni tupla candidata considerata nella valutazione dell’interrogazione esterna, e ogni volta che questa considera una tupla candidata, deve invocare la sotto-interrogazione. Questo tipo viene chiamato correlato, dato che ogni esecuzione è correlata al valore di uno o più attributi delle tuple candidate nell’interrogazione principale. Per poter fare riferimento alle colonne delle tuple candidate nell’interrogazione esterna si fa uso degli alias di relazione(questo è definito nell’interrogazione esterna e riferito nella sotto-interrogazione correlata. Sono utili quando si vuole fare riferimento a due diverse tuple della stessa relazione.).
UNIQUE, quando applichiamo questo comando ad una sotto-interrogazione, la condizione che ne risulta ritorna vero se nessuna riga appare due volte nella risposta all’interrogazione, se non ci sono duplicati. Ritorna vero se la risposta è vuota.
Operatori di aggregazione:
COUNT ([DISTINCT] A) , è numero di valori unici della colonna A,
SUM ([DISTINCT] A) , la somma di tutti i valori unici nella colonna A,
AVG ([DISTINCT] A) , la media di tutti i valori unici nella colonna A,
MAX (A) , il valore massimo della colonna A,
MIN (A) , il valore minimo della colonna A.
Non ha senso specificare DISTINCT insieme a MIN e MAX.
Le clausole GROUP BY e HAVING;
SELECT [DISTINCT] lista-select
FROM lista-from
WHERE qualificazione
GROUP BY lista gruppo
HAVING qualificazione gruppo.
La lista-select consiste di una lista di nomi di colonne e una lista di termini della forma aggop(nome-colonna) AS nuovo-nome. Ogni colonna che appare nella lista dei nomi deve apparire nella lista-gruppo.
Le espressioni che compaiono nella qualificazione gruppo della clausola HAVING devono avere un singolo valore per gruppo. L’idea di base è che la clausola HAVING ( può essere una combinazione Booleana di predicati, i quali tuttavia possono solo coinvolger funzioni di gruppo) determina se per ogni gruppo dato debba essere generata una riga della risposta.
Un’importante restrizione ci dice che una clausola di protezione di una query contenente GROUP BY può includere solamente:
una o più colonne tra le colonne che compaiono nella suddetta clausola,
funzioni di gruppo(che possono apparire in funzioni aritmetiche).
Le funzioni di gruppo permettono di estrarre informazioni da gruppi di tuple invece di una relazione, queste si basano su due concetti:
il partizionamento delle tuple di un relazione in base al valore di uno o più colonne della relazione,
il calcolo della funzione di gruppo per ogni gruppo ottenuto col partizionamento.
Una funzione di gruppo ha come argomento una colonna e si applica all’insieme dei valori di questa colonna, estratti dalle tuple che appartengono allo stesso gruppo.
E’ possibile applicare queste funzioni senza partizionamento e in tal caso saranno applicate ad un unico gruppo contente tutte le tuple della relazione.
Se GROUP BY viene omesso l’intera tabella viene vista come un singolo gruppo
COUNT, se questo non include DISTINCT, allora COUNT(*) dà la stessa risposta di COUNT(x), dove x è un qualunque insieme di attributi.
L’SQL fornisce un valore di colonna speciale chiamato null da usare quando il valore della colonna è sconosciuto oppure inapplicabile.
Possiamo impedire l’uso dei valori null specificando NOT NULL come parte della definizione dei campi. Inoltre i campi in una chiave primaria non posso assumere valori null, quindi vi è un vincolo di NOT NULL, implicito per ogni campo elencato in un vincolo di PRIMARY KEY.
Si può specificare vincoli sulla tabella usando vincoli di tabella, che hanno la forma CHECK espressione-condizionale.
In un comando CREATE TABLE, la clausola CHECK può comparire;
di seguito alla definizione di una colonna ( vincoli di CHECK su colonna )
come clausola separata dall’interno della definizione della relazione ( vincoli CHECK su relazione ).
Specificando un vincolo CHECK vogliamo che ogni tupla nella relazione soddisfi la condizione. E’ consigliabile esprimere tramite CHECK solo le condizioni che devono essere verificate da ogni singola tupla della relazione cui associamo il vincolo.
E’ possibile assegnare nome ai vincoli associati alle definizioni di relazione facendo seguire la specifica del vincolo nella parola chiave CONSTRAINT e dal nome. Difetti specificare un nome per tutti i vincoli è utile per potersi poi riferire ad essi.
Le asserzioni servono per esprimere vincoli di integrità che coinvolgono più tuple o relazioni, e vengono così formulate:
CREATE ASSERTION < nome asserzione >
CHECK(< condizione >).
I vincoli di una tabella sono associati ad una tabella singola. Il soddisfacimento di questi vincoli è richiesto solo se la tabella associata è vuota, quando un vincolo coinvolge due o più tabelle, il meccanismo di vincoli sulle tabelle è in qualche modo anomalo, e non ciò che si desidera.
Un trigger è una procedura che viene eseguita dal DBMS in risposta a specifici cambiamenti nella base di dati ed è definita dal DBA. Questi son divisi in tre parti:
evento: un cambiamento nella base di dati che attiva il trigger;
condizione: un’interrogazione o un test che viene eseguito quando il trigger è attivato;
azione; procedura che viene eseguita quando il trigger è attivato e la sua condizione è verificata.
Una condizione di trigger può essere un comando vero/falso oppure un’interrogazione. Questa viene interpretata come vero se l’insieme di risposta non è vuoto, falso se l’opposto. L’azione di un trigger può esaminare la risposta all’interrogazione nella parte condizionale dei trigger , fare riferimento a valori vecchi e nuovi delle tuple modificate dal comando che ha attivato il trigger, eseguire nuove interrogazioni e apportare cambiamenti alla base di dati.

==Progettazione di una base dati==
1)Analisi dei requisiti: il primissimo passo nella progettazione è capire quali dati devono essere memorizzati, quali applicazioni devono essere costruite su di essi e quali operazioni sono più frequenti e soggette a requisiti prestazionali.
2)Progettazione concettuale della base di dati: le informazioni raccolte nel passo di analisi dei requisiti vengono usate per elaborare una descrizione ad alto livello dei dati da memorizzare. Questo passo è sviluppato usando il modello entità-relazione, il quale fa parte di una famiglia di diversi modelli di dati ad alto livello, o semantici, usati nella progettazione delle basi di dati. Lo scopo è creare una semplice descrizione dei dati che approssimi il modo in cui utenti e sviluppatori pensano ad essi.
3)Progettazione logica della base dati: dobbiamo scegliere un DBMS per implementare in nostro progetto, e convertire la progettazione concettuale in uno schema nel modello del DBMS scelto. La traduzione non è sempre univoca.
4)Raffinamento dello schema: analizzare l’insieme di relazioni del nostro schema relazionale per identificare potenziali problemi, e a rifinirlo.
5)Progettazione fisica della base di dati: consideriamo i carichi di lavoro attesi che la nostra base di dati dovrò sopportare, e raffiniamo il progetto per garantire che esso soddisfi i criteri di prestazioni richieste. Questo può consistere nella costruzione di indici su qualche tabella e nel raggruppamento di alcune tabelle, oppure può coinvolgere una riprogettazione sostanziale di intere parti dello schema ottenuto precedentemente.
6)Progettazione delle applicazioni e della sicurezza.
Una entità è un oggetto nel mondo reale che si distingue da altri progetti. Vi sono anche insiemi di entità, e questi non hanno bisogno di essere disgiunti. Un entità è anche un’astrazione della realtà la cui informazione è indipendente dal dominio in cui l’entità è utilizzata. Invece un’istanza di entità sono specifici oggetti appartenenti ad una certa entità.
Un’entità è descritta usando un insieme di attributi. Tutte le entità di un dato insieme hanno gli stessi attributi: questo è ciò che s’intende con simili. La coppia (nome_di_attributo, dominio) viene chiamata attributo e ogni entità è caratterizzata da uno o più attributi(i quali possono essere monovalore, multivalore e compositi).
Per ogni attributo associato ad un insieme di entità, dobbiamo definire un dominio di valori possibili. Vi son diversi tipi di domini:
semplice, sono domini standard(interi, reali, booleani…), con intervalli ed insiemi di valori definiti per enumerazione dall’utente,
composti, l’insieme dei valori è dato dal prodotto cartesiano degli insiemi di valori associati ai domini componenti. Servono per associare un dominio agli attributi composti.
Le informazioni sui domini i un attributo non sono direttamente rappresentabili in un diagramma ER, sono però fondamentali per una corretta progettazione logica.
Inoltre per ciascun insieme di entità useremo una chiave. Questa è un insieme minimale di attributi i cui valori identificano univocamente una entità dell’insieme. Potrebbe esserci più di una chiave candidata, e in questo caso ne designiamo una come chiave primaria. Una chiave non può avere valori nulli, in alcuni casi la chiave può essere soltanto una dove il sistema non permette di averne di più.

Gli attributi vengono rappresentati con degli ovali, e se sono sottolineati sono delle chiavi primarie mentre le entità sono dei rettangoli.
Una relazione è un’associazione tra due o più entità.
Come per le entità potremmo voler raccogliere un gruppo di relazioni simili in un insieme di relazioni. Questo può essere visto come un insieme di n-tuple:
{( e1,… en)  E1,…,en  En}
Ciascuna n-tupla denota una relazione che coinvolge n entità, da e1 a en, dove l’entità ei appartiene all’insieme di entità Ei.
Una relazione può anche avere attributi descrittivi, i quali son usati per registrare informazioni sulla relazione, piuttosto che su ciascuna delle entità partecipanti.
Un’istanza di un insieme di relazioni è un insieme di relazioni, questa può esser vista come una “fotografia” dell’insieme di relazioni di un certo istante.
Gli insiemi di entità che partecipano ad una relazione non devono necessariamente essere distinti: qualche volta una relazione può coinvolgere entità dello stesso insieme.
Ruolo, è la funzione che un’istanza di entità esercita nell’ambito di un’associazione, e nel caso di un’associazione unaria il ruolo è sempre necessario.
Il modello ER offre costrutti per definire:
vincoli di cardinalità, sia per associazioni che per attributi. Questi si dividono in cardinalità minima( numero minimo d’istanze di un’associazione a cui le istanze delle entità coinvolte nell’associazione possono partecipare) e cardinalità massima( numero massimo di un’associazione a cui le istanze dell’entità coinvolte nell’associazione posso partecipare).
Data un’entità E ed un’associazione A:
i.c_max=1, ogni istanza di E può partecipare a non più di un’istanza di A,
ii.c_max=c_min=1, ogni istanza i E partecipa ad una ed una sola istanza di A,
iii.c_min=0, c_max=n, ogni istanza di E può partecipare ad un numero qualsiasi di istanze di A, anche nessuna.
vincoli d’identificazione, per entità. Identificatori per un’entità: insieme di attributi e/o entità che identificano le istanze dell’entità. Un identificatore è minimale se qualsiasi sottoinsieme proprio non è un identificatore. Le entità deboli ha sempre cardinalità(1,1) rispetto all’associazione attraverso cui avviene l’dentificazione.
Uno a uno: se c_max di E e di E°, rispetto ad A è 1;
Uno a molti: se c_max di E rispetto ad A è n e c_max di E° rispetto ad A è 1, o viceversa. Un impiegato può essere associato a molti altri reparti.
Molti a molti: l’insieme di relazioni Lavora_in, in cui un impiegato può lavorare in diversi reparti e ogni reparto può avere diversi impiegati.
Insieme di entità deboli: se c_max di E e di E°, rispetto ad A è n. Questa viene identificata univocamente solo considerando alcuni attributi in congiunzione con la chiave primaria di un’altra entità, che è chiamata proprietario identificante. Devono valere queste condizioni:
l’insieme di entità proprietarie e l’insieme di entità deboli devono partecipare in un insieme di relazioni uno-a-molti. Questo insieme di relazioni è chiamato insieme di relazioni identificanti dell’insieme di relazioni deboli
l’insieme di entità deboli deve aver partecipazione totale nell’insieme di relazioni identificanti.
Per identificare che si ha un’entità debole si usa un tratto più spesso.
Mentre per indicare che si ha una chiave parziale si userà una sottolineatura a tratti.
La specializzazione è il processo con cui s’individuano sottoinsiemi di un insieme di entità(la superclasse) che condividono alcune caratteristiche distintive. Tipicamente, la superclasse viene definita per prima,poi le sottoclassi, ed infine si aggiungono gli attributi specifici e gli insiemi di relazioni.
La generalizzazione consiste nell’identificare alcune caratteristiche comuni a una collezione di insiemi di entità e creare un nuovo insieme di entità che contiene quelle entità che possiedono caratteristiche comuni. Le sottoclassi si definiscono per prime, poi le superclassi, e poi si aggiungono tutti gli insiemi di relazioni che coinvolgono la superclasse.
I vincoli di disgiunzione determinano se a due sottoclassi è premesso contenere la stessa identità.
I vincoli di copertura determinano se le entità di una sottoclasse includono, nel loro complesso tutte le entità della superclasse.
L’aggregazione ci permette di indicare che un insieme di relazioni partecipa in un altro insieme di relazioni. Ciò viene illustrato con un riquadro tratteggiato intorno all’insieme di relazioni.
L’uso di un modello di dati semantico di alto livello offre nella progettazione concettuale il vantaggio addizionale che il progetto ad alto livello può essere rappresentato con diagrammi e facilmente compreso dalle molte persone che devono fornire informazioni utili al processo progettuale.
L’approccio normale consta nel considerare le necessità dei vari gruppo di utenti, risolvere i conflitti e generare un singolo insieme di requisiti. Un altro tipo di approccio consiste nello sviluppare schemi concettuali separati per i diversi gruppi di utenza, per poi integrarli. Per fare ciò si deve stabilire le corrispondenze tra le entità, le relazioni e gli attributi, e risolvere diversi tipi di conflitti.

Un insieme di entità è tradotto in una relazione in maniera molto semplice: ogni attributo di un insieme di entità diventa un attributo della tabella.
Per rappresentare una relazione, dobbiamo potere identificare ciascuna entità partecipante, e dare valori agli attributi descrittivi della relazione, quindi:
gli attributi della chiave primaria di ciascun insieme di entità partecipante, come campi di chiavi esterne
gli attributi descrittivi dell’insieme di relazioni.
Se un insieme di relazioni coinvolge n insiemi di entità, e m di essi sono collegati con frecce ne diagramma ER, la chiave per ciascuno di questi m insiemi costituisce una chiave per la relazione in cui l’insieme è tradotto. Quindi abbiamo m chiavi candidate, e una di queste dovrebbe essere scelta come chiave primaria.
Un secondo approccio per tradurre un insieme di relazioni con vincoli di chiave si rivela spesso migliore, perché evita di creare una tabella distinta per l’insieme di relazioni.
L’idea è di includere le informazioni sull’insieme di relazioni nella tabella corrispondente all’insieme di entità con la chiave, sfruttando il vincolo di chiave.
Lo svantaggio in questo è che potrebbe esserci uno spreco di spazio. In tal caso i campi aggiunti dovrebbero essere riempiti con valori null. La prima traduzione evita questa inefficienza, ma alcune interrogazioni importanti richiedono di combinare informazioni da due relazioni, il che può essere un operazione lenta.
Un insieme di entità deboli partecipa sempre in una relazione binaria uno-a-molti e ha vincoli di chiave e di partecipazione totale. Questa ha solo una chiave parziale, e quando un’entità proprietaria viene cancellata, vogliamo che vengano eliminate anche le entità deboli collegate.

==PROGETTAZIONE CONCETTUALE==

La progettazione concettuale di una base di dati ci fornisce un insieme di schemi di relazione e VI che possono essere considerati un buon punto di partenza per il progetto finale. Permette di rappresentare i dati in modo indipendente da ogni sistema, cercando di descrivere i concetti del mondo reale.
Presentiamo ora una panoramica sui problemi che il raffinamento degli schemi intendo risolvere:
problemi causati dalla ridondanza: memorizzare la stessa informazione in maniera ridondante, cioè in diversi posti all’interno della stessa base di dati può portare a diversi problemi:
memorizzazione ridondante;
anomalie da aggiornamento, se una coppia di questi dati ripetuti viene aggiornata si crea un’inconsistenza, a meno di aggiornare anche tutte le altre copie;
anomalie da inserimento, potrebbe non essere possibile registrare certe informazioni, a meno di inserire anche qualche altra informazione non correlata;
anomalie di cancellazione.
Idealmente vorremmo degli schemi che non permettano ridondanza, ma quanto meno vogliamo poter identificare gli schemi che lo permettono:
valori null: questi non possono fornire una soluzione completa, ma possono aiutare. Questi valori possono essere utili per le anomalie da inserimento e cancellazione.
decomposizione, la ridondanza nasce quando uno schema relazionale forza una associazione tra attributi che non è naturale. Le dipendenze funzionali possono essere usate per identificare tali situazioni e per suggerire raffinamenti dello schema. Molti problemi che nascono dalla ridondanza possono essere risolti sostituendo una relazione con una collezione di relazioni “più piccolo”. Una decomposizione di uno schema di relazione r consiste nella sostituzione della schema di relazione con due(o più) schemi di relazione ciascuno dei quali contiene un sottoinsieme di attributi di R, e la cui unione include tutti tali attributi. Noi vogliamo memorizzare le informazioni in ogni data istanza di r memorizzandone le proiezioni. Se non si sta attenti con la decomposizione si possono creare più problemi di quanti se ne vogliano.
la proprietà senza perdita(lossless join) ci permette di recuperare qualunque istanza di una relazione decomposta a partire dalle corrispondenti istanze delle relazioni componenti tramite operazioni di join;
la proprietà di conservazione delle dipendenze ci consente di mantenere qualunque vincolo della relazione originaria semplicemente imponendo alcuni vincoli su ciascuna delle relazioni componenti. Ossia non abbiamo bisogno di effettuare join delle relazioni più piccolo per controllare se viene violato un vincolo della relazione originale.
La decomposizione potrebbe migliorare le prestazioni, nel caso in cui la maggior parte delle interrogazioni degli aggiornamenti esaminano solo una delle relazioni componenti, che è più piccola della relazione originale.
Dipendenze funzionali: DF è un tipo di VI che generalizza il concetto di chiave. Sia R uno schema di relazione e siano X e Y insiemi non vuoti di attributi di R, diciamo che un’istanza r di R soddisfa la DF X  Y (si legge X determina funzionalmente Y, o X determina Y) se per ogni coppia di tuple t1 e t2 in r vale al seguente:
se t1.X = t2.X , allora t1.Y = t2.Y
Una DF X  Y essenzialmente dice che se due tuple coincidono sui valori dell’attributo X, devono anche avere lo stesso valore per l’attributo Y.
Un’istanza legale di una relazione soddisfare tutti i VI specificati. Quindi guardando l’istanza di una relazione, potremmo essere in grado di dire che una certa DF non è valida, però non possiamo mai dedurre che una DF è valida solo guardando una o più istanza di una relazione, perché una DF, diversamente da un VI, è un’affermazione su tutte le possibili istanze legali di una relazione.
La definizione di una DF non richiede che l’insieme X sia minimale: l’ulteriore condizione di minimalità deve essere soddisfatta perché X sia una chiave. Se vale X  Y, dove Y è l’insieme di tutti gli attributi, ed esiste qualche sottoinsieme X di tale che V  Y, allora X è una superchiave.
Diciamo che una DF f è implicata da un dato insieme F di DF se f vale su ogni istanza di relazione che soddisfa tutte le dipendenze in F, f vale ogni volta che tutte le DF valgono in F.
Chiusura di un insieme di DF, l’insieme di tutte le DF implicate in un dato insieme F di DF è detto chiusura di F, denotato come F+. Come possiamo inferire(calcolare la chiusura di un dato insieme)?
Con gli Assiomi si Armstrong, i quali possono essere applicati per inferire tute le DF implicate da un insieme F di DF.
riflessività, se X  Y, allora X  Y;
aumento, se X  Y allora XZ  YZ per ogni Z;
transitività, se X  Y e Y  X, allora X  Z.
Teorema 1  gli assiomi di Armstrong sono corretti, nel senso che generano solo DF in F+ quando sono applicati a un insieme F di DF. Sono anche completi, nel senso che ripetute applicazioni di queste regole generano tutte le DF nella chiusura F+.
Quando si parla di F+ conviene usare alcune regole addizionali:
unione: se X  Y e X  Z, allora X  YZ;
decomposizione: se X  YZ, allora X  Y e X  Z.
in una DF banale, la parte destra contiene solo attributi che appaiono anche nella parte sinistra; tali dipendenze valgono sempre per via della riflessività. Usando questa possiamo generare tutte le dipendenze banali, che hanno la forma:
X  Y, dove Y  X, X  ABC e Y  ABC.
Dalla transitività otteniamo A  C.
Dall’aumento otteniamo le dipendenze non banali:
AC  BC, AB  AC, AB  CB.
Chiusura degli attributi, se volgiamo controllare se una data dipendenza, diciamo X  Y, è nella chiusura di un insieme F di DF, possiamo farlo in maniera efficiente senza calcolare la chiusura stessa.
Prima troviamo la chiusura degli attributi X+ rispetto a F, che è l’insieme degli attributi A tali che X  A può essere derivata usando gli Assiomi di Armstrong. Questo è l’algoritmo di calcolo:
chiusura = X;
ripeti fin quando non ci sono più cambiamenti: {
se c’è una DF U  V in F tale che U  chiusura,
allora chiusura = chiusura  V
}
Teorema 2 l’algoritmo mostrato calcola la chiusura dell’insieme X di attributi rispetto all’insieme F delle DF.
Forme normali, dato uno schema di relazione, abbiamo bisogno di decidere se esso sia un buon progetto o se c’è necessità di decomporlo in relazioni più piccole. Una tale decisione deve essere guidata dalla comprensione di quali problemi sono presenti nello schema corrente.
Le forme normali basate su DF sono la prima forma normale (1NF), la seconda(2NF), la terza(3NF) e la forma normale di Boyce-Codd(BCNF).
Una relazione è nella 1NF se ogni campo contiene solo valori atomici, cioè niente liste o insiemi. La 2NF ha un interesse storico. La 3NF e la BCNF sono importanti dal punto di vista della progettazione di una base di dati.
forma normale di Boyce-Codd, sia R uno schema di relazione, F sia l’insieme delle DF date su R, X sia un sottoinsieme degli attributi di R, e A un attributo di R. R è nella BCNF se per ogni DF X  A in F vale una delle seguenti asserzioni:
A  X, cioè è una DF banale,
X è una superchiave.
In una relazione in BCNF le sole dipendenze non banali sono quelle in cui una chiave determina alcuni attributi. Perciò ogni tupla può essere vista come un’entità o relazione, identificata da una chiave e descritta dai restanti attributi.
La BCNF assicura che nessuna ridondanza può essere rilevata usando solo le informazioni delle DF. Quindi è la più desiderabile delle forme normali, se prendiamo in considerazione solo le informazioni delle DF.
Se X è una chiave, allora y1=y2, il che significa ce le due tuple sono identiche. Poiché una relazione è definita come un insieme di tuple, non possiamo avere due copie della stessa tupla.
Se una relazione è in BCNF, ogni campo di ciascuna tupla registra una parte d’informazione che non può essere dedotta dall’istanza della relazione.
terza forma normale, sia R uno schema di relazione, F l’insieme delle DF date su R, X un sottoinsieme degli attributi di R, e A un attributo di R. R è in 3NF se per ogni DF X  A in F vale:
A  X, cioè è una DF banale
X è una superchiave
A fa parte di una chiave di R.
Supponiamo che una dipendenza X  A provochi una violazione della 3NF, sono possibili due casi:
1)X è un sottoinsieme proprio di qualche chiave K. Questa viene chiamata dipendenza parziale e viene memorizzato la coppia (X,A) in maniera ridondante.
2)X non è un sottoinsieme proprio di una chiave. Una tale dipendenza è a volte chiamata dipendenza transitiva, perché significa che abbiamo una catena di dipendenze K  X  A. Il problema è che non possiamo associare un valore X con un valore K a meno di associare anche un valore A con un valore X.
Nella 3NF è possibile qualche ridondanza. I problemi associati alle dipendenze parziali e transitive persistono se c’è una dipendenza non banale X  A e X non è una superchiave, anche se la relazione è nella forma 3NF perché A è parte di una chiave.
Proprietà delle decomposizioni;
- decomposizioni senza perdita, sia R uno schema di relazione e sia F un insieme di DF su R: una decomposizione di R in due schemi con insiemi di attributi X e Y si dice decomposizione senza perdita rispetto a F se per ogni istanza r di R che soddisfa le dipendenze in F, x(r) >< y ( r ) = r. Possiamo tornare alla relazione originale a partire dalle relazioni della decomposizione.
Tutte le decomposizioni usate per eliminare la ridondanza devono essere senza perdita d’informazione.
Teorema 3 sia R una relazione e F un insieme di DF che valgono su R. la decomposizione di R in due relazioni con insiemi di attributi R1 e R2 è senza perdita d’informazione se e solo se F+ contiene la DF R1R2 R1 oppure la DF R1R2 R2.
- decomposizione con conservazione delle dipendenze, permette di applicare tutte le DF esaminando una singola istanza di relazione su ciascun inserimento o modifica di una tupla.

==SQL==

L’uso di comandi SQL in un programma scritto in un linguaggio ospite è chiamato SQL incapsulato, o embedded SQL.
I comandi SQL possono essere usati nel linguaggio ospite ovunque sia permesso. Ogni variabile del compilatore di quel linguaggio, usata per passare argomenti ad un comando SQL, deve essere dichiarata in SQL.
Devono essere dichiarate alcune variabili speciali del linguaggio ospite. Vi sono due complicazione di cui tener conto:
i tipi di dati riconosciuti da SQL potrebbero non essere riconosciuti dal linguaggio ospite, e viceversa,
SQL è orientato agli insiemi, quindi si passa all’uso dei cursori. I comandi operano su tabelle e producono tabelle, cioè insiemi.
I comandi possono far riferimento a variabili definite nel programma ospite, queste però devono essere precedute da due punti (:) nei comandi SQL, e devono essere dichiarate tra i comandi EXEC SQL BEGIN DECLARE SECTION ed EXEC SQL END DECLARE SECTION.
Si può pensare ad un cursore come se “puntasse” ad una riga nella collezione di risposte dell’interrogazione cui è associato. Quando un cursore viene aperto si posiziona appena prima della prima riga. Possiamo usare il comando FETCH per leggere la prima riga del cursore nelle variabili del linguaggio ospite.
Quando questo viene eseguito, il cursore viene posizionato per puntare alla riga successiva( che è la prima riga della tabella quando FETCH è eseguito per la prima volta dopo l’apertura del cursore) e i valori delle colonne nella riga sono copiarti nelle corrispondenti variabili ospiti. Eseguendo ripetutamente questo comando FETCH possiamo leggere tutte le righe calcolate dall’interrogazione, una alla volta.
Quando abbiamo finito col cursore usiamo il comando CLOSE.
Proprietà dei cursori, la forma generale della dichiarazione di un cursore è:
DECLARE nome_cursore [INSENSITIVE] [SCROLL] CURSOR
[WITH HOLD]
FOR qualche interrogazione
[ORDER BY lista-ordinamento]
[FOR READ ONLY | FOR UPDATE]
Un cursore può essere dichiarato di sola lettura (FOR READ ONLY) oppure, se è definito su una relazione di base o una vista aggiornabile(FOR UPDATE).
Se è aggiornabile, semplici varianti dei comandi UPDATE e DELETE ci permettono di aggiornare o cancellare la riga su cui il cursore è posizionato
Un cursore è aggiornabile per default a meno che nella sua definizione sia stato specificato SCROLL e INSENSITIVE, nel qual caso è di sola lettura.
SCROLL;il cursore è scorrevole, quindi le varianti del comando FETCH possono essere usate per posizionarlo in maniera molto flessibile; altrimenti è consentito il solo comando FETCH di base, che sposta il cursore alla riga successiva.
INSENSITIVE;il cursore si comporta come se si muovesse su una copia privata della collezione di righe della risposta. Altrimenti per impostazione predefinita, le azioni di qualche altra transazione potrebbero modificare tali righe, creando comportamenti non prevedibili.
Un cursore mantenibile viene specificato con la clausola WITH HOLD, e non è chiuso quando la transazione termina. Se una qualunque transazione viene interrotta il sistema, potenzialmente, deve rifare parecchio lavoro. Quindi l’alternativa è spezzare la transazione in diverse transazioni, più piccole, ma ricordare la posizione nella tabella è complicato e soggetto a errori.
ORDER BY; può essere usata per specificare un ordinamento. La lista-ordinamento è una lista di voci di ordinamento(nome di colonna), eventualmente seguito da una delle parole chiave ASC e DESC. Ogni colonna menzionata nella clausola ORDER BY deve apparire anche nella lista-selezione dell’interrogazione associata al cursore; altrimenti non è chiaro su quali colonne effettuare l’ordinamento.
SQL dinamico; i due comandi principali sono PREPARE e EXECUTE:
char c_stringaSQL[] = {“DELETE FROM Velisti WHERE esperienza > 5”};
EXEC SQL PREPARE pronto FROM: c_stringaSQL;
EXE SQL EXECUTE pronto;
1)il primo comando dichiara la variabile C c_stringaSQL e ne imposta il valore ad una rappresentazione stringa di un comando di SQL.
2)la seconda istruzione fa sì che tale stringa venga esaminata e compilata come comando SQL, con l’eseguibile risultante legato alla variabile pronto
3)la terza istruzione esegue il comando.
La preparazione di un comando SQL dinamico avviene durante l’esecuzione, che ne risulta appesantita. I comandi dell’SQL interattivo e dell’SQL incapsulato possono essere preparati una volta per tutte al momento della compilazione, e poi ri-eseguiti quanto si vuole. Di fatti si deve limitare l’uso dell’SQL dinamico a quelle situazioni in cui è essenziale.

==MIR SYSTEM==

Lo scopo di questi sistemi è di permettere a qualsiasi utente di eseguire ricerche su tutta la musica esistente, attraverso interfacce con cui poter sottomettere al sistema descrizioni esaustive, nel modo più naturale possibile fornendo applicazioni utili a collegare e manipolare l’informazione ritornata dal sistema.
L’informazione musicale può essere descritta attraverso sette aspetti(Downie);
1.Pitch Facet; la qualità del suono percepita che è principalmente una funzione della sua frequenza fondamentale.
Rappresentazione del pitch:
note sul pentagramma,
nome A, B,C#,
pitch class number 0, 1, 2,
solfeggio do, re mi.
Intervallo: è la differenza tra due pitch espressa in semitoni o attraverso la sua caratteristica tonale determinata dalla posizione dei due pitch nella sintassi tradizionale.
Melodia: insieme di pitch o intervalli percepiti in modo sequenziale bel tempo.
Chiave: viene considerato come sub-aspetto del pitch. I due contorni melodici sono presi percettivamente equivalenti, nonostante il fatto che sia diverso il loro pitch assoluto.
Contorno melodico: il pattern degli intervalli.
2.Temporal Facet: informazione relativa alla durata degli eventi musicali che include:
i.Metrica
ii.Indicatori di tempo
iii.Durata del pitch
iv.Accenti
v.Durata armonica
Questi elementi costituiscono la parte ritmica del brano(questo può essere rappresentato in diversi modi, ognuno dei quali definisce uno stesso risultato)
Pause: possono essere considerate indicatori della durata degli eventi musicali che non contengono pitch.
Informazione temporale: può essere:
Assoluta ( metronomo ),
Generale ( adagio, forte ),
Relativo ( schneller, langsamer ),
Temporal distorsion ( rubato, rallentando ).
3.Harmonic Facet: quando due o più pitch suonano simultaneamente, definita anche come polifonia. Interazione tra pitch e aspetto temporale per creare la polifonia ( caratteristica fondamentale della musica occidentale).
Gli eventi armonici , sebbene presenti nella partitura, non solo sempre indicati esplicitamente. La mente umana può percepire un accordo, nonostante la presenza di note “extra”.
4.Timbral Facet: comprende tutti gli aspetti del colore del tono. La distinzione tra una nota suonata da un flauto ed un clarinetto è causata dalla differenza del timbro. Fanno parte di questo aspetto le informazioni sulla composizione dell’orchestra, e anche l’enumerazione degli strumenti.
5.Editorial Facet: istruzioni sull’esecuzione( diteggiatura, ornamenti, istruzioni dinamiche, etc…). Anche la musica stessa può essere inclusa.
6.Textual Facet: è l’aspetto più indipendente dalla melodia e dagli arrangiamenti associati. Un frammento di lirica in alcuni casi non è sufficiente per ritrovare il brano ricercato e viceversa.
7.Bibliographic Facet: sono informazioni relative a:
titolo
compositore
arrangiatore
editore
numero di catalogo
data pubblicazione
esecutori.
Uno degli obbiettivi principali del MIR è permettere l’organizzazione dei dati per recuperare tutta l’informazione disponibile riguardante un certo brano musicale.
Interrogazioni per contenuto: confronto tra i complessi contenuti musicali presenti nella base di dati e contenuti musicali meno complessi introdotti come criterio di ricerca.
Per la costruzione di un DB musicale vi son tre passi:
1.individuare lo scopo dei dati. In questa fase è necessario definire come le informazioni devono essere collezionate ed inserite nel DB, quali relazioni esistono tra loro e quali tipi di interrogazioni rendere disponibili all’utente finale.
2.elencare i dati necessari, considerando le sorgenti d’informazione disponibili. Le informazioni testuali sono solitamente più ricche e frequenti di quelle multimediali a causa delle problematiche legate al copy-right.
3.definire la miglior struttura per questo corpo. In pratica come le informazioni vengono classificate ed organizzate, o qual è il miglior standard con cui scrivere queste informazioni.
Senza una buona struttura l’uso e l’accesso del DB diventa inutile e complicato, la sua efficienza ne risente come la sua manutenzione.
Una volta definito il DB è necessario definire le interfacce e le tipologie d’interrogazione da fornire all’utente. Vi son tre tipi di ricerca:
Browsing: può essere un mezzo utile per cercare in un sistema ricco di collegamenti tra i dati ed i metadati, e permette di passare da un brano all’altro attraverso diversi collegamenti,
Textual search: indicizzazione di tutte le informazioni testuali accademiche( autore, titolo, …) e non accademiche( genere, frammenti delle liriche, …).
Search by content: interrogazioni basate sulla melodia o altri aspetti del contenuto audio.
Naturalmente si possono combinare le varie tipologie di ricerca per aumentare la potenza e l’efficienza del sistema.
La maniera di mostrare i risultati cambia l’utilità e le manipolazioni possibili dei dati restituiti dal sistema. I dati restituiti devono essere sufficienti a riconoscere quale brano nella lista dei risultati è quello ricercato, e una volta riconosciuto l’utente deve poter accedere a tutte le informazioni collegate, suddivise per tipologia( informazioni di catalogo e testuali, link ai meta-dati, link ad altri oggetti musicali).
Un altro aiuto nella ricerca sono le informazioni di catalogo che limitano la ricerca alla sola musica conosciuta. Uno dei più grandi e potenti descrittori usati dai consumatori di musica è il genere musicale, difatti due brani appartenenti allo stesso genere musicale hanno molti più elementi in comune rispetto a due brani non appartenenti allo stesso genere.
Generalmente gli strumenti musicali aiutano a definire il genere.
Catalog information: sono le informazioni che descrivono i brani musicali, non strettamente correlate al contenuto musicale. Descrivono chi ha preso parte alla realizzazione del brano, dove è stato registrato, informazioni sul supporto e sul copyright.
Multimedia characteristics: son metadadata che descrivono qualcosa di strettamente legato al contenuto musicale, e le informazioni associate col ricordo del frammento usato nella query-by-content.
Per valutare un sistema MIR si deve controllare che sia molto efficiente ed affidabile.
Per affidabilità intendiamo che il sistema deve permetter di trovare tutte e sole le informazioni richieste dall’utente. Queste devono essere sempre corrette( da verificare quando i dati sono elaborati automaticamente).
La complessità dei sistemi MIR è dovuta soprattutto all’enorme quantità di oggetti musicali.
Query by content: servono a trovare un brano di cui non si conoscono informazioni quali il titolo, l’autore, o altri metadata sufficienti per individuarlo. Usato anche per il copyright in modo da capire se un brano è molto simile ad un altro.
Verifica se un brano appena composto da un autore si frutto della creatività dell’artista e non influenzato da uno ascoltato in passato e poi dimenticato.
Il criterio su cui si basa la query-by-content è il frammento musicale, e di fatti vengono usati due tipi di DB:
a frammenti tematici: contengono frammenti che rappresentano i tempi musicali presenti nei brani. Il tema in questo caso viene considerato come una sequenza di note ripetuta diverse volte all’interno della composizione musicale. Una sequenza di note invece è considerata un tema se nella composizione esistono altre sequenze ottenute da questo attraverso qualche operatore musicale,
database di intere partiture: sono presenti tutte le melodie contenute in tutte le voci dell’intera partitura, perché un utente potrebbe ricordare un solo frammento del brano non appartenente al tema.
Query-by-humming, può risultare non accurata ed è per utenti non esperti.
L’approccio per questo metodo sono di due tipi:
DSP: elaborazione della forma d’onda o delle frequenze per trovare similarità tra i brani. Vi è una trasformazione in simbolico, dove vengono estrapolate le caratteristiche descriventi gli eventi musicali. Questo sistema risulta molo faticoso e complesso.
Simbolico: trasformazione dei brani in sequenze di stringhe di caratteri rappresentanti le sequenza melodiche contenute nei brani. Il frammento della query viene trasformato allo stesso modo e quindi confrontato con le stringhe nel DB.
Come criterio per le query-by-content viene usato l’audio( si definisce attraverso l’analisi delle frequenze esistenti nello spettro del segnale in ogni istante di tempo(discreto) il corrispondente pitch).
In input avremo un frammento audio(non strutturato per definizione) ed in output le caratteristiche capaci di definire i note-pattern.
Vi son dei problemi legati alla trascrizione da audio a simbolico:
Note segmentation: dove sono posizionate esattamente le note?Quanto durano?
Pitch variation della nota suonata: come individuare l’esatta altezza della nota suonata?
Note quantization: come posizionare le altezze sulle scale musicali?
Purtroppo viene difficile capire quale nota deve essere associata all’altezza del suono, infatti non esiste sempre una corrispondenza esatta.
Lo stesso discorso vale per la rappresentazione simbolica, infatti esistono molte tipologie del formato. Possiamo avere casi dove la stessa altezza viene rappresentata in più modi diversi o il nome della nota può rappresentare più altezze(di differenti ottave).
Sequenze di note: ogni elemento della sequenza è descritto da qualche parametro ( solitamente nome e durata della nota ).
Rappresentazione:
tutte le rappresentazioni della stessa nota vengono collassate in una sola,
l’alfabeto di 12 elementi, viene usato per rappresentare e dividere le altezze in semitoni,
questo però comporta una perdita d’informazione sul contorno melodico.
Trasposizione: gli algoritmi per calcolare la similarità vengono applicati 12 volte su ogni sequenza. Viene usato questo metodo nei sistemi dove l’elaborazione è limitata agli incipit
Sequenza d’intervalli: distanza tra due note adiacenti misurata in semitoni. La sequenza melodica è data dalla sequenza delle distanze tra un elemento e il suo successore. Come risultato si ha un perdita della nozione di nota come elemento d’ottava.
È anche dimostrato che l’uomo ascoltando un brano non ha l’esatta percezione dell’altezza delle note, ma ricorda più facilmente la sequenza degli intervalli.
Contorno melodico: si considera solo la direzione tra una nota ed il suo successore. È possibile rappresentare la sequenza melodica con solo 3 simboli: up, down, equal to.
Questo però permette di avere una trascrizione di query-by-humming corretta, e se la melodia è abbastanza lunga è possibili individuare univocamente il brano cercato.
La lunghezza media di un query fragment è pari a 7 note, significa ottenere centinaia di brani simili, impossibili ascoltarli tutti per trovare quello corretto.
Però questo sistema è utile come operazione di “pre-processing”, per scremare il contenuto del DB prima di usare un metodo più sofisticato.
Classi di equivalenza: ogni simbolo rappresenta n intervalli.
C1:ogni simbolo rappresenta un intervallo,
C3: ogni simbolo rappresenta 3 diversi intervalli adiacenti,
CU: tutti gli intervalli crescenti e decrescenti collassato in due differenti classi( contorno melodico ).
Rappresentazione Frame-based:
non si ha la segmentation, in pratica non si divide ogni singolo evento della melodia,
il tempo viene diviso in frame di ugual misura,
viene stimato il valore di un pitch per ogni frame,
le note non sono esplicitamente descritte,
in un unico valore sono rappresentabili le informazioni relative ad altezza e durata.
Svantaggio di questo metodo è che si perde l’informazione relativa al ritmo.
Music psychology: c’è un alta probabilità che qualche errore si presente nel frammento dell’interrogazione, di fatti anche utenti esperti possono non essere in grado di rappresentare in modo esatto la melodia del brano che stanno cercando.
L’interrogazione è distribuita su più voci:
non è sempre detto che il frammento della query rappresenti in modo esatto la melodia del brano che si sta cercando,
in punti adiacenti del brano, l’utente potrebbe ricordarsi la melodia di differenti parti, costruendo una nuova melodia.
Il concetto di similarità varia in funzione di:
memoria, che può essere a breve o lungo termine,
tipologia di utente, che va dal non esperto,al mediamente esperto e all’esperto.
Melodia: definire come una sequenza di note sia riconosciuta dall’uomo come una melodia di un brano polifonico.
String matching and melodic similarità: approccio tra i più utilizzati per risolvere il problema della similarità melodica. Una semplice formalizzazione del problema contestualizzato nell’ambito dello string matching potrebbe essere: sia f la stringa di caratteri che rappresenta il frammento melodico criterio di un’interrogazione e s la stringa di caratteri che rappresenta la partitura di un brano presente nel DB:
 f è fattore di x?
se f non appare in x, quale sottoparte di f è presente in s?
quante volte un’approssimazione di f è presente in s?
Blast algorithm: Basic Local Alignment Search Tool: uno tra i metodi più efficaci utilizzati per l’elaborazione di database biologici. Permette d’individuare in due sequenze:
zone uguali o simili,
allineamenti globali.
Il grado di similarità tra le due sequenze mostra la correlazione. Questa può essere basata su:
Identità percentuale: numero di elementi uguali nello stesso ordine presenti nelle due sequenze rispetto al numero totale di elementi,
Conservazione: quando cambiando un elemento nella sequenza in una precisa posizione, le proprietà chimiche e fisiche restano invariate.

[[categoria:appunti]]

Database Musicali/Appunti/2006-2007

2007-07-11T14:42:08Z

SingInTime:

Questa pagina è un copia-incolla poderoso degli appunti di '''El Conte''', che li ha generosamente pubblicati su [http://www.musicomio.org musicomio] e che ringrazio infinitamente. L'impaginazione verrà sistemata al più presto e vedrò anche di integrare eventuali punti mancanti/carenti/non chiari, ammesso che ne trovi...

Promesso!

==Introduzione==
===Il sistema informativo===
Un '''sistema informativo''' è la componente (o il sottosistema) di una organizzazione che gestisce, acquisisce, elabora, conserva, produce, le informazioni di interesse, cioè utilizzate per il perseguimento degli scopi dell’organizzazione stessa.

Ogni organizzazione ha un sistema informativo, anche se può essere eventualmente non esplicitato nella struttura. Quasi sempre il sistema informativo è di supporto ad altri sottosistemi, e va quindi studiato nel contesto in cui è inserito. Inoltre è di solito suddiviso in sottosistemi (in modo gerarchico o decentrato), più o meno fortemente integrati tra loro.

Il '''sistema informatico''' è invece la parte del sistema informativo che gestisce informazioni per mezzo della tecnologia informatica.

La presenza di un sistema informatico all'interno di un sistema informativo non è obbligatoria: il concetto di “sistema informativo” è indipendente da qualsiasi automatizzazione. Esistono infatti organizzazioni la cui ragione d’essere è la gestione di informazioni (es: servizi anagrafici e banche) e che per secoli hanno operato senza l'ausilio dell'informatica.

===Gestione delle informazioni===
Nelle attività umane, le informazioni vengono gestite (registrate e scambiate) in forme diverse, a seconda delle necessità e capacità:
* idee informali
* linguaggio naturale (scritto o parlato, formale o colloquiale, in una lingua o in un’altra)
* disegni, grafici, schemi
* numeri
* codici (anche segreti)

E su vari supporti, dalla memoria umana alla carta.

Nelle attività standardizzate dei sistemi informativi complessi, sono state introdotte col tempo forme di organizzazione e codifica delle informazioni.

Ad esempio, nei servizi anagrafici si è iniziato con registrazioni discorsive e sono state poi introdotte informazioni via via più precise:
* nome e cognome
* estremi anagrafici
* codice fiscale

In particolare, nei sistemi informatici (e non solo in essi), le informazioni vengono rappresentate attraverso i '''dati'''.

Si dice '''informazione''' tutto ciò che produce variazioni nel patrimonio conoscitivo di un soggetto detto percettore dell'informazione.

Si dice '''dato''' una registrazione della descrizione di una qualsiasi caratteristica della realtà su un supporto che ne garantisca la conservazione e, mediante un insieme di simboli, ne garantisca la comprensibilità e la reperibilità.

Uno degli obiettivi fondamentali di un sistema di gestione dati è fornire un '''contesto interpretativo''' ai dati, in modo da consentire un accesso efficace alle informazioni da essi rappresentate.

==Database e DBMS==
===Cosa sono===
In un'accezione generica, un '''database''' è una collezione di dati, utilizzati per rappresentare le informazioni di interesse per una o più applicazioni. In un'accezione più specifica, un database è una collezione di dati gestita da un DBMS.

Un '''DBMS''' (Database Management System) è un sistema (prodotto software) in grado di gestire collezioni di dati che siano:
* '''Grandi:''' di dimensioni (molto) maggiori della memoria centrale dei sistemi di calcolo utilizzati
* '''Persistenti:''' con un periodo di vita indipendentedalle singole esecuzioni dei programmi che le utilizzano
* '''Condivise:''' utilizzate da applicazioni diverse

Un DBMS deve garantire '''affidabilità''' (resistenza a malfunzionamenti hardware e software) e '''privatezza''' (mediante politiche di controllo degli accessi). Come ogni prodotto informatico, un DBMS deve essere '''efficiente''', utilizzando al meglio le risorse di spazio e tempo del sistema, ed '''efficace''', rendendo produttive le attività dei suoi utilizzatori.

La gestione di sistemi di dati grandi e persistenti è possibile anche tramite sistemi più semplici, quali gli ordinari file system dei sistemi operativi, che permettono di realizzare anche rudimentali forme di condivisione. I DBMS però estendono le funzionalità dei file system, fornendo più servizi ed in maniera integrata.

===Caratteristiche===
I maggiori vantaggi di un DBMS sono:
* l’indipendenza dei dati
* un loro accesso efficiente
* integrità e sicurezza
* amministrazione
* organizzazione degli accessi e ripristino da crash
* riduzione del tempo di sviluppo delle applicazioni.

Un DBMS è utile quando la quantità di dati è elevata e porterebbe ad un appesantimento operativo e/o quando si vogliono usare le sue potenzialità d’interrogazione dell’archivio di dati. Si dice '''transazione''' una qualunque esecuzione di un programma utenti in un DBMS.

Compito importante di un DBMS è la '''sequenzalizzazione di accessi concorrenti ai dati''' , così che ogni utente possa ignorare il fatto che altri stanno accedendo ai dati allo stesso tempo. Per fare ciò ci si serve di un meccanismo detto '''lock''' che serve a controllare l’acceso agli oggetti della base di dati. Un '''protocollo di locking''' è l'insieme di regole che ogni transazione deve seguire per garantire che l’effetto sia identico a quello ottenuto eseguendo tutte le transazioni in qualche ordine seriale.

Il DBMS mantiene un log di tutte le scritture sulla base di dati. Ogni azione di scrittura deve essere registrata prima di effettuare la modifica nella base di dati. Un WAL (write-ahead log) è usato nel caso il sistema andasse in crash appena fatto il cambiamento, ma prima che esso sia registrato nel log.

Un DBMS è dunque diviso in:
* Ottimizzatore d’interrogazioni che usa informazioni sulla memorizzazione dei dati per produrre un piano di esecuzione efficiente
* Piano di esecuzione, usato per valutare l’interrogazione
* Gestore dello spazio sul disco
* Gestore delle transazioni, assicura che le transazioni richiedano e rilascino i lock seguendo un buon protocollo di bloccaggio e programma l’esecuzione delle transazioni
* gestore dei lock, tiene traccia delle richieste dei lock
* gestore del ripristino, responsabile del mantenimento del log e del ripristino del sistema.

Un DBMS applica inoltre dei '''vincoli d’integrità''', condizioni specificate dal DBA (Database Administrator) o dall’utente finale in uno schema di base dati, che limitano i dati memorizzabili in una istanza della base dati stessa. Ci sono vincoli statici (relativi ad uno stato della base di dati) e vincoli di transizione (relativi a stati diversi della base di dati).

Quando un’applicazione viene eseguita , il DBMS controlla se ci sono violazioni ai vincoli d'integrità e in quel caso non premette le modifiche ai dati.

===Modelli di dati===
Un '''modello di dati''' è un insieme di strumenti concettuali, o '''formalismo''', che consta di tre componenti fondamentali:
* un insieme di strutture dati
* una notazione per specificare i dati tramite le strutture dati del modello
* un insieme di operazioni per manipolare i dati.

Generalmente si tratta di una struttura ad alto livello che nasconde molti dei dettagli di memorizzazione a basso livello. Un DBMS permette all’utente di definire i dati da memorizzare in termini di un modello di dati.

Un '''modello di dati semantico''' è un modello di dati ad alto livello che rende più semplice ad un utente creare una buona descrizione iniziale dei dati. Questi contengono una grande quantità di costrutti che aiutano a descrivere lo scenario di un’applicazione reale.

Al grado più elevato di astrazione troviamo i '''modelli concettuali''', che permettono di rappresentare i dati in modo indipendente da ogni sistema, cercando di descrivere i concetti del mondo reale. Sono utilizzati nelle fasi preliminari di progettazione. Il più noto è il modello '''entità-relazione'''.

Scendendo di livello troviamo i '''modelli logici''', utilizzati per l’organizzazione dei dati. Ad essi fanno riferimento i programmi, e sono indipendenti dalle strutture fisiche di memorizzazione. Ecco alcuni esempi di modelli logici: relazionale, reticolare, gerarchico, a oggetti...

E' importante che modelli simili favoriscano l''''indipendenza dei dati'''. Tale proprietà si ottiene quando le applicazioni sono isolate dalle modifiche al modo in cui i dati sono strutturati e memorizzati.

Vi sono due tipi d’indipendenza dei dati:
* '''logica:''' i cambiamenti della struttura logica dei dati possono essere resi trasparenti agli utenti , cosi come la scelta delle relazioni da memorizzare
* '''fisica:''' lo schema logico isola gli utenti dai cambiamenti nei dettagli fisici di registrazione.

==Il modello relazionale==
===Cos'è===
Il '''modello relazionale''' è il modello logico più noto ed è quello che viene solitamente implementato in un DBMS. E' stato proposto da E. F. Codd nel 1970 per favorire l’indipendenza dei dati e reso disponibile in DBMS reali nel 1981. Si basa sul concetto matematico di '''relazione''', questo fornisce al modello una base teorica che permette di dimostrare formalmente proprietà di dati e operazioni.

Una relazione consiste in uno '''schema relazionale''' e nelle sue '''istanze di relazione'''. Lo schema specifica il nome della relazione, il nome di ogni campo, ed il dominio di ciascun campo. Un'istanza di relazione è la "realizzazione concreta" dello schema relazionale e può essere vista come una tabella con righe, dette tuple o record, divise in colonne (o campi) contenenti i dati. I campi di ciascuna tupla devono corrispondere per numero e tipo ai campi dello schema relazionale.

Il '''grado''' di una relazione è il numero dei campi presenti. La '''cardinalità''' di un'istanza di relazione è il numero di tuple in essa.

Una collezione d'istanze di relazione, una per ogni schema di relazione nello schema di una base di dati relazionale, forma un''''istanza della base di dati'''.

----

Il calcolo relazionale è un linguaggio d'interrogazione formale basato sulla logica matematica, e le interrogazioni in tale linguaggio hanno un significato preciso e intuitivo.

L’algebra relazionale è una forma di linguaggio formale basato su una relazione di operatori per manipolare le relazioni e ha la stessa potenza del calcolo.

Lo standard dei linguaggi SQL usa la parola table per indicare relazione.
CREATE TABLE, usato per definire una nuova tabella (CREATE TABLE Studenti )
CREATE TABLE < nome relazione >
(< specifica colonna > [, < specifica colonna > ]);
< specifica colonna >, ha il seguente formato
< nome colonna > < dominio > [DEFAULT < valore default >]
dove < dominio > è il dominio della colonna, ed è uno dei tipi di dato SQL;
< valore default > è un valore del dominio, assunto dalle tuple se nessun valore è specificato per la colonna.
INSERT, usato per inserire le tuple
INSERT
INTO R [(C…C°)]
{VALUES (e…e°)| sq};
(e…e°) è una lista di valori da assegnare alla nuova tupla, questi sono assegnati in base ad una corrispondenza posizionale
sq, è una sub-query
le tuple generate come risposta alla sq vengono inserite nella relazione R
la clausola di proiezioni di sq deve contenere colonne compatibili con le colonne di R a cui si assegnano valori
il dominio della colonna C(i=1,…., n) deve essere compatibile con il dominio della colonna i-esima contenuta nella clausola di proiezione di SQL.
Tutte le colonne non esplicitamente elencate ricevono il valore nullo o il valore di default.
DELETE, usato per cancellare le tuple
DELETE
FROM R[alias]
[WHERE F];
il nome della relazione può essere associato ad un alias se è necessario riferire a tuple di tale relazione una qualche sotto-interrogazione presente in F
se non viene specificata alcuna clausola di qualificazione vengono cancellate tutte le tuple.
UPDATE, usato per modificare i valori in una riga esistente
UPDATE R[alias]
SET C={e |NULL},…, C°={e° | NULL}
[WHERE F];
il nome della relazione può avere associato un alias se è necessario riferire tuple di tale relazione in una qualche sotto-interrogazione presente in F
C={e |NULL},…, C°={i=1 | NULL}, è un’espressione di assegnamento che specifica che alla colonna C, deve essere assegnato il valore dell’espressione e.
Questa può essere una costante, spesso funzione dei valori correnti delle tuple da modificare, o una sub-query
si può specificare che alla colonna sia assegnato il valore nullo.

===Integrità referenziale===

Integrità referenziale; rappresenta un importante vincolo d’integrità semantica. Difatti se una tupla t riferisce come valori di una chiave esterna i valori V1,….,Vn, allora deve esistere nella relazione riferita una tupla t° con valori di chiave V1,….,Vn.
VINCOLI DI CHIAVE è l’imposizione che un certo sottoinsieme minimale dei campi di una relazione sia un identificatore unico per una tupla. Un insieme di campi che identificano univocamente una tupla secondo un vincolo di chiave si chiama chiave candidata per la relazione, altresì chiamata chiave.
due tuple distinte in una istanza legale non possono avere valori uguali in tutti i campi di una chiave. In ogni istanza legale i valori nei campi chiave identificano univocamente una tupla di una istanza.
nessun sottoinsieme dell’insieme dei campi di una chiave è un identificatore unico della tupla.
Ogni relazione ha una chiave, e l’insieme di tutti i campi è una sottochiave. Se ci sono altri vincoli, alcuni sottoinsiemi dei campi possono formare una chiave, ma se ciò non si verifica l’insieme di tutti i campi è una chiave
Chiave primaria, si può far riferimento ad una tupla in qualunque parte della base di dati memorizzando i valori dai campi della sua chiave. Per definire una chiave primaria in SQL viene usato il comando PRIMARY KEY, mentre per dichiarare un sottoinsieme delle colonne di una tabella si usa UNIQUE. Nella scelta di una chiave primaria è meglio usarne una, candidata, che viene usata più frequentemente nelle interrogazioni.
Chiave esterna, deve essere uguale alla chiave primaria della relazione referenziata, cioè deve avere lo stesso numero di colonne e tipi di dati compatibili, sebbene i nomi delle colonne possano essere diversi. Se una relazione R ha trai suoi attributi un insieme di attributi che costituisce la chiave di una relazione R, allora tale insieme è una chiave esterna di R su R°. Queste chiavi permettono di collegare tra loro tuple di relazioni diverse e costituiscono un meccanismo, per valore, per modellare le associazioni tra relazioni. Quindi una tupla che deve riferire ad un’altra tupla include tra i suoi attributi uno o più di essi, il cui valore è quello della chiave della seconda tupla.
La presenza di NULL in una chiave esterna non viola il vincolo di chiave. Il comando in SQL è FOREIGN KEY che ha delle opzioni aggiuntive, sul come comportarsi una volta implementata la chiave esterna.
FOREIGN KEY(< lista nomi colonne >)
REFERENCES < nome relazione >
[ON DELETE { NO ACTION |
CASCADE | SET NULL | SET DEFAULT )}
[ ON UPDATE { NO ACTION |
CASCADE | SET NULL | SET DEFAULT )}
l’opzione predefinita è NO ACTION(l’azione deve essere ignorata).
CASCADE dice che se una riga viene cancellata, tutte le sue righe che la referenziano devono essere eliminate. Lo stesso vale per il caso di un UPDATE, dove l’aggiornamento viene propagato a ciascuna riga,
ON DELETE permette di specificare le azioni da eseguire nel caso di cancellazione di una tupla riferita tramite chiave esterna,
ON UPDATE permette di specificare le azioni da eseguire nel caso di modifica del valore di chiave di una tupla riferita tramite chiave esterna
Per default un vincolo viene verificato al termine di ogni istruzione SQL che potrebbe portare ad una violazione, e se questa ci fosse il comando viene rifiutato.
L’SQL permette di specificare che un vincolo sia in modalità DEFERRED o IMMEDIATE: SET CONSTRAINT vincolo DEFERRED.
Un’interrogazione di una base di dati relazionale è una domanda sui dati, e la risposta consiste in una nuova relazione contenente il risultato. Un esempio di query è:
SELECT*
FROM
WHERE
*significa che vogliamo tutti i campi delle tuple che compongono il risultato.
Una vista è una tabella le cui righe non sono esplicitamente memorizzate nella base dati, ma sono calcolate quando necessario in base a una definizione di vista.
Questa può essere usata come in una tabella di base per definire nuove interrogazioni o viste.
DROP TABLE, per eliminare una tabella e la sua forma è:
DROP TABLE < nome relazione >
{ RESTRICT | CASCADE };
se viene specificata l’opzione RESTRICT, la relazione viene cancellata solo se non è riferita da altri elementi dello schema della base di dati;
se viene specificata l’opzione CASCADE, la relazione e tutti gli elementi dello schema della base di dati che eventualmente la riferiscono vengono cancellati.
ALTER TABLE, modifica la struttura di una tabella esistente e la sua forma è:
ALTER TABLE < nome relazione > < modifica >;
< modifica > è la modifica da effettuare, tra l’aggiunta di una nuova colonna, modifica di una colonna e l’eliminazione.
ALGEBRA RELAZIONALE: linguaggio formale di interrogazione associato al modello relazionale. Le interrogazioni sono composte usando una collezione di operatori, e ognuno di questi deve accettare istanze di relazione come argomenti e restituisce un’istanza di relazione con risultato.
Invece un’espressione di algebra relazionale è ricorsivamente definita come una relazione, un operatore algebrico unario applicato ad una singola espressione o un operatore algebrico binario applicato a due espressioni.
Ogni interrogazione relazionale descrive una procedura passo-passo per calcolare la risposta desiderata, basandosi sull’ordine in cui gli operatori sono in essa applicati.
Selezione ; l’operatore di selezione specifica le tuple da mantenere attraverso una condizione di selezione. Questa è una combinazione Booleana di termini che hanno la forma attributo op costante oppure attributo1 op attributo2, dove op è uno degli operatori di confronto <,<=,=,=>,>,.
Proiezione ; l’operatore di proiezione invece ci permette di estrarre colonne da una relazione.
Le operazioni possibili sugli insiemi sono:
UNIONE, RS restituisce un’istanza di relazione contenente tutte le tuple presenti nell’istanza di relazione R oppure S. Due istanze sono dette compatibili rispetto all’unione quando:
1) hanno lo stesso numero dei campi;
2) campi corrispondenti hanno lo stesso dominio.
INTERSEZIONE, RS restituisce un’istanza contenente tutte le tuple presenti sia in R che in S
DIFFERENZA, R-S restituisce un’istanza contenente tutte le tuple presenti in R ma non in S. Le relazioni devono essere compatibili all’unione, e lo schema del risultato è identico a R
PRODOTTO CARTESIANO, RxS restituisce un’istanza di relazione il cui schema contiene tutti i campi di R seguiti da tutti i campi di S. Il risultato di RxS contiene una tupla |r,s|.
Rinomina , usato per rinominare le tabelle.
JOIN: usato per combinare informazioni da due o più relazioni. Un predicato di JOIN esprime una relazione che deve essere verificata dalle tuple risultato dell’interrogazione. Vi sono diversi tipi di join:
JOIN CONDIZIONALE; la versione più generale dell’operatore di join accetta una condizione di join c e un paio di istanze di relazione come argomenti e restituisce un’istanza di relazione.
c (RxS)
EQUIJOIN; lo si ha quando la condizione di join consiste solamente di uguaglianze della forma R.nome1=S.nome2. In questo caso mantenere entrambi gli attributi sarebbe ridondante come cosa. Per le condizioni di join che contengono solo queste uguaglianze l’operazione di join è completata con una ulteriore proiezione in cui S.nome2 viene scartato. Lo schema del risultato di un equijoin contiene i campi di R, seguiti dai campi di che non appaiono condizioni di join.
JOIN NATURALE; è un equijoin in cui le uguaglianze sono specificate su tutti i campi aventi lo stesso nome in R e S. Questo tipo di join gode della proprietà per cui il risultato è certamente privo di coppie di campi con lo stesso nome. C’è anche da dire che non corrisponde ad un operatore di NATURAL JOIN,dato che non si esegue alcuna proiezione, e lo scema risultante è quello del prodotto cartesiano. La sua forma è:
< nome relazione > NATURAL JOIN < nome relazione >
JOIN ESTERNI(pg99); questi si basano sui valori null, aggiungono al risultato le tuple R e S che non hanno partecipato al join, completandole con NULL,
R OUTER JOIN S
Esistono diverse varianti dell’OUTER JOIN;
1.FULL: sia le tuple di R che quelle di S che non partecipano al JOIN vengono completate ed inserite nel risultato,
2.LEFT: le tuple di R che non partecipano al JOIN vengono completate ed inserite nel risultato,
3.RIGHT: le tuple S che non partecipano al JOIN vengono completate ed inserite nel risultato.
CROSS JOIN; questi operatori poiché producono relazioni possono essere usati nella clausola FROM. È la forma di operatore JOIN più semplice che corrisponde al prodotto cartesiano. La sua sintassi è:
< nome relazione > CROSS JOIN < nome relazione >
DIVISIONE, l’operazione di divisione A/B è l’insieme di tutti valori di x(in forma di tuple unarie) tali che per ogni valore y in B, ci sia una tupla |x,y| in A. L’idea di fondo è di calcolare tutti i valori di x che non sono interdetti(un valore è interdetto se unendo a esso un valore y di B si ottiene una tupla |x,y| che non è in A).Le tuple interdette possono esser calcolate così: x(( x (A) x B) – A).

SQL:I linguaggi di basi dati come SQL permettono all’utente di specificare per quali relazioni e quali attributi è necessario mantenere l’integrità referenziale( e le azioni da eseguire in caso di violazione). La forma base di un’interrogazione SQL è:
SELECT [DISTINCT] lista-select
FROM lista-from
WHERE qualificazione
Lista-select, è una lista di nomi di colonne delle tabelle nominate nella lista-from. I nomi di colonne possono avere come prefisso una variabile di range.
Lista-from, è una lista di nomi di tabelle. Un nome di tabella può essere seguito da una variabile di range(questa è utile quando lo stesso nome di tabella appare più volte nella lista-from).
Qualificazione, è una combinazione booleana di condizioni nella forma espressione op espressione, dove op è uno degli operatori di confronto.
Ogni interrogazione deve avere una clausola SELECT, che specifica le colonne da includere nel risultato, e una clausola FROM, che specifica un prodotto cartesiano di tabelle. La clausola opzionale WHERE specifica condizioni di selezione sulle tabelle menzionate nella clausola FROM.
Se omettiamo la parola chiave DISTINCT, otterremo una copia della riga (v,e), e la risposta sarebbe un multi-insieme di righe.
Il processo d’interrogazione di un DB consta in:
caricamento della lista di attributi;
scarto delle tuple che non soddisfano la qualificazione;
eliminazione degli attributi che non sono nella lista-from.
Un multi-insieme è un simile ad un insieme, nel senso che è una collezione non ordinata di elementi, ma possono esserci diverse copie, e il numero di copie è significativo: due multi-insiemi possono avere gli stessi elementi e tuttavia essere diversi, poiché il numero di copie dello stesso elemento è diverso.
Tipi numerici esatti:
INTEGER; la precisione di questo tipo di dato è espressa in numero di bit, a seconda della specifica implementazione di SQL,
SMALLINT; l’unico requisito è che la precisione di questo tipo di dato sia non maggiore della precisione del tipo di dato INTEGER. Questo viene usato per eventuali ottimizzazioni in quanto i valori richiedono minore spazio di memorizzazione,
BIGINT; l’unico requisito è che la precisione di questo tipo di dato sia non minore della precisione del tipo di dato INTEGER,
NUMERIC; caratterizzato da una precisione(numero totale di cifre) e una scala(numero di cifre dopo la virgola), il valore default per la precisione è 1 e per la scala è 0,
DECIMAL; simile a NUMERIC, ma la specifica di questo tipo di dato ha la forma: DECIMAL[(precisione[,scala])].
Tipi numerici approssimati:
REAL; rappresenta valori reali a singola precisione in virgola mobile, e la precisione dipende dalla specifica implementazione si SQL,
DOUBLE PRECISION; rappresenta valori reali a doppia precisione in virgola mobile, e questa dipende sempre dall’implementazione di SQL(però deve essere maggiore della precisione di tipo REAL),
FLOAT; rappresenta valori reali alla precisione desiderata, ed ha la forma FLOAT[(precisione)]. La precisione minima specificabile è 1.
Tipi di dato carattere:
CHARACTER; rappresenta stringhe di caratteri di lunghezza predefinita, spesso abbreviato in CHAR. La specifica ha il formato CHAR[(n)], con n lunghezza delle stringhe. E’ possibile usare come valore una stringa di lunghezza inferiore a n, che viene completata con spazi fino a raggiungere tale lunghezza,
CHARACTER VARYING; rappresenta stringhe di caratteri di lunghezza massima predefinita. Spesso abbreviato in VARCHART, e la sua forma è VARCHART(n), dove n è la lunghezza massima delle stringhe.
Tipi di dato temporali:
DATE; rappresenta le date espresse come anno(4cifre), mese(2cifre) e giorno(2cifre),
TIME; rappresenta i tempi espressi come ora(2cifre), minuto(2cifre) e secondo(2cifre),
TIMESTAMP; rappresenta una “concatenazione” fra DATE e TIME. Permette di rappresentare timestamp che consistono in: anno, mese, giorno, ora, minuto, secondo e microsecondo,
INTERVAL; rappresenta una durata temporale in riferimento ad uno o più qualificatori. I valori di questo tipo son rappresentati dalla parola chiave INTERVAL seguita da una stringa che esprime la durata in termini di uno o più qualificatori. Se sono presenti due qualificatori, il primo è più ampio del secondo e sono separati dalla parola chiave TO.
Tipo di dato:
BOOLEAN; i valori di tali tipo sono TRUE, FALSE, UNKNOWN(questo viene introdotto per la gestione dei confronti con valori nulli,
CHARACTER LARGE OBJECT(CLOB); permette di rappresentare sequenze di caratteri di elevate dimensioni,
BINARY LARGE OBJECT(BLOB); permette di rappresentare sequenze di bit di elevate dimensioni.
E’ possibile convertire un valore ad un altro tipo mediante l’operatore di CAST
CAST (e) AS < tipo target >
AS: per introdurre una variabile di range.
I nomi delle tabelle possono essere implicitamente usati come variabili in linea. Si ha la necessità di introdurre esplicitamente le variabili di range solo quando la clausola FROM contiene più di una occorrenza di una relazione. Se una variabile di range è stata introdotta nella relazione, un nome di tabella non può essere usato come variabile di range esplicita.
Ogni elemento in una lista-select può essere della forma espressione AS nome_colonna ( questo è il nuovo nome che la colonna avrà nel risultato dell’interrogazione. Inoltre, ogni termine in una qualificazione può anche essere rappresentato nella forma generale espressione1 = espressione2.
L’SQL permette il pattern matching, su valori di tipo stringa, attraverso l’uso dell’operatore LIKE, insieme all’uso dei caratteri jolly %( zero o più caratteri qualunque) e ( esattamente un carattere qualunque). Quindi “AB%” denota una qualunque stringa che contiene almeno tre caratteri, con il secondo ed il terzo uguali a A e B.
SQL fornisce tre comandi per la manipolazione degli insiemi che estendono la forma d’interrogazione basilare, e sono:
UNION, restituisce tutte le tuple distinte restituite da almeno una delle sotto-interrogazioni a cui è applicato. Se si usa la clausola ORDER BY, questa deve essere usata una sola volta alla fine dell’interrogazione e non alla fine di ogni SELECT,
INTERSECT, corrisponde all’intersezione, restituisce le tuple restituite da entrambe le sotto interrogazioni a cui è applicato.
EXCEPT, corrisponde alla differenza, e restituisce le tuple della seconda sotto-interrogazione a cui è applicato.
Questo linguaggio fornisce anche altre operazioni sugli insiemi:
IN, per controllare se un elemento è in un dato insieme. C IN(v,….v°), nella forma negata C NOT IN(v,….v°).
ANY
ALL, per confrontare un valore con gli elementi di un dato insieme, usando l’operatore di confronto op
EXISTS, per controllare se un insieme è vuoto.
BETWEEN, permette di determinare le tuple che contengono in un dato attributo valori in un intervallo dato. C BETWEEN v AND v° , nella forma negata invece C NOT BETWEEN v AND v°,
ABS(N); calcola il valore assoluto del valore numerico N,
MOD(n,b); calcola il resto intero della divisione n per b.
UNION, INTERSECT ed EXCEPT possono essere usati su qualsiasi coppia di tabelle che siano compatibili rispetto all’unione, cioè che abbiamo lo stesso numero e tipo di colonne.
Nel caso si UNION i duplicati vengono eliminati automaticamente. Per mantenerli è necessario aggiungere ALL (UNION ALL). Lo stesso discorso vale per INTERSECT ed EXCEPT.
Espressioni e funzioni: un’espressione usata nella clausola di proiezione di un’interrogazione, dà luogo ad una colonna, detta virtuale, non presente nella relazione su cui si effettua l’interrogazione.
Le colonne virtuali non sono fisicamente memorizzate, ma sono calcolate dinamicamente come risultato dell’esecuzione dell’interrogazione.
Espressioni e funzioni per stringhe:
Operatore di concatenazione denotato da ||,
LENGHT(str), restituisce la lunghezza della stringa str, in numero di caratteri,
UPPER(str) e LOWER(str), trasformano la stringa str in caratteri tutti maiuscoli o tutti minuscoli, rispettivamente,
SUBSTR(str, m,[n]), estrae dalla stringa str la sottostringa dal carattere di posizione m per una lunghezza n,
TRIM[str°] FROM str, elimina dalla stringa str° i caratteri in str.
Un’interrogazione annidata è un’interrogazione che al suo interno ha un’altra interrogazione. Questa solitamente appare nella clausola WHERE, o anche in FROM o HAVING. Se una sub-query scalare restituisce più di una tupla si genera un errore di run-time, e se nessuna tupla verifica la sotto-interrogazione, viene restituito il valore NULL.
E’ anche possibile selezionare più di una colonna tramite sotto-interrogazioni, in tal caso è necessario apporre delle parentesi alla lista delle colonne a sinistra dell’operatore di confronto. Ad esempio, voglio elencare gli impiegati con la stessa mansione di Martini;
SELECT Nome FROM Impiegati
WHERE(Mansione, Stipendio) = (SELECT
Mansione, Stipendio FROM Impiegati
WHERE Nome = “Martini”);
Una sub-query può contenere a sua volta un’altra sub-query. E’ possibile definire sotto-interrogazioni che sono eseguite ripetutamente per ogni tupla candidata considerata nella valutazione dell’interrogazione esterna, e ogni volta che questa considera una tupla candidata, deve invocare la sotto-interrogazione. Questo tipo viene chiamato correlato, dato che ogni esecuzione è correlata al valore di uno o più attributi delle tuple candidate nell’interrogazione principale. Per poter fare riferimento alle colonne delle tuple candidate nell’interrogazione esterna si fa uso degli alias di relazione(questo è definito nell’interrogazione esterna e riferito nella sotto-interrogazione correlata. Sono utili quando si vuole fare riferimento a due diverse tuple della stessa relazione.).
UNIQUE, quando applichiamo questo comando ad una sotto-interrogazione, la condizione che ne risulta ritorna vero se nessuna riga appare due volte nella risposta all’interrogazione, se non ci sono duplicati. Ritorna vero se la risposta è vuota.
Operatori di aggregazione:
COUNT ([DISTINCT] A) , è numero di valori unici della colonna A,
SUM ([DISTINCT] A) , la somma di tutti i valori unici nella colonna A,
AVG ([DISTINCT] A) , la media di tutti i valori unici nella colonna A,
MAX (A) , il valore massimo della colonna A,
MIN (A) , il valore minimo della colonna A.
Non ha senso specificare DISTINCT insieme a MIN e MAX.
Le clausole GROUP BY e HAVING;
SELECT [DISTINCT] lista-select
FROM lista-from
WHERE qualificazione
GROUP BY lista gruppo
HAVING qualificazione gruppo.
La lista-select consiste di una lista di nomi di colonne e una lista di termini della forma aggop(nome-colonna) AS nuovo-nome. Ogni colonna che appare nella lista dei nomi deve apparire nella lista-gruppo.
Le espressioni che compaiono nella qualificazione gruppo della clausola HAVING devono avere un singolo valore per gruppo. L’idea di base è che la clausola HAVING ( può essere una combinazione Booleana di predicati, i quali tuttavia possono solo coinvolger funzioni di gruppo) determina se per ogni gruppo dato debba essere generata una riga della risposta.
Un’importante restrizione ci dice che una clausola di protezione di una query contenente GROUP BY può includere solamente:
una o più colonne tra le colonne che compaiono nella suddetta clausola,
funzioni di gruppo(che possono apparire in funzioni aritmetiche).
Le funzioni di gruppo permettono di estrarre informazioni da gruppi di tuple invece di una relazione, queste si basano su due concetti:
il partizionamento delle tuple di un relazione in base al valore di uno o più colonne della relazione,
il calcolo della funzione di gruppo per ogni gruppo ottenuto col partizionamento.
Una funzione di gruppo ha come argomento una colonna e si applica all’insieme dei valori di questa colonna, estratti dalle tuple che appartengono allo stesso gruppo.
E’ possibile applicare queste funzioni senza partizionamento e in tal caso saranno applicate ad un unico gruppo contente tutte le tuple della relazione.
Se GROUP BY viene omesso l’intera tabella viene vista come un singolo gruppo
COUNT, se questo non include DISTINCT, allora COUNT(*) dà la stessa risposta di COUNT(x), dove x è un qualunque insieme di attributi.
L’SQL fornisce un valore di colonna speciale chiamato null da usare quando il valore della colonna è sconosciuto oppure inapplicabile.
Possiamo impedire l’uso dei valori null specificando NOT NULL come parte della definizione dei campi. Inoltre i campi in una chiave primaria non posso assumere valori null, quindi vi è un vincolo di NOT NULL, implicito per ogni campo elencato in un vincolo di PRIMARY KEY.
Si può specificare vincoli sulla tabella usando vincoli di tabella, che hanno la forma CHECK espressione-condizionale.
In un comando CREATE TABLE, la clausola CHECK può comparire;
di seguito alla definizione di una colonna ( vincoli di CHECK su colonna )
come clausola separata dall’interno della definizione della relazione ( vincoli CHECK su relazione ).
Specificando un vincolo CHECK vogliamo che ogni tupla nella relazione soddisfi la condizione. E’ consigliabile esprimere tramite CHECK solo le condizioni che devono essere verificate da ogni singola tupla della relazione cui associamo il vincolo.
E’ possibile assegnare nome ai vincoli associati alle definizioni di relazione facendo seguire la specifica del vincolo nella parola chiave CONSTRAINT e dal nome. Difetti specificare un nome per tutti i vincoli è utile per potersi poi riferire ad essi.
Le asserzioni servono per esprimere vincoli di integrità che coinvolgono più tuple o relazioni, e vengono così formulate:
CREATE ASSERTION < nome asserzione >
CHECK(< condizione >).
I vincoli di una tabella sono associati ad una tabella singola. Il soddisfacimento di questi vincoli è richiesto solo se la tabella associata è vuota, quando un vincolo coinvolge due o più tabelle, il meccanismo di vincoli sulle tabelle è in qualche modo anomalo, e non ciò che si desidera.
Un trigger è una procedura che viene eseguita dal DBMS in risposta a specifici cambiamenti nella base di dati ed è definita dal DBA. Questi son divisi in tre parti:
evento: un cambiamento nella base di dati che attiva il trigger;
condizione: un’interrogazione o un test che viene eseguito quando il trigger è attivato;
azione; procedura che viene eseguita quando il trigger è attivato e la sua condizione è verificata.
Una condizione di trigger può essere un comando vero/falso oppure un’interrogazione. Questa viene interpretata come vero se l’insieme di risposta non è vuoto, falso se l’opposto. L’azione di un trigger può esaminare la risposta all’interrogazione nella parte condizionale dei trigger , fare riferimento a valori vecchi e nuovi delle tuple modificate dal comando che ha attivato il trigger, eseguire nuove interrogazioni e apportare cambiamenti alla base di dati.

Progettazione di una base dati:
1)Analisi dei requisiti: il primissimo passo nella progettazione è capire quali dati devono essere memorizzati, quali applicazioni devono essere costruite su di essi e quali operazioni sono più frequenti e soggette a requisiti prestazionali.
2)Progettazione concettuale della base di dati: le informazioni raccolte nel passo di analisi dei requisiti vengono usate per elaborare una descrizione ad alto livello dei dati da memorizzare. Questo passo è sviluppato usando il modello entità-relazione, il quale fa parte di una famiglia di diversi modelli di dati ad alto livello, o semantici, usati nella progettazione delle basi di dati. Lo scopo è creare una semplice descrizione dei dati che approssimi il modo in cui utenti e sviluppatori pensano ad essi.
3)Progettazione logica della base dati: dobbiamo scegliere un DBMS per implementare in nostro progetto, e convertire la progettazione concettuale in uno schema nel modello del DBMS scelto. La traduzione non è sempre univoca.
4)Raffinamento dello schema: analizzare l’insieme di relazioni del nostro schema relazionale per identificare potenziali problemi, e a rifinirlo.
5)Progettazione fisica della base di dati: consideriamo i carichi di lavoro attesi che la nostra base di dati dovrò sopportare, e raffiniamo il progetto per garantire che esso soddisfi i criteri di prestazioni richieste. Questo può consistere nella costruzione di indici su qualche tabella e nel raggruppamento di alcune tabelle, oppure può coinvolgere una riprogettazione sostanziale di intere parti dello schema ottenuto precedentemente.
6)Progettazione delle applicazioni e della sicurezza.
Una entità è un oggetto nel mondo reale che si distingue da altri progetti. Vi sono anche insiemi di entità, e questi non hanno bisogno di essere disgiunti. Un entità è anche un’astrazione della realtà la cui informazione è indipendente dal dominio in cui l’entità è utilizzata. Invece un’istanza di entità sono specifici oggetti appartenenti ad una certa entità.
Un’entità è descritta usando un insieme di attributi. Tutte le entità di un dato insieme hanno gli stessi attributi: questo è ciò che s’intende con simili. La coppia (nome_di_attributo, dominio) viene chiamata attributo e ogni entità è caratterizzata da uno o più attributi(i quali possono essere monovalore, multivalore e compositi).
Per ogni attributo associato ad un insieme di entità, dobbiamo definire un dominio di valori possibili. Vi son diversi tipi di domini:
semplice, sono domini standard(interi, reali, booleani…), con intervalli ed insiemi di valori definiti per enumerazione dall’utente,
composti, l’insieme dei valori è dato dal prodotto cartesiano degli insiemi di valori associati ai domini componenti. Servono per associare un dominio agli attributi composti.
Le informazioni sui domini i un attributo non sono direttamente rappresentabili in un diagramma ER, sono però fondamentali per una corretta progettazione logica.
Inoltre per ciascun insieme di entità useremo una chiave. Questa è un insieme minimale di attributi i cui valori identificano univocamente una entità dell’insieme. Potrebbe esserci più di una chiave candidata, e in questo caso ne designiamo una come chiave primaria. Una chiave non può avere valori nulli, in alcuni casi la chiave può essere soltanto una dove il sistema non permette di averne di più.

Gli attributi vengono rappresentati con degli ovali, e se sono sottolineati sono delle chiavi primarie mentre le entità sono dei rettangoli.
Una relazione è un’associazione tra due o più entità.
Come per le entità potremmo voler raccogliere un gruppo di relazioni simili in un insieme di relazioni. Questo può essere visto come un insieme di n-tuple:
{( e1,… en)  E1,…,en  En}
Ciascuna n-tupla denota una relazione che coinvolge n entità, da e1 a en, dove l’entità ei appartiene all’insieme di entità Ei.
Una relazione può anche avere attributi descrittivi, i quali son usati per registrare informazioni sulla relazione, piuttosto che su ciascuna delle entità partecipanti.
Un’istanza di un insieme di relazioni è un insieme di relazioni, questa può esser vista come una “fotografia” dell’insieme di relazioni di un certo istante.
Gli insiemi di entità che partecipano ad una relazione non devono necessariamente essere distinti: qualche volta una relazione può coinvolgere entità dello stesso insieme.
Ruolo, è la funzione che un’istanza di entità esercita nell’ambito di un’associazione, e nel caso di un’associazione unaria il ruolo è sempre necessario.
Il modello ER offre costrutti per definire:
vincoli di cardinalità, sia per associazioni che per attributi. Questi si dividono in cardinalità minima( numero minimo d’istanze di un’associazione a cui le istanze delle entità coinvolte nell’associazione possono partecipare) e cardinalità massima( numero massimo di un’associazione a cui le istanze dell’entità coinvolte nell’associazione posso partecipare).
Data un’entità E ed un’associazione A:
i.c_max=1, ogni istanza di E può partecipare a non più di un’istanza di A,
ii.c_max=c_min=1, ogni istanza i E partecipa ad una ed una sola istanza di A,
iii.c_min=0, c_max=n, ogni istanza di E può partecipare ad un numero qualsiasi di istanze di A, anche nessuna.
vincoli d’identificazione, per entità. Identificatori per un’entità: insieme di attributi e/o entità che identificano le istanze dell’entità. Un identificatore è minimale se qualsiasi sottoinsieme proprio non è un identificatore. Le entità deboli ha sempre cardinalità(1,1) rispetto all’associazione attraverso cui avviene l’dentificazione.
Uno a uno: se c_max di E e di E°, rispetto ad A è 1;
Uno a molti: se c_max di E rispetto ad A è n e c_max di E° rispetto ad A è 1, o viceversa. Un impiegato può essere associato a molti altri reparti.
Molti a molti: l’insieme di relazioni Lavora_in, in cui un impiegato può lavorare in diversi reparti e ogni reparto può avere diversi impiegati.
Insieme di entità deboli: se c_max di E e di E°, rispetto ad A è n. Questa viene identificata univocamente solo considerando alcuni attributi in congiunzione con la chiave primaria di un’altra entità, che è chiamata proprietario identificante. Devono valere queste condizioni:
l’insieme di entità proprietarie e l’insieme di entità deboli devono partecipare in un insieme di relazioni uno-a-molti. Questo insieme di relazioni è chiamato insieme di relazioni identificanti dell’insieme di relazioni deboli
l’insieme di entità deboli deve aver partecipazione totale nell’insieme di relazioni identificanti.
Per identificare che si ha un’entità debole si usa un tratto più spesso.
Mentre per indicare che si ha una chiave parziale si userà una sottolineatura a tratti.
La specializzazione è il processo con cui s’individuano sottoinsiemi di un insieme di entità(la superclasse) che condividono alcune caratteristiche distintive. Tipicamente, la superclasse viene definita per prima,poi le sottoclassi, ed infine si aggiungono gli attributi specifici e gli insiemi di relazioni.
La generalizzazione consiste nell’identificare alcune caratteristiche comuni a una collezione di insiemi di entità e creare un nuovo insieme di entità che contiene quelle entità che possiedono caratteristiche comuni. Le sottoclassi si definiscono per prime, poi le superclassi, e poi si aggiungono tutti gli insiemi di relazioni che coinvolgono la superclasse.
I vincoli di disgiunzione determinano se a due sottoclassi è premesso contenere la stessa identità.
I vincoli di copertura determinano se le entità di una sottoclasse includono, nel loro complesso tutte le entità della superclasse.
L’aggregazione ci permette di indicare che un insieme di relazioni partecipa in un altro insieme di relazioni. Ciò viene illustrato con un riquadro tratteggiato intorno all’insieme di relazioni.
L’uso di un modello di dati semantico di alto livello offre nella progettazione concettuale il vantaggio addizionale che il progetto ad alto livello può essere rappresentato con diagrammi e facilmente compreso dalle molte persone che devono fornire informazioni utili al processo progettuale.
L’approccio normale consta nel considerare le necessità dei vari gruppo di utenti, risolvere i conflitti e generare un singolo insieme di requisiti. Un altro tipo di approccio consiste nello sviluppare schemi concettuali separati per i diversi gruppi di utenza, per poi integrarli. Per fare ciò si deve stabilire le corrispondenze tra le entità, le relazioni e gli attributi, e risolvere diversi tipi di conflitti.

Un insieme di entità è tradotto in una relazione in maniera molto semplice: ogni attributo di un insieme di entità diventa un attributo della tabella.
Per rappresentare una relazione, dobbiamo potere identificare ciascuna entità partecipante, e dare valori agli attributi descrittivi della relazione, quindi:
gli attributi della chiave primaria di ciascun insieme di entità partecipante, come campi di chiavi esterne
gli attributi descrittivi dell’insieme di relazioni.
Se un insieme di relazioni coinvolge n insiemi di entità, e m di essi sono collegati con frecce ne diagramma ER, la chiave per ciascuno di questi m insiemi costituisce una chiave per la relazione in cui l’insieme è tradotto. Quindi abbiamo m chiavi candidate, e una di queste dovrebbe essere scelta come chiave primaria.
Un secondo approccio per tradurre un insieme di relazioni con vincoli di chiave si rivela spesso migliore, perché evita di creare una tabella distinta per l’insieme di relazioni.
L’idea è di includere le informazioni sull’insieme di relazioni nella tabella corrispondente all’insieme di entità con la chiave, sfruttando il vincolo di chiave.
Lo svantaggio in questo è che potrebbe esserci uno spreco di spazio. In tal caso i campi aggiunti dovrebbero essere riempiti con valori null. La prima traduzione evita questa inefficienza, ma alcune interrogazioni importanti richiedono di combinare informazioni da due relazioni, il che può essere un operazione lenta.
Un insieme di entità deboli partecipa sempre in una relazione binaria uno-a-molti e ha vincoli di chiave e di partecipazione totale. Questa ha solo una chiave parziale, e quando un’entità proprietaria viene cancellata, vogliamo che vengano eliminate anche le entità deboli collegate.

==PROGETTAZIONE CONCETTUALE==

La progettazione concettuale di una base di dati ci fornisce un insieme di schemi di relazione e VI che possono essere considerati un buon punto di partenza per il progetto finale. Permette di rappresentare i dati in modo indipendente da ogni sistema, cercando di descrivere i concetti del mondo reale.
Presentiamo ora una panoramica sui problemi che il raffinamento degli schemi intendo risolvere:
problemi causati dalla ridondanza: memorizzare la stessa informazione in maniera ridondante, cioè in diversi posti all’interno della stessa base di dati può portare a diversi problemi:
memorizzazione ridondante;
anomalie da aggiornamento, se una coppia di questi dati ripetuti viene aggiornata si crea un’inconsistenza, a meno di aggiornare anche tutte le altre copie;
anomalie da inserimento, potrebbe non essere possibile registrare certe informazioni, a meno di inserire anche qualche altra informazione non correlata;
anomalie di cancellazione.
Idealmente vorremmo degli schemi che non permettano ridondanza, ma quanto meno vogliamo poter identificare gli schemi che lo permettono:
valori null: questi non possono fornire una soluzione completa, ma possono aiutare. Questi valori possono essere utili per le anomalie da inserimento e cancellazione.
decomposizione, la ridondanza nasce quando uno schema relazionale forza una associazione tra attributi che non è naturale. Le dipendenze funzionali possono essere usate per identificare tali situazioni e per suggerire raffinamenti dello schema. Molti problemi che nascono dalla ridondanza possono essere risolti sostituendo una relazione con una collezione di relazioni “più piccolo”. Una decomposizione di uno schema di relazione r consiste nella sostituzione della schema di relazione con due(o più) schemi di relazione ciascuno dei quali contiene un sottoinsieme di attributi di R, e la cui unione include tutti tali attributi. Noi vogliamo memorizzare le informazioni in ogni data istanza di r memorizzandone le proiezioni. Se non si sta attenti con la decomposizione si possono creare più problemi di quanti se ne vogliano.
la proprietà senza perdita(lossless join) ci permette di recuperare qualunque istanza di una relazione decomposta a partire dalle corrispondenti istanze delle relazioni componenti tramite operazioni di join;
la proprietà di conservazione delle dipendenze ci consente di mantenere qualunque vincolo della relazione originaria semplicemente imponendo alcuni vincoli su ciascuna delle relazioni componenti. Ossia non abbiamo bisogno di effettuare join delle relazioni più piccolo per controllare se viene violato un vincolo della relazione originale.
La decomposizione potrebbe migliorare le prestazioni, nel caso in cui la maggior parte delle interrogazioni degli aggiornamenti esaminano solo una delle relazioni componenti, che è più piccola della relazione originale.
Dipendenze funzionali: DF è un tipo di VI che generalizza il concetto di chiave. Sia R uno schema di relazione e siano X e Y insiemi non vuoti di attributi di R, diciamo che un’istanza r di R soddisfa la DF X  Y (si legge X determina funzionalmente Y, o X determina Y) se per ogni coppia di tuple t1 e t2 in r vale al seguente:
se t1.X = t2.X , allora t1.Y = t2.Y
Una DF X  Y essenzialmente dice che se due tuple coincidono sui valori dell’attributo X, devono anche avere lo stesso valore per l’attributo Y.
Un’istanza legale di una relazione soddisfare tutti i VI specificati. Quindi guardando l’istanza di una relazione, potremmo essere in grado di dire che una certa DF non è valida, però non possiamo mai dedurre che una DF è valida solo guardando una o più istanza di una relazione, perché una DF, diversamente da un VI, è un’affermazione su tutte le possibili istanze legali di una relazione.
La definizione di una DF non richiede che l’insieme X sia minimale: l’ulteriore condizione di minimalità deve essere soddisfatta perché X sia una chiave. Se vale X  Y, dove Y è l’insieme di tutti gli attributi, ed esiste qualche sottoinsieme X di tale che V  Y, allora X è una superchiave.
Diciamo che una DF f è implicata da un dato insieme F di DF se f vale su ogni istanza di relazione che soddisfa tutte le dipendenze in F, f vale ogni volta che tutte le DF valgono in F.
Chiusura di un insieme di DF, l’insieme di tutte le DF implicate in un dato insieme F di DF è detto chiusura di F, denotato come F+. Come possiamo inferire(calcolare la chiusura di un dato insieme)?
Con gli Assiomi si Armstrong, i quali possono essere applicati per inferire tute le DF implicate da un insieme F di DF.
riflessività, se X  Y, allora X  Y;
aumento, se X  Y allora XZ  YZ per ogni Z;
transitività, se X  Y e Y  X, allora X  Z.
Teorema 1  gli assiomi di Armstrong sono corretti, nel senso che generano solo DF in F+ quando sono applicati a un insieme F di DF. Sono anche completi, nel senso che ripetute applicazioni di queste regole generano tutte le DF nella chiusura F+.
Quando si parla di F+ conviene usare alcune regole addizionali:
unione: se X  Y e X  Z, allora X  YZ;
decomposizione: se X  YZ, allora X  Y e X  Z.
in una DF banale, la parte destra contiene solo attributi che appaiono anche nella parte sinistra; tali dipendenze valgono sempre per via della riflessività. Usando questa possiamo generare tutte le dipendenze banali, che hanno la forma:
X  Y, dove Y  X, X  ABC e Y  ABC.
Dalla transitività otteniamo A  C.
Dall’aumento otteniamo le dipendenze non banali:
AC  BC, AB  AC, AB  CB.
Chiusura degli attributi, se volgiamo controllare se una data dipendenza, diciamo X  Y, è nella chiusura di un insieme F di DF, possiamo farlo in maniera efficiente senza calcolare la chiusura stessa.
Prima troviamo la chiusura degli attributi X+ rispetto a F, che è l’insieme degli attributi A tali che X  A può essere derivata usando gli Assiomi di Armstrong. Questo è l’algoritmo di calcolo:
chiusura = X;
ripeti fin quando non ci sono più cambiamenti: {
se c’è una DF U  V in F tale che U  chiusura,
allora chiusura = chiusura  V
}
Teorema 2 l’algoritmo mostrato calcola la chiusura dell’insieme X di attributi rispetto all’insieme F delle DF.
Forme normali, dato uno schema di relazione, abbiamo bisogno di decidere se esso sia un buon progetto o se c’è necessità di decomporlo in relazioni più piccole. Una tale decisione deve essere guidata dalla comprensione di quali problemi sono presenti nello schema corrente.
Le forme normali basate su DF sono la prima forma normale (1NF), la seconda(2NF), la terza(3NF) e la forma normale di Boyce-Codd(BCNF).
Una relazione è nella 1NF se ogni campo contiene solo valori atomici, cioè niente liste o insiemi. La 2NF ha un interesse storico. La 3NF e la BCNF sono importanti dal punto di vista della progettazione di una base di dati.
forma normale di Boyce-Codd, sia R uno schema di relazione, F sia l’insieme delle DF date su R, X sia un sottoinsieme degli attributi di R, e A un attributo di R. R è nella BCNF se per ogni DF X  A in F vale una delle seguenti asserzioni:
A  X, cioè è una DF banale,
X è una superchiave.
In una relazione in BCNF le sole dipendenze non banali sono quelle in cui una chiave determina alcuni attributi. Perciò ogni tupla può essere vista come un’entità o relazione, identificata da una chiave e descritta dai restanti attributi.
La BCNF assicura che nessuna ridondanza può essere rilevata usando solo le informazioni delle DF. Quindi è la più desiderabile delle forme normali, se prendiamo in considerazione solo le informazioni delle DF.
Se X è una chiave, allora y1=y2, il che significa ce le due tuple sono identiche. Poiché una relazione è definita come un insieme di tuple, non possiamo avere due copie della stessa tupla.
Se una relazione è in BCNF, ogni campo di ciascuna tupla registra una parte d’informazione che non può essere dedotta dall’istanza della relazione.
terza forma normale, sia R uno schema di relazione, F l’insieme delle DF date su R, X un sottoinsieme degli attributi di R, e A un attributo di R. R è in 3NF se per ogni DF X  A in F vale:
A  X, cioè è una DF banale
X è una superchiave
A fa parte di una chiave di R.
Supponiamo che una dipendenza X  A provochi una violazione della 3NF, sono possibili due casi:
1)X è un sottoinsieme proprio di qualche chiave K. Questa viene chiamata dipendenza parziale e viene memorizzato la coppia (X,A) in maniera ridondante.
2)X non è un sottoinsieme proprio di una chiave. Una tale dipendenza è a volte chiamata dipendenza transitiva, perché significa che abbiamo una catena di dipendenze K  X  A. Il problema è che non possiamo associare un valore X con un valore K a meno di associare anche un valore A con un valore X.
Nella 3NF è possibile qualche ridondanza. I problemi associati alle dipendenze parziali e transitive persistono se c’è una dipendenza non banale X  A e X non è una superchiave, anche se la relazione è nella forma 3NF perché A è parte di una chiave.
Proprietà delle decomposizioni;
- decomposizioni senza perdita, sia R uno schema di relazione e sia F un insieme di DF su R: una decomposizione di R in due schemi con insiemi di attributi X e Y si dice decomposizione senza perdita rispetto a F se per ogni istanza r di R che soddisfa le dipendenze in F, x(r) >< y ( r ) = r. Possiamo tornare alla relazione originale a partire dalle relazioni della decomposizione.
Tutte le decomposizioni usate per eliminare la ridondanza devono essere senza perdita d’informazione.
Teorema 3 sia R una relazione e F un insieme di DF che valgono su R. la decomposizione di R in due relazioni con insiemi di attributi R1 e R2 è senza perdita d’informazione se e solo se F+ contiene la DF R1R2 R1 oppure la DF R1R2 R2.
- decomposizione con conservazione delle dipendenze, permette di applicare tutte le DF esaminando una singola istanza di relazione su ciascun inserimento o modifica di una tupla.

==SQL==

L’uso di comandi SQL in un programma scritto in un linguaggio ospite è chiamato SQL incapsulato, o embedded SQL.
I comandi SQL possono essere usati nel linguaggio ospite ovunque sia permesso. Ogni variabile del compilatore di quel linguaggio, usata per passare argomenti ad un comando SQL, deve essere dichiarata in SQL.
Devono essere dichiarate alcune variabili speciali del linguaggio ospite. Vi sono due complicazione di cui tener conto:
i tipi di dati riconosciuti da SQL potrebbero non essere riconosciuti dal linguaggio ospite, e viceversa,
SQL è orientato agli insiemi, quindi si passa all’uso dei cursori. I comandi operano su tabelle e producono tabelle, cioè insiemi.
I comandi possono far riferimento a variabili definite nel programma ospite, queste però devono essere precedute da due punti (:) nei comandi SQL, e devono essere dichiarate tra i comandi EXEC SQL BEGIN DECLARE SECTION ed EXEC SQL END DECLARE SECTION.
Si può pensare ad un cursore come se “puntasse” ad una riga nella collezione di risposte dell’interrogazione cui è associato. Quando un cursore viene aperto si posiziona appena prima della prima riga. Possiamo usare il comando FETCH per leggere la prima riga del cursore nelle variabili del linguaggio ospite.
Quando questo viene eseguito, il cursore viene posizionato per puntare alla riga successiva( che è la prima riga della tabella quando FETCH è eseguito per la prima volta dopo l’apertura del cursore) e i valori delle colonne nella riga sono copiarti nelle corrispondenti variabili ospiti. Eseguendo ripetutamente questo comando FETCH possiamo leggere tutte le righe calcolate dall’interrogazione, una alla volta.
Quando abbiamo finito col cursore usiamo il comando CLOSE.
Proprietà dei cursori, la forma generale della dichiarazione di un cursore è:
DECLARE nome_cursore [INSENSITIVE] [SCROLL] CURSOR
[WITH HOLD]
FOR qualche interrogazione
[ORDER BY lista-ordinamento]
[FOR READ ONLY | FOR UPDATE]
Un cursore può essere dichiarato di sola lettura (FOR READ ONLY) oppure, se è definito su una relazione di base o una vista aggiornabile(FOR UPDATE).
Se è aggiornabile, semplici varianti dei comandi UPDATE e DELETE ci permettono di aggiornare o cancellare la riga su cui il cursore è posizionato
Un cursore è aggiornabile per default a meno che nella sua definizione sia stato specificato SCROLL e INSENSITIVE, nel qual caso è di sola lettura.
SCROLL;il cursore è scorrevole, quindi le varianti del comando FETCH possono essere usate per posizionarlo in maniera molto flessibile; altrimenti è consentito il solo comando FETCH di base, che sposta il cursore alla riga successiva.
INSENSITIVE;il cursore si comporta come se si muovesse su una copia privata della collezione di righe della risposta. Altrimenti per impostazione predefinita, le azioni di qualche altra transazione potrebbero modificare tali righe, creando comportamenti non prevedibili.
Un cursore mantenibile viene specificato con la clausola WITH HOLD, e non è chiuso quando la transazione termina. Se una qualunque transazione viene interrotta il sistema, potenzialmente, deve rifare parecchio lavoro. Quindi l’alternativa è spezzare la transazione in diverse transazioni, più piccole, ma ricordare la posizione nella tabella è complicato e soggetto a errori.
ORDER BY; può essere usata per specificare un ordinamento. La lista-ordinamento è una lista di voci di ordinamento(nome di colonna), eventualmente seguito da una delle parole chiave ASC e DESC. Ogni colonna menzionata nella clausola ORDER BY deve apparire anche nella lista-selezione dell’interrogazione associata al cursore; altrimenti non è chiaro su quali colonne effettuare l’ordinamento.
SQL dinamico; i due comandi principali sono PREPARE e EXECUTE:
char c_stringaSQL[] = {“DELETE FROM Velisti WHERE esperienza > 5”};
EXEC SQL PREPARE pronto FROM: c_stringaSQL;
EXE SQL EXECUTE pronto;
1)il primo comando dichiara la variabile C c_stringaSQL e ne imposta il valore ad una rappresentazione stringa di un comando di SQL.
2)la seconda istruzione fa sì che tale stringa venga esaminata e compilata come comando SQL, con l’eseguibile risultante legato alla variabile pronto
3)la terza istruzione esegue il comando.
La preparazione di un comando SQL dinamico avviene durante l’esecuzione, che ne risulta appesantita. I comandi dell’SQL interattivo e dell’SQL incapsulato possono essere preparati una volta per tutte al momento della compilazione, e poi ri-eseguiti quanto si vuole. Di fatti si deve limitare l’uso dell’SQL dinamico a quelle situazioni in cui è essenziale.

==MIR SYSTEM==

Lo scopo di questi sistemi è di permettere a qualsiasi utente di eseguire ricerche su tutta la musica esistente, attraverso interfacce con cui poter sottomettere al sistema descrizioni esaustive, nel modo più naturale possibile fornendo applicazioni utili a collegare e manipolare l’informazione ritornata dal sistema.
L’informazione musicale può essere descritta attraverso sette aspetti(Downie);
1.Pitch Facet; la qualità del suono percepita che è principalmente una funzione della sua frequenza fondamentale.
Rappresentazione del pitch:
note sul pentagramma,
nome A, B,C#,
pitch class number 0, 1, 2,
solfeggio do, re mi.
Intervallo: è la differenza tra due pitch espressa in semitoni o attraverso la sua caratteristica tonale determinata dalla posizione dei due pitch nella sintassi tradizionale.
Melodia: insieme di pitch o intervalli percepiti in modo sequenziale bel tempo.
Chiave: viene considerato come sub-aspetto del pitch. I due contorni melodici sono presi percettivamente equivalenti, nonostante il fatto che sia diverso il loro pitch assoluto.
Contorno melodico: il pattern degli intervalli.
2.Temporal Facet: informazione relativa alla durata degli eventi musicali che include:
i.Metrica
ii.Indicatori di tempo
iii.Durata del pitch
iv.Accenti
v.Durata armonica
Questi elementi costituiscono la parte ritmica del brano(questo può essere rappresentato in diversi modi, ognuno dei quali definisce uno stesso risultato)
Pause: possono essere considerate indicatori della durata degli eventi musicali che non contengono pitch.
Informazione temporale: può essere:
Assoluta ( metronomo ),
Generale ( adagio, forte ),
Relativo ( schneller, langsamer ),
Temporal distorsion ( rubato, rallentando ).
3.Harmonic Facet: quando due o più pitch suonano simultaneamente, definita anche come polifonia. Interazione tra pitch e aspetto temporale per creare la polifonia ( caratteristica fondamentale della musica occidentale).
Gli eventi armonici , sebbene presenti nella partitura, non solo sempre indicati esplicitamente. La mente umana può percepire un accordo, nonostante la presenza di note “extra”.
4.Timbral Facet: comprende tutti gli aspetti del colore del tono. La distinzione tra una nota suonata da un flauto ed un clarinetto è causata dalla differenza del timbro. Fanno parte di questo aspetto le informazioni sulla composizione dell’orchestra, e anche l’enumerazione degli strumenti.
5.Editorial Facet: istruzioni sull’esecuzione( diteggiatura, ornamenti, istruzioni dinamiche, etc…). Anche la musica stessa può essere inclusa.
6.Textual Facet: è l’aspetto più indipendente dalla melodia e dagli arrangiamenti associati. Un frammento di lirica in alcuni casi non è sufficiente per ritrovare il brano ricercato e viceversa.
7.Bibliographic Facet: sono informazioni relative a:
titolo
compositore
arrangiatore
editore
numero di catalogo
data pubblicazione
esecutori.
Uno degli obbiettivi principali del MIR è permettere l’organizzazione dei dati per recuperare tutta l’informazione disponibile riguardante un certo brano musicale.
Interrogazioni per contenuto: confronto tra i complessi contenuti musicali presenti nella base di dati e contenuti musicali meno complessi introdotti come criterio di ricerca.
Per la costruzione di un DB musicale vi son tre passi:
1.individuare lo scopo dei dati. In questa fase è necessario definire come le informazioni devono essere collezionate ed inserite nel DB, quali relazioni esistono tra loro e quali tipi di interrogazioni rendere disponibili all’utente finale.
2.elencare i dati necessari, considerando le sorgenti d’informazione disponibili. Le informazioni testuali sono solitamente più ricche e frequenti di quelle multimediali a causa delle problematiche legate al copy-right.
3.definire la miglior struttura per questo corpo. In pratica come le informazioni vengono classificate ed organizzate, o qual è il miglior standard con cui scrivere queste informazioni.
Senza una buona struttura l’uso e l’accesso del DB diventa inutile e complicato, la sua efficienza ne risente come la sua manutenzione.
Una volta definito il DB è necessario definire le interfacce e le tipologie d’interrogazione da fornire all’utente. Vi son tre tipi di ricerca:
Browsing: può essere un mezzo utile per cercare in un sistema ricco di collegamenti tra i dati ed i metadati, e permette di passare da un brano all’altro attraverso diversi collegamenti,
Textual search: indicizzazione di tutte le informazioni testuali accademiche( autore, titolo, …) e non accademiche( genere, frammenti delle liriche, …).
Search by content: interrogazioni basate sulla melodia o altri aspetti del contenuto audio.
Naturalmente si possono combinare le varie tipologie di ricerca per aumentare la potenza e l’efficienza del sistema.
La maniera di mostrare i risultati cambia l’utilità e le manipolazioni possibili dei dati restituiti dal sistema. I dati restituiti devono essere sufficienti a riconoscere quale brano nella lista dei risultati è quello ricercato, e una volta riconosciuto l’utente deve poter accedere a tutte le informazioni collegate, suddivise per tipologia( informazioni di catalogo e testuali, link ai meta-dati, link ad altri oggetti musicali).
Un altro aiuto nella ricerca sono le informazioni di catalogo che limitano la ricerca alla sola musica conosciuta. Uno dei più grandi e potenti descrittori usati dai consumatori di musica è il genere musicale, difatti due brani appartenenti allo stesso genere musicale hanno molti più elementi in comune rispetto a due brani non appartenenti allo stesso genere.
Generalmente gli strumenti musicali aiutano a definire il genere.
Catalog information: sono le informazioni che descrivono i brani musicali, non strettamente correlate al contenuto musicale. Descrivono chi ha preso parte alla realizzazione del brano, dove è stato registrato, informazioni sul supporto e sul copyright.
Multimedia characteristics: son metadadata che descrivono qualcosa di strettamente legato al contenuto musicale, e le informazioni associate col ricordo del frammento usato nella query-by-content.
Per valutare un sistema MIR si deve controllare che sia molto efficiente ed affidabile.
Per affidabilità intendiamo che il sistema deve permetter di trovare tutte e sole le informazioni richieste dall’utente. Queste devono essere sempre corrette( da verificare quando i dati sono elaborati automaticamente).
La complessità dei sistemi MIR è dovuta soprattutto all’enorme quantità di oggetti musicali.
Query by content: servono a trovare un brano di cui non si conoscono informazioni quali il titolo, l’autore, o altri metadata sufficienti per individuarlo. Usato anche per il copyright in modo da capire se un brano è molto simile ad un altro.
Verifica se un brano appena composto da un autore si frutto della creatività dell’artista e non influenzato da uno ascoltato in passato e poi dimenticato.
Il criterio su cui si basa la query-by-content è il frammento musicale, e di fatti vengono usati due tipi di DB:
a frammenti tematici: contengono frammenti che rappresentano i tempi musicali presenti nei brani. Il tema in questo caso viene considerato come una sequenza di note ripetuta diverse volte all’interno della composizione musicale. Una sequenza di note invece è considerata un tema se nella composizione esistono altre sequenze ottenute da questo attraverso qualche operatore musicale,
database di intere partiture: sono presenti tutte le melodie contenute in tutte le voci dell’intera partitura, perché un utente potrebbe ricordare un solo frammento del brano non appartenente al tema.
Query-by-humming, può risultare non accurata ed è per utenti non esperti.
L’approccio per questo metodo sono di due tipi:
DSP: elaborazione della forma d’onda o delle frequenze per trovare similarità tra i brani. Vi è una trasformazione in simbolico, dove vengono estrapolate le caratteristiche descriventi gli eventi musicali. Questo sistema risulta molo faticoso e complesso.
Simbolico: trasformazione dei brani in sequenze di stringhe di caratteri rappresentanti le sequenza melodiche contenute nei brani. Il frammento della query viene trasformato allo stesso modo e quindi confrontato con le stringhe nel DB.
Come criterio per le query-by-content viene usato l’audio( si definisce attraverso l’analisi delle frequenze esistenti nello spettro del segnale in ogni istante di tempo(discreto) il corrispondente pitch).
In input avremo un frammento audio(non strutturato per definizione) ed in output le caratteristiche capaci di definire i note-pattern.
Vi son dei problemi legati alla trascrizione da audio a simbolico:
Note segmentation: dove sono posizionate esattamente le note?Quanto durano?
Pitch variation della nota suonata: come individuare l’esatta altezza della nota suonata?
Note quantization: come posizionare le altezze sulle scale musicali?
Purtroppo viene difficile capire quale nota deve essere associata all’altezza del suono, infatti non esiste sempre una corrispondenza esatta.
Lo stesso discorso vale per la rappresentazione simbolica, infatti esistono molte tipologie del formato. Possiamo avere casi dove la stessa altezza viene rappresentata in più modi diversi o il nome della nota può rappresentare più altezze(di differenti ottave).
Sequenze di note: ogni elemento della sequenza è descritto da qualche parametro ( solitamente nome e durata della nota ).
Rappresentazione:
tutte le rappresentazioni della stessa nota vengono collassate in una sola,
l’alfabeto di 12 elementi, viene usato per rappresentare e dividere le altezze in semitoni,
questo però comporta una perdita d’informazione sul contorno melodico.
Trasposizione: gli algoritmi per calcolare la similarità vengono applicati 12 volte su ogni sequenza. Viene usato questo metodo nei sistemi dove l’elaborazione è limitata agli incipit
Sequenza d’intervalli: distanza tra due note adiacenti misurata in semitoni. La sequenza melodica è data dalla sequenza delle distanze tra un elemento e il suo successore. Come risultato si ha un perdita della nozione di nota come elemento d’ottava.
È anche dimostrato che l’uomo ascoltando un brano non ha l’esatta percezione dell’altezza delle note, ma ricorda più facilmente la sequenza degli intervalli.
Contorno melodico: si considera solo la direzione tra una nota ed il suo successore. È possibile rappresentare la sequenza melodica con solo 3 simboli: up, down, equal to.
Questo però permette di avere una trascrizione di query-by-humming corretta, e se la melodia è abbastanza lunga è possibili individuare univocamente il brano cercato.
La lunghezza media di un query fragment è pari a 7 note, significa ottenere centinaia di brani simili, impossibili ascoltarli tutti per trovare quello corretto.
Però questo sistema è utile come operazione di “pre-processing”, per scremare il contenuto del DB prima di usare un metodo più sofisticato.
Classi di equivalenza: ogni simbolo rappresenta n intervalli.
C1:ogni simbolo rappresenta un intervallo,
C3: ogni simbolo rappresenta 3 diversi intervalli adiacenti,
CU: tutti gli intervalli crescenti e decrescenti collassato in due differenti classi( contorno melodico ).
Rappresentazione Frame-based:
non si ha la segmentation, in pratica non si divide ogni singolo evento della melodia,
il tempo viene diviso in frame di ugual misura,
viene stimato il valore di un pitch per ogni frame,
le note non sono esplicitamente descritte,
in un unico valore sono rappresentabili le informazioni relative ad altezza e durata.
Svantaggio di questo metodo è che si perde l’informazione relativa al ritmo.
Music psychology: c’è un alta probabilità che qualche errore si presente nel frammento dell’interrogazione, di fatti anche utenti esperti possono non essere in grado di rappresentare in modo esatto la melodia del brano che stanno cercando.
L’interrogazione è distribuita su più voci:
non è sempre detto che il frammento della query rappresenti in modo esatto la melodia del brano che si sta cercando,
in punti adiacenti del brano, l’utente potrebbe ricordarsi la melodia di differenti parti, costruendo una nuova melodia.
Il concetto di similarità varia in funzione di:
memoria, che può essere a breve o lungo termine,
tipologia di utente, che va dal non esperto,al mediamente esperto e all’esperto.
Melodia: definire come una sequenza di note sia riconosciuta dall’uomo come una melodia di un brano polifonico.
String matching and melodic similarità: approccio tra i più utilizzati per risolvere il problema della similarità melodica. Una semplice formalizzazione del problema contestualizzato nell’ambito dello string matching potrebbe essere: sia f la stringa di caratteri che rappresenta il frammento melodico criterio di un’interrogazione e s la stringa di caratteri che rappresenta la partitura di un brano presente nel DB:
 f è fattore di x?
se f non appare in x, quale sottoparte di f è presente in s?
quante volte un’approssimazione di f è presente in s?
Blast algorithm: Basic Local Alignment Search Tool: uno tra i metodi più efficaci utilizzati per l’elaborazione di database biologici. Permette d’individuare in due sequenze:
zone uguali o simili,
allineamenti globali.
Il grado di similarità tra le due sequenze mostra la correlazione. Questa può essere basata su:
Identità percentuale: numero di elementi uguali nello stesso ordine presenti nelle due sequenze rispetto al numero totale di elementi,
Conservazione: quando cambiando un elemento nella sequenza in una precisa posizione, le proprietà chimiche e fisiche restano invariate.

[[categoria:appunti]]

Database Musicali/Appunti/2006-2007

2007-07-11T14:18:05Z

SingInTime: /* Caratteristiche */

Questa pagina è un copia-incolla poderoso degli appunti di '''El Conte''', che li ha generosamente pubblicati su [http://www.musicomio.org musicomio] e che ringrazio infinitamente. L'impaginazione verrà sistemata al più presto e vedrò anche di integrare eventuali punti mancanti/carenti/non chiari, ammesso che ne trovi...

Promesso!

==Introduzione==
===Il sistema informativo===
Un '''sistema informativo''' è la componente (o il sottosistema) di una organizzazione che gestisce, acquisisce, elabora, conserva, produce, le informazioni di interesse, cioè utilizzate per il perseguimento degli scopi dell’organizzazione stessa.

Ogni organizzazione ha un sistema informativo, anche se può essere eventualmente non esplicitato nella struttura. Quasi sempre il sistema informativo è di supporto ad altri sottosistemi, e va quindi studiato nel contesto in cui è inserito. Inoltre è di solito suddiviso in sottosistemi (in modo gerarchico o decentrato), più o meno fortemente integrati tra loro.

Il '''sistema informatico''' è invece la parte del sistema informativo che gestisce informazioni per mezzo della tecnologia informatica.

La presenza di un sistema informatico all'interno di un sistema informativo non è obbligatoria: il concetto di “sistema informativo” è indipendente da qualsiasi automatizzazione. Esistono infatti organizzazioni la cui ragione d’essere è la gestione di informazioni (es: servizi anagrafici e banche) e che per secoli hanno operato senza l'ausilio dell'informatica.

===Gestione delle informazioni===
Nelle attività umane, le informazioni vengono gestite (registrate e scambiate) in forme diverse, a seconda delle necessità e capacità:
* idee informali
* linguaggio naturale (scritto o parlato, formale o colloquiale, in una lingua o in un’altra)
* disegni, grafici, schemi
* numeri
* codici (anche segreti)

E su vari supporti, dalla memoria umana alla carta.

Nelle attività standardizzate dei sistemi informativi complessi, sono state introdotte col tempo forme di organizzazione e codifica delle informazioni.

Ad esempio, nei servizi anagrafici si è iniziato con registrazioni discorsive e sono state poi introdotte informazioni via via più precise:
* nome e cognome
* estremi anagrafici
* codice fiscale

In particolare, nei sistemi informatici (e non solo in essi), le informazioni vengono rappresentate attraverso i '''dati'''.

Si dice '''informazione''' tutto ciò che produce variazioni nel patrimonio conoscitivo di un soggetto detto percettore dell'informazione.

Si dice '''dato''' una registrazione della descrizione di una qualsiasi caratteristica della realtà su un supporto che ne garantisca la conservazione e, mediante un insieme di simboli, ne garantisca la comprensibilità e la reperibilità.

Uno degli obiettivi fondamentali di un sistema di gestione dati è fornire un '''contesto interpretativo''' ai dati, in modo da consentire un accesso efficace alle informazioni da essi rappresentate.

==Database e DBMS==
===Cosa sono===
In un'accezione generica, un '''database''' è una collezione di dati, utilizzati per rappresentare le informazioni di interesse per una o più applicazioni. In un'accezione più specifica, un database è una collezione di dati gestita da un DBMS.

Un '''DBMS''' (Database Management System) è un sistema (prodotto software) in grado di gestire collezioni di dati che siano:
* '''Grandi:''' di dimensioni (molto) maggiori della memoria centrale dei sistemi di calcolo utilizzati
* '''Persistenti:''' con un periodo di vita indipendentedalle singole esecuzioni dei programmi che le utilizzano
* '''Condivise:''' utilizzate da applicazioni diverse

Un DBMS deve garantire '''affidabilità''' (resistenza a malfunzionamenti hardware e software) e '''privatezza''' (mediante politiche di controllo degli accessi). Come ogni prodotto informatico, un DBMS deve essere '''efficiente''', utilizzando al meglio le risorse di spazio e tempo del sistema, ed '''efficace''', rendendo produttive le attività dei suoi utilizzatori.

La gestione di sistemi di dati grandi e persistenti è possibile anche tramite sistemi più semplici, quali gli ordinari file system dei sistemi operativi, che permettono di realizzare anche rudimentali forme di condivisione. I DBMS però estendono le funzionalità dei file system, fornendo più servizi ed in maniera integrata.

===Caratteristiche===
I maggiori vantaggi di un DBMS sono:
* l’indipendenza dei dati
* un loro accesso efficiente
* integrità e sicurezza
* amministrazione
* organizzazione degli accessi e ripristino da crash
* riduzione del tempo di sviluppo delle applicazioni.

Un DBMS è utile quando la quantità di dati è elevata e porterebbe ad un appesantimento operativo e/o quando si vogliono usare le sue potenzialità d’interrogazione dell’archivio di dati.

Compito importante di un DBMS è la '''sequenzalizzazione di accessi concorrenti ai dati''' , così che ogni utente possa ignorare il fatto che altri stanno accedendo ai dati allo stesso tempo. Per fare ciò ci si serve di un meccanismo detto '''lock''' che serve a controllare l’acceso agli oggetti della base di dati. Un '''protocollo di locking''' è l'insieme di regole che ogni transazione deve seguire per garantire che l’effetto sia identico a quello ottenuto eseguendo tutte le transazioni in qualche ordine seriale.

Il DBMS mantiene un log di tutte le scritture sulla base di dati. Ogni azione di scrittura deve essere registrata prima di effettuare la modifica nella base di dati. Un WAL (write-ahead log) è usato nel caso il sistema andasse in crash appena fatto il cambiamento, ma prima che esso sia registrato nel log.

===Modelli di dati===
Un '''modello di dati''' è un insieme di strumenti concettuali, o '''formalismo''', che consta di tre componenti fondamentali:
* un insieme di strutture dati
* una notazione per specificare i dati tramite le strutture dati del modello
* un insieme di operazioni per manipolare i dati.

Generalmente si tratta di una struttura ad alto livello che nasconde molti dei dettagli di memorizzazione a basso livello. Un DBMS permette all’utente di definire i dati da memorizzare in termini di un modello di dati.

Un '''modello di dati semantico''' è un modello di dati ad alto livello che rende più semplice ad un utente creare una buona descrizione iniziale dei dati. Questi contengono una grande quantità di costrutti che aiutano a descrivere lo scenario di un’applicazione reale.

Al grado più elevato di astrazione troviamo i '''modelli concettuali''', che permettono di rappresentare i dati in modo indipendente da ogni sistema, cercando di descrivere i concetti del mondo reale. Sono utilizzati nelle fasi preliminari di progettazione. Il più noto è il modello '''entità-relazione'''.

Scendendo di livello troviamo i '''modelli logici''', utilizzati per l’organizzazione dei dati. Ad essi fanno riferimento i programmi, e sono indipendenti dalle strutture fisiche di memorizzazione. Ecco alcuni esempi di modelli logici: relazionale, reticolare, gerarchico, a oggetti...

E' importante che modelli simili favoriscano l''''indipendenza dei dati'''. Tale proprietà si ottiene quando le applicazioni sono isolate dalle modifiche al modo in cui i dati sono strutturati e memorizzati.

Vi sono due tipi d’indipendenza dei dati:
* '''logica:''' i cambiamenti della struttura logica dei dati possono essere resi trasparenti agli utenti , cosi come la scelta delle relazioni da memorizzare
* '''fisica:''' lo schema logico isola gli utenti dai cambiamenti nei dettagli fisici di registrazione.

===Il modello relazionale===
Il '''modello relazionale''' è il modello logico più noto ed è quello che viene solitamente implementato in un DBMS. E' stato proposto da E. F. Codd nel 1970 per favorire l’indipendenza dei dati e reso disponibile in DBMS reali nel 1981. Si basa sul concetto matematico di '''relazione''', questo fornisce al modello una base teorica che permette di dimostrare formalmente proprietà di dati e operazioni.

Una relazione consiste in uno '''schema relazionale''' e nelle sue '''istanze di relazione'''. Lo schema specifica il nome della relazione, il nome di ogni campo, ed il dominio di ciascun campo. Un'istanza di relazione è la "realizzazione concreta" dello schema relazionale e può essere vista come una tabella con righe, dette tuple o record, divise in colonne (o campi) contenenti i dati. I campi di ciascuna tupla devono corrispondere per numero e tipo ai campi dello schema relazionale.

Il '''grado''' di una relazione è il numero dei campi presenti. La '''cardinalità''' di un'istanza di relazione è il numero di tuple in essa.

Una collezione d'istanze di relazione, una per ogni schema di relazione nello schema di una base di dati relazionale, forma un'istanza della base di dati.

----

Il calcolo relazionale è un linguaggio d'interrogazione formale basato sulla logica matematica, e le interrogazioni in tale linguaggio hanno un significato preciso e intuitivo.

L’algebra relazionale è una forma di linguaggio formale basato su una relazione di operatori per manipolare le relazioni e ha la stessa potenza del calcolo.

Una transazione è una qualunque esecuzione di un programma utenti in un DBMS.

Un DMBS è diviso in :
un ottimizzatore d’interrogazioni che usa informazioni sulla memorizzazione dei dati per produrre un piano di esecuzione efficiente per la sua valutazione
piano di esecuzione, usato per valutare l’interrogazione
gestore dello spazio sul disco
gestore delle transazioni, assicura che le transazioni richiedano e rilascino i lock seguendo un buon protocollo di bloccaggio e programma l’esecuzione delle transazioni
gestore dei lock, tiene traccia delle richieste dei lock
gestore del ripristino, responsabile del mantenimento del log e del ripristino del sistema.

Lo standard dei linguaggi SQL usa la parola table per indicare relazione.
CREATE TABLE, usato per definire una nuova tabella (CREATE TABLE Studenti )
CREATE TABLE < nome relazione >
(< specifica colonna > [, < specifica colonna > ]);
< specifica colonna >, ha il seguente formato
< nome colonna > < dominio > [DEFAULT < valore default >]
dove < dominio > è il dominio della colonna, ed è uno dei tipi di dato SQL;
< valore default > è un valore del dominio, assunto dalle tuple se nessun valore è specificato per la colonna.
INSERT, usato per inserire le tuple
INSERT
INTO R [(C…C°)]
{VALUES (e…e°)| sq};
(e…e°) è una lista di valori da assegnare alla nuova tupla, questi sono assegnati in base ad una corrispondenza posizionale
sq, è una sub-query
le tuple generate come risposta alla sq vengono inserite nella relazione R
la clausola di proiezioni di sq deve contenere colonne compatibili con le colonne di R a cui si assegnano valori
il dominio della colonna C(i=1,…., n) deve essere compatibile con il dominio della colonna i-esima contenuta nella clausola di proiezione di SQL.
Tutte le colonne non esplicitamente elencate ricevono il valore nullo o il valore di default.
DELETE, usato per cancellare le tuple
DELETE
FROM R[alias]
[WHERE F];
il nome della relazione può essere associato ad un alias se è necessario riferire a tuple di tale relazione una qualche sotto-interrogazione presente in F
se non viene specificata alcuna clausola di qualificazione vengono cancellate tutte le tuple.
UPDATE, usato per modificare i valori in una riga esistente
UPDATE R[alias]
SET C={e |NULL},…, C°={e° | NULL}
[WHERE F];
il nome della relazione può avere associato un alias se è necessario riferire tuple di tale relazione in una qualche sotto-interrogazione presente in F
C={e |NULL},…, C°={i=1 | NULL}, è un’espressione di assegnamento che specifica che alla colonna C, deve essere assegnato il valore dell’espressione e.
Questa può essere una costante, spesso funzione dei valori correnti delle tuple da modificare, o una sub-query
si può specificare che alla colonna sia assegnato il valore nullo.
VINCOLI D’INTEGRITA’ è una condizione specificata in uno schema di base dati e limita i dati che possono essere memorizzati in una istanza alla base dati. Ci son vincoli statici(relativi ad uno stato della base di dati) e vincoli di transizione(mettono in relazione stati diversi della base di dati).
Un DBMS applica i vincoli d’integrità, nel senso che permette alle istanze legali di essere memorizzate nella base di dati
quando i DBA o l’utente finale definiscono uno schema di base dati, specificano i VI che devono valere per ogni istanza di tale base dati
quando un’applicazione viene eseguita , il DBMS controlla se ci sono violazioni e no premette le modifiche ai dati che violano i VI specificati.
Integrità referenziale; rappresenta un importante vincolo d’integrità semantica. Difatti se una tupla t riferisce come valori di una chiave esterna i valori V1,….,Vn, allora deve esistere nella relazione riferita una tupla t° con valori di chiave V1,….,Vn.
VINCOLI DI CHIAVE è l’imposizione che un certo sottoinsieme minimale dei campi di una relazione sia un identificatore unico per una tupla. Un insieme di campi che identificano univocamente una tupla secondo un vincolo di chiave si chiama chiave candidata per la relazione, altresì chiamata chiave.
due tuple distinte in una istanza legale non possono avere valori uguali in tutti i campi di una chiave. In ogni istanza legale i valori nei campi chiave identificano univocamente una tupla di una istanza.
nessun sottoinsieme dell’insieme dei campi di una chiave è un identificatore unico della tupla.
Ogni relazione ha una chiave, e l’insieme di tutti i campi è una sottochiave. Se ci sono altri vincoli, alcuni sottoinsiemi dei campi possono formare una chiave, ma se ciò non si verifica l’insieme di tutti i campi è una chiave
Chiave primaria, si può far riferimento ad una tupla in qualunque parte della base di dati memorizzando i valori dai campi della sua chiave. Per definire una chiave primaria in SQL viene usato il comando PRIMARY KEY, mentre per dichiarare un sottoinsieme delle colonne di una tabella si usa UNIQUE. Nella scelta di una chiave primaria è meglio usarne una, candidata, che viene usata più frequentemente nelle interrogazioni.
Chiave esterna, deve essere uguale alla chiave primaria della relazione referenziata, cioè deve avere lo stesso numero di colonne e tipi di dati compatibili, sebbene i nomi delle colonne possano essere diversi. Se una relazione R ha trai suoi attributi un insieme di attributi che costituisce la chiave di una relazione R, allora tale insieme è una chiave esterna di R su R°. Queste chiavi permettono di collegare tra loro tuple di relazioni diverse e costituiscono un meccanismo, per valore, per modellare le associazioni tra relazioni. Quindi una tupla che deve riferire ad un’altra tupla include tra i suoi attributi uno o più di essi, il cui valore è quello della chiave della seconda tupla.
La presenza di NULL in una chiave esterna non viola il vincolo di chiave. Il comando in SQL è FOREIGN KEY che ha delle opzioni aggiuntive, sul come comportarsi una volta implementata la chiave esterna.
FOREIGN KEY(< lista nomi colonne >)
REFERENCES < nome relazione >
[ON DELETE { NO ACTION |
CASCADE | SET NULL | SET DEFAULT )}
[ ON UPDATE { NO ACTION |
CASCADE | SET NULL | SET DEFAULT )}
l’opzione predefinita è NO ACTION(l’azione deve essere ignorata).
CASCADE dice che se una riga viene cancellata, tutte le sue righe che la referenziano devono essere eliminate. Lo stesso vale per il caso di un UPDATE, dove l’aggiornamento viene propagato a ciascuna riga,
ON DELETE permette di specificare le azioni da eseguire nel caso di cancellazione di una tupla riferita tramite chiave esterna,
ON UPDATE permette di specificare le azioni da eseguire nel caso di modifica del valore di chiave di una tupla riferita tramite chiave esterna
Per default un vincolo viene verificato al termine di ogni istruzione SQL che potrebbe portare ad una violazione, e se questa ci fosse il comando viene rifiutato.
L’SQL permette di specificare che un vincolo sia in modalità DEFERRED o IMMEDIATE: SET CONSTRAINT vincolo DEFERRED.
Un’interrogazione di una base di dati relazionale è una domanda sui dati, e la risposta consiste in una nuova relazione contenente il risultato. Un esempio di query è:
SELECT*
FROM
WHERE
*significa che vogliamo tutti i campi delle tuple che compongono il risultato.
Una vista è una tabella le cui righe non sono esplicitamente memorizzate nella base dati, ma sono calcolate quando necessario in base a una definizione di vista.
Questa può essere usata come in una tabella di base per definire nuove interrogazioni o viste.
DROP TABLE, per eliminare una tabella e la sua forma è:
DROP TABLE < nome relazione >
{ RESTRICT | CASCADE };
se viene specificata l’opzione RESTRICT, la relazione viene cancellata solo se non è riferita da altri elementi dello schema della base di dati;
se viene specificata l’opzione CASCADE, la relazione e tutti gli elementi dello schema della base di dati che eventualmente la riferiscono vengono cancellati.
ALTER TABLE, modifica la struttura di una tabella esistente e la sua forma è:
ALTER TABLE < nome relazione > < modifica >;
< modifica > è la modifica da effettuare, tra l’aggiunta di una nuova colonna, modifica di una colonna e l’eliminazione.
ALGEBRA RELAZIONALE: linguaggio formale di interrogazione associato al modello relazionale. Le interrogazioni sono composte usando una collezione di operatori, e ognuno di questi deve accettare istanze di relazione come argomenti e restituisce un’istanza di relazione con risultato.
Invece un’espressione di algebra relazionale è ricorsivamente definita come una relazione, un operatore algebrico unario applicato ad una singola espressione o un operatore algebrico binario applicato a due espressioni.
Ogni interrogazione relazionale descrive una procedura passo-passo per calcolare la risposta desiderata, basandosi sull’ordine in cui gli operatori sono in essa applicati.
Selezione ; l’operatore di selezione specifica le tuple da mantenere attraverso una condizione di selezione. Questa è una combinazione Booleana di termini che hanno la forma attributo op costante oppure attributo1 op attributo2, dove op è uno degli operatori di confronto <,<=,=,=>,>,.
Proiezione ; l’operatore di proiezione invece ci permette di estrarre colonne da una relazione.
Le operazioni possibili sugli insiemi sono:
UNIONE, RS restituisce un’istanza di relazione contenente tutte le tuple presenti nell’istanza di relazione R oppure S. Due istanze sono dette compatibili rispetto all’unione quando:
1) hanno lo stesso numero dei campi;
2) campi corrispondenti hanno lo stesso dominio.
INTERSEZIONE, RS restituisce un’istanza contenente tutte le tuple presenti sia in R che in S
DIFFERENZA, R-S restituisce un’istanza contenente tutte le tuple presenti in R ma non in S. Le relazioni devono essere compatibili all’unione, e lo schema del risultato è identico a R
PRODOTTO CARTESIANO, RxS restituisce un’istanza di relazione il cui schema contiene tutti i campi di R seguiti da tutti i campi di S. Il risultato di RxS contiene una tupla |r,s|.
Rinomina , usato per rinominare le tabelle.
JOIN: usato per combinare informazioni da due o più relazioni. Un predicato di JOIN esprime una relazione che deve essere verificata dalle tuple risultato dell’interrogazione. Vi sono diversi tipi di join:
JOIN CONDIZIONALE; la versione più generale dell’operatore di join accetta una condizione di join c e un paio di istanze di relazione come argomenti e restituisce un’istanza di relazione.
c (RxS)
EQUIJOIN; lo si ha quando la condizione di join consiste solamente di uguaglianze della forma R.nome1=S.nome2. In questo caso mantenere entrambi gli attributi sarebbe ridondante come cosa. Per le condizioni di join che contengono solo queste uguaglianze l’operazione di join è completata con una ulteriore proiezione in cui S.nome2 viene scartato. Lo schema del risultato di un equijoin contiene i campi di R, seguiti dai campi di che non appaiono condizioni di join.
JOIN NATURALE; è un equijoin in cui le uguaglianze sono specificate su tutti i campi aventi lo stesso nome in R e S. Questo tipo di join gode della proprietà per cui il risultato è certamente privo di coppie di campi con lo stesso nome. C’è anche da dire che non corrisponde ad un operatore di NATURAL JOIN,dato che non si esegue alcuna proiezione, e lo scema risultante è quello del prodotto cartesiano. La sua forma è:
< nome relazione > NATURAL JOIN < nome relazione >
JOIN ESTERNI(pg99); questi si basano sui valori null, aggiungono al risultato le tuple R e S che non hanno partecipato al join, completandole con NULL,
R OUTER JOIN S
Esistono diverse varianti dell’OUTER JOIN;
1.FULL: sia le tuple di R che quelle di S che non partecipano al JOIN vengono completate ed inserite nel risultato,
2.LEFT: le tuple di R che non partecipano al JOIN vengono completate ed inserite nel risultato,
3.RIGHT: le tuple S che non partecipano al JOIN vengono completate ed inserite nel risultato.
CROSS JOIN; questi operatori poiché producono relazioni possono essere usati nella clausola FROM. È la forma di operatore JOIN più semplice che corrisponde al prodotto cartesiano. La sua sintassi è:
< nome relazione > CROSS JOIN < nome relazione >
DIVISIONE, l’operazione di divisione A/B è l’insieme di tutti valori di x(in forma di tuple unarie) tali che per ogni valore y in B, ci sia una tupla |x,y| in A. L’idea di fondo è di calcolare tutti i valori di x che non sono interdetti(un valore è interdetto se unendo a esso un valore y di B si ottiene una tupla |x,y| che non è in A).Le tuple interdette possono esser calcolate così: x(( x (A) x B) – A).

SQL:I linguaggi di basi dati come SQL permettono all’utente di specificare per quali relazioni e quali attributi è necessario mantenere l’integrità referenziale( e le azioni da eseguire in caso di violazione). La forma base di un’interrogazione SQL è:
SELECT [DISTINCT] lista-select
FROM lista-from
WHERE qualificazione
Lista-select, è una lista di nomi di colonne delle tabelle nominate nella lista-from. I nomi di colonne possono avere come prefisso una variabile di range.
Lista-from, è una lista di nomi di tabelle. Un nome di tabella può essere seguito da una variabile di range(questa è utile quando lo stesso nome di tabella appare più volte nella lista-from).
Qualificazione, è una combinazione booleana di condizioni nella forma espressione op espressione, dove op è uno degli operatori di confronto.
Ogni interrogazione deve avere una clausola SELECT, che specifica le colonne da includere nel risultato, e una clausola FROM, che specifica un prodotto cartesiano di tabelle. La clausola opzionale WHERE specifica condizioni di selezione sulle tabelle menzionate nella clausola FROM.
Se omettiamo la parola chiave DISTINCT, otterremo una copia della riga (v,e), e la risposta sarebbe un multi-insieme di righe.
Il processo d’interrogazione di un DB consta in:
caricamento della lista di attributi;
scarto delle tuple che non soddisfano la qualificazione;
eliminazione degli attributi che non sono nella lista-from.
Un multi-insieme è un simile ad un insieme, nel senso che è una collezione non ordinata di elementi, ma possono esserci diverse copie, e il numero di copie è significativo: due multi-insiemi possono avere gli stessi elementi e tuttavia essere diversi, poiché il numero di copie dello stesso elemento è diverso.
Tipi numerici esatti:
INTEGER; la precisione di questo tipo di dato è espressa in numero di bit, a seconda della specifica implementazione di SQL,
SMALLINT; l’unico requisito è che la precisione di questo tipo di dato sia non maggiore della precisione del tipo di dato INTEGER. Questo viene usato per eventuali ottimizzazioni in quanto i valori richiedono minore spazio di memorizzazione,
BIGINT; l’unico requisito è che la precisione di questo tipo di dato sia non minore della precisione del tipo di dato INTEGER,
NUMERIC; caratterizzato da una precisione(numero totale di cifre) e una scala(numero di cifre dopo la virgola), il valore default per la precisione è 1 e per la scala è 0,
DECIMAL; simile a NUMERIC, ma la specifica di questo tipo di dato ha la forma: DECIMAL[(precisione[,scala])].
Tipi numerici approssimati:
REAL; rappresenta valori reali a singola precisione in virgola mobile, e la precisione dipende dalla specifica implementazione si SQL,
DOUBLE PRECISION; rappresenta valori reali a doppia precisione in virgola mobile, e questa dipende sempre dall’implementazione di SQL(però deve essere maggiore della precisione di tipo REAL),
FLOAT; rappresenta valori reali alla precisione desiderata, ed ha la forma FLOAT[(precisione)]. La precisione minima specificabile è 1.
Tipi di dato carattere:
CHARACTER; rappresenta stringhe di caratteri di lunghezza predefinita, spesso abbreviato in CHAR. La specifica ha il formato CHAR[(n)], con n lunghezza delle stringhe. E’ possibile usare come valore una stringa di lunghezza inferiore a n, che viene completata con spazi fino a raggiungere tale lunghezza,
CHARACTER VARYING; rappresenta stringhe di caratteri di lunghezza massima predefinita. Spesso abbreviato in VARCHART, e la sua forma è VARCHART(n), dove n è la lunghezza massima delle stringhe.
Tipi di dato temporali:
DATE; rappresenta le date espresse come anno(4cifre), mese(2cifre) e giorno(2cifre),
TIME; rappresenta i tempi espressi come ora(2cifre), minuto(2cifre) e secondo(2cifre),
TIMESTAMP; rappresenta una “concatenazione” fra DATE e TIME. Permette di rappresentare timestamp che consistono in: anno, mese, giorno, ora, minuto, secondo e microsecondo,
INTERVAL; rappresenta una durata temporale in riferimento ad uno o più qualificatori. I valori di questo tipo son rappresentati dalla parola chiave INTERVAL seguita da una stringa che esprime la durata in termini di uno o più qualificatori. Se sono presenti due qualificatori, il primo è più ampio del secondo e sono separati dalla parola chiave TO.
Tipo di dato:
BOOLEAN; i valori di tali tipo sono TRUE, FALSE, UNKNOWN(questo viene introdotto per la gestione dei confronti con valori nulli,
CHARACTER LARGE OBJECT(CLOB); permette di rappresentare sequenze di caratteri di elevate dimensioni,
BINARY LARGE OBJECT(BLOB); permette di rappresentare sequenze di bit di elevate dimensioni.
E’ possibile convertire un valore ad un altro tipo mediante l’operatore di CAST
CAST (e) AS < tipo target >
AS: per introdurre una variabile di range.
I nomi delle tabelle possono essere implicitamente usati come variabili in linea. Si ha la necessità di introdurre esplicitamente le variabili di range solo quando la clausola FROM contiene più di una occorrenza di una relazione. Se una variabile di range è stata introdotta nella relazione, un nome di tabella non può essere usato come variabile di range esplicita.
Ogni elemento in una lista-select può essere della forma espressione AS nome_colonna ( questo è il nuovo nome che la colonna avrà nel risultato dell’interrogazione. Inoltre, ogni termine in una qualificazione può anche essere rappresentato nella forma generale espressione1 = espressione2.
L’SQL permette il pattern matching, su valori di tipo stringa, attraverso l’uso dell’operatore LIKE, insieme all’uso dei caratteri jolly %( zero o più caratteri qualunque) e ( esattamente un carattere qualunque). Quindi “AB%” denota una qualunque stringa che contiene almeno tre caratteri, con il secondo ed il terzo uguali a A e B.
SQL fornisce tre comandi per la manipolazione degli insiemi che estendono la forma d’interrogazione basilare, e sono:
UNION, restituisce tutte le tuple distinte restituite da almeno una delle sotto-interrogazioni a cui è applicato. Se si usa la clausola ORDER BY, questa deve essere usata una sola volta alla fine dell’interrogazione e non alla fine di ogni SELECT,
INTERSECT, corrisponde all’intersezione, restituisce le tuple restituite da entrambe le sotto interrogazioni a cui è applicato.
EXCEPT, corrisponde alla differenza, e restituisce le tuple della seconda sotto-interrogazione a cui è applicato.
Questo linguaggio fornisce anche altre operazioni sugli insiemi:
IN, per controllare se un elemento è in un dato insieme. C IN(v,….v°), nella forma negata C NOT IN(v,….v°).
ANY
ALL, per confrontare un valore con gli elementi di un dato insieme, usando l’operatore di confronto op
EXISTS, per controllare se un insieme è vuoto.
BETWEEN, permette di determinare le tuple che contengono in un dato attributo valori in un intervallo dato. C BETWEEN v AND v° , nella forma negata invece C NOT BETWEEN v AND v°,
ABS(N); calcola il valore assoluto del valore numerico N,
MOD(n,b); calcola il resto intero della divisione n per b.
UNION, INTERSECT ed EXCEPT possono essere usati su qualsiasi coppia di tabelle che siano compatibili rispetto all’unione, cioè che abbiamo lo stesso numero e tipo di colonne.
Nel caso si UNION i duplicati vengono eliminati automaticamente. Per mantenerli è necessario aggiungere ALL (UNION ALL). Lo stesso discorso vale per INTERSECT ed EXCEPT.
Espressioni e funzioni: un’espressione usata nella clausola di proiezione di un’interrogazione, dà luogo ad una colonna, detta virtuale, non presente nella relazione su cui si effettua l’interrogazione.
Le colonne virtuali non sono fisicamente memorizzate, ma sono calcolate dinamicamente come risultato dell’esecuzione dell’interrogazione.
Espressioni e funzioni per stringhe:
Operatore di concatenazione denotato da ||,
LENGHT(str), restituisce la lunghezza della stringa str, in numero di caratteri,
UPPER(str) e LOWER(str), trasformano la stringa str in caratteri tutti maiuscoli o tutti minuscoli, rispettivamente,
SUBSTR(str, m,[n]), estrae dalla stringa str la sottostringa dal carattere di posizione m per una lunghezza n,
TRIM[str°] FROM str, elimina dalla stringa str° i caratteri in str.
Un’interrogazione annidata è un’interrogazione che al suo interno ha un’altra interrogazione. Questa solitamente appare nella clausola WHERE, o anche in FROM o HAVING. Se una sub-query scalare restituisce più di una tupla si genera un errore di run-time, e se nessuna tupla verifica la sotto-interrogazione, viene restituito il valore NULL.
E’ anche possibile selezionare più di una colonna tramite sotto-interrogazioni, in tal caso è necessario apporre delle parentesi alla lista delle colonne a sinistra dell’operatore di confronto. Ad esempio, voglio elencare gli impiegati con la stessa mansione di Martini;
SELECT Nome FROM Impiegati
WHERE(Mansione, Stipendio) = (SELECT
Mansione, Stipendio FROM Impiegati
WHERE Nome = “Martini”);
Una sub-query può contenere a sua volta un’altra sub-query. E’ possibile definire sotto-interrogazioni che sono eseguite ripetutamente per ogni tupla candidata considerata nella valutazione dell’interrogazione esterna, e ogni volta che questa considera una tupla candidata, deve invocare la sotto-interrogazione. Questo tipo viene chiamato correlato, dato che ogni esecuzione è correlata al valore di uno o più attributi delle tuple candidate nell’interrogazione principale. Per poter fare riferimento alle colonne delle tuple candidate nell’interrogazione esterna si fa uso degli alias di relazione(questo è definito nell’interrogazione esterna e riferito nella sotto-interrogazione correlata. Sono utili quando si vuole fare riferimento a due diverse tuple della stessa relazione.).
UNIQUE, quando applichiamo questo comando ad una sotto-interrogazione, la condizione che ne risulta ritorna vero se nessuna riga appare due volte nella risposta all’interrogazione, se non ci sono duplicati. Ritorna vero se la risposta è vuota.
Operatori di aggregazione:
COUNT ([DISTINCT] A) , è numero di valori unici della colonna A,
SUM ([DISTINCT] A) , la somma di tutti i valori unici nella colonna A,
AVG ([DISTINCT] A) , la media di tutti i valori unici nella colonna A,
MAX (A) , il valore massimo della colonna A,
MIN (A) , il valore minimo della colonna A.
Non ha senso specificare DISTINCT insieme a MIN e MAX.
Le clausole GROUP BY e HAVING;
SELECT [DISTINCT] lista-select
FROM lista-from
WHERE qualificazione
GROUP BY lista gruppo
HAVING qualificazione gruppo.
La lista-select consiste di una lista di nomi di colonne e una lista di termini della forma aggop(nome-colonna) AS nuovo-nome. Ogni colonna che appare nella lista dei nomi deve apparire nella lista-gruppo.
Le espressioni che compaiono nella qualificazione gruppo della clausola HAVING devono avere un singolo valore per gruppo. L’idea di base è che la clausola HAVING ( può essere una combinazione Booleana di predicati, i quali tuttavia possono solo coinvolger funzioni di gruppo) determina se per ogni gruppo dato debba essere generata una riga della risposta.
Un’importante restrizione ci dice che una clausola di protezione di una query contenente GROUP BY può includere solamente:
una o più colonne tra le colonne che compaiono nella suddetta clausola,
funzioni di gruppo(che possono apparire in funzioni aritmetiche).
Le funzioni di gruppo permettono di estrarre informazioni da gruppi di tuple invece di una relazione, queste si basano su due concetti:
il partizionamento delle tuple di un relazione in base al valore di uno o più colonne della relazione,
il calcolo della funzione di gruppo per ogni gruppo ottenuto col partizionamento.
Una funzione di gruppo ha come argomento una colonna e si applica all’insieme dei valori di questa colonna, estratti dalle tuple che appartengono allo stesso gruppo.
E’ possibile applicare queste funzioni senza partizionamento e in tal caso saranno applicate ad un unico gruppo contente tutte le tuple della relazione.
Se GROUP BY viene omesso l’intera tabella viene vista come un singolo gruppo
COUNT, se questo non include DISTINCT, allora COUNT(*) dà la stessa risposta di COUNT(x), dove x è un qualunque insieme di attributi.
L’SQL fornisce un valore di colonna speciale chiamato null da usare quando il valore della colonna è sconosciuto oppure inapplicabile.
Possiamo impedire l’uso dei valori null specificando NOT NULL come parte della definizione dei campi. Inoltre i campi in una chiave primaria non posso assumere valori null, quindi vi è un vincolo di NOT NULL, implicito per ogni campo elencato in un vincolo di PRIMARY KEY.
Si può specificare vincoli sulla tabella usando vincoli di tabella, che hanno la forma CHECK espressione-condizionale.
In un comando CREATE TABLE, la clausola CHECK può comparire;
di seguito alla definizione di una colonna ( vincoli di CHECK su colonna )
come clausola separata dall’interno della definizione della relazione ( vincoli CHECK su relazione ).
Specificando un vincolo CHECK vogliamo che ogni tupla nella relazione soddisfi la condizione. E’ consigliabile esprimere tramite CHECK solo le condizioni che devono essere verificate da ogni singola tupla della relazione cui associamo il vincolo.
E’ possibile assegnare nome ai vincoli associati alle definizioni di relazione facendo seguire la specifica del vincolo nella parola chiave CONSTRAINT e dal nome. Difetti specificare un nome per tutti i vincoli è utile per potersi poi riferire ad essi.
Le asserzioni servono per esprimere vincoli di integrità che coinvolgono più tuple o relazioni, e vengono così formulate:
CREATE ASSERTION < nome asserzione >
CHECK(< condizione >).
I vincoli di una tabella sono associati ad una tabella singola. Il soddisfacimento di questi vincoli è richiesto solo se la tabella associata è vuota, quando un vincolo coinvolge due o più tabelle, il meccanismo di vincoli sulle tabelle è in qualche modo anomalo, e non ciò che si desidera.
Un trigger è una procedura che viene eseguita dal DBMS in risposta a specifici cambiamenti nella base di dati ed è definita dal DBA. Questi son divisi in tre parti:
evento: un cambiamento nella base di dati che attiva il trigger;
condizione: un’interrogazione o un test che viene eseguito quando il trigger è attivato;
azione; procedura che viene eseguita quando il trigger è attivato e la sua condizione è verificata.
Una condizione di trigger può essere un comando vero/falso oppure un’interrogazione. Questa viene interpretata come vero se l’insieme di risposta non è vuoto, falso se l’opposto. L’azione di un trigger può esaminare la risposta all’interrogazione nella parte condizionale dei trigger , fare riferimento a valori vecchi e nuovi delle tuple modificate dal comando che ha attivato il trigger, eseguire nuove interrogazioni e apportare cambiamenti alla base di dati.

Progettazione di una base dati:
1)Analisi dei requisiti: il primissimo passo nella progettazione è capire quali dati devono essere memorizzati, quali applicazioni devono essere costruite su di essi e quali operazioni sono più frequenti e soggette a requisiti prestazionali.
2)Progettazione concettuale della base di dati: le informazioni raccolte nel passo di analisi dei requisiti vengono usate per elaborare una descrizione ad alto livello dei dati da memorizzare. Questo passo è sviluppato usando il modello entità-relazione, il quale fa parte di una famiglia di diversi modelli di dati ad alto livello, o semantici, usati nella progettazione delle basi di dati. Lo scopo è creare una semplice descrizione dei dati che approssimi il modo in cui utenti e sviluppatori pensano ad essi.
3)Progettazione logica della base dati: dobbiamo scegliere un DBMS per implementare in nostro progetto, e convertire la progettazione concettuale in uno schema nel modello del DBMS scelto. La traduzione non è sempre univoca.
4)Raffinamento dello schema: analizzare l’insieme di relazioni del nostro schema relazionale per identificare potenziali problemi, e a rifinirlo.
5)Progettazione fisica della base di dati: consideriamo i carichi di lavoro attesi che la nostra base di dati dovrò sopportare, e raffiniamo il progetto per garantire che esso soddisfi i criteri di prestazioni richieste. Questo può consistere nella costruzione di indici su qualche tabella e nel raggruppamento di alcune tabelle, oppure può coinvolgere una riprogettazione sostanziale di intere parti dello schema ottenuto precedentemente.
6)Progettazione delle applicazioni e della sicurezza.
Una entità è un oggetto nel mondo reale che si distingue da altri progetti. Vi sono anche insiemi di entità, e questi non hanno bisogno di essere disgiunti. Un entità è anche un’astrazione della realtà la cui informazione è indipendente dal dominio in cui l’entità è utilizzata. Invece un’istanza di entità sono specifici oggetti appartenenti ad una certa entità.
Un’entità è descritta usando un insieme di attributi. Tutte le entità di un dato insieme hanno gli stessi attributi: questo è ciò che s’intende con simili. La coppia (nome_di_attributo, dominio) viene chiamata attributo e ogni entità è caratterizzata da uno o più attributi(i quali possono essere monovalore, multivalore e compositi).
Per ogni attributo associato ad un insieme di entità, dobbiamo definire un dominio di valori possibili. Vi son diversi tipi di domini:
semplice, sono domini standard(interi, reali, booleani…), con intervalli ed insiemi di valori definiti per enumerazione dall’utente,
composti, l’insieme dei valori è dato dal prodotto cartesiano degli insiemi di valori associati ai domini componenti. Servono per associare un dominio agli attributi composti.
Le informazioni sui domini i un attributo non sono direttamente rappresentabili in un diagramma ER, sono però fondamentali per una corretta progettazione logica.
Inoltre per ciascun insieme di entità useremo una chiave. Questa è un insieme minimale di attributi i cui valori identificano univocamente una entità dell’insieme. Potrebbe esserci più di una chiave candidata, e in questo caso ne designiamo una come chiave primaria. Una chiave non può avere valori nulli, in alcuni casi la chiave può essere soltanto una dove il sistema non permette di averne di più.

Gli attributi vengono rappresentati con degli ovali, e se sono sottolineati sono delle chiavi primarie mentre le entità sono dei rettangoli.
Una relazione è un’associazione tra due o più entità.
Come per le entità potremmo voler raccogliere un gruppo di relazioni simili in un insieme di relazioni. Questo può essere visto come un insieme di n-tuple:
{( e1,… en)  E1,…,en  En}
Ciascuna n-tupla denota una relazione che coinvolge n entità, da e1 a en, dove l’entità ei appartiene all’insieme di entità Ei.
Una relazione può anche avere attributi descrittivi, i quali son usati per registrare informazioni sulla relazione, piuttosto che su ciascuna delle entità partecipanti.
Un’istanza di un insieme di relazioni è un insieme di relazioni, questa può esser vista come una “fotografia” dell’insieme di relazioni di un certo istante.
Gli insiemi di entità che partecipano ad una relazione non devono necessariamente essere distinti: qualche volta una relazione può coinvolgere entità dello stesso insieme.
Ruolo, è la funzione che un’istanza di entità esercita nell’ambito di un’associazione, e nel caso di un’associazione unaria il ruolo è sempre necessario.
Il modello ER offre costrutti per definire:
vincoli di cardinalità, sia per associazioni che per attributi. Questi si dividono in cardinalità minima( numero minimo d’istanze di un’associazione a cui le istanze delle entità coinvolte nell’associazione possono partecipare) e cardinalità massima( numero massimo di un’associazione a cui le istanze dell’entità coinvolte nell’associazione posso partecipare).
Data un’entità E ed un’associazione A:
i.c_max=1, ogni istanza di E può partecipare a non più di un’istanza di A,
ii.c_max=c_min=1, ogni istanza i E partecipa ad una ed una sola istanza di A,
iii.c_min=0, c_max=n, ogni istanza di E può partecipare ad un numero qualsiasi di istanze di A, anche nessuna.
vincoli d’identificazione, per entità. Identificatori per un’entità: insieme di attributi e/o entità che identificano le istanze dell’entità. Un identificatore è minimale se qualsiasi sottoinsieme proprio non è un identificatore. Le entità deboli ha sempre cardinalità(1,1) rispetto all’associazione attraverso cui avviene l’dentificazione.
Uno a uno: se c_max di E e di E°, rispetto ad A è 1;
Uno a molti: se c_max di E rispetto ad A è n e c_max di E° rispetto ad A è 1, o viceversa. Un impiegato può essere associato a molti altri reparti.
Molti a molti: l’insieme di relazioni Lavora_in, in cui un impiegato può lavorare in diversi reparti e ogni reparto può avere diversi impiegati.
Insieme di entità deboli: se c_max di E e di E°, rispetto ad A è n. Questa viene identificata univocamente solo considerando alcuni attributi in congiunzione con la chiave primaria di un’altra entità, che è chiamata proprietario identificante. Devono valere queste condizioni:
l’insieme di entità proprietarie e l’insieme di entità deboli devono partecipare in un insieme di relazioni uno-a-molti. Questo insieme di relazioni è chiamato insieme di relazioni identificanti dell’insieme di relazioni deboli
l’insieme di entità deboli deve aver partecipazione totale nell’insieme di relazioni identificanti.
Per identificare che si ha un’entità debole si usa un tratto più spesso.
Mentre per indicare che si ha una chiave parziale si userà una sottolineatura a tratti.
La specializzazione è il processo con cui s’individuano sottoinsiemi di un insieme di entità(la superclasse) che condividono alcune caratteristiche distintive. Tipicamente, la superclasse viene definita per prima,poi le sottoclassi, ed infine si aggiungono gli attributi specifici e gli insiemi di relazioni.
La generalizzazione consiste nell’identificare alcune caratteristiche comuni a una collezione di insiemi di entità e creare un nuovo insieme di entità che contiene quelle entità che possiedono caratteristiche comuni. Le sottoclassi si definiscono per prime, poi le superclassi, e poi si aggiungono tutti gli insiemi di relazioni che coinvolgono la superclasse.
I vincoli di disgiunzione determinano se a due sottoclassi è premesso contenere la stessa identità.
I vincoli di copertura determinano se le entità di una sottoclasse includono, nel loro complesso tutte le entità della superclasse.
L’aggregazione ci permette di indicare che un insieme di relazioni partecipa in un altro insieme di relazioni. Ciò viene illustrato con un riquadro tratteggiato intorno all’insieme di relazioni.
L’uso di un modello di dati semantico di alto livello offre nella progettazione concettuale il vantaggio addizionale che il progetto ad alto livello può essere rappresentato con diagrammi e facilmente compreso dalle molte persone che devono fornire informazioni utili al processo progettuale.
L’approccio normale consta nel considerare le necessità dei vari gruppo di utenti, risolvere i conflitti e generare un singolo insieme di requisiti. Un altro tipo di approccio consiste nello sviluppare schemi concettuali separati per i diversi gruppi di utenza, per poi integrarli. Per fare ciò si deve stabilire le corrispondenze tra le entità, le relazioni e gli attributi, e risolvere diversi tipi di conflitti.

Un insieme di entità è tradotto in una relazione in maniera molto semplice: ogni attributo di un insieme di entità diventa un attributo della tabella.
Per rappresentare una relazione, dobbiamo potere identificare ciascuna entità partecipante, e dare valori agli attributi descrittivi della relazione, quindi:
gli attributi della chiave primaria di ciascun insieme di entità partecipante, come campi di chiavi esterne
gli attributi descrittivi dell’insieme di relazioni.
Se un insieme di relazioni coinvolge n insiemi di entità, e m di essi sono collegati con frecce ne diagramma ER, la chiave per ciascuno di questi m insiemi costituisce una chiave per la relazione in cui l’insieme è tradotto. Quindi abbiamo m chiavi candidate, e una di queste dovrebbe essere scelta come chiave primaria.
Un secondo approccio per tradurre un insieme di relazioni con vincoli di chiave si rivela spesso migliore, perché evita di creare una tabella distinta per l’insieme di relazioni.
L’idea è di includere le informazioni sull’insieme di relazioni nella tabella corrispondente all’insieme di entità con la chiave, sfruttando il vincolo di chiave.
Lo svantaggio in questo è che potrebbe esserci uno spreco di spazio. In tal caso i campi aggiunti dovrebbero essere riempiti con valori null. La prima traduzione evita questa inefficienza, ma alcune interrogazioni importanti richiedono di combinare informazioni da due relazioni, il che può essere un operazione lenta.
Un insieme di entità deboli partecipa sempre in una relazione binaria uno-a-molti e ha vincoli di chiave e di partecipazione totale. Questa ha solo una chiave parziale, e quando un’entità proprietaria viene cancellata, vogliamo che vengano eliminate anche le entità deboli collegate.

==PROGETTAZIONE CONCETTUALE==

La progettazione concettuale di una base di dati ci fornisce un insieme di schemi di relazione e VI che possono essere considerati un buon punto di partenza per il progetto finale. Permette di rappresentare i dati in modo indipendente da ogni sistema, cercando di descrivere i concetti del mondo reale.
Presentiamo ora una panoramica sui problemi che il raffinamento degli schemi intendo risolvere:
problemi causati dalla ridondanza: memorizzare la stessa informazione in maniera ridondante, cioè in diversi posti all’interno della stessa base di dati può portare a diversi problemi:
memorizzazione ridondante;
anomalie da aggiornamento, se una coppia di questi dati ripetuti viene aggiornata si crea un’inconsistenza, a meno di aggiornare anche tutte le altre copie;
anomalie da inserimento, potrebbe non essere possibile registrare certe informazioni, a meno di inserire anche qualche altra informazione non correlata;
anomalie di cancellazione.
Idealmente vorremmo degli schemi che non permettano ridondanza, ma quanto meno vogliamo poter identificare gli schemi che lo permettono:
valori null: questi non possono fornire una soluzione completa, ma possono aiutare. Questi valori possono essere utili per le anomalie da inserimento e cancellazione.
decomposizione, la ridondanza nasce quando uno schema relazionale forza una associazione tra attributi che non è naturale. Le dipendenze funzionali possono essere usate per identificare tali situazioni e per suggerire raffinamenti dello schema. Molti problemi che nascono dalla ridondanza possono essere risolti sostituendo una relazione con una collezione di relazioni “più piccolo”. Una decomposizione di uno schema di relazione r consiste nella sostituzione della schema di relazione con due(o più) schemi di relazione ciascuno dei quali contiene un sottoinsieme di attributi di R, e la cui unione include tutti tali attributi. Noi vogliamo memorizzare le informazioni in ogni data istanza di r memorizzandone le proiezioni. Se non si sta attenti con la decomposizione si possono creare più problemi di quanti se ne vogliano.
la proprietà senza perdita(lossless join) ci permette di recuperare qualunque istanza di una relazione decomposta a partire dalle corrispondenti istanze delle relazioni componenti tramite operazioni di join;
la proprietà di conservazione delle dipendenze ci consente di mantenere qualunque vincolo della relazione originaria semplicemente imponendo alcuni vincoli su ciascuna delle relazioni componenti. Ossia non abbiamo bisogno di effettuare join delle relazioni più piccolo per controllare se viene violato un vincolo della relazione originale.
La decomposizione potrebbe migliorare le prestazioni, nel caso in cui la maggior parte delle interrogazioni degli aggiornamenti esaminano solo una delle relazioni componenti, che è più piccola della relazione originale.
Dipendenze funzionali: DF è un tipo di VI che generalizza il concetto di chiave. Sia R uno schema di relazione e siano X e Y insiemi non vuoti di attributi di R, diciamo che un’istanza r di R soddisfa la DF X  Y (si legge X determina funzionalmente Y, o X determina Y) se per ogni coppia di tuple t1 e t2 in r vale al seguente:
se t1.X = t2.X , allora t1.Y = t2.Y
Una DF X  Y essenzialmente dice che se due tuple coincidono sui valori dell’attributo X, devono anche avere lo stesso valore per l’attributo Y.
Un’istanza legale di una relazione soddisfare tutti i VI specificati. Quindi guardando l’istanza di una relazione, potremmo essere in grado di dire che una certa DF non è valida, però non possiamo mai dedurre che una DF è valida solo guardando una o più istanza di una relazione, perché una DF, diversamente da un VI, è un’affermazione su tutte le possibili istanze legali di una relazione.
La definizione di una DF non richiede che l’insieme X sia minimale: l’ulteriore condizione di minimalità deve essere soddisfatta perché X sia una chiave. Se vale X  Y, dove Y è l’insieme di tutti gli attributi, ed esiste qualche sottoinsieme X di tale che V  Y, allora X è una superchiave.
Diciamo che una DF f è implicata da un dato insieme F di DF se f vale su ogni istanza di relazione che soddisfa tutte le dipendenze in F, f vale ogni volta che tutte le DF valgono in F.
Chiusura di un insieme di DF, l’insieme di tutte le DF implicate in un dato insieme F di DF è detto chiusura di F, denotato come F+. Come possiamo inferire(calcolare la chiusura di un dato insieme)?
Con gli Assiomi si Armstrong, i quali possono essere applicati per inferire tute le DF implicate da un insieme F di DF.
riflessività, se X  Y, allora X  Y;
aumento, se X  Y allora XZ  YZ per ogni Z;
transitività, se X  Y e Y  X, allora X  Z.
Teorema 1  gli assiomi di Armstrong sono corretti, nel senso che generano solo DF in F+ quando sono applicati a un insieme F di DF. Sono anche completi, nel senso che ripetute applicazioni di queste regole generano tutte le DF nella chiusura F+.
Quando si parla di F+ conviene usare alcune regole addizionali:
unione: se X  Y e X  Z, allora X  YZ;
decomposizione: se X  YZ, allora X  Y e X  Z.
in una DF banale, la parte destra contiene solo attributi che appaiono anche nella parte sinistra; tali dipendenze valgono sempre per via della riflessività. Usando questa possiamo generare tutte le dipendenze banali, che hanno la forma:
X  Y, dove Y  X, X  ABC e Y  ABC.
Dalla transitività otteniamo A  C.
Dall’aumento otteniamo le dipendenze non banali:
AC  BC, AB  AC, AB  CB.
Chiusura degli attributi, se volgiamo controllare se una data dipendenza, diciamo X  Y, è nella chiusura di un insieme F di DF, possiamo farlo in maniera efficiente senza calcolare la chiusura stessa.
Prima troviamo la chiusura degli attributi X+ rispetto a F, che è l’insieme degli attributi A tali che X  A può essere derivata usando gli Assiomi di Armstrong. Questo è l’algoritmo di calcolo:
chiusura = X;
ripeti fin quando non ci sono più cambiamenti: {
se c’è una DF U  V in F tale che U  chiusura,
allora chiusura = chiusura  V
}
Teorema 2 l’algoritmo mostrato calcola la chiusura dell’insieme X di attributi rispetto all’insieme F delle DF.
Forme normali, dato uno schema di relazione, abbiamo bisogno di decidere se esso sia un buon progetto o se c’è necessità di decomporlo in relazioni più piccole. Una tale decisione deve essere guidata dalla comprensione di quali problemi sono presenti nello schema corrente.
Le forme normali basate su DF sono la prima forma normale (1NF), la seconda(2NF), la terza(3NF) e la forma normale di Boyce-Codd(BCNF).
Una relazione è nella 1NF se ogni campo contiene solo valori atomici, cioè niente liste o insiemi. La 2NF ha un interesse storico. La 3NF e la BCNF sono importanti dal punto di vista della progettazione di una base di dati.
forma normale di Boyce-Codd, sia R uno schema di relazione, F sia l’insieme delle DF date su R, X sia un sottoinsieme degli attributi di R, e A un attributo di R. R è nella BCNF se per ogni DF X  A in F vale una delle seguenti asserzioni:
A  X, cioè è una DF banale,
X è una superchiave.
In una relazione in BCNF le sole dipendenze non banali sono quelle in cui una chiave determina alcuni attributi. Perciò ogni tupla può essere vista come un’entità o relazione, identificata da una chiave e descritta dai restanti attributi.
La BCNF assicura che nessuna ridondanza può essere rilevata usando solo le informazioni delle DF. Quindi è la più desiderabile delle forme normali, se prendiamo in considerazione solo le informazioni delle DF.
Se X è una chiave, allora y1=y2, il che significa ce le due tuple sono identiche. Poiché una relazione è definita come un insieme di tuple, non possiamo avere due copie della stessa tupla.
Se una relazione è in BCNF, ogni campo di ciascuna tupla registra una parte d’informazione che non può essere dedotta dall’istanza della relazione.
terza forma normale, sia R uno schema di relazione, F l’insieme delle DF date su R, X un sottoinsieme degli attributi di R, e A un attributo di R. R è in 3NF se per ogni DF X  A in F vale:
A  X, cioè è una DF banale
X è una superchiave
A fa parte di una chiave di R.
Supponiamo che una dipendenza X  A provochi una violazione della 3NF, sono possibili due casi:
1)X è un sottoinsieme proprio di qualche chiave K. Questa viene chiamata dipendenza parziale e viene memorizzato la coppia (X,A) in maniera ridondante.
2)X non è un sottoinsieme proprio di una chiave. Una tale dipendenza è a volte chiamata dipendenza transitiva, perché significa che abbiamo una catena di dipendenze K  X  A. Il problema è che non possiamo associare un valore X con un valore K a meno di associare anche un valore A con un valore X.
Nella 3NF è possibile qualche ridondanza. I problemi associati alle dipendenze parziali e transitive persistono se c’è una dipendenza non banale X  A e X non è una superchiave, anche se la relazione è nella forma 3NF perché A è parte di una chiave.
Proprietà delle decomposizioni;
- decomposizioni senza perdita, sia R uno schema di relazione e sia F un insieme di DF su R: una decomposizione di R in due schemi con insiemi di attributi X e Y si dice decomposizione senza perdita rispetto a F se per ogni istanza r di R che soddisfa le dipendenze in F, x(r) >< y ( r ) = r. Possiamo tornare alla relazione originale a partire dalle relazioni della decomposizione.
Tutte le decomposizioni usate per eliminare la ridondanza devono essere senza perdita d’informazione.
Teorema 3 sia R una relazione e F un insieme di DF che valgono su R. la decomposizione di R in due relazioni con insiemi di attributi R1 e R2 è senza perdita d’informazione se e solo se F+ contiene la DF R1R2 R1 oppure la DF R1R2 R2.
- decomposizione con conservazione delle dipendenze, permette di applicare tutte le DF esaminando una singola istanza di relazione su ciascun inserimento o modifica di una tupla.

==SQL==

L’uso di comandi SQL in un programma scritto in un linguaggio ospite è chiamato SQL incapsulato, o embedded SQL.
I comandi SQL possono essere usati nel linguaggio ospite ovunque sia permesso. Ogni variabile del compilatore di quel linguaggio, usata per passare argomenti ad un comando SQL, deve essere dichiarata in SQL.
Devono essere dichiarate alcune variabili speciali del linguaggio ospite. Vi sono due complicazione di cui tener conto:
i tipi di dati riconosciuti da SQL potrebbero non essere riconosciuti dal linguaggio ospite, e viceversa,
SQL è orientato agli insiemi, quindi si passa all’uso dei cursori. I comandi operano su tabelle e producono tabelle, cioè insiemi.
I comandi possono far riferimento a variabili definite nel programma ospite, queste però devono essere precedute da due punti (:) nei comandi SQL, e devono essere dichiarate tra i comandi EXEC SQL BEGIN DECLARE SECTION ed EXEC SQL END DECLARE SECTION.
Si può pensare ad un cursore come se “puntasse” ad una riga nella collezione di risposte dell’interrogazione cui è associato. Quando un cursore viene aperto si posiziona appena prima della prima riga. Possiamo usare il comando FETCH per leggere la prima riga del cursore nelle variabili del linguaggio ospite.
Quando questo viene eseguito, il cursore viene posizionato per puntare alla riga successiva( che è la prima riga della tabella quando FETCH è eseguito per la prima volta dopo l’apertura del cursore) e i valori delle colonne nella riga sono copiarti nelle corrispondenti variabili ospiti. Eseguendo ripetutamente questo comando FETCH possiamo leggere tutte le righe calcolate dall’interrogazione, una alla volta.
Quando abbiamo finito col cursore usiamo il comando CLOSE.
Proprietà dei cursori, la forma generale della dichiarazione di un cursore è:
DECLARE nome_cursore [INSENSITIVE] [SCROLL] CURSOR
[WITH HOLD]
FOR qualche interrogazione
[ORDER BY lista-ordinamento]
[FOR READ ONLY | FOR UPDATE]
Un cursore può essere dichiarato di sola lettura (FOR READ ONLY) oppure, se è definito su una relazione di base o una vista aggiornabile(FOR UPDATE).
Se è aggiornabile, semplici varianti dei comandi UPDATE e DELETE ci permettono di aggiornare o cancellare la riga su cui il cursore è posizionato
Un cursore è aggiornabile per default a meno che nella sua definizione sia stato specificato SCROLL e INSENSITIVE, nel qual caso è di sola lettura.
SCROLL;il cursore è scorrevole, quindi le varianti del comando FETCH possono essere usate per posizionarlo in maniera molto flessibile; altrimenti è consentito il solo comando FETCH di base, che sposta il cursore alla riga successiva.
INSENSITIVE;il cursore si comporta come se si muovesse su una copia privata della collezione di righe della risposta. Altrimenti per impostazione predefinita, le azioni di qualche altra transazione potrebbero modificare tali righe, creando comportamenti non prevedibili.
Un cursore mantenibile viene specificato con la clausola WITH HOLD, e non è chiuso quando la transazione termina. Se una qualunque transazione viene interrotta il sistema, potenzialmente, deve rifare parecchio lavoro. Quindi l’alternativa è spezzare la transazione in diverse transazioni, più piccole, ma ricordare la posizione nella tabella è complicato e soggetto a errori.
ORDER BY; può essere usata per specificare un ordinamento. La lista-ordinamento è una lista di voci di ordinamento(nome di colonna), eventualmente seguito da una delle parole chiave ASC e DESC. Ogni colonna menzionata nella clausola ORDER BY deve apparire anche nella lista-selezione dell’interrogazione associata al cursore; altrimenti non è chiaro su quali colonne effettuare l’ordinamento.
SQL dinamico; i due comandi principali sono PREPARE e EXECUTE:
char c_stringaSQL[] = {“DELETE FROM Velisti WHERE esperienza > 5”};
EXEC SQL PREPARE pronto FROM: c_stringaSQL;
EXE SQL EXECUTE pronto;
1)il primo comando dichiara la variabile C c_stringaSQL e ne imposta il valore ad una rappresentazione stringa di un comando di SQL.
2)la seconda istruzione fa sì che tale stringa venga esaminata e compilata come comando SQL, con l’eseguibile risultante legato alla variabile pronto
3)la terza istruzione esegue il comando.
La preparazione di un comando SQL dinamico avviene durante l’esecuzione, che ne risulta appesantita. I comandi dell’SQL interattivo e dell’SQL incapsulato possono essere preparati una volta per tutte al momento della compilazione, e poi ri-eseguiti quanto si vuole. Di fatti si deve limitare l’uso dell’SQL dinamico a quelle situazioni in cui è essenziale.

==MIR SYSTEM==

Lo scopo di questi sistemi è di permettere a qualsiasi utente di eseguire ricerche su tutta la musica esistente, attraverso interfacce con cui poter sottomettere al sistema descrizioni esaustive, nel modo più naturale possibile fornendo applicazioni utili a collegare e manipolare l’informazione ritornata dal sistema.
L’informazione musicale può essere descritta attraverso sette aspetti(Downie);
1.Pitch Facet; la qualità del suono percepita che è principalmente una funzione della sua frequenza fondamentale.
Rappresentazione del pitch:
note sul pentagramma,
nome A, B,C#,
pitch class number 0, 1, 2,
solfeggio do, re mi.
Intervallo: è la differenza tra due pitch espressa in semitoni o attraverso la sua caratteristica tonale determinata dalla posizione dei due pitch nella sintassi tradizionale.
Melodia: insieme di pitch o intervalli percepiti in modo sequenziale bel tempo.
Chiave: viene considerato come sub-aspetto del pitch. I due contorni melodici sono presi percettivamente equivalenti, nonostante il fatto che sia diverso il loro pitch assoluto.
Contorno melodico: il pattern degli intervalli.
2.Temporal Facet: informazione relativa alla durata degli eventi musicali che include:
i.Metrica
ii.Indicatori di tempo
iii.Durata del pitch
iv.Accenti
v.Durata armonica
Questi elementi costituiscono la parte ritmica del brano(questo può essere rappresentato in diversi modi, ognuno dei quali definisce uno stesso risultato)
Pause: possono essere considerate indicatori della durata degli eventi musicali che non contengono pitch.
Informazione temporale: può essere:
Assoluta ( metronomo ),
Generale ( adagio, forte ),
Relativo ( schneller, langsamer ),
Temporal distorsion ( rubato, rallentando ).
3.Harmonic Facet: quando due o più pitch suonano simultaneamente, definita anche come polifonia. Interazione tra pitch e aspetto temporale per creare la polifonia ( caratteristica fondamentale della musica occidentale).
Gli eventi armonici , sebbene presenti nella partitura, non solo sempre indicati esplicitamente. La mente umana può percepire un accordo, nonostante la presenza di note “extra”.
4.Timbral Facet: comprende tutti gli aspetti del colore del tono. La distinzione tra una nota suonata da un flauto ed un clarinetto è causata dalla differenza del timbro. Fanno parte di questo aspetto le informazioni sulla composizione dell’orchestra, e anche l’enumerazione degli strumenti.
5.Editorial Facet: istruzioni sull’esecuzione( diteggiatura, ornamenti, istruzioni dinamiche, etc…). Anche la musica stessa può essere inclusa.
6.Textual Facet: è l’aspetto più indipendente dalla melodia e dagli arrangiamenti associati. Un frammento di lirica in alcuni casi non è sufficiente per ritrovare il brano ricercato e viceversa.
7.Bibliographic Facet: sono informazioni relative a:
titolo
compositore
arrangiatore
editore
numero di catalogo
data pubblicazione
esecutori.
Uno degli obbiettivi principali del MIR è permettere l’organizzazione dei dati per recuperare tutta l’informazione disponibile riguardante un certo brano musicale.
Interrogazioni per contenuto: confronto tra i complessi contenuti musicali presenti nella base di dati e contenuti musicali meno complessi introdotti come criterio di ricerca.
Per la costruzione di un DB musicale vi son tre passi:
1.individuare lo scopo dei dati. In questa fase è necessario definire come le informazioni devono essere collezionate ed inserite nel DB, quali relazioni esistono tra loro e quali tipi di interrogazioni rendere disponibili all’utente finale.
2.elencare i dati necessari, considerando le sorgenti d’informazione disponibili. Le informazioni testuali sono solitamente più ricche e frequenti di quelle multimediali a causa delle problematiche legate al copy-right.
3.definire la miglior struttura per questo corpo. In pratica come le informazioni vengono classificate ed organizzate, o qual è il miglior standard con cui scrivere queste informazioni.
Senza una buona struttura l’uso e l’accesso del DB diventa inutile e complicato, la sua efficienza ne risente come la sua manutenzione.
Una volta definito il DB è necessario definire le interfacce e le tipologie d’interrogazione da fornire all’utente. Vi son tre tipi di ricerca:
Browsing: può essere un mezzo utile per cercare in un sistema ricco di collegamenti tra i dati ed i metadati, e permette di passare da un brano all’altro attraverso diversi collegamenti,
Textual search: indicizzazione di tutte le informazioni testuali accademiche( autore, titolo, …) e non accademiche( genere, frammenti delle liriche, …).
Search by content: interrogazioni basate sulla melodia o altri aspetti del contenuto audio.
Naturalmente si possono combinare le varie tipologie di ricerca per aumentare la potenza e l’efficienza del sistema.
La maniera di mostrare i risultati cambia l’utilità e le manipolazioni possibili dei dati restituiti dal sistema. I dati restituiti devono essere sufficienti a riconoscere quale brano nella lista dei risultati è quello ricercato, e una volta riconosciuto l’utente deve poter accedere a tutte le informazioni collegate, suddivise per tipologia( informazioni di catalogo e testuali, link ai meta-dati, link ad altri oggetti musicali).
Un altro aiuto nella ricerca sono le informazioni di catalogo che limitano la ricerca alla sola musica conosciuta. Uno dei più grandi e potenti descrittori usati dai consumatori di musica è il genere musicale, difatti due brani appartenenti allo stesso genere musicale hanno molti più elementi in comune rispetto a due brani non appartenenti allo stesso genere.
Generalmente gli strumenti musicali aiutano a definire il genere.
Catalog information: sono le informazioni che descrivono i brani musicali, non strettamente correlate al contenuto musicale. Descrivono chi ha preso parte alla realizzazione del brano, dove è stato registrato, informazioni sul supporto e sul copyright.
Multimedia characteristics: son metadadata che descrivono qualcosa di strettamente legato al contenuto musicale, e le informazioni associate col ricordo del frammento usato nella query-by-content.
Per valutare un sistema MIR si deve controllare che sia molto efficiente ed affidabile.
Per affidabilità intendiamo che il sistema deve permetter di trovare tutte e sole le informazioni richieste dall’utente. Queste devono essere sempre corrette( da verificare quando i dati sono elaborati automaticamente).
La complessità dei sistemi MIR è dovuta soprattutto all’enorme quantità di oggetti musicali.
Query by content: servono a trovare un brano di cui non si conoscono informazioni quali il titolo, l’autore, o altri metadata sufficienti per individuarlo. Usato anche per il copyright in modo da capire se un brano è molto simile ad un altro.
Verifica se un brano appena composto da un autore si frutto della creatività dell’artista e non influenzato da uno ascoltato in passato e poi dimenticato.
Il criterio su cui si basa la query-by-content è il frammento musicale, e di fatti vengono usati due tipi di DB:
a frammenti tematici: contengono frammenti che rappresentano i tempi musicali presenti nei brani. Il tema in questo caso viene considerato come una sequenza di note ripetuta diverse volte all’interno della composizione musicale. Una sequenza di note invece è considerata un tema se nella composizione esistono altre sequenze ottenute da questo attraverso qualche operatore musicale,
database di intere partiture: sono presenti tutte le melodie contenute in tutte le voci dell’intera partitura, perché un utente potrebbe ricordare un solo frammento del brano non appartenente al tema.
Query-by-humming, può risultare non accurata ed è per utenti non esperti.
L’approccio per questo metodo sono di due tipi:
DSP: elaborazione della forma d’onda o delle frequenze per trovare similarità tra i brani. Vi è una trasformazione in simbolico, dove vengono estrapolate le caratteristiche descriventi gli eventi musicali. Questo sistema risulta molo faticoso e complesso.
Simbolico: trasformazione dei brani in sequenze di stringhe di caratteri rappresentanti le sequenza melodiche contenute nei brani. Il frammento della query viene trasformato allo stesso modo e quindi confrontato con le stringhe nel DB.
Come criterio per le query-by-content viene usato l’audio( si definisce attraverso l’analisi delle frequenze esistenti nello spettro del segnale in ogni istante di tempo(discreto) il corrispondente pitch).
In input avremo un frammento audio(non strutturato per definizione) ed in output le caratteristiche capaci di definire i note-pattern.
Vi son dei problemi legati alla trascrizione da audio a simbolico:
Note segmentation: dove sono posizionate esattamente le note?Quanto durano?
Pitch variation della nota suonata: come individuare l’esatta altezza della nota suonata?
Note quantization: come posizionare le altezze sulle scale musicali?
Purtroppo viene difficile capire quale nota deve essere associata all’altezza del suono, infatti non esiste sempre una corrispondenza esatta.
Lo stesso discorso vale per la rappresentazione simbolica, infatti esistono molte tipologie del formato. Possiamo avere casi dove la stessa altezza viene rappresentata in più modi diversi o il nome della nota può rappresentare più altezze(di differenti ottave).
Sequenze di note: ogni elemento della sequenza è descritto da qualche parametro ( solitamente nome e durata della nota ).
Rappresentazione:
tutte le rappresentazioni della stessa nota vengono collassate in una sola,
l’alfabeto di 12 elementi, viene usato per rappresentare e dividere le altezze in semitoni,
questo però comporta una perdita d’informazione sul contorno melodico.
Trasposizione: gli algoritmi per calcolare la similarità vengono applicati 12 volte su ogni sequenza. Viene usato questo metodo nei sistemi dove l’elaborazione è limitata agli incipit
Sequenza d’intervalli: distanza tra due note adiacenti misurata in semitoni. La sequenza melodica è data dalla sequenza delle distanze tra un elemento e il suo successore. Come risultato si ha un perdita della nozione di nota come elemento d’ottava.
È anche dimostrato che l’uomo ascoltando un brano non ha l’esatta percezione dell’altezza delle note, ma ricorda più facilmente la sequenza degli intervalli.
Contorno melodico: si considera solo la direzione tra una nota ed il suo successore. È possibile rappresentare la sequenza melodica con solo 3 simboli: up, down, equal to.
Questo però permette di avere una trascrizione di query-by-humming corretta, e se la melodia è abbastanza lunga è possibili individuare univocamente il brano cercato.
La lunghezza media di un query fragment è pari a 7 note, significa ottenere centinaia di brani simili, impossibili ascoltarli tutti per trovare quello corretto.
Però questo sistema è utile come operazione di “pre-processing”, per scremare il contenuto del DB prima di usare un metodo più sofisticato.
Classi di equivalenza: ogni simbolo rappresenta n intervalli.
C1:ogni simbolo rappresenta un intervallo,
C3: ogni simbolo rappresenta 3 diversi intervalli adiacenti,
CU: tutti gli intervalli crescenti e decrescenti collassato in due differenti classi( contorno melodico ).
Rappresentazione Frame-based:
non si ha la segmentation, in pratica non si divide ogni singolo evento della melodia,
il tempo viene diviso in frame di ugual misura,
viene stimato il valore di un pitch per ogni frame,
le note non sono esplicitamente descritte,
in un unico valore sono rappresentabili le informazioni relative ad altezza e durata.
Svantaggio di questo metodo è che si perde l’informazione relativa al ritmo.
Music psychology: c’è un alta probabilità che qualche errore si presente nel frammento dell’interrogazione, di fatti anche utenti esperti possono non essere in grado di rappresentare in modo esatto la melodia del brano che stanno cercando.
L’interrogazione è distribuita su più voci:
non è sempre detto che il frammento della query rappresenti in modo esatto la melodia del brano che si sta cercando,
in punti adiacenti del brano, l’utente potrebbe ricordarsi la melodia di differenti parti, costruendo una nuova melodia.
Il concetto di similarità varia in funzione di:
memoria, che può essere a breve o lungo termine,
tipologia di utente, che va dal non esperto,al mediamente esperto e all’esperto.
Melodia: definire come una sequenza di note sia riconosciuta dall’uomo come una melodia di un brano polifonico.
String matching and melodic similarità: approccio tra i più utilizzati per risolvere il problema della similarità melodica. Una semplice formalizzazione del problema contestualizzato nell’ambito dello string matching potrebbe essere: sia f la stringa di caratteri che rappresenta il frammento melodico criterio di un’interrogazione e s la stringa di caratteri che rappresenta la partitura di un brano presente nel DB:
 f è fattore di x?
se f non appare in x, quale sottoparte di f è presente in s?
quante volte un’approssimazione di f è presente in s?
Blast algorithm: Basic Local Alignment Search Tool: uno tra i metodi più efficaci utilizzati per l’elaborazione di database biologici. Permette d’individuare in due sequenze:
zone uguali o simili,
allineamenti globali.
Il grado di similarità tra le due sequenze mostra la correlazione. Questa può essere basata su:
Identità percentuale: numero di elementi uguali nello stesso ordine presenti nelle due sequenze rispetto al numero totale di elementi,
Conservazione: quando cambiando un elemento nella sequenza in una precisa posizione, le proprietà chimiche e fisiche restano invariate.

[[categoria:appunti]]

Database Musicali/Appunti/2006-2007

2007-07-11T10:56:46Z

SingInTime:

Questa pagina è un copia-incolla poderoso degli appunti di '''El Conte''', che li ha generosamente pubblicati su [http://www.musicomio.org musicomio] e che ringrazio infinitamente. L'impaginazione verrà sistemata al più presto e vedrò anche di integrare eventuali punti mancanti/carenti/non chiari, ammesso che ne trovi...

Promesso!

==Introduzione==
===Il sistema informativo===
Un '''sistema informativo''' è la componente (o il sottosistema) di una organizzazione che gestisce, acquisisce, elabora, conserva, produce, le informazioni di interesse, cioè utilizzate per il perseguimento degli scopi dell’organizzazione stessa.

Ogni organizzazione ha un sistema informativo, anche se può essere eventualmente non esplicitato nella struttura. Quasi sempre il sistema informativo è di supporto ad altri sottosistemi, e va quindi studiato nel contesto in cui è inserito. Inoltre è di solito suddiviso in sottosistemi (in modo gerarchico o decentrato), più o meno fortemente integrati tra loro.

Il '''sistema informatico''' è invece la parte del sistema informativo che gestisce informazioni per mezzo della tecnologia informatica.

La presenza di un sistema informatico all'interno di un sistema informativo non è obbligatoria: il concetto di “sistema informativo” è indipendente da qualsiasi automatizzazione. Esistono infatti organizzazioni la cui ragione d’essere è la gestione di informazioni (es: servizi anagrafici e banche) e che per secoli hanno operato senza l'ausilio dell'informatica.

===Gestione delle informazioni===
Nelle attività umane, le informazioni vengono gestite (registrate e scambiate) in forme diverse, a seconda delle necessità e capacità:
* idee informali
* linguaggio naturale (scritto o parlato, formale o colloquiale, in una lingua o in un’altra)
* disegni, grafici, schemi
* numeri
* codici (anche segreti)

E su vari supporti, dalla memoria umana alla carta.

Nelle attività standardizzate dei sistemi informativi complessi, sono state introdotte col tempo forme di organizzazione e codifica delle informazioni.

Ad esempio, nei servizi anagrafici si è iniziato con registrazioni discorsive e sono state poi introdotte informazioni via via più precise:
* nome e cognome
* estremi anagrafici
* codice fiscale

In particolare, nei sistemi informatici (e non solo in essi), le informazioni vengono rappresentate attraverso i '''dati'''.

Si dice '''informazione''' tutto ciò che produce variazioni nel patrimonio conoscitivo di un soggetto detto percettore dell'informazione.

Si dice '''dato''' una registrazione della descrizione di una qualsiasi caratteristica della realtà su un supporto che ne garantisca la conservazione e, mediante un insieme di simboli, ne garantisca la comprensibilità e la reperibilità.

Uno degli obiettivi fondamentali di un sistema di gestione dati è fornire un '''contesto interpretativo''' ai dati, in modo da consentire un accesso efficace alle informazioni da essi rappresentate.

==Database e DBMS==
===Cosa sono===
In un'accezione generica, un '''database''' è una collezione di dati, utilizzati per rappresentare le informazioni di interesse per una o più applicazioni. In un'accezione più specifica, un database è una collezione di dati gestita da un DBMS.

Un '''DBMS''' (Database Management System) è un sistema (prodotto software) in grado di gestire collezioni di dati che siano:
* '''Grandi:''' di dimensioni (molto) maggiori della memoria centrale dei sistemi di calcolo utilizzati
* '''Persistenti:''' con un periodo di vita indipendentedalle singole esecuzioni dei programmi che le utilizzano
* '''Condivise:''' utilizzate da applicazioni diverse

Un DBMS deve garantire '''affidabilità''' (resistenza a malfunzionamenti hardware e software) e '''privatezza''' (mediante politiche di controllo degli accessi). Come ogni prodotto informatico, un DBMS deve essere '''efficiente''', utilizzando al meglio le risorse di spazio e tempo del sistema, ed '''efficace''', rendendo produttive le attività dei suoi utilizzatori.

La gestione di sistemi di dati grandi e persistenti è possibile anche tramite sistemi più semplici, quali gli ordinari file system dei sistemi operativi, che permettono di realizzare anche rudimentali forme di condivisione. I DBMS però estendono le funzionalità dei file system, fornendo più servizi ed in maniera integrata.

===Caratteristiche===
I maggiori vantaggi di un DBMS sono:
* l’indipendenza dei dati
* un loro accesso efficiente
* integrità e sicurezza
* amministrazione
* organizzazione degli accessi e ripristino da crash
* riduzione del tempo di sviluppo delle applicazioni.

Un DBMS è utile quando la quantità di dati è elevata e porterebbe ad un appesantimento operativo e/o quando si vogliono usare le sue potenzialità d’interrogazione dell’archivio di dati.

Compito importante di un DBMS è la '''sequenzalizzazione di accessi concorrenti ai dati''' , così che ogni utente possa ignorare il fatto che altri stanno accedendo ai dati allo stesso tempo. Per fare ciò ci si serve di un meccanismo detto '''lock''' che serve a controllare l’acceso agli oggetti della base di dati. Un '''protocollo di locking''' è l'insieme di regole che ogni transazione deve seguire per garantire che l’effetto sia identico a quello ottenuto eseguendo tutte le transazioni in qualche ordine seriale.

Il DBMS mantiene un log di tutte le scritture sulla base di dati. Ogni azione di scrittura deve essere registrata prima di effettuare la modifica nella base di dati.

WAL(write-ahead log): usato nel caso il sistema andasse in crash appena fatto il cambiamento, ma prima che esso sia registrato nel log.

===Modelli di dati===
Un '''modello di dati''' è un insieme di strumenti concettuali, o '''formalismo''', che consta di tre componenti fondamentali:
* un insieme di strutture dati
* una notazione per specificare i dati tramite le strutture dati del modello
* un insieme di operazioni per manipolare i dati.

Generalmente si tratta di una struttura ad alto livello che nasconde molti dei dettagli di memorizzazione a basso livello. Un DBMS permette all’utente di definire i dati da memorizzare in termini di un modello di dati.

Un '''modello di dati semantico''' è un modello di dati ad alto livello che rende più semplice ad un utente creare una buona descrizione iniziale dei dati. Questi contengono una grande quantità di costrutti che aiutano a descrivere lo scenario di un’applicazione reale.

Al grado più elevato di astrazione troviamo i '''modelli concettuali''', che permettono di rappresentare i dati in modo indipendente da ogni sistema, cercando di descrivere i concetti del mondo reale. Sono utilizzati nelle fasi preliminari di progettazione. Il più noto è il modello '''entità-relazione'''.

Scendendo di livello troviamo i '''modelli logici''', utilizzati per l’organizzazione dei dati. Ad essi fanno riferimento i programmi, e sono indipendenti dalle strutture fisiche di memorizzazione. Ecco alcuni esempi di modelli logici: relazionale, reticolare, gerarchico, a oggetti...

E' importante che modelli simili favoriscano l''''indipendenza dei dati'''. Tale proprietà si ottiene quando le applicazioni sono isolate dalle modifiche al modo in cui i dati sono strutturati e memorizzati.

Vi sono due tipi d’indipendenza dei dati:
* '''logica:''' i cambiamenti della struttura logica dei dati possono essere resi trasparenti agli utenti , cosi come la scelta delle relazioni da memorizzare
* '''fisica:''' lo schema logico isola gli utenti dai cambiamenti nei dettagli fisici di registrazione.

===Il modello relazionale===
Il '''modello relazionale''' è il modello logico più noto ed è quello che viene solitamente implementato in un DBMS. E' stato proposto da E. F. Codd nel 1970 per favorire l’indipendenza dei dati e reso disponibile in DBMS reali nel 1981. Si basa sul concetto matematico di '''relazione''', questo fornisce al modello una base teorica che permette di dimostrare formalmente proprietà di dati e operazioni.

Una relazione consiste in uno '''schema relazionale''' e nelle sue '''istanze di relazione'''. Lo schema specifica il nome della relazione, il nome di ogni campo, ed il dominio di ciascun campo. Un'istanza di relazione è la "realizzazione concreta" dello schema relazionale e può essere vista come una tabella con righe, dette tuple o record, divise in colonne (o campi) contenenti i dati. I campi di ciascuna tupla devono corrispondere per numero e tipo ai campi dello schema relazionale.

Il '''grado''' di una relazione è il numero dei campi presenti. La '''cardinalità''' di un'istanza di relazione è il numero di tuple in essa.

Una collezione d'istanze di relazione, una per ogni schema di relazione nello schema di una base di dati relazionale, forma un'istanza della base di dati.

----

Il calcolo relazionale è un linguaggio d'interrogazione formale basato sulla logica matematica, e le interrogazioni in tale linguaggio hanno un significato preciso e intuitivo.

L’algebra relazionale è una forma di linguaggio formale basato su una relazione di operatori per manipolare le relazioni e ha la stessa potenza del calcolo.

Una transazione è una qualunque esecuzione di un programma utenti in un DBMS.

Un DMBS è diviso in :
un ottimizzatore d’interrogazioni che usa informazioni sulla memorizzazione dei dati per produrre un piano di esecuzione efficiente per la sua valutazione
piano di esecuzione, usato per valutare l’interrogazione
gestore dello spazio sul disco
gestore delle transazioni, assicura che le transazioni richiedano e rilascino i lock seguendo un buon protocollo di bloccaggio e programma l’esecuzione delle transazioni
gestore dei lock, tiene traccia delle richieste dei lock
gestore del ripristino, responsabile del mantenimento del log e del ripristino del sistema.

Lo standard dei linguaggi SQL usa la parola table per indicare relazione.
CREATE TABLE, usato per definire una nuova tabella (CREATE TABLE Studenti )
CREATE TABLE < nome relazione >
(< specifica colonna > [, < specifica colonna > ]);
< specifica colonna >, ha il seguente formato
< nome colonna > < dominio > [DEFAULT < valore default >]
dove < dominio > è il dominio della colonna, ed è uno dei tipi di dato SQL;
< valore default > è un valore del dominio, assunto dalle tuple se nessun valore è specificato per la colonna.
INSERT, usato per inserire le tuple
INSERT
INTO R [(C…C°)]
{VALUES (e…e°)| sq};
(e…e°) è una lista di valori da assegnare alla nuova tupla, questi sono assegnati in base ad una corrispondenza posizionale
sq, è una sub-query
le tuple generate come risposta alla sq vengono inserite nella relazione R
la clausola di proiezioni di sq deve contenere colonne compatibili con le colonne di R a cui si assegnano valori
il dominio della colonna C(i=1,…., n) deve essere compatibile con il dominio della colonna i-esima contenuta nella clausola di proiezione di SQL.
Tutte le colonne non esplicitamente elencate ricevono il valore nullo o il valore di default.
DELETE, usato per cancellare le tuple
DELETE
FROM R[alias]
[WHERE F];
il nome della relazione può essere associato ad un alias se è necessario riferire a tuple di tale relazione una qualche sotto-interrogazione presente in F
se non viene specificata alcuna clausola di qualificazione vengono cancellate tutte le tuple.
UPDATE, usato per modificare i valori in una riga esistente
UPDATE R[alias]
SET C={e |NULL},…, C°={e° | NULL}
[WHERE F];
il nome della relazione può avere associato un alias se è necessario riferire tuple di tale relazione in una qualche sotto-interrogazione presente in F
C={e |NULL},…, C°={i=1 | NULL}, è un’espressione di assegnamento che specifica che alla colonna C, deve essere assegnato il valore dell’espressione e.
Questa può essere una costante, spesso funzione dei valori correnti delle tuple da modificare, o una sub-query
si può specificare che alla colonna sia assegnato il valore nullo.
VINCOLI D’INTEGRITA’ è una condizione specificata in uno schema di base dati e limita i dati che possono essere memorizzati in una istanza alla base dati. Ci son vincoli statici(relativi ad uno stato della base di dati) e vincoli di transizione(mettono in relazione stati diversi della base di dati).
Un DBMS applica i vincoli d’integrità, nel senso che permette alle istanze legali di essere memorizzate nella base di dati
quando i DBA o l’utente finale definiscono uno schema di base dati, specificano i VI che devono valere per ogni istanza di tale base dati
quando un’applicazione viene eseguita , il DBMS controlla se ci sono violazioni e no premette le modifiche ai dati che violano i VI specificati.
Integrità referenziale; rappresenta un importante vincolo d’integrità semantica. Difatti se una tupla t riferisce come valori di una chiave esterna i valori V1,….,Vn, allora deve esistere nella relazione riferita una tupla t° con valori di chiave V1,….,Vn.
VINCOLI DI CHIAVE è l’imposizione che un certo sottoinsieme minimale dei campi di una relazione sia un identificatore unico per una tupla. Un insieme di campi che identificano univocamente una tupla secondo un vincolo di chiave si chiama chiave candidata per la relazione, altresì chiamata chiave.
due tuple distinte in una istanza legale non possono avere valori uguali in tutti i campi di una chiave. In ogni istanza legale i valori nei campi chiave identificano univocamente una tupla di una istanza.
nessun sottoinsieme dell’insieme dei campi di una chiave è un identificatore unico della tupla.
Ogni relazione ha una chiave, e l’insieme di tutti i campi è una sottochiave. Se ci sono altri vincoli, alcuni sottoinsiemi dei campi possono formare una chiave, ma se ciò non si verifica l’insieme di tutti i campi è una chiave
Chiave primaria, si può far riferimento ad una tupla in qualunque parte della base di dati memorizzando i valori dai campi della sua chiave. Per definire una chiave primaria in SQL viene usato il comando PRIMARY KEY, mentre per dichiarare un sottoinsieme delle colonne di una tabella si usa UNIQUE. Nella scelta di una chiave primaria è meglio usarne una, candidata, che viene usata più frequentemente nelle interrogazioni.
Chiave esterna, deve essere uguale alla chiave primaria della relazione referenziata, cioè deve avere lo stesso numero di colonne e tipi di dati compatibili, sebbene i nomi delle colonne possano essere diversi. Se una relazione R ha trai suoi attributi un insieme di attributi che costituisce la chiave di una relazione R, allora tale insieme è una chiave esterna di R su R°. Queste chiavi permettono di collegare tra loro tuple di relazioni diverse e costituiscono un meccanismo, per valore, per modellare le associazioni tra relazioni. Quindi una tupla che deve riferire ad un’altra tupla include tra i suoi attributi uno o più di essi, il cui valore è quello della chiave della seconda tupla.
La presenza di NULL in una chiave esterna non viola il vincolo di chiave. Il comando in SQL è FOREIGN KEY che ha delle opzioni aggiuntive, sul come comportarsi una volta implementata la chiave esterna.
FOREIGN KEY(< lista nomi colonne >)
REFERENCES < nome relazione >
[ON DELETE { NO ACTION |
CASCADE | SET NULL | SET DEFAULT )}
[ ON UPDATE { NO ACTION |
CASCADE | SET NULL | SET DEFAULT )}
l’opzione predefinita è NO ACTION(l’azione deve essere ignorata).
CASCADE dice che se una riga viene cancellata, tutte le sue righe che la referenziano devono essere eliminate. Lo stesso vale per il caso di un UPDATE, dove l’aggiornamento viene propagato a ciascuna riga,
ON DELETE permette di specificare le azioni da eseguire nel caso di cancellazione di una tupla riferita tramite chiave esterna,
ON UPDATE permette di specificare le azioni da eseguire nel caso di modifica del valore di chiave di una tupla riferita tramite chiave esterna
Per default un vincolo viene verificato al termine di ogni istruzione SQL che potrebbe portare ad una violazione, e se questa ci fosse il comando viene rifiutato.
L’SQL permette di specificare che un vincolo sia in modalità DEFERRED o IMMEDIATE: SET CONSTRAINT vincolo DEFERRED.
Un’interrogazione di una base di dati relazionale è una domanda sui dati, e la risposta consiste in una nuova relazione contenente il risultato. Un esempio di query è:
SELECT*
FROM
WHERE
*significa che vogliamo tutti i campi delle tuple che compongono il risultato.
Una vista è una tabella le cui righe non sono esplicitamente memorizzate nella base dati, ma sono calcolate quando necessario in base a una definizione di vista.
Questa può essere usata come in una tabella di base per definire nuove interrogazioni o viste.
DROP TABLE, per eliminare una tabella e la sua forma è:
DROP TABLE < nome relazione >
{ RESTRICT | CASCADE };
se viene specificata l’opzione RESTRICT, la relazione viene cancellata solo se non è riferita da altri elementi dello schema della base di dati;
se viene specificata l’opzione CASCADE, la relazione e tutti gli elementi dello schema della base di dati che eventualmente la riferiscono vengono cancellati.
ALTER TABLE, modifica la struttura di una tabella esistente e la sua forma è:
ALTER TABLE < nome relazione > < modifica >;
< modifica > è la modifica da effettuare, tra l’aggiunta di una nuova colonna, modifica di una colonna e l’eliminazione.
ALGEBRA RELAZIONALE: linguaggio formale di interrogazione associato al modello relazionale. Le interrogazioni sono composte usando una collezione di operatori, e ognuno di questi deve accettare istanze di relazione come argomenti e restituisce un’istanza di relazione con risultato.
Invece un’espressione di algebra relazionale è ricorsivamente definita come una relazione, un operatore algebrico unario applicato ad una singola espressione o un operatore algebrico binario applicato a due espressioni.
Ogni interrogazione relazionale descrive una procedura passo-passo per calcolare la risposta desiderata, basandosi sull’ordine in cui gli operatori sono in essa applicati.
Selezione ; l’operatore di selezione specifica le tuple da mantenere attraverso una condizione di selezione. Questa è una combinazione Booleana di termini che hanno la forma attributo op costante oppure attributo1 op attributo2, dove op è uno degli operatori di confronto <,<=,=,=>,>,.
Proiezione ; l’operatore di proiezione invece ci permette di estrarre colonne da una relazione.
Le operazioni possibili sugli insiemi sono:
UNIONE, RS restituisce un’istanza di relazione contenente tutte le tuple presenti nell’istanza di relazione R oppure S. Due istanze sono dette compatibili rispetto all’unione quando:
1) hanno lo stesso numero dei campi;
2) campi corrispondenti hanno lo stesso dominio.
INTERSEZIONE, RS restituisce un’istanza contenente tutte le tuple presenti sia in R che in S
DIFFERENZA, R-S restituisce un’istanza contenente tutte le tuple presenti in R ma non in S. Le relazioni devono essere compatibili all’unione, e lo schema del risultato è identico a R
PRODOTTO CARTESIANO, RxS restituisce un’istanza di relazione il cui schema contiene tutti i campi di R seguiti da tutti i campi di S. Il risultato di RxS contiene una tupla |r,s|.
Rinomina , usato per rinominare le tabelle.
JOIN: usato per combinare informazioni da due o più relazioni. Un predicato di JOIN esprime una relazione che deve essere verificata dalle tuple risultato dell’interrogazione. Vi sono diversi tipi di join:
JOIN CONDIZIONALE; la versione più generale dell’operatore di join accetta una condizione di join c e un paio di istanze di relazione come argomenti e restituisce un’istanza di relazione.
c (RxS)
EQUIJOIN; lo si ha quando la condizione di join consiste solamente di uguaglianze della forma R.nome1=S.nome2. In questo caso mantenere entrambi gli attributi sarebbe ridondante come cosa. Per le condizioni di join che contengono solo queste uguaglianze l’operazione di join è completata con una ulteriore proiezione in cui S.nome2 viene scartato. Lo schema del risultato di un equijoin contiene i campi di R, seguiti dai campi di che non appaiono condizioni di join.
JOIN NATURALE; è un equijoin in cui le uguaglianze sono specificate su tutti i campi aventi lo stesso nome in R e S. Questo tipo di join gode della proprietà per cui il risultato è certamente privo di coppie di campi con lo stesso nome. C’è anche da dire che non corrisponde ad un operatore di NATURAL JOIN,dato che non si esegue alcuna proiezione, e lo scema risultante è quello del prodotto cartesiano. La sua forma è:
< nome relazione > NATURAL JOIN < nome relazione >
JOIN ESTERNI(pg99); questi si basano sui valori null, aggiungono al risultato le tuple R e S che non hanno partecipato al join, completandole con NULL,
R OUTER JOIN S
Esistono diverse varianti dell’OUTER JOIN;
1.FULL: sia le tuple di R che quelle di S che non partecipano al JOIN vengono completate ed inserite nel risultato,
2.LEFT: le tuple di R che non partecipano al JOIN vengono completate ed inserite nel risultato,
3.RIGHT: le tuple S che non partecipano al JOIN vengono completate ed inserite nel risultato.
CROSS JOIN; questi operatori poiché producono relazioni possono essere usati nella clausola FROM. È la forma di operatore JOIN più semplice che corrisponde al prodotto cartesiano. La sua sintassi è:
< nome relazione > CROSS JOIN < nome relazione >
DIVISIONE, l’operazione di divisione A/B è l’insieme di tutti valori di x(in forma di tuple unarie) tali che per ogni valore y in B, ci sia una tupla |x,y| in A. L’idea di fondo è di calcolare tutti i valori di x che non sono interdetti(un valore è interdetto se unendo a esso un valore y di B si ottiene una tupla |x,y| che non è in A).Le tuple interdette possono esser calcolate così: x(( x (A) x B) – A).

SQL:I linguaggi di basi dati come SQL permettono all’utente di specificare per quali relazioni e quali attributi è necessario mantenere l’integrità referenziale( e le azioni da eseguire in caso di violazione). La forma base di un’interrogazione SQL è:
SELECT [DISTINCT] lista-select
FROM lista-from
WHERE qualificazione
Lista-select, è una lista di nomi di colonne delle tabelle nominate nella lista-from. I nomi di colonne possono avere come prefisso una variabile di range.
Lista-from, è una lista di nomi di tabelle. Un nome di tabella può essere seguito da una variabile di range(questa è utile quando lo stesso nome di tabella appare più volte nella lista-from).
Qualificazione, è una combinazione booleana di condizioni nella forma espressione op espressione, dove op è uno degli operatori di confronto.
Ogni interrogazione deve avere una clausola SELECT, che specifica le colonne da includere nel risultato, e una clausola FROM, che specifica un prodotto cartesiano di tabelle. La clausola opzionale WHERE specifica condizioni di selezione sulle tabelle menzionate nella clausola FROM.
Se omettiamo la parola chiave DISTINCT, otterremo una copia della riga (v,e), e la risposta sarebbe un multi-insieme di righe.
Il processo d’interrogazione di un DB consta in:
caricamento della lista di attributi;
scarto delle tuple che non soddisfano la qualificazione;
eliminazione degli attributi che non sono nella lista-from.
Un multi-insieme è un simile ad un insieme, nel senso che è una collezione non ordinata di elementi, ma possono esserci diverse copie, e il numero di copie è significativo: due multi-insiemi possono avere gli stessi elementi e tuttavia essere diversi, poiché il numero di copie dello stesso elemento è diverso.
Tipi numerici esatti:
INTEGER; la precisione di questo tipo di dato è espressa in numero di bit, a seconda della specifica implementazione di SQL,
SMALLINT; l’unico requisito è che la precisione di questo tipo di dato sia non maggiore della precisione del tipo di dato INTEGER. Questo viene usato per eventuali ottimizzazioni in quanto i valori richiedono minore spazio di memorizzazione,
BIGINT; l’unico requisito è che la precisione di questo tipo di dato sia non minore della precisione del tipo di dato INTEGER,
NUMERIC; caratterizzato da una precisione(numero totale di cifre) e una scala(numero di cifre dopo la virgola), il valore default per la precisione è 1 e per la scala è 0,
DECIMAL; simile a NUMERIC, ma la specifica di questo tipo di dato ha la forma: DECIMAL[(precisione[,scala])].
Tipi numerici approssimati:
REAL; rappresenta valori reali a singola precisione in virgola mobile, e la precisione dipende dalla specifica implementazione si SQL,
DOUBLE PRECISION; rappresenta valori reali a doppia precisione in virgola mobile, e questa dipende sempre dall’implementazione di SQL(però deve essere maggiore della precisione di tipo REAL),
FLOAT; rappresenta valori reali alla precisione desiderata, ed ha la forma FLOAT[(precisione)]. La precisione minima specificabile è 1.
Tipi di dato carattere:
CHARACTER; rappresenta stringhe di caratteri di lunghezza predefinita, spesso abbreviato in CHAR. La specifica ha il formato CHAR[(n)], con n lunghezza delle stringhe. E’ possibile usare come valore una stringa di lunghezza inferiore a n, che viene completata con spazi fino a raggiungere tale lunghezza,
CHARACTER VARYING; rappresenta stringhe di caratteri di lunghezza massima predefinita. Spesso abbreviato in VARCHART, e la sua forma è VARCHART(n), dove n è la lunghezza massima delle stringhe.
Tipi di dato temporali:
DATE; rappresenta le date espresse come anno(4cifre), mese(2cifre) e giorno(2cifre),
TIME; rappresenta i tempi espressi come ora(2cifre), minuto(2cifre) e secondo(2cifre),
TIMESTAMP; rappresenta una “concatenazione” fra DATE e TIME. Permette di rappresentare timestamp che consistono in: anno, mese, giorno, ora, minuto, secondo e microsecondo,
INTERVAL; rappresenta una durata temporale in riferimento ad uno o più qualificatori. I valori di questo tipo son rappresentati dalla parola chiave INTERVAL seguita da una stringa che esprime la durata in termini di uno o più qualificatori. Se sono presenti due qualificatori, il primo è più ampio del secondo e sono separati dalla parola chiave TO.
Tipo di dato:
BOOLEAN; i valori di tali tipo sono TRUE, FALSE, UNKNOWN(questo viene introdotto per la gestione dei confronti con valori nulli,
CHARACTER LARGE OBJECT(CLOB); permette di rappresentare sequenze di caratteri di elevate dimensioni,
BINARY LARGE OBJECT(BLOB); permette di rappresentare sequenze di bit di elevate dimensioni.
E’ possibile convertire un valore ad un altro tipo mediante l’operatore di CAST
CAST (e) AS < tipo target >
AS: per introdurre una variabile di range.
I nomi delle tabelle possono essere implicitamente usati come variabili in linea. Si ha la necessità di introdurre esplicitamente le variabili di range solo quando la clausola FROM contiene più di una occorrenza di una relazione. Se una variabile di range è stata introdotta nella relazione, un nome di tabella non può essere usato come variabile di range esplicita.
Ogni elemento in una lista-select può essere della forma espressione AS nome_colonna ( questo è il nuovo nome che la colonna avrà nel risultato dell’interrogazione. Inoltre, ogni termine in una qualificazione può anche essere rappresentato nella forma generale espressione1 = espressione2.
L’SQL permette il pattern matching, su valori di tipo stringa, attraverso l’uso dell’operatore LIKE, insieme all’uso dei caratteri jolly %( zero o più caratteri qualunque) e ( esattamente un carattere qualunque). Quindi “AB%” denota una qualunque stringa che contiene almeno tre caratteri, con il secondo ed il terzo uguali a A e B.
SQL fornisce tre comandi per la manipolazione degli insiemi che estendono la forma d’interrogazione basilare, e sono:
UNION, restituisce tutte le tuple distinte restituite da almeno una delle sotto-interrogazioni a cui è applicato. Se si usa la clausola ORDER BY, questa deve essere usata una sola volta alla fine dell’interrogazione e non alla fine di ogni SELECT,
INTERSECT, corrisponde all’intersezione, restituisce le tuple restituite da entrambe le sotto interrogazioni a cui è applicato.
EXCEPT, corrisponde alla differenza, e restituisce le tuple della seconda sotto-interrogazione a cui è applicato.
Questo linguaggio fornisce anche altre operazioni sugli insiemi:
IN, per controllare se un elemento è in un dato insieme. C IN(v,….v°), nella forma negata C NOT IN(v,….v°).
ANY
ALL, per confrontare un valore con gli elementi di un dato insieme, usando l’operatore di confronto op
EXISTS, per controllare se un insieme è vuoto.
BETWEEN, permette di determinare le tuple che contengono in un dato attributo valori in un intervallo dato. C BETWEEN v AND v° , nella forma negata invece C NOT BETWEEN v AND v°,
ABS(N); calcola il valore assoluto del valore numerico N,
MOD(n,b); calcola il resto intero della divisione n per b.
UNION, INTERSECT ed EXCEPT possono essere usati su qualsiasi coppia di tabelle che siano compatibili rispetto all’unione, cioè che abbiamo lo stesso numero e tipo di colonne.
Nel caso si UNION i duplicati vengono eliminati automaticamente. Per mantenerli è necessario aggiungere ALL (UNION ALL). Lo stesso discorso vale per INTERSECT ed EXCEPT.
Espressioni e funzioni: un’espressione usata nella clausola di proiezione di un’interrogazione, dà luogo ad una colonna, detta virtuale, non presente nella relazione su cui si effettua l’interrogazione.
Le colonne virtuali non sono fisicamente memorizzate, ma sono calcolate dinamicamente come risultato dell’esecuzione dell’interrogazione.
Espressioni e funzioni per stringhe:
Operatore di concatenazione denotato da ||,
LENGHT(str), restituisce la lunghezza della stringa str, in numero di caratteri,
UPPER(str) e LOWER(str), trasformano la stringa str in caratteri tutti maiuscoli o tutti minuscoli, rispettivamente,
SUBSTR(str, m,[n]), estrae dalla stringa str la sottostringa dal carattere di posizione m per una lunghezza n,
TRIM[str°] FROM str, elimina dalla stringa str° i caratteri in str.
Un’interrogazione annidata è un’interrogazione che al suo interno ha un’altra interrogazione. Questa solitamente appare nella clausola WHERE, o anche in FROM o HAVING. Se una sub-query scalare restituisce più di una tupla si genera un errore di run-time, e se nessuna tupla verifica la sotto-interrogazione, viene restituito il valore NULL.
E’ anche possibile selezionare più di una colonna tramite sotto-interrogazioni, in tal caso è necessario apporre delle parentesi alla lista delle colonne a sinistra dell’operatore di confronto. Ad esempio, voglio elencare gli impiegati con la stessa mansione di Martini;
SELECT Nome FROM Impiegati
WHERE(Mansione, Stipendio) = (SELECT
Mansione, Stipendio FROM Impiegati
WHERE Nome = “Martini”);
Una sub-query può contenere a sua volta un’altra sub-query. E’ possibile definire sotto-interrogazioni che sono eseguite ripetutamente per ogni tupla candidata considerata nella valutazione dell’interrogazione esterna, e ogni volta che questa considera una tupla candidata, deve invocare la sotto-interrogazione. Questo tipo viene chiamato correlato, dato che ogni esecuzione è correlata al valore di uno o più attributi delle tuple candidate nell’interrogazione principale. Per poter fare riferimento alle colonne delle tuple candidate nell’interrogazione esterna si fa uso degli alias di relazione(questo è definito nell’interrogazione esterna e riferito nella sotto-interrogazione correlata. Sono utili quando si vuole fare riferimento a due diverse tuple della stessa relazione.).
UNIQUE, quando applichiamo questo comando ad una sotto-interrogazione, la condizione che ne risulta ritorna vero se nessuna riga appare due volte nella risposta all’interrogazione, se non ci sono duplicati. Ritorna vero se la risposta è vuota.
Operatori di aggregazione:
COUNT ([DISTINCT] A) , è numero di valori unici della colonna A,
SUM ([DISTINCT] A) , la somma di tutti i valori unici nella colonna A,
AVG ([DISTINCT] A) , la media di tutti i valori unici nella colonna A,
MAX (A) , il valore massimo della colonna A,
MIN (A) , il valore minimo della colonna A.
Non ha senso specificare DISTINCT insieme a MIN e MAX.
Le clausole GROUP BY e HAVING;
SELECT [DISTINCT] lista-select
FROM lista-from
WHERE qualificazione
GROUP BY lista gruppo
HAVING qualificazione gruppo.
La lista-select consiste di una lista di nomi di colonne e una lista di termini della forma aggop(nome-colonna) AS nuovo-nome. Ogni colonna che appare nella lista dei nomi deve apparire nella lista-gruppo.
Le espressioni che compaiono nella qualificazione gruppo della clausola HAVING devono avere un singolo valore per gruppo. L’idea di base è che la clausola HAVING ( può essere una combinazione Booleana di predicati, i quali tuttavia possono solo coinvolger funzioni di gruppo) determina se per ogni gruppo dato debba essere generata una riga della risposta.
Un’importante restrizione ci dice che una clausola di protezione di una query contenente GROUP BY può includere solamente:
una o più colonne tra le colonne che compaiono nella suddetta clausola,
funzioni di gruppo(che possono apparire in funzioni aritmetiche).
Le funzioni di gruppo permettono di estrarre informazioni da gruppi di tuple invece di una relazione, queste si basano su due concetti:
il partizionamento delle tuple di un relazione in base al valore di uno o più colonne della relazione,
il calcolo della funzione di gruppo per ogni gruppo ottenuto col partizionamento.
Una funzione di gruppo ha come argomento una colonna e si applica all’insieme dei valori di questa colonna, estratti dalle tuple che appartengono allo stesso gruppo.
E’ possibile applicare queste funzioni senza partizionamento e in tal caso saranno applicate ad un unico gruppo contente tutte le tuple della relazione.
Se GROUP BY viene omesso l’intera tabella viene vista come un singolo gruppo
COUNT, se questo non include DISTINCT, allora COUNT(*) dà la stessa risposta di COUNT(x), dove x è un qualunque insieme di attributi.
L’SQL fornisce un valore di colonna speciale chiamato null da usare quando il valore della colonna è sconosciuto oppure inapplicabile.
Possiamo impedire l’uso dei valori null specificando NOT NULL come parte della definizione dei campi. Inoltre i campi in una chiave primaria non posso assumere valori null, quindi vi è un vincolo di NOT NULL, implicito per ogni campo elencato in un vincolo di PRIMARY KEY.
Si può specificare vincoli sulla tabella usando vincoli di tabella, che hanno la forma CHECK espressione-condizionale.
In un comando CREATE TABLE, la clausola CHECK può comparire;
di seguito alla definizione di una colonna ( vincoli di CHECK su colonna )
come clausola separata dall’interno della definizione della relazione ( vincoli CHECK su relazione ).
Specificando un vincolo CHECK vogliamo che ogni tupla nella relazione soddisfi la condizione. E’ consigliabile esprimere tramite CHECK solo le condizioni che devono essere verificate da ogni singola tupla della relazione cui associamo il vincolo.
E’ possibile assegnare nome ai vincoli associati alle definizioni di relazione facendo seguire la specifica del vincolo nella parola chiave CONSTRAINT e dal nome. Difetti specificare un nome per tutti i vincoli è utile per potersi poi riferire ad essi.
Le asserzioni servono per esprimere vincoli di integrità che coinvolgono più tuple o relazioni, e vengono così formulate:
CREATE ASSERTION < nome asserzione >
CHECK(< condizione >).
I vincoli di una tabella sono associati ad una tabella singola. Il soddisfacimento di questi vincoli è richiesto solo se la tabella associata è vuota, quando un vincolo coinvolge due o più tabelle, il meccanismo di vincoli sulle tabelle è in qualche modo anomalo, e non ciò che si desidera.
Un trigger è una procedura che viene eseguita dal DBMS in risposta a specifici cambiamenti nella base di dati ed è definita dal DBA. Questi son divisi in tre parti:
evento: un cambiamento nella base di dati che attiva il trigger;
condizione: un’interrogazione o un test che viene eseguito quando il trigger è attivato;
azione; procedura che viene eseguita quando il trigger è attivato e la sua condizione è verificata.
Una condizione di trigger può essere un comando vero/falso oppure un’interrogazione. Questa viene interpretata come vero se l’insieme di risposta non è vuoto, falso se l’opposto. L’azione di un trigger può esaminare la risposta all’interrogazione nella parte condizionale dei trigger , fare riferimento a valori vecchi e nuovi delle tuple modificate dal comando che ha attivato il trigger, eseguire nuove interrogazioni e apportare cambiamenti alla base di dati.

Progettazione di una base dati:
1)Analisi dei requisiti: il primissimo passo nella progettazione è capire quali dati devono essere memorizzati, quali applicazioni devono essere costruite su di essi e quali operazioni sono più frequenti e soggette a requisiti prestazionali.
2)Progettazione concettuale della base di dati: le informazioni raccolte nel passo di analisi dei requisiti vengono usate per elaborare una descrizione ad alto livello dei dati da memorizzare. Questo passo è sviluppato usando il modello entità-relazione, il quale fa parte di una famiglia di diversi modelli di dati ad alto livello, o semantici, usati nella progettazione delle basi di dati. Lo scopo è creare una semplice descrizione dei dati che approssimi il modo in cui utenti e sviluppatori pensano ad essi.
3)Progettazione logica della base dati: dobbiamo scegliere un DBMS per implementare in nostro progetto, e convertire la progettazione concettuale in uno schema nel modello del DBMS scelto. La traduzione non è sempre univoca.
4)Raffinamento dello schema: analizzare l’insieme di relazioni del nostro schema relazionale per identificare potenziali problemi, e a rifinirlo.
5)Progettazione fisica della base di dati: consideriamo i carichi di lavoro attesi che la nostra base di dati dovrò sopportare, e raffiniamo il progetto per garantire che esso soddisfi i criteri di prestazioni richieste. Questo può consistere nella costruzione di indici su qualche tabella e nel raggruppamento di alcune tabelle, oppure può coinvolgere una riprogettazione sostanziale di intere parti dello schema ottenuto precedentemente.
6)Progettazione delle applicazioni e della sicurezza.
Una entità è un oggetto nel mondo reale che si distingue da altri progetti. Vi sono anche insiemi di entità, e questi non hanno bisogno di essere disgiunti. Un entità è anche un’astrazione della realtà la cui informazione è indipendente dal dominio in cui l’entità è utilizzata. Invece un’istanza di entità sono specifici oggetti appartenenti ad una certa entità.
Un’entità è descritta usando un insieme di attributi. Tutte le entità di un dato insieme hanno gli stessi attributi: questo è ciò che s’intende con simili. La coppia (nome_di_attributo, dominio) viene chiamata attributo e ogni entità è caratterizzata da uno o più attributi(i quali possono essere monovalore, multivalore e compositi).
Per ogni attributo associato ad un insieme di entità, dobbiamo definire un dominio di valori possibili. Vi son diversi tipi di domini:
semplice, sono domini standard(interi, reali, booleani…), con intervalli ed insiemi di valori definiti per enumerazione dall’utente,
composti, l’insieme dei valori è dato dal prodotto cartesiano degli insiemi di valori associati ai domini componenti. Servono per associare un dominio agli attributi composti.
Le informazioni sui domini i un attributo non sono direttamente rappresentabili in un diagramma ER, sono però fondamentali per una corretta progettazione logica.
Inoltre per ciascun insieme di entità useremo una chiave. Questa è un insieme minimale di attributi i cui valori identificano univocamente una entità dell’insieme. Potrebbe esserci più di una chiave candidata, e in questo caso ne designiamo una come chiave primaria. Una chiave non può avere valori nulli, in alcuni casi la chiave può essere soltanto una dove il sistema non permette di averne di più.

Gli attributi vengono rappresentati con degli ovali, e se sono sottolineati sono delle chiavi primarie mentre le entità sono dei rettangoli.
Una relazione è un’associazione tra due o più entità.
Come per le entità potremmo voler raccogliere un gruppo di relazioni simili in un insieme di relazioni. Questo può essere visto come un insieme di n-tuple:
{( e1,… en)  E1,…,en  En}
Ciascuna n-tupla denota una relazione che coinvolge n entità, da e1 a en, dove l’entità ei appartiene all’insieme di entità Ei.
Una relazione può anche avere attributi descrittivi, i quali son usati per registrare informazioni sulla relazione, piuttosto che su ciascuna delle entità partecipanti.
Un’istanza di un insieme di relazioni è un insieme di relazioni, questa può esser vista come una “fotografia” dell’insieme di relazioni di un certo istante.
Gli insiemi di entità che partecipano ad una relazione non devono necessariamente essere distinti: qualche volta una relazione può coinvolgere entità dello stesso insieme.
Ruolo, è la funzione che un’istanza di entità esercita nell’ambito di un’associazione, e nel caso di un’associazione unaria il ruolo è sempre necessario.
Il modello ER offre costrutti per definire:
vincoli di cardinalità, sia per associazioni che per attributi. Questi si dividono in cardinalità minima( numero minimo d’istanze di un’associazione a cui le istanze delle entità coinvolte nell’associazione possono partecipare) e cardinalità massima( numero massimo di un’associazione a cui le istanze dell’entità coinvolte nell’associazione posso partecipare).
Data un’entità E ed un’associazione A:
i.c_max=1, ogni istanza di E può partecipare a non più di un’istanza di A,
ii.c_max=c_min=1, ogni istanza i E partecipa ad una ed una sola istanza di A,
iii.c_min=0, c_max=n, ogni istanza di E può partecipare ad un numero qualsiasi di istanze di A, anche nessuna.
vincoli d’identificazione, per entità. Identificatori per un’entità: insieme di attributi e/o entità che identificano le istanze dell’entità. Un identificatore è minimale se qualsiasi sottoinsieme proprio non è un identificatore. Le entità deboli ha sempre cardinalità(1,1) rispetto all’associazione attraverso cui avviene l’dentificazione.
Uno a uno: se c_max di E e di E°, rispetto ad A è 1;
Uno a molti: se c_max di E rispetto ad A è n e c_max di E° rispetto ad A è 1, o viceversa. Un impiegato può essere associato a molti altri reparti.
Molti a molti: l’insieme di relazioni Lavora_in, in cui un impiegato può lavorare in diversi reparti e ogni reparto può avere diversi impiegati.
Insieme di entità deboli: se c_max di E e di E°, rispetto ad A è n. Questa viene identificata univocamente solo considerando alcuni attributi in congiunzione con la chiave primaria di un’altra entità, che è chiamata proprietario identificante. Devono valere queste condizioni:
l’insieme di entità proprietarie e l’insieme di entità deboli devono partecipare in un insieme di relazioni uno-a-molti. Questo insieme di relazioni è chiamato insieme di relazioni identificanti dell’insieme di relazioni deboli
l’insieme di entità deboli deve aver partecipazione totale nell’insieme di relazioni identificanti.
Per identificare che si ha un’entità debole si usa un tratto più spesso.
Mentre per indicare che si ha una chiave parziale si userà una sottolineatura a tratti.
La specializzazione è il processo con cui s’individuano sottoinsiemi di un insieme di entità(la superclasse) che condividono alcune caratteristiche distintive. Tipicamente, la superclasse viene definita per prima,poi le sottoclassi, ed infine si aggiungono gli attributi specifici e gli insiemi di relazioni.
La generalizzazione consiste nell’identificare alcune caratteristiche comuni a una collezione di insiemi di entità e creare un nuovo insieme di entità che contiene quelle entità che possiedono caratteristiche comuni. Le sottoclassi si definiscono per prime, poi le superclassi, e poi si aggiungono tutti gli insiemi di relazioni che coinvolgono la superclasse.
I vincoli di disgiunzione determinano se a due sottoclassi è premesso contenere la stessa identità.
I vincoli di copertura determinano se le entità di una sottoclasse includono, nel loro complesso tutte le entità della superclasse.
L’aggregazione ci permette di indicare che un insieme di relazioni partecipa in un altro insieme di relazioni. Ciò viene illustrato con un riquadro tratteggiato intorno all’insieme di relazioni.
L’uso di un modello di dati semantico di alto livello offre nella progettazione concettuale il vantaggio addizionale che il progetto ad alto livello può essere rappresentato con diagrammi e facilmente compreso dalle molte persone che devono fornire informazioni utili al processo progettuale.
L’approccio normale consta nel considerare le necessità dei vari gruppo di utenti, risolvere i conflitti e generare un singolo insieme di requisiti. Un altro tipo di approccio consiste nello sviluppare schemi concettuali separati per i diversi gruppi di utenza, per poi integrarli. Per fare ciò si deve stabilire le corrispondenze tra le entità, le relazioni e gli attributi, e risolvere diversi tipi di conflitti.

Un insieme di entità è tradotto in una relazione in maniera molto semplice: ogni attributo di un insieme di entità diventa un attributo della tabella.
Per rappresentare una relazione, dobbiamo potere identificare ciascuna entità partecipante, e dare valori agli attributi descrittivi della relazione, quindi:
gli attributi della chiave primaria di ciascun insieme di entità partecipante, come campi di chiavi esterne
gli attributi descrittivi dell’insieme di relazioni.
Se un insieme di relazioni coinvolge n insiemi di entità, e m di essi sono collegati con frecce ne diagramma ER, la chiave per ciascuno di questi m insiemi costituisce una chiave per la relazione in cui l’insieme è tradotto. Quindi abbiamo m chiavi candidate, e una di queste dovrebbe essere scelta come chiave primaria.
Un secondo approccio per tradurre un insieme di relazioni con vincoli di chiave si rivela spesso migliore, perché evita di creare una tabella distinta per l’insieme di relazioni.
L’idea è di includere le informazioni sull’insieme di relazioni nella tabella corrispondente all’insieme di entità con la chiave, sfruttando il vincolo di chiave.
Lo svantaggio in questo è che potrebbe esserci uno spreco di spazio. In tal caso i campi aggiunti dovrebbero essere riempiti con valori null. La prima traduzione evita questa inefficienza, ma alcune interrogazioni importanti richiedono di combinare informazioni da due relazioni, il che può essere un operazione lenta.
Un insieme di entità deboli partecipa sempre in una relazione binaria uno-a-molti e ha vincoli di chiave e di partecipazione totale. Questa ha solo una chiave parziale, e quando un’entità proprietaria viene cancellata, vogliamo che vengano eliminate anche le entità deboli collegate.

==PROGETTAZIONE CONCETTUALE==

La progettazione concettuale di una base di dati ci fornisce un insieme di schemi di relazione e VI che possono essere considerati un buon punto di partenza per il progetto finale. Permette di rappresentare i dati in modo indipendente da ogni sistema, cercando di descrivere i concetti del mondo reale.
Presentiamo ora una panoramica sui problemi che il raffinamento degli schemi intendo risolvere:
problemi causati dalla ridondanza: memorizzare la stessa informazione in maniera ridondante, cioè in diversi posti all’interno della stessa base di dati può portare a diversi problemi:
memorizzazione ridondante;
anomalie da aggiornamento, se una coppia di questi dati ripetuti viene aggiornata si crea un’inconsistenza, a meno di aggiornare anche tutte le altre copie;
anomalie da inserimento, potrebbe non essere possibile registrare certe informazioni, a meno di inserire anche qualche altra informazione non correlata;
anomalie di cancellazione.
Idealmente vorremmo degli schemi che non permettano ridondanza, ma quanto meno vogliamo poter identificare gli schemi che lo permettono:
valori null: questi non possono fornire una soluzione completa, ma possono aiutare. Questi valori possono essere utili per le anomalie da inserimento e cancellazione.
decomposizione, la ridondanza nasce quando uno schema relazionale forza una associazione tra attributi che non è naturale. Le dipendenze funzionali possono essere usate per identificare tali situazioni e per suggerire raffinamenti dello schema. Molti problemi che nascono dalla ridondanza possono essere risolti sostituendo una relazione con una collezione di relazioni “più piccolo”. Una decomposizione di uno schema di relazione r consiste nella sostituzione della schema di relazione con due(o più) schemi di relazione ciascuno dei quali contiene un sottoinsieme di attributi di R, e la cui unione include tutti tali attributi. Noi vogliamo memorizzare le informazioni in ogni data istanza di r memorizzandone le proiezioni. Se non si sta attenti con la decomposizione si possono creare più problemi di quanti se ne vogliano.
la proprietà senza perdita(lossless join) ci permette di recuperare qualunque istanza di una relazione decomposta a partire dalle corrispondenti istanze delle relazioni componenti tramite operazioni di join;
la proprietà di conservazione delle dipendenze ci consente di mantenere qualunque vincolo della relazione originaria semplicemente imponendo alcuni vincoli su ciascuna delle relazioni componenti. Ossia non abbiamo bisogno di effettuare join delle relazioni più piccolo per controllare se viene violato un vincolo della relazione originale.
La decomposizione potrebbe migliorare le prestazioni, nel caso in cui la maggior parte delle interrogazioni degli aggiornamenti esaminano solo una delle relazioni componenti, che è più piccola della relazione originale.
Dipendenze funzionali: DF è un tipo di VI che generalizza il concetto di chiave. Sia R uno schema di relazione e siano X e Y insiemi non vuoti di attributi di R, diciamo che un’istanza r di R soddisfa la DF X  Y (si legge X determina funzionalmente Y, o X determina Y) se per ogni coppia di tuple t1 e t2 in r vale al seguente:
se t1.X = t2.X , allora t1.Y = t2.Y
Una DF X  Y essenzialmente dice che se due tuple coincidono sui valori dell’attributo X, devono anche avere lo stesso valore per l’attributo Y.
Un’istanza legale di una relazione soddisfare tutti i VI specificati. Quindi guardando l’istanza di una relazione, potremmo essere in grado di dire che una certa DF non è valida, però non possiamo mai dedurre che una DF è valida solo guardando una o più istanza di una relazione, perché una DF, diversamente da un VI, è un’affermazione su tutte le possibili istanze legali di una relazione.
La definizione di una DF non richiede che l’insieme X sia minimale: l’ulteriore condizione di minimalità deve essere soddisfatta perché X sia una chiave. Se vale X  Y, dove Y è l’insieme di tutti gli attributi, ed esiste qualche sottoinsieme X di tale che V  Y, allora X è una superchiave.
Diciamo che una DF f è implicata da un dato insieme F di DF se f vale su ogni istanza di relazione che soddisfa tutte le dipendenze in F, f vale ogni volta che tutte le DF valgono in F.
Chiusura di un insieme di DF, l’insieme di tutte le DF implicate in un dato insieme F di DF è detto chiusura di F, denotato come F+. Come possiamo inferire(calcolare la chiusura di un dato insieme)?
Con gli Assiomi si Armstrong, i quali possono essere applicati per inferire tute le DF implicate da un insieme F di DF.
riflessività, se X  Y, allora X  Y;
aumento, se X  Y allora XZ  YZ per ogni Z;
transitività, se X  Y e Y  X, allora X  Z.
Teorema 1  gli assiomi di Armstrong sono corretti, nel senso che generano solo DF in F+ quando sono applicati a un insieme F di DF. Sono anche completi, nel senso che ripetute applicazioni di queste regole generano tutte le DF nella chiusura F+.
Quando si parla di F+ conviene usare alcune regole addizionali:
unione: se X  Y e X  Z, allora X  YZ;
decomposizione: se X  YZ, allora X  Y e X  Z.
in una DF banale, la parte destra contiene solo attributi che appaiono anche nella parte sinistra; tali dipendenze valgono sempre per via della riflessività. Usando questa possiamo generare tutte le dipendenze banali, che hanno la forma:
X  Y, dove Y  X, X  ABC e Y  ABC.
Dalla transitività otteniamo A  C.
Dall’aumento otteniamo le dipendenze non banali:
AC  BC, AB  AC, AB  CB.
Chiusura degli attributi, se volgiamo controllare se una data dipendenza, diciamo X  Y, è nella chiusura di un insieme F di DF, possiamo farlo in maniera efficiente senza calcolare la chiusura stessa.
Prima troviamo la chiusura degli attributi X+ rispetto a F, che è l’insieme degli attributi A tali che X  A può essere derivata usando gli Assiomi di Armstrong. Questo è l’algoritmo di calcolo:
chiusura = X;
ripeti fin quando non ci sono più cambiamenti: {
se c’è una DF U  V in F tale che U  chiusura,
allora chiusura = chiusura  V
}
Teorema 2 l’algoritmo mostrato calcola la chiusura dell’insieme X di attributi rispetto all’insieme F delle DF.
Forme normali, dato uno schema di relazione, abbiamo bisogno di decidere se esso sia un buon progetto o se c’è necessità di decomporlo in relazioni più piccole. Una tale decisione deve essere guidata dalla comprensione di quali problemi sono presenti nello schema corrente.
Le forme normali basate su DF sono la prima forma normale (1NF), la seconda(2NF), la terza(3NF) e la forma normale di Boyce-Codd(BCNF).
Una relazione è nella 1NF se ogni campo contiene solo valori atomici, cioè niente liste o insiemi. La 2NF ha un interesse storico. La 3NF e la BCNF sono importanti dal punto di vista della progettazione di una base di dati.
forma normale di Boyce-Codd, sia R uno schema di relazione, F sia l’insieme delle DF date su R, X sia un sottoinsieme degli attributi di R, e A un attributo di R. R è nella BCNF se per ogni DF X  A in F vale una delle seguenti asserzioni:
A  X, cioè è una DF banale,
X è una superchiave.
In una relazione in BCNF le sole dipendenze non banali sono quelle in cui una chiave determina alcuni attributi. Perciò ogni tupla può essere vista come un’entità o relazione, identificata da una chiave e descritta dai restanti attributi.
La BCNF assicura che nessuna ridondanza può essere rilevata usando solo le informazioni delle DF. Quindi è la più desiderabile delle forme normali, se prendiamo in considerazione solo le informazioni delle DF.
Se X è una chiave, allora y1=y2, il che significa ce le due tuple sono identiche. Poiché una relazione è definita come un insieme di tuple, non possiamo avere due copie della stessa tupla.
Se una relazione è in BCNF, ogni campo di ciascuna tupla registra una parte d’informazione che non può essere dedotta dall’istanza della relazione.
terza forma normale, sia R uno schema di relazione, F l’insieme delle DF date su R, X un sottoinsieme degli attributi di R, e A un attributo di R. R è in 3NF se per ogni DF X  A in F vale:
A  X, cioè è una DF banale
X è una superchiave
A fa parte di una chiave di R.
Supponiamo che una dipendenza X  A provochi una violazione della 3NF, sono possibili due casi:
1)X è un sottoinsieme proprio di qualche chiave K. Questa viene chiamata dipendenza parziale e viene memorizzato la coppia (X,A) in maniera ridondante.
2)X non è un sottoinsieme proprio di una chiave. Una tale dipendenza è a volte chiamata dipendenza transitiva, perché significa che abbiamo una catena di dipendenze K  X  A. Il problema è che non possiamo associare un valore X con un valore K a meno di associare anche un valore A con un valore X.
Nella 3NF è possibile qualche ridondanza. I problemi associati alle dipendenze parziali e transitive persistono se c’è una dipendenza non banale X  A e X non è una superchiave, anche se la relazione è nella forma 3NF perché A è parte di una chiave.
Proprietà delle decomposizioni;
- decomposizioni senza perdita, sia R uno schema di relazione e sia F un insieme di DF su R: una decomposizione di R in due schemi con insiemi di attributi X e Y si dice decomposizione senza perdita rispetto a F se per ogni istanza r di R che soddisfa le dipendenze in F, x(r) >< y ( r ) = r. Possiamo tornare alla relazione originale a partire dalle relazioni della decomposizione.
Tutte le decomposizioni usate per eliminare la ridondanza devono essere senza perdita d’informazione.
Teorema 3 sia R una relazione e F un insieme di DF che valgono su R. la decomposizione di R in due relazioni con insiemi di attributi R1 e R2 è senza perdita d’informazione se e solo se F+ contiene la DF R1R2 R1 oppure la DF R1R2 R2.
- decomposizione con conservazione delle dipendenze, permette di applicare tutte le DF esaminando una singola istanza di relazione su ciascun inserimento o modifica di una tupla.

==SQL==

L’uso di comandi SQL in un programma scritto in un linguaggio ospite è chiamato SQL incapsulato, o embedded SQL.
I comandi SQL possono essere usati nel linguaggio ospite ovunque sia permesso. Ogni variabile del compilatore di quel linguaggio, usata per passare argomenti ad un comando SQL, deve essere dichiarata in SQL.
Devono essere dichiarate alcune variabili speciali del linguaggio ospite. Vi sono due complicazione di cui tener conto:
i tipi di dati riconosciuti da SQL potrebbero non essere riconosciuti dal linguaggio ospite, e viceversa,
SQL è orientato agli insiemi, quindi si passa all’uso dei cursori. I comandi operano su tabelle e producono tabelle, cioè insiemi.
I comandi possono far riferimento a variabili definite nel programma ospite, queste però devono essere precedute da due punti (:) nei comandi SQL, e devono essere dichiarate tra i comandi EXEC SQL BEGIN DECLARE SECTION ed EXEC SQL END DECLARE SECTION.
Si può pensare ad un cursore come se “puntasse” ad una riga nella collezione di risposte dell’interrogazione cui è associato. Quando un cursore viene aperto si posiziona appena prima della prima riga. Possiamo usare il comando FETCH per leggere la prima riga del cursore nelle variabili del linguaggio ospite.
Quando questo viene eseguito, il cursore viene posizionato per puntare alla riga successiva( che è la prima riga della tabella quando FETCH è eseguito per la prima volta dopo l’apertura del cursore) e i valori delle colonne nella riga sono copiarti nelle corrispondenti variabili ospiti. Eseguendo ripetutamente questo comando FETCH possiamo leggere tutte le righe calcolate dall’interrogazione, una alla volta.
Quando abbiamo finito col cursore usiamo il comando CLOSE.
Proprietà dei cursori, la forma generale della dichiarazione di un cursore è:
DECLARE nome_cursore [INSENSITIVE] [SCROLL] CURSOR
[WITH HOLD]
FOR qualche interrogazione
[ORDER BY lista-ordinamento]
[FOR READ ONLY | FOR UPDATE]
Un cursore può essere dichiarato di sola lettura (FOR READ ONLY) oppure, se è definito su una relazione di base o una vista aggiornabile(FOR UPDATE).
Se è aggiornabile, semplici varianti dei comandi UPDATE e DELETE ci permettono di aggiornare o cancellare la riga su cui il cursore è posizionato
Un cursore è aggiornabile per default a meno che nella sua definizione sia stato specificato SCROLL e INSENSITIVE, nel qual caso è di sola lettura.
SCROLL;il cursore è scorrevole, quindi le varianti del comando FETCH possono essere usate per posizionarlo in maniera molto flessibile; altrimenti è consentito il solo comando FETCH di base, che sposta il cursore alla riga successiva.
INSENSITIVE;il cursore si comporta come se si muovesse su una copia privata della collezione di righe della risposta. Altrimenti per impostazione predefinita, le azioni di qualche altra transazione potrebbero modificare tali righe, creando comportamenti non prevedibili.
Un cursore mantenibile viene specificato con la clausola WITH HOLD, e non è chiuso quando la transazione termina. Se una qualunque transazione viene interrotta il sistema, potenzialmente, deve rifare parecchio lavoro. Quindi l’alternativa è spezzare la transazione in diverse transazioni, più piccole, ma ricordare la posizione nella tabella è complicato e soggetto a errori.
ORDER BY; può essere usata per specificare un ordinamento. La lista-ordinamento è una lista di voci di ordinamento(nome di colonna), eventualmente seguito da una delle parole chiave ASC e DESC. Ogni colonna menzionata nella clausola ORDER BY deve apparire anche nella lista-selezione dell’interrogazione associata al cursore; altrimenti non è chiaro su quali colonne effettuare l’ordinamento.
SQL dinamico; i due comandi principali sono PREPARE e EXECUTE:
char c_stringaSQL[] = {“DELETE FROM Velisti WHERE esperienza > 5”};
EXEC SQL PREPARE pronto FROM: c_stringaSQL;
EXE SQL EXECUTE pronto;
1)il primo comando dichiara la variabile C c_stringaSQL e ne imposta il valore ad una rappresentazione stringa di un comando di SQL.
2)la seconda istruzione fa sì che tale stringa venga esaminata e compilata come comando SQL, con l’eseguibile risultante legato alla variabile pronto
3)la terza istruzione esegue il comando.
La preparazione di un comando SQL dinamico avviene durante l’esecuzione, che ne risulta appesantita. I comandi dell’SQL interattivo e dell’SQL incapsulato possono essere preparati una volta per tutte al momento della compilazione, e poi ri-eseguiti quanto si vuole. Di fatti si deve limitare l’uso dell’SQL dinamico a quelle situazioni in cui è essenziale.

==MIR SYSTEM==

Lo scopo di questi sistemi è di permettere a qualsiasi utente di eseguire ricerche su tutta la musica esistente, attraverso interfacce con cui poter sottomettere al sistema descrizioni esaustive, nel modo più naturale possibile fornendo applicazioni utili a collegare e manipolare l’informazione ritornata dal sistema.
L’informazione musicale può essere descritta attraverso sette aspetti(Downie);
1.Pitch Facet; la qualità del suono percepita che è principalmente una funzione della sua frequenza fondamentale.
Rappresentazione del pitch:
note sul pentagramma,
nome A, B,C#,
pitch class number 0, 1, 2,
solfeggio do, re mi.
Intervallo: è la differenza tra due pitch espressa in semitoni o attraverso la sua caratteristica tonale determinata dalla posizione dei due pitch nella sintassi tradizionale.
Melodia: insieme di pitch o intervalli percepiti in modo sequenziale bel tempo.
Chiave: viene considerato come sub-aspetto del pitch. I due contorni melodici sono presi percettivamente equivalenti, nonostante il fatto che sia diverso il loro pitch assoluto.
Contorno melodico: il pattern degli intervalli.
2.Temporal Facet: informazione relativa alla durata degli eventi musicali che include:
i.Metrica
ii.Indicatori di tempo
iii.Durata del pitch
iv.Accenti
v.Durata armonica
Questi elementi costituiscono la parte ritmica del brano(questo può essere rappresentato in diversi modi, ognuno dei quali definisce uno stesso risultato)
Pause: possono essere considerate indicatori della durata degli eventi musicali che non contengono pitch.
Informazione temporale: può essere:
Assoluta ( metronomo ),
Generale ( adagio, forte ),
Relativo ( schneller, langsamer ),
Temporal distorsion ( rubato, rallentando ).
3.Harmonic Facet: quando due o più pitch suonano simultaneamente, definita anche come polifonia. Interazione tra pitch e aspetto temporale per creare la polifonia ( caratteristica fondamentale della musica occidentale).
Gli eventi armonici , sebbene presenti nella partitura, non solo sempre indicati esplicitamente. La mente umana può percepire un accordo, nonostante la presenza di note “extra”.
4.Timbral Facet: comprende tutti gli aspetti del colore del tono. La distinzione tra una nota suonata da un flauto ed un clarinetto è causata dalla differenza del timbro. Fanno parte di questo aspetto le informazioni sulla composizione dell’orchestra, e anche l’enumerazione degli strumenti.
5.Editorial Facet: istruzioni sull’esecuzione( diteggiatura, ornamenti, istruzioni dinamiche, etc…). Anche la musica stessa può essere inclusa.
6.Textual Facet: è l’aspetto più indipendente dalla melodia e dagli arrangiamenti associati. Un frammento di lirica in alcuni casi non è sufficiente per ritrovare il brano ricercato e viceversa.
7.Bibliographic Facet: sono informazioni relative a:
titolo
compositore
arrangiatore
editore
numero di catalogo
data pubblicazione
esecutori.
Uno degli obbiettivi principali del MIR è permettere l’organizzazione dei dati per recuperare tutta l’informazione disponibile riguardante un certo brano musicale.
Interrogazioni per contenuto: confronto tra i complessi contenuti musicali presenti nella base di dati e contenuti musicali meno complessi introdotti come criterio di ricerca.
Per la costruzione di un DB musicale vi son tre passi:
1.individuare lo scopo dei dati. In questa fase è necessario definire come le informazioni devono essere collezionate ed inserite nel DB, quali relazioni esistono tra loro e quali tipi di interrogazioni rendere disponibili all’utente finale.
2.elencare i dati necessari, considerando le sorgenti d’informazione disponibili. Le informazioni testuali sono solitamente più ricche e frequenti di quelle multimediali a causa delle problematiche legate al copy-right.
3.definire la miglior struttura per questo corpo. In pratica come le informazioni vengono classificate ed organizzate, o qual è il miglior standard con cui scrivere queste informazioni.
Senza una buona struttura l’uso e l’accesso del DB diventa inutile e complicato, la sua efficienza ne risente come la sua manutenzione.
Una volta definito il DB è necessario definire le interfacce e le tipologie d’interrogazione da fornire all’utente. Vi son tre tipi di ricerca:
Browsing: può essere un mezzo utile per cercare in un sistema ricco di collegamenti tra i dati ed i metadati, e permette di passare da un brano all’altro attraverso diversi collegamenti,
Textual search: indicizzazione di tutte le informazioni testuali accademiche( autore, titolo, …) e non accademiche( genere, frammenti delle liriche, …).
Search by content: interrogazioni basate sulla melodia o altri aspetti del contenuto audio.
Naturalmente si possono combinare le varie tipologie di ricerca per aumentare la potenza e l’efficienza del sistema.
La maniera di mostrare i risultati cambia l’utilità e le manipolazioni possibili dei dati restituiti dal sistema. I dati restituiti devono essere sufficienti a riconoscere quale brano nella lista dei risultati è quello ricercato, e una volta riconosciuto l’utente deve poter accedere a tutte le informazioni collegate, suddivise per tipologia( informazioni di catalogo e testuali, link ai meta-dati, link ad altri oggetti musicali).
Un altro aiuto nella ricerca sono le informazioni di catalogo che limitano la ricerca alla sola musica conosciuta. Uno dei più grandi e potenti descrittori usati dai consumatori di musica è il genere musicale, difatti due brani appartenenti allo stesso genere musicale hanno molti più elementi in comune rispetto a due brani non appartenenti allo stesso genere.
Generalmente gli strumenti musicali aiutano a definire il genere.
Catalog information: sono le informazioni che descrivono i brani musicali, non strettamente correlate al contenuto musicale. Descrivono chi ha preso parte alla realizzazione del brano, dove è stato registrato, informazioni sul supporto e sul copyright.
Multimedia characteristics: son metadadata che descrivono qualcosa di strettamente legato al contenuto musicale, e le informazioni associate col ricordo del frammento usato nella query-by-content.
Per valutare un sistema MIR si deve controllare che sia molto efficiente ed affidabile.
Per affidabilità intendiamo che il sistema deve permetter di trovare tutte e sole le informazioni richieste dall’utente. Queste devono essere sempre corrette( da verificare quando i dati sono elaborati automaticamente).
La complessità dei sistemi MIR è dovuta soprattutto all’enorme quantità di oggetti musicali.
Query by content: servono a trovare un brano di cui non si conoscono informazioni quali il titolo, l’autore, o altri metadata sufficienti per individuarlo. Usato anche per il copyright in modo da capire se un brano è molto simile ad un altro.
Verifica se un brano appena composto da un autore si frutto della creatività dell’artista e non influenzato da uno ascoltato in passato e poi dimenticato.
Il criterio su cui si basa la query-by-content è il frammento musicale, e di fatti vengono usati due tipi di DB:
a frammenti tematici: contengono frammenti che rappresentano i tempi musicali presenti nei brani. Il tema in questo caso viene considerato come una sequenza di note ripetuta diverse volte all’interno della composizione musicale. Una sequenza di note invece è considerata un tema se nella composizione esistono altre sequenze ottenute da questo attraverso qualche operatore musicale,
database di intere partiture: sono presenti tutte le melodie contenute in tutte le voci dell’intera partitura, perché un utente potrebbe ricordare un solo frammento del brano non appartenente al tema.
Query-by-humming, può risultare non accurata ed è per utenti non esperti.
L’approccio per questo metodo sono di due tipi:
DSP: elaborazione della forma d’onda o delle frequenze per trovare similarità tra i brani. Vi è una trasformazione in simbolico, dove vengono estrapolate le caratteristiche descriventi gli eventi musicali. Questo sistema risulta molo faticoso e complesso.
Simbolico: trasformazione dei brani in sequenze di stringhe di caratteri rappresentanti le sequenza melodiche contenute nei brani. Il frammento della query viene trasformato allo stesso modo e quindi confrontato con le stringhe nel DB.
Come criterio per le query-by-content viene usato l’audio( si definisce attraverso l’analisi delle frequenze esistenti nello spettro del segnale in ogni istante di tempo(discreto) il corrispondente pitch).
In input avremo un frammento audio(non strutturato per definizione) ed in output le caratteristiche capaci di definire i note-pattern.
Vi son dei problemi legati alla trascrizione da audio a simbolico:
Note segmentation: dove sono posizionate esattamente le note?Quanto durano?
Pitch variation della nota suonata: come individuare l’esatta altezza della nota suonata?
Note quantization: come posizionare le altezze sulle scale musicali?
Purtroppo viene difficile capire quale nota deve essere associata all’altezza del suono, infatti non esiste sempre una corrispondenza esatta.
Lo stesso discorso vale per la rappresentazione simbolica, infatti esistono molte tipologie del formato. Possiamo avere casi dove la stessa altezza viene rappresentata in più modi diversi o il nome della nota può rappresentare più altezze(di differenti ottave).
Sequenze di note: ogni elemento della sequenza è descritto da qualche parametro ( solitamente nome e durata della nota ).
Rappresentazione:
tutte le rappresentazioni della stessa nota vengono collassate in una sola,
l’alfabeto di 12 elementi, viene usato per rappresentare e dividere le altezze in semitoni,
questo però comporta una perdita d’informazione sul contorno melodico.
Trasposizione: gli algoritmi per calcolare la similarità vengono applicati 12 volte su ogni sequenza. Viene usato questo metodo nei sistemi dove l’elaborazione è limitata agli incipit
Sequenza d’intervalli: distanza tra due note adiacenti misurata in semitoni. La sequenza melodica è data dalla sequenza delle distanze tra un elemento e il suo successore. Come risultato si ha un perdita della nozione di nota come elemento d’ottava.
È anche dimostrato che l’uomo ascoltando un brano non ha l’esatta percezione dell’altezza delle note, ma ricorda più facilmente la sequenza degli intervalli.
Contorno melodico: si considera solo la direzione tra una nota ed il suo successore. È possibile rappresentare la sequenza melodica con solo 3 simboli: up, down, equal to.
Questo però permette di avere una trascrizione di query-by-humming corretta, e se la melodia è abbastanza lunga è possibili individuare univocamente il brano cercato.
La lunghezza media di un query fragment è pari a 7 note, significa ottenere centinaia di brani simili, impossibili ascoltarli tutti per trovare quello corretto.
Però questo sistema è utile come operazione di “pre-processing”, per scremare il contenuto del DB prima di usare un metodo più sofisticato.
Classi di equivalenza: ogni simbolo rappresenta n intervalli.
C1:ogni simbolo rappresenta un intervallo,
C3: ogni simbolo rappresenta 3 diversi intervalli adiacenti,
CU: tutti gli intervalli crescenti e decrescenti collassato in due differenti classi( contorno melodico ).
Rappresentazione Frame-based:
non si ha la segmentation, in pratica non si divide ogni singolo evento della melodia,
il tempo viene diviso in frame di ugual misura,
viene stimato il valore di un pitch per ogni frame,
le note non sono esplicitamente descritte,
in un unico valore sono rappresentabili le informazioni relative ad altezza e durata.
Svantaggio di questo metodo è che si perde l’informazione relativa al ritmo.
Music psychology: c’è un alta probabilità che qualche errore si presente nel frammento dell’interrogazione, di fatti anche utenti esperti possono non essere in grado di rappresentare in modo esatto la melodia del brano che stanno cercando.
L’interrogazione è distribuita su più voci:
non è sempre detto che il frammento della query rappresenti in modo esatto la melodia del brano che si sta cercando,
in punti adiacenti del brano, l’utente potrebbe ricordarsi la melodia di differenti parti, costruendo una nuova melodia.
Il concetto di similarità varia in funzione di:
memoria, che può essere a breve o lungo termine,
tipologia di utente, che va dal non esperto,al mediamente esperto e all’esperto.
Melodia: definire come una sequenza di note sia riconosciuta dall’uomo come una melodia di un brano polifonico.
String matching and melodic similarità: approccio tra i più utilizzati per risolvere il problema della similarità melodica. Una semplice formalizzazione del problema contestualizzato nell’ambito dello string matching potrebbe essere: sia f la stringa di caratteri che rappresenta il frammento melodico criterio di un’interrogazione e s la stringa di caratteri che rappresenta la partitura di un brano presente nel DB:
 f è fattore di x?
se f non appare in x, quale sottoparte di f è presente in s?
quante volte un’approssimazione di f è presente in s?
Blast algorithm: Basic Local Alignment Search Tool: uno tra i metodi più efficaci utilizzati per l’elaborazione di database biologici. Permette d’individuare in due sequenze:
zone uguali o simili,
allineamenti globali.
Il grado di similarità tra le due sequenze mostra la correlazione. Questa può essere basata su:
Identità percentuale: numero di elementi uguali nello stesso ordine presenti nelle due sequenze rispetto al numero totale di elementi,
Conservazione: quando cambiando un elemento nella sequenza in una precisa posizione, le proprietà chimiche e fisiche restano invariate.

[[categoria:appunti]]