{"id":33365,"date":"2025-09-03T04:51:40","date_gmt":"2025-09-03T02:51:40","guid":{"rendered":"https:\/\/xmau.com\/wp\/notiziole\/?p=33365"},"modified":"2025-08-24T18:14:13","modified_gmt":"2025-08-24T16:14:13","slug":"tf-idf","status":"publish","type":"post","link":"https:\/\/xmau.com\/notiziole\/2025\/09\/03\/tf-idf\/","title":{"rendered":"tf\u2013idf"},"content":{"rendered":"<p>Non avevo mai sentito parlare di <a href=\"https:\/\/it.wikipedia.org\/wiki\/Tf-idf\">questa funzione<\/a>, il cui nome completo \u00e8 &#8220;term frequency\u2013inverse document frequency&#8221;. Eppure \u00e8 una funzione del tutto naturale nel caso si voglia trovare documenti &#8220;simili&#8221; a quello di partenza in una collezione di testi. <\/p>\n<p>L&#8217;idea sottostante \u00e8 a posteriori ovvia. Se ho un documento in cui una parola appare molto spesso, altri documenti in cui questa parola compare spesso dovrebbero essere simili. Ma ci accorgiamo subito che questa euristica non funziona: connettivi come &#8220;che&#8221;, &#8220;perci\u00f2&#8221; oppure articoli e forme dei verbi ausiliari appariranno spesso in praticamente ogni documento. La funzione tf-idf relativa a una parola P tiene conto di tutto questo: \u00e8 direttamente proporzionale alla probabilit\u00e0 che P appaia nel testo, ma inversamente proporzionale alla probabilit\u00e0 che P appaia nella collezione completa di testi. In altri termini, la funzione assume un valore tanto maggiore quanto la parola \u00e8 in genere meno usata rispetto a quanto lo sia nel testo iniziale; una parola usata sempre pi\u00f9 o meno allo stesso modo ha i due fattori che si elidono a vicenda. <\/p>\n<p>In formule, abbiamo che tf-idf \u00e8 il prodotto di due funzioni: tf, la frequenza del termine nel nostro documento, e idf, l&#8217;inverso della frequenza in tutti i documenti. Pi\u00f9 precisamente, <\/p>\n<p>$$\\mathrm{tf_{i,j}} = \\frac{n_{i,j}}{|d_j|},$$<\/p>\n<p>dove $n_{i,j}$ \u00e8 il numero di occorrenze del termine $i$ nel documento $j$ e il denominatore (il numero di parole nel documento) serve per perequare i valori per i documenti di lunghezza variabile, e <\/p>\n<p>$$\\mathrm{idf_{i}} =  \\log_{10} \\frac{|D|}{|\\{d: i \\in d\\}|},$$<\/p>\n<p>dove $|D|$ \u00e8 il numero di documenti nella collezione e al denominatore c&#8217;\u00e8 il numero di documenti che contengono il termine $i$. (Per definizione ce n&#8217;\u00e8 almeno uno, altrimenti non calcoleremmo idf, e quindi il denominatore non pu\u00f2 mai essere nullo).<\/p>\n<p>Il tutto funziona? Diciamo che funzionicchia. Gi\u00e0 il concetto di idf \u00e8 pi\u00f9 euristico che altro, perch\u00e9 applica la legge di Zipf che come sappiamo non \u00e8 scolpita nel granito; e visto che a quanto pare le raccomandazioni di libri simili nelle librerie online pare basarsi anche su tf-idf direi che ci sono ampi margini di miglioramento. Secondo <a href=\"https:\/\/en.wikipedia.org\/wiki\/Tf%E2%80%93idf\">Wikipedia in inglese<\/a> la formula \u00e8 stata anche applicata in altri campi, con risultati deludenti. Per\u00f2 \u00e8 sempre meglio una cattiva formula che nessuna formula, e spesso si pu\u00f2 usare il sistema &#8220;al rovescio&#8221;, per esempio cercando di scoprire se alcune delle lettere paoline siano o no state effettivamente scritte dall&#8217;apostolo. L&#8217;idea \u00e8 che in questo modo brutale non si pu\u00f2 riconoscere lo stile ma almeno si verifica che la terminologia non sia cambiata troppo, e si ha un punteggio numerico e non una sensazione come si faceva un tempo. Insomma, \u00e8 comunque una freccia all&#8217;arco dei filologi.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Come si pu\u00f2 vedere quali sono le eventuali somiglianze di contenuto tra i documenti di una collezione?<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"activitypub_content_warning":"","activitypub_content_visibility":"","activitypub_max_image_attachments":3,"activitypub_interaction_policy_quote":"anyone","activitypub_status":"federated","footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2},"jetpack_post_was_ever_published":false},"categories":[1005,214],"tags":[],"class_list":["post-33365","post","type-post","status-publish","format-standard","hentry","category-matelight-2025","category-matematica_light"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"","jetpack_shortlink":"https:\/\/wp.me\/phh2yV-8G9","jetpack-related-posts":[{"id":2918,"url":"https:\/\/xmau.com\/notiziole\/2004\/05\/12\/obbligo_di_conservazione_siti\/","url_meta":{"origin":33365,"position":0},"title":"obbligo di conservazione siti?","author":".mau.","date":"2004-05-12","format":false,"excerpt":"Tutti si lamentano della legge 106\/2004. Per me occorre essere vigili, ma non siamo ancora al delirio. [leggi...]","rel":"","context":"In &quot;y2004_pipponi&quot;","block_context":{"text":"y2004_pipponi","link":"https:\/\/xmau.com\/notiziole\/category\/y2004_pipponi\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":9210,"url":"https:\/\/xmau.com\/notiziole\/2013\/02\/27\/docspal_-_conve\/","url_meta":{"origin":33365,"position":1},"title":"DocsPal &#8211; convertitore online di formati file","author":".mau.","date":"2013-02-27","format":false,"excerpt":"non solo formati di testo...","rel":"","context":"In &quot;link&quot;","block_context":{"text":"link","link":"https:\/\/xmau.com\/notiziole\/category\/link\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":26699,"url":"https:\/\/xmau.com\/notiziole\/2023\/06\/29\/mai-ridurre-la-burocrazia\/","url_meta":{"origin":33365,"position":2},"title":"Mai ridurre la burocrazia","author":".mau.","date":"2023-06-29","format":false,"excerpt":"perch\u00e9 non si possono dare insieme due documenti?","rel":"","context":"In &quot;pipponi&quot;","block_context":{"text":"pipponi","link":"https:\/\/xmau.com\/notiziole\/category\/pipponi\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2023\/06\/esiti.png?resize=350%2C200&ssl=1","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2023\/06\/esiti.png?resize=350%2C200&ssl=1 1x, https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2023\/06\/esiti.png?resize=525%2C300&ssl=1 1.5x, https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2023\/06\/esiti.png?resize=700%2C400&ssl=1 2x"},"classes":[]},{"id":11179,"url":"https:\/\/xmau.com\/notiziole\/2015\/03\/24\/ricerca-per-parole-specifiche-in-google\/","url_meta":{"origin":33365,"position":3},"title":"Ricerca per parole specifiche in Google","author":".mau.","date":"2015-03-24","format":false,"excerpt":"Come fare per spiegare a Google che non deve restituire anche le pagine con sinonimi di una parola data?","rel":"","context":"In &quot;IA e informatica&quot;","block_context":{"text":"IA e informatica","link":"https:\/\/xmau.com\/notiziole\/category\/ia\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":28947,"url":"https:\/\/xmau.com\/notiziole\/2024\/05\/20\/vada-a-leggere-il-sito\/","url_meta":{"origin":33365,"position":4},"title":"&#8220;vada a leggere il sito&#8221;","author":".mau.","date":"2024-05-20","format":false,"excerpt":"No, io leggo quello che viene dato a me","rel":"","context":"In &quot;io&quot;","block_context":{"text":"io","link":"https:\/\/xmau.com\/notiziole\/category\/io\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/xmau.com\/notiziole\/wp-content\/uploads\/sites\/6\/2024\/05\/poste-300x169.jpg?resize=350%2C200&ssl=1","width":350,"height":200},"classes":[]},{"id":6080,"url":"https:\/\/xmau.com\/notiziole\/2008\/05\/30\/retata_sui_mezz\/","url_meta":{"origin":33365,"position":5},"title":"Retata sui mezzi ATM: un po&#8217; controcorrente","author":".mau.","date":"2008-05-30","format":false,"excerpt":"Pensieri \"politically scorrect\" sul blitz della polizia di ieri","rel":"","context":"In &quot;pipponi&quot;","block_context":{"text":"pipponi","link":"https:\/\/xmau.com\/notiziole\/category\/pipponi\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]}],"jetpack_likes_enabled":true,"jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts\/33365","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/comments?post=33365"}],"version-history":[{"count":5,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts\/33365\/revisions"}],"predecessor-version":[{"id":33488,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/posts\/33365\/revisions\/33488"}],"wp:attachment":[{"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/media?parent=33365"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/categories?post=33365"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/xmau.com\/notiziole\/wp-json\/wp\/v2\/tags?post=33365"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}